Decisões e dinheiro: como uma empresa sobrevive à pergunta “E se a Anthropic construir isso?”

(writing.nikunjk.com)

4 pontos por GN⁺ 3 시간 전 | 2 comentários | Compartilhar no WhatsApp

Quanto mais poderosos os modelos de IA ficam, menor é o valor do próprio software; para sobreviver, empresas de aplicações precisam se tornar ao mesmo tempo empresas de dados e fintechs
À medida que agentes se tornam os principais usuários de software, o modelo de preço por assento entra em colapso; mesmo que mil pessoas operem cem mil agentes, isso não significa cem mil assentos, então só restam como base de cobrança as decisões que os agentes deixam para trás (dados) e o dinheiro que movimentam (fintech)
Modelos de fronteira são como um grupo de gênios que não sabe como a empresa funciona; o verdadeiro fosso está no julgamento implícito (judgment) das pessoas, e o histórico de correções (corrections) feito pelos usuários nos resultados do modelo serve tanto como sinal de treino quanto como conjunto de teste
Se não houver dinheiro fluindo sobre os dados, isso não passa de um projeto científico; só fintechs com rede e lock-in, como Toast, Ramp e Shopify, conseguem manter margens mesmo com a queda no preço dos modelos
Acumular julgamento, controlar o fluxo de dinheiro e proteger as escritas (writes) é o único caminho para continuar sendo uma empresa insubstituível, mesmo que os Labs vejam todos os tokens

Avanço dos modelos e queda do valor do software

Ontem foi lançado o Claude Fable 5, o primeiro modelo Mythos-class disponível ao público, liderando praticamente todos os benchmarks, com a vantagem aumentando à medida que as tarefas ficam mais longas
- Quanto mais inteligente o modelo, menor o valor do próprio software
Toda empresa de aplicações financiada por venture capital agora precisa ser uma empresa de dados ou uma fintech, idealmente ambas

A mudança em quem usa o software

Em um texto de dois anos atrás, foi apontado que, quando agentes virassem usuários, o modelo de preço por assento quebraria — e parece que essa linha já foi cruzada
- A Cloudflare anunciou que o tráfego de agentes ultrapassou o tráfego humano pela primeira vez
- Há discussão online, mas a tendência de agentes se tornarem os principais clientes de todo software é clara
Mil funcionários operando cem mil agentes não significam cem mil assentos
As duas coisas cobraveis que os agentes deixam para trás são as decisões que tomam (= dados) e o dinheiro que movimentam (= fintech)

Decisões (Decisions) — dados como fosso

A xAI tem a opção de adquirir a Cursor por US$ 60 bilhões; a Cursor tem receita anualizada de cerca de US$ 4 bilhões
- Esse não é o principal motivo de o software ter custado tão caro
- Anthropic e OpenAI já observam o trabalho de desenvolvedores em tempo real por meio de Claude Code e Codex
- A razão de a xAI querer comprar a Cursor é entrar o mais rápido possível no fluxo de tokens (token flow)
- Musk, o primeiro quadrilionário do mundo, disse que o registro de um milhão de desenvolvedores usando modelos no mundo real entra diretamente no treino do Grok; o preço alto é o pedágio para pular anos de coleta lenta de dados
Semanas após o lançamento da Cursor, já apareceram clones funcionais, mas nenhum se estabeleceu, porque a disputa era por taste
- Milhares de pequenos julgamentos sobre o que mostrar e quando desaparecer
- Clones copiam apenas a interface; não conseguem herdar anos de registros do que desenvolvedores aceitaram, rejeitaram ou reescreveram
- A Cursor agora treina seus próprios modelos com esse diff, e os dados viram seu fosso principal
O motivo da avaliação de US$ 60 bilhões: é como substituir 90% dos funcionários por uma equipe de gênios que não faz ideia de como a empresa realmente opera
- O Fable 5 resolve 80% de tarefas reais de software que, no ano passado, o melhor modelo mal conseguia resolver pela metade; gênios ficam difíceis de distinguir entre si e são intercambiáveis
- Há apenas um motivo para eles falharem: ninguém sabe o que as pessoas substituídas sabiam

Conhecimento tácito e acúmulo de julgamento

A gambiarra temporária é tirar o conhecimento da cabeça das pessoas e passar ao modelo como contexto, mas a maior parte disso não existe em forma estruturada
- A negociação abandonada, a linha de código revertida às 2 da manhã, o cliente que ninguém perseguiu e cujo motivo nunca foi escrito — isso é o que realmente importa
- É um julgamento que não cabe em um workflow e hoje não está sendo armazenado
Agora o movimento é de context → harness → judgment
- Context é retrieval, colocar os pedaços certos diante do modelo
- Harness é o loop (scaffolding) em que o modelo pode operar
- Judgment é a última camada e a única que se acumula com juros compostos: tudo o que ficou nos dados após cada chamada, correção e reversão
Hoje, todo pitch de aplicação de IA traz um slide de contexto como se fosse fosso, mas isso já virou table stakes
- Porque todos os concorrentes estão montando contexto do mesmo jeito

Os dois papéis do histórico de correções

Correções podem ser vistas como um scorecard: cada vez que o usuário corrige a saída do modelo, fica registrado o que é certo naquele negócio
Esse scorecard faz duas coisas ao mesmo tempo
- Um sinal de treino para ajustar modelos emprestados àquele negócio
- Um conjunto de teste, o único jeito de saber se o agente realmente está melhorando, já que benchmarks públicos não medem workflows específicos
Não é preciso pré-treinar um modelo do zero, e a própria Cursor não faz isso
- O modelo próprio da Cursor roda sobre uma base open source, e o diff é o que diferencia
- O custo de fine-tuning e RL sobre modelos de fronteira caiu o suficiente para que uma empresa Series B também consiga executar esse loop; dois anos atrás, era preciso um lab
Sarah Guo chama essa área de the untrainable — tarefas em que ninguém de fora consegue avaliar a resposta correta — e as correções são a forma de tomar posse disso

Casos de líderes de IA vertical

A Harvey chegou a US$ 11 bilhões e a Legora passou de US$ 5 bilhões, ambas voltadas ao mercado jurídico
- As duas estão correndo para possuir o caso (matter) inteiro, não apenas uma ferramenta isolada, porque as correções que advogados fazem nos rascunhos são corrections que ninguém mais vê
A Rogo segue a mesma estratégia em finanças, capturando o processo em que analistas montam modelos e corrigem memorandos
Nenhuma delas treina modelo fundacional; elas constroem um harness em torno de modelos emprestados e ficam com o judgment que flui por dentro, e é isso que se acumula com o tempo
O mesmo vale para líderes já estabelecidos
- A Figma possui mais do que SVG: tem o histórico do design indo da v1 à v47 e todas as versões descartadas no meio — um registro avaliado de taste de design
- A Linear tem as discussões sob cada ticket encerrado
- A Notion tem a forma do pensamento de uma equipe ao longo de mil edições
- Mesmo que um concorrente tente levar o cliente embora, nada disso pode ser exportado; são respostas que não existem em modelos genéricos

O movimento dos Labs para comprar julgamento

Os Labs estão comprando julgamento pronto, começando por dados rotulados por humanos
- A Mercor vale US$ 10 bilhões e paga US$ 85 por hora a redes de especialistas
- A Meta pagou US$ 14 bilhões à Scale para controlar esse pipeline
- Uma startup em Nova York limpa apartamentos de graça se puder filmar o processo inteiro, porque equipes de robótica precisam ver como humanos decidem a próxima ação
- Várias empresas de ambientes de RL vendem julgamento para tarefas longas e já alcançaram centenas de milhões de dólares em receita anualizada
Os Labs esgotaram o aprendizado sobre a internet inteira e agora estão comprando decisões diretamente

Dinheiro (Dollars) — fintech como fosso

A 23andMe tinha o DNA de 15 milhões de pessoas e, ainda assim, faliu no ano passado
- Se não há dinheiro fluindo sobre os dados, isso é só um projeto científico à espera de financiamento
- A maioria dos fundadores está deixando essa metade passar
A Toast percebeu isso anos atrás: um restaurante é, em essência, um processador de pagamentos com uma cozinha acoplada
- Pagamentos geram muito mais receita do que software
A Ramp foi além: oferece cartão corporativo gratuito e sem tarifas em lugar nenhum, ficando com 1 a 2 centavos de cada dólar quando bilhões passam pelo sistema
- Uma empresa de US$ 32 bilhões construída sobre erro de arredondamento; o cartão gratuito é a porta da frente para o interchange
- A taxa de swipe se mantém porque a rede sustenta isso, e o dinheiro também gera receita enquanto fica parado na forma de float
Nem todo medidor de dinheiro tem fosso
- Um app popular de vibe-coding tem cerca de 50% de margem sobre os créditos que vende; a maior parte da receita anualizada é markup sobre inferência
- Não há rede por trás do markup de tokens, e o próprio custo de inferência cai a cada trimestre, então as margens derretem conforme os modelos ficam mais baratos
- Fintech sustentável é a que vem com lock-in embutido — pagamentos sustentados por rede e crédito garantido por dados que bancos não enxergam

Infraestrutura de pagamento para agentes

A infraestrutura de pagamento para agentes finalmente começou a operar
- Quando agentes reservam passagens aéreas, encomendam peças e pagam fornecedores, algo precisa aprovar, transportar e cobrar uma taxa sobre esses pagamentos
- A Stripe lançou um protocolo para isso, e Visa e Mastercard disputam a definição do padrão
- A OpenAI já fica com alguns por cento de tudo o que seus agentes compram
- As transações de 1 trilhão de agentes logo formarão a maior economia de pagamentos da história

Transformar uma coisa na outra

As melhores empresas de aplicações duradouras não tratam essas duas metades separadamente
- Judgment é o registro de decisões sobre trabalho; fintech é o registro de decisões sobre dinheiro; empresas fortes transformam uma coisa na outra
A Shopify é o melhor exemplo
- Começou com software de lojas → acoplou pagamentos → com o Shopify Capital, passou a oferecer crédito garantido pelos dados de receita que fluem pela loja, algo que bancos sozinhos não conseguiriam fazer
- Quando o lojista cresce, a receita aumenta e os dados ajudam no próximo crédito
- Hoje, cerca de três quartos da receita da Shopify vêm do lado do dinheiro, não de assinaturas de software
- A Stripe faz esse mesmo loop com o Radar, e a Ramp com dados de gastos e cartões
A Rippling tenta algo parecido; o objeto central é o funcionário
- Folha, benefícios, dispositivos e cartões dependem de uma única source of truth
- Ninguém conseguiu estabelecer lock-in ainda, e Gusto e Deel continuam crescendo lado a lado, mas a empresa que possuir esse objeto acumulará vantagem enquanto o resto seguirá montando tudo manualmente

Proteja as escritas (Guard the writes)

Existe uma tensão “headless” que ninguém resolveu
- Se todo software passar a ser usado por agentes, você precisa deixá-los entrar para continuar útil, mas não pode deixá-los levar tudo para sobreviver
- Todo system of record precisa ser aberto o suficiente para que agentes se conectem por qualquer protocolo, mas fechado o suficiente para que ninguém consiga sair depois de obter o que precisa
- A Salesforce foi a primeira a fazer isso publicamente neste ano, bloqueando dados do Slack para a Glean e para agentes externos
O caminho para construir uma empresa sustentável é separar
- Permita que agentes leiam; leitura é barata e, de qualquer forma, importante
- Proteja as escritas
O ponto onde novos julgamentos entram e humanos e agentes aprovam, corrigem e revertem uns aos outros é a parte que concorrentes não conseguem migrar facilmente
- O que eles raspam é o estado de ontem; só as decisões tomadas agora continuam sendo suas

“E se a Anthropic construir isso?”

Dá para argumentar que, como os Labs já estão dentro do fluxo de tokens, não existe fosso algum
- O Claude Code vê todos os comandos executados por desenvolvedores e as sugestões ignoradas; o ChatGPT observa em um dia mais decisões do que muitos produtos registram em um ano
A resposta ao contra-argumento é que o que essas ferramentas veem é, em grande parte, genérico
- O mesmo coding e writing que todos os modelos veem, justamente o que os Labs estão tentando commoditizar uns para os outros
- O julgamento raro está enterrado no fundo de uma empresa — a forma como um hospital lê exames, o negócio do qual uma empresa aprendeu a desistir — e nada disso chega ao chatbox de um lab
Os Labs vêm dizendo há anos às empresas que não treinam com os dados delas
- O conhecimento tácito que passa por modelos dentro do produto continua sendo da empresa por contrato; eles veem o trace passar, mas concordam em não armazená-lo
A metade fintech também não é algo que os Labs necessariamente querem
- Os Labs pegam os dados com prazer, mas um loan book, perdas por fraude e licenças de transmissor de dinheiro em 40 estados não têm utilidade para eles
- Para um comprador, os dados tornam a aquisição valiosa; a fintech torna o negócio difícil de arrancar
A Cursor construiu o melhor motor de dados da categoria e um lab a comprou por US$ 60 bilhões
- Ainda não dá para saber se isso é sonho ou aviso até ser tarde demais para mudar
- Construa as duas coisas que sobrevivem — acumular julgamento e sentar no caminho do dinheiro; é assim que se suporta a pergunta “E se a Anthropic construir isso?”

2 comentários

heim2 17 분 전

Parece algo plausível, mas é difícil de entender.

somang04 2 시간 전

O acúmulo de julgamento, o controle do fluxo de dinheiro e a defesa das escritas (writes) são o único caminho para continuar sendo uma empresa insubstituível mesmo que o laboratório (lab) veja todos os tokens -> o significado disso está ambíguo; seria possível explicar um pouco mais?