4 pontos por GN⁺ 3 시간 전 | 2 comentários | Compartilhar no WhatsApp
  • Quanto mais poderosos os modelos de IA ficam, menor é o valor do próprio software; para sobreviver, empresas de aplicações precisam se tornar ao mesmo tempo empresas de dados e fintechs
  • À medida que agentes se tornam os principais usuários de software, o modelo de preço por assento entra em colapso; mesmo que mil pessoas operem cem mil agentes, isso não significa cem mil assentos, então só restam como base de cobrança as decisões que os agentes deixam para trás (dados) e o dinheiro que movimentam (fintech)
  • Modelos de fronteira são como um grupo de gênios que não sabe como a empresa funciona; o verdadeiro fosso está no julgamento implícito (judgment) das pessoas, e o histórico de correções (corrections) feito pelos usuários nos resultados do modelo serve tanto como sinal de treino quanto como conjunto de teste
  • Se não houver dinheiro fluindo sobre os dados, isso não passa de um projeto científico; só fintechs com rede e lock-in, como Toast, Ramp e Shopify, conseguem manter margens mesmo com a queda no preço dos modelos
  • Acumular julgamento, controlar o fluxo de dinheiro e proteger as escritas (writes) é o único caminho para continuar sendo uma empresa insubstituível, mesmo que os Labs vejam todos os tokens

Avanço dos modelos e queda do valor do software

  • Ontem foi lançado o Claude Fable 5, o primeiro modelo Mythos-class disponível ao público, liderando praticamente todos os benchmarks, com a vantagem aumentando à medida que as tarefas ficam mais longas
    • Quanto mais inteligente o modelo, menor o valor do próprio software
  • Toda empresa de aplicações financiada por venture capital agora precisa ser uma empresa de dados ou uma fintech, idealmente ambas

A mudança em quem usa o software

  • Em um texto de dois anos atrás, foi apontado que, quando agentes virassem usuários, o modelo de preço por assento quebraria — e parece que essa linha já foi cruzada
    • A Cloudflare anunciou que o tráfego de agentes ultrapassou o tráfego humano pela primeira vez
    • Há discussão online, mas a tendência de agentes se tornarem os principais clientes de todo software é clara
  • Mil funcionários operando cem mil agentes não significam cem mil assentos
  • As duas coisas cobraveis que os agentes deixam para trás são as decisões que tomam (= dados) e o dinheiro que movimentam (= fintech)

Decisões (Decisions) — dados como fosso

  • A xAI tem a opção de adquirir a Cursor por US$ 60 bilhões; a Cursor tem receita anualizada de cerca de US$ 4 bilhões
    • Esse não é o principal motivo de o software ter custado tão caro
    • Anthropic e OpenAI já observam o trabalho de desenvolvedores em tempo real por meio de Claude Code e Codex
    • A razão de a xAI querer comprar a Cursor é entrar o mais rápido possível no fluxo de tokens (token flow)
    • Musk, o primeiro quadrilionário do mundo, disse que o registro de um milhão de desenvolvedores usando modelos no mundo real entra diretamente no treino do Grok; o preço alto é o pedágio para pular anos de coleta lenta de dados
  • Semanas após o lançamento da Cursor, já apareceram clones funcionais, mas nenhum se estabeleceu, porque a disputa era por taste
    • Milhares de pequenos julgamentos sobre o que mostrar e quando desaparecer
    • Clones copiam apenas a interface; não conseguem herdar anos de registros do que desenvolvedores aceitaram, rejeitaram ou reescreveram
    • A Cursor agora treina seus próprios modelos com esse diff, e os dados viram seu fosso principal
  • O motivo da avaliação de US$ 60 bilhões: é como substituir 90% dos funcionários por uma equipe de gênios que não faz ideia de como a empresa realmente opera
    • O Fable 5 resolve 80% de tarefas reais de software que, no ano passado, o melhor modelo mal conseguia resolver pela metade; gênios ficam difíceis de distinguir entre si e são intercambiáveis
    • Há apenas um motivo para eles falharem: ninguém sabe o que as pessoas substituídas sabiam

Conhecimento tácito e acúmulo de julgamento

  • A gambiarra temporária é tirar o conhecimento da cabeça das pessoas e passar ao modelo como contexto, mas a maior parte disso não existe em forma estruturada
    • A negociação abandonada, a linha de código revertida às 2 da manhã, o cliente que ninguém perseguiu e cujo motivo nunca foi escrito — isso é o que realmente importa
    • É um julgamento que não cabe em um workflow e hoje não está sendo armazenado
  • Agora o movimento é de context → harness → judgment
    • Context é retrieval, colocar os pedaços certos diante do modelo
    • Harness é o loop (scaffolding) em que o modelo pode operar
    • Judgment é a última camada e a única que se acumula com juros compostos: tudo o que ficou nos dados após cada chamada, correção e reversão
  • Hoje, todo pitch de aplicação de IA traz um slide de contexto como se fosse fosso, mas isso já virou table stakes
    • Porque todos os concorrentes estão montando contexto do mesmo jeito

Os dois papéis do histórico de correções

  • Correções podem ser vistas como um scorecard: cada vez que o usuário corrige a saída do modelo, fica registrado o que é certo naquele negócio
  • Esse scorecard faz duas coisas ao mesmo tempo
    • Um sinal de treino para ajustar modelos emprestados àquele negócio
    • Um conjunto de teste, o único jeito de saber se o agente realmente está melhorando, já que benchmarks públicos não medem workflows específicos
  • Não é preciso pré-treinar um modelo do zero, e a própria Cursor não faz isso
    • O modelo próprio da Cursor roda sobre uma base open source, e o diff é o que diferencia
    • O custo de fine-tuning e RL sobre modelos de fronteira caiu o suficiente para que uma empresa Series B também consiga executar esse loop; dois anos atrás, era preciso um lab
  • Sarah Guo chama essa área de the untrainable — tarefas em que ninguém de fora consegue avaliar a resposta correta — e as correções são a forma de tomar posse disso

Casos de líderes de IA vertical

  • A Harvey chegou a US$ 11 bilhões e a Legora passou de US$ 5 bilhões, ambas voltadas ao mercado jurídico
    • As duas estão correndo para possuir o caso (matter) inteiro, não apenas uma ferramenta isolada, porque as correções que advogados fazem nos rascunhos são corrections que ninguém mais vê
  • A Rogo segue a mesma estratégia em finanças, capturando o processo em que analistas montam modelos e corrigem memorandos
  • Nenhuma delas treina modelo fundacional; elas constroem um harness em torno de modelos emprestados e ficam com o judgment que flui por dentro, e é isso que se acumula com o tempo
  • O mesmo vale para líderes já estabelecidos
    • A Figma possui mais do que SVG: tem o histórico do design indo da v1 à v47 e todas as versões descartadas no meio — um registro avaliado de taste de design
    • A Linear tem as discussões sob cada ticket encerrado
    • A Notion tem a forma do pensamento de uma equipe ao longo de mil edições
    • Mesmo que um concorrente tente levar o cliente embora, nada disso pode ser exportado; são respostas que não existem em modelos genéricos

O movimento dos Labs para comprar julgamento

  • Os Labs estão comprando julgamento pronto, começando por dados rotulados por humanos
    • A Mercor vale US$ 10 bilhões e paga US$ 85 por hora a redes de especialistas
    • A Meta pagou US$ 14 bilhões à Scale para controlar esse pipeline
    • Uma startup em Nova York limpa apartamentos de graça se puder filmar o processo inteiro, porque equipes de robótica precisam ver como humanos decidem a próxima ação
    • Várias empresas de ambientes de RL vendem julgamento para tarefas longas e já alcançaram centenas de milhões de dólares em receita anualizada
  • Os Labs esgotaram o aprendizado sobre a internet inteira e agora estão comprando decisões diretamente

Dinheiro (Dollars) — fintech como fosso

  • A 23andMe tinha o DNA de 15 milhões de pessoas e, ainda assim, faliu no ano passado
    • Se não há dinheiro fluindo sobre os dados, isso é só um projeto científico à espera de financiamento
    • A maioria dos fundadores está deixando essa metade passar
  • A Toast percebeu isso anos atrás: um restaurante é, em essência, um processador de pagamentos com uma cozinha acoplada
    • Pagamentos geram muito mais receita do que software
  • A Ramp foi além: oferece cartão corporativo gratuito e sem tarifas em lugar nenhum, ficando com 1 a 2 centavos de cada dólar quando bilhões passam pelo sistema
    • Uma empresa de US$ 32 bilhões construída sobre erro de arredondamento; o cartão gratuito é a porta da frente para o interchange
    • A taxa de swipe se mantém porque a rede sustenta isso, e o dinheiro também gera receita enquanto fica parado na forma de float
  • Nem todo medidor de dinheiro tem fosso
    • Um app popular de vibe-coding tem cerca de 50% de margem sobre os créditos que vende; a maior parte da receita anualizada é markup sobre inferência
    • Não há rede por trás do markup de tokens, e o próprio custo de inferência cai a cada trimestre, então as margens derretem conforme os modelos ficam mais baratos
    • Fintech sustentável é a que vem com lock-in embutido — pagamentos sustentados por rede e crédito garantido por dados que bancos não enxergam

Infraestrutura de pagamento para agentes

  • A infraestrutura de pagamento para agentes finalmente começou a operar
    • Quando agentes reservam passagens aéreas, encomendam peças e pagam fornecedores, algo precisa aprovar, transportar e cobrar uma taxa sobre esses pagamentos
    • A Stripe lançou um protocolo para isso, e Visa e Mastercard disputam a definição do padrão
    • A OpenAI já fica com alguns por cento de tudo o que seus agentes compram
    • As transações de 1 trilhão de agentes logo formarão a maior economia de pagamentos da história

Transformar uma coisa na outra

  • As melhores empresas de aplicações duradouras não tratam essas duas metades separadamente
    • Judgment é o registro de decisões sobre trabalho; fintech é o registro de decisões sobre dinheiro; empresas fortes transformam uma coisa na outra
  • A Shopify é o melhor exemplo
    • Começou com software de lojas → acoplou pagamentos → com o Shopify Capital, passou a oferecer crédito garantido pelos dados de receita que fluem pela loja, algo que bancos sozinhos não conseguiriam fazer
    • Quando o lojista cresce, a receita aumenta e os dados ajudam no próximo crédito
    • Hoje, cerca de três quartos da receita da Shopify vêm do lado do dinheiro, não de assinaturas de software
    • A Stripe faz esse mesmo loop com o Radar, e a Ramp com dados de gastos e cartões
  • A Rippling tenta algo parecido; o objeto central é o funcionário
    • Folha, benefícios, dispositivos e cartões dependem de uma única source of truth
    • Ninguém conseguiu estabelecer lock-in ainda, e Gusto e Deel continuam crescendo lado a lado, mas a empresa que possuir esse objeto acumulará vantagem enquanto o resto seguirá montando tudo manualmente

Proteja as escritas (Guard the writes)

  • Existe uma tensão “headless” que ninguém resolveu
    • Se todo software passar a ser usado por agentes, você precisa deixá-los entrar para continuar útil, mas não pode deixá-los levar tudo para sobreviver
    • Todo system of record precisa ser aberto o suficiente para que agentes se conectem por qualquer protocolo, mas fechado o suficiente para que ninguém consiga sair depois de obter o que precisa
    • A Salesforce foi a primeira a fazer isso publicamente neste ano, bloqueando dados do Slack para a Glean e para agentes externos
  • O caminho para construir uma empresa sustentável é separar
    • Permita que agentes leiam; leitura é barata e, de qualquer forma, importante
    • Proteja as escritas
  • O ponto onde novos julgamentos entram e humanos e agentes aprovam, corrigem e revertem uns aos outros é a parte que concorrentes não conseguem migrar facilmente
    • O que eles raspam é o estado de ontem; só as decisões tomadas agora continuam sendo suas

“E se a Anthropic construir isso?”

  • Dá para argumentar que, como os Labs já estão dentro do fluxo de tokens, não existe fosso algum
    • O Claude Code vê todos os comandos executados por desenvolvedores e as sugestões ignoradas; o ChatGPT observa em um dia mais decisões do que muitos produtos registram em um ano
  • A resposta ao contra-argumento é que o que essas ferramentas veem é, em grande parte, genérico
    • O mesmo coding e writing que todos os modelos veem, justamente o que os Labs estão tentando commoditizar uns para os outros
    • O julgamento raro está enterrado no fundo de uma empresa — a forma como um hospital lê exames, o negócio do qual uma empresa aprendeu a desistir — e nada disso chega ao chatbox de um lab
  • Os Labs vêm dizendo há anos às empresas que não treinam com os dados delas
    • O conhecimento tácito que passa por modelos dentro do produto continua sendo da empresa por contrato; eles veem o trace passar, mas concordam em não armazená-lo
  • A metade fintech também não é algo que os Labs necessariamente querem
    • Os Labs pegam os dados com prazer, mas um loan book, perdas por fraude e licenças de transmissor de dinheiro em 40 estados não têm utilidade para eles
    • Para um comprador, os dados tornam a aquisição valiosa; a fintech torna o negócio difícil de arrancar
  • A Cursor construiu o melhor motor de dados da categoria e um lab a comprou por US$ 60 bilhões
    • Ainda não dá para saber se isso é sonho ou aviso até ser tarde demais para mudar
    • Construa as duas coisas que sobrevivem — acumular julgamento e sentar no caminho do dinheiro; é assim que se suporta a pergunta “E se a Anthropic construir isso?”

2 comentários

 
heim2 17 분 전

Parece algo plausível, mas é difícil de entender.

 
somang04 2 시간 전

O acúmulo de julgamento, o controle do fluxo de dinheiro e a defesa das escritas (writes) são o único caminho para continuar sendo uma empresa insubstituível mesmo que o laboratório (lab) veja todos os tokens -> o significado disso está ambíguo; seria possível explicar um pouco mais?