O que não pode ser treinado
(saranormous.substack.com)- Em meados de 2026, espalha-se entre investidores um pessimismo quase de “psicose de IA”, centrado na lógica de que, se os modelos ficarem melhores em tudo, todas as empresas construídas sobre eles serão apenas wrappers finos destinados à absorção
- Devin, o primeiro AI SWE, resolvia apenas 13% das tarefas de benchmark padrão em 2024, mas em um ano e meio os melhores agentes chegaram ao fim dos 80%, então os modelos estão rapidamente tomando primeiro as áreas mensuráveis
- O que é mensurável vira alvo de treinamento e cai na condição de commodity, mas respostas privadas e caras de verificar não podem ser lidas em leaderboards
- O valor real está em áreas que o modelo não alcança, como license, liability e atribuição de responsabilidade; o gargalo não é inteligência, e sim permission e accountability
- Quanto mais barata a inteligência fica, mais o valor migra para os poucos lugares a que os modelos não conseguem chegar; a “área não treinável (untrainable)” é o moat final
O pessimismo dos investidores e sua lógica
- Em meados de 2026, o pessimismo dos investidores parte da percepção de que não há mais em que investir, com a sensação de que basta colocar dinheiro em Anthropic e Nvidia e sair de cena
- Se os modelos ficarem melhores em tudo, toda empresa construída em cima deles será um thin wrapper esperando para ser absorvido, e o único valor sobrevivente estará em compute e frontier weights
- O exemplo em que essa lógica mais se apoia é o software
A verdadeira lição que o software mostra
- Quando foi lançado em 2024, Devin resolveu apenas 13% das tarefas de benchmark padrão de software e foi em grande parte ignorado; um ano e meio depois, os melhores agentes chegaram ao fim dos 80% e já executam trabalho real dentro de Goldman Sachs e U.S. Army
- Quase todo mundo tirou a lição errada de que “os modelos engoliram a engenharia de software”, mas engenharia sempre resistiu à medição, e a parte mais mensurável não é a única parte importante
- Mert Demirer, do MIT, e coautores quantificaram isso com mais de 100 mil desenvolvedores: os coding agents mais recentes aumentam em cerca de 180% o volume de código escrito e em cerca de 30% o volume realmente implantado
- Escrever código ficou barato, mas o restante ainda passa por humanos, e essa parte é a importante
O que é mensurável vira alvo de treinamento
- Benchmark mede o que é mensurável, e o que é mensurável pode ser atacado por treinamento; por isso os coding agents amadureceram primeiro
- Compiler e test suite funcionam como verificadores gratuitos, já que a resposta consegue se checar sozinha e pode ser iterada até passar
- Mas passar no teste não diz se aquela mudança é a escolha certa para uma codebase com 10 anos de idade
- Três razões não documentadas para um módulo existir, ou um pipeline de deploy mantido por um cron job que ninguém admite ter escrito, não podem ser lidos em leaderboard
- A correção de sistemas complexos só se revela depois de rodar tempo suficiente no mundo real, e um modelo mais inteligente não faz o mundo rodar mais rápido
- Noam Brown, pioneiro dos modelos de raciocínio da OpenAI, comentou que talvez a única forma realmente confiável de avaliar um agente em horizonte de um ano seja deixá-lo rodar por um ano
Coisas que só avançam na velocidade da organização
- Segundo Gabe Pereyra, automação de verdade exige não só melhora do modelo, mas que product, model, workflow e firm se movam juntos, e três desses quatro elementos andam na velocidade da organização
- A parte que benchmarks não alcançam é mover pessoas: mudar a forma de trabalho de um parceiro cético ou manter o time unido durante uma reconstrução
- Ao contratar um CEO, dá-se tanto peso à capacidade de lidar com pessoas quanto à capacidade analítica, e um modelo mais inteligente não muda esse peso
- Todas as empresas entregaram modelos frontier de coding para todos os engenheiros, mas nenhuma mudou sua eng org nessa mesma velocidade
- A adoção veio em um trimestre; a reconstrução leva anos
O trabalho legível está indo embora
- Tudo o que pode entrar em um leaderboard logo pode ser atacado por treinamento; por isso, todo trabalho mensurável já caminha para virar commodity, e essa direção não vai se inverter
- Na analogia de Matt MacInnis, da Rippling, um token que responde a uma pergunta genérica vale quase nada, porque qualquer modelo pode responder; já um token que raciocina sobre dados da empresa vale muito mais
- O trabalho legível está sendo pressionado dos dois lados
- Por baixo, as tarefas saturam e o comprador deixa de perguntar “qual modelo é?” para perguntar “quanto custa?”, caindo no open/distilled model mais barato daquela semana
- Por cima, os labs avançam uma absorption frontier em que retrieval, routing, tool use e reasoning policy — o scaffolding que envolvia o modelo — são puxados para dentro dos weights
- A pressão de margem também opera no sentido inverso: um agente geral precisa se preparar para qualquer coisa e por isso é caro, mas aplicações focadas podem ser ajustadas para rodar um único workflow por uma fração do custo em tokens e capturar diretamente essa diferença
O 2x2 e a “área não treinável”
- É possível fazer duas perguntas sobre qualquer trabalho: a precisão é privada e cara de estabelecer? E ela está presa dentro de sistemas aos quais não se pode entrar?
- Cruzando isso com saturação de tarefa, forma-se uma estrutura 2x2
- saturado + resposta pública = token commodity, dominado por open model
- frontier + resposta pública (onde fica benchmark de coding) = o lab vence; se a avaliação é grátis, possuir a aplicação não importa
- o último quadrante = trabalho de fronteira em que a correção só existe privadamente, e isso é untrainable
- Isso pode ser observado no fato de que empresas líderes AI-native na inference cloud geram a esmagadora maioria de seus tokens não com modelos open genéricos, mas com custom model
- A altura do muro para entrar nesse último quadrante varia
- A toy codebase de um desenvolvedor individual é portátil e padronizada, então a entrada é curta
- O sistema de produção de um banco não é nenhuma dessas coisas, e ficar 2% mais inteligente no SWE-Bench Verified não dá root access a ninguém
O gargalo não é inteligência, mas permissão e responsabilidade
- Mesmo modelos melhores não conseguem tornar private ground truth algo público, nem possuir uma license, assinar uma liability, ser dono dos arquivos de uma empresa ou virar a parte processada quando a resposta estiver errada
- O gargalo não é inteligência, e sim permission e accountability
- Essa porta tem lock e deadbolt
- O lock é o ambiente: só depois de ganhar confiança por meio de revisão de segurança, integração e contratos que colocam um nome no resultado é que se pode verificar a utilidade da IA dentro do sistema
- O deadbolt é o usuário: o hábito de muitos médicos nos EUA abrirem o OpenEvidence todos os dias não pode ser comprado com compute algum
- Mesmo que se treine amanhã um modelo médico perfeito, não há caminho direto para entrar no hábito do médico ou no fluxo de decisão da UCSF; confiança se acumula lentamente sobre relacionamento e consentimento do usuário
A própria natureza desse trabalho
- O caminho para uma aplicação conquistar lugar no quadrante untrainable não é glamouroso: é o trabalho de arranjar (arrange) a realidade privada da empresa para que o modelo possa lidar com ela, dar a ele ferramentas para agir e mudar, junto com o cliente, a realidade da força de trabalho
- A empresa que faz essa tradução é difícil de copiar, e essa tradução não termina
- Integração e manutenção continuam enquanto a relação durar, e vence o time que mantém engenheiros e ferramentas especializados no domínio ao lado do cliente
-
Exemplo: M&A em um grande escritório de advocacia
- Em um escritório white-shoe de elite, só uma área de M&A processa cerca de 1.000 deals por ano, e não dá para centenas de associates baixarem cada client file para o desktop e passarem tudo por um agente genérico
- Há vários motivos, incluindo confidencialidade, e mesmo que fosse possível, o que se obteria seriam apenas fragmentos de revisões individuais, sem visibilidade do fluxo completo do deal
- O sinal relevante existe no nível do deal; e deal tem forma
- M&A envolve NDA, term sheet, diligence, purchase agreement, ancillaries, closing checklist
- IP litigation envolve motion, discovery, prior art, mais motion
- Cada practice area é própria, e nem advogados nem ferramentas são intercambiáveis entre si
- O problema real que o escritório resolve está um nível acima: operar todas as practice areas em paralelo, enquanto partners de topo tocam centenas de casos ao mesmo tempo, trazem novos e treinam associates
- Transformar um escritório assim não é uma única tarefa usável como eval; exige um operator para conduzir cuidadosamente objetivos intermediários extremamente ambíguos, feedback incompleto, horizonte muito longo e um ambiente que nunca para
- Em um escritório white-shoe de elite, só uma área de M&A processa cerca de 1.000 deals por ano, e não dá para centenas de associates baixarem cada client file para o desktop e passarem tudo por um agente genérico
Valor difícil de ler também é difícil de vender
- De fora, nem a própria empresa sabe se a IA vai mudar sua operação; por isso, os negócios mais fortes deixam de tentar provar isso externamente e entram para dentro, precificando outcome
- A Sierra cobra quando o agente resolve o problema do cliente e não cobra quando ele repassa para um humano; o preço vira a própria avaliação, e isso funciona porque a Sierra possui a definição de resolved
- O Devin da Cognition faz o mesmo no software ao oferecer performance guarantee, algo possível apenas sobre resultados dentro de sistemas confiáveis
Nem o serving de tokens é commodity pura
- Até o serving de tokens, muitas vezes tratado como commodity pura, não se comporta assim; as melhores empresas AI-native concentram serving em um ou dois fornecedores (Baseten ou Fireworks)
- O custo por token commoditiza como previsto, mas confiabilidade sob tráfego real e acesso garantido a compute escasso não
- Onde servir é uma escolha diferente de qual modelo usar, e o que se comporta como commodity em inference é apenas o price
A objeção de que o lab é o fornecedor
- Uma objeção comum é que, como o lab é o fornecedor, ele pode operar seu próprio produto abaixo do custo para matar concorrentes ou cancelar acesso à API e tomar o mercado diretamente; essa é a versão mais séria do pessimismo
- Essa lógica só vale se a camada de modelos for um jogo de jogador único, e claramente não é
- Está mais para um “deathmatch de 3,5 players”, com participantes internacionais atrasados seis meses entrando na disputa, e a liga de desenvolvimento está 5x maior do que no ano passado
- Os clientes querem competição entre fornecedores, e os labs querem mais market share do que eliminar uma aplicação específica
- Isso já pode ser observado em mercados em que os labs concorrem diretamente entre si: no consumer chat, o melhor modelo nunca simplesmente venceu
- O ChatGPT manteve a liderança por anos em competição real; a fatia que perde agora está indo para o Gemini, impulsionado por Android e Search, não por um modelo melhor
- A Anthropic, que prediction markets e o clima da internet tratam como dona do melhor modelo, quase não pesa em consumer chat e construiu seu negócio em enterprise e coding
- Se mesmo na aplicação mais central um modelo melhor não consegue roubar usuários do concorrente, então também não vai atravessar integração para tomar prontuários hospitalares ou responsabilidade bancária
O direito de definir o que é uma boa resposta
- Se não dá para corrigir de fora, alguém de dentro precisa decidir o que é uma boa resposta, e essa decisão é o jogo inteiro
- Quando decisões assim se acumulam e são registradas o suficiente, elas viram benchmark; Harvey publicou um para o jurídico, e Sierra para voice agent
- O direito de definir o que é good em um campo vem de se tornar o agente que aquele campo já usa, e esse direito é conquistado na luta da adoção real
- As avaliações que realmente separam dinheiro são privadas e específicas de cada firm: o que esta empresa aceita como bom trabalho neste tipo de caso. A profundidade do direito supera qualquer teste público e por isso isso nunca se encerra
- Isso não é medição, mas julgamento sobre o que é verdadeiro e o que é bom, que fica registrado e vira padrão, algo que um foundation lab não pode escrever por mais inteligente que seja
- Esse status só existe dentro do campo; a autoridade se instala onde ela sempre pertenceu
- Benchmark jurídico é definido por advogados seniores, a definição de resposta clínica segura por médicos, e o significado de resolved por empresas que já possuem o cliente
Uma defesa que precisa ser continuamente re-underwritten
- À medida que mais trabalho se torna mensurável, a absorption frontier continua subindo, e o que passa a poder ser medido é devorado
- O terreno untrainable encolhe sob os pés de quem está em cima dele, então não dá para descansar em uma posição segura; é preciso continuar avançando para zonas ainda não corrigíveis e re-underwrite continuamente
- Quando se treina até a frontier em uma tarefa estreita com dados privados e eval próprio, vence-se o modelo geral naquele ponto, e esse modelo especializado vira parte do moat
- Em contraste, competir em modelo geral é uma capital war perdida para quem tem mais compute; é a armadilha de empresas com acesso raso e tarefas fáceis de ler
- No dia em que se decide sobreviver tentando treinar para superar a frontier no domínio geral, o vencedor passa a ser definido pela escala do datacenter, e o desfecho não é um campeão independente, mas uma venda para o lado com mais compute
O ataque mais difícil: o que construir
- Tudo isso até aqui é defesa; mais difícil é o ataque de escolher o que construir em primeiro lugar, algo que se descobre talvez três vezes por ano
- Os modelos não ajudam aqui: fazem o que você apontar, mas não dizem para o que vale a pena apontar, e como isso não pode ser benchmarkado, também não pode ser treinado
- É por isso que os incumbentes não levam tudo: a próxima coisa vem de alguém que encontra um uso antes dos outros
- Talvez intent seja um insumo mais escasso do que compute
Conclusão: valor com história
- O pessimismo está meio certo: a camada de thin wrappers está de fato sendo absorvida, e muita coisa que hoje parece empresa é mesmo só um thin wrapper
- O erro está no que isso deixa para trás: o mecanismo de absorção é claro, mas o destino final é incerto
- A inteligência continuará ficando mais barata, e o valor escorrega para os poucos lugares a que o modelo não consegue chegar; esse lugar é o untrainable — relações, confiança e julgamento acumulado, coisas construídas ao longo do tempo e impossíveis de copiar por treinamento, um “valor com história (value with history)”
- Portanto, não tente possuir a própria inteligência; entre em uma área em que a resposta só existe dentro do campo (“get inside one”)
- Faça você mesmo o trabalho nada glamouroso de tradução (translation) que organiza a realidade privada da empresa para que o modelo possa lidar com ela
- O ponto central é se tornar quem registra o que conta como good naquele campo e define o padrão, porque esse lugar não está vazio: se eu não ocupar, alguém certamente ocupará
- A pontuação de benchmark mais citada deste ano não é motivo de orgulho, mas um aviso: é o mapa de um território prestes a perder valor, e uma notificação para quem em breve perderá o direito de dizer o que é good
- Tornar-se publicamente mensurável é sinal de que algo está virando commodity; correção pública é alcançável por qualquer um, e por isso até quem fica em primeiro nessa métrica perde o direito de definir o padrão do que é good
Ainda não há comentários.