Como evitar a morte na estrada de tijolos amarelos — a camada de aplicativos ainda não morreu

(a16z.news)

10 pontos por GN⁺ 2026-06-01 | Ainda não há comentários. | Compartilhar no WhatsApp

A preocupação de que a camada de aplicativos de IA será engolida pelos grandes labs como OpenAI e Anthropic está se espalhando entre fundadores, mas a camada de apps não é uma oportunidade única, e sim uma estrutura dividida entre a "Yellow Brick Road" e o "Rest of Oz"
A Yellow Brick Road é a área horizontal em que a qualidade melhora apenas com o avanço do desempenho do próprio modelo, como geração de código, escrita e geração de imagens, caminho no qual os labs estão investindo recursos massivos
O Rest of Oz é a área em que o scaffolding acima do modelo determina confiabilidade e compliance, como em workflows verticais, multiestágio e com múltiplas aprovações, onde existem oportunidades para startups dominarem o relacionamento com o cliente
O próprio fato de OpenAI e Anthropic terem anunciado joint ventures forward-deployed em grande escala para customização enterprise sugere que co-workers de IA generalistas, sozinhos, não conseguem resolver todos os problemas
O software enterprise da próxima geração será criado "fora da estrada" (off the road), e a principal linha de defesa é que modelos podem ser trocados, mas o system of work não

Pergunta central e premissas

A pergunta que o autor recebe repetidamente de fundadores e candidatos é: "OpenAI e Anthropic vão matar tudo? Ainda resta algo a construir na camada de aplicativos de IA?"
Alguns concluem que os únicos lugares para evitar se tornar uma subclasse permanente são dentro dos grandes labs ou na fronteira, como robótica e hard tech
O autor, a partir de uma posição maximalista em IA, avalia que eles "estão meio certos": de fato, os labs vão absorver uma parte significativa da superfície de aplicativos
Mas o ponto central é que a camada de apps não é uma oportunidade única — o enquadramento correto é saber se você está na Yellow Brick Road ou em outro lugar de Oz

The Yellow Brick Road — o caminho que os labs percorrem

O padrão de conectar connectors off-the-shelf como G Drive, Slack, Salesforce, Notion e GitHub a modelos de alto desempenho e adicionar por cima uma camada de orquestração de agentes
Esse padrão é perigoso porque os labs já estão fazendo exatamente a mesma coisa com Cowork e Codex
- Possuem o modelo → margens melhores, mais controle e poder de precificação sobre o downstream
- Têm liberdade para escolher a arquitetura que faz o produto funcionar bem — até agora adotaram deliberadamente o padrão "model + tool calls", que se encaixa exatamente nas tarefas horizontais e de baixo nível na estrada
Mesmo que uma startup supere Codex ou Claude Code em desempenho, os labs contam com distribuição massiva e a maior aura de marca do setor de IA
Uma empresa de apps de IA que roda esse playbook com a mesma combinação de connectors, sem subagentes, sem composição e sem distribuição está em uma "estrada que não leva a lugar nenhum"

The Rest of Oz — a oportunidade para startups

A área em que se constroem experiências agentic nas quais o modelo é conectado por meio de uma rede complexa de ferramentas, automação e integrações, algo que naturalmente tende ao vertical
Dá para focar em trabalhos multiestágio e com múltiplos participantes que plataformas horizontais não alcançam
- Coletar contexto em todo o sistema e depois rotear para várias pessoas que exigem aprovação por etapa
- Integrar um ou mais sistemas legados, com necessidade de resultados determinísticos e sem espaço para ambiguidade
- Muitas vezes ligado a resultados de negócio valiosos
Os labs também reconhecem o valor desse problema, razão pela qual operam diretamente outsourced configuration shops e existe uma classe upmarket no negócio de reinforcement learning

Por que o restante de Oz não será engolido pelo Mágico

Data and learning flywheels
- Normas implícitas do setor, padrões não documentados e o tribal knowledge na cabeça de quem trabalha no campo não existem na web pública
- Dois flywheels se sobrepõem e operam juntos
  - across-customer: padrões que se acumulam ao ver variações do mesmo problema em vários clientes
  - within-customer: o motivo de decisões específicas, exceções implícitas e heurísticas próprias daquela empresa
- Uma empresa que já processou 100 redlines jurídicos, 1.000 underwritings de seguros ou 10.000 campanhas de SDR internaliza a forma do problema de um jeito que um novo entrante não consegue replicar com um agente recém-lançado
- O principal motivo pelo qual um agente horizontal não consegue construir a mesma infraestrutura de aprendizado é UX — só um player vertical consegue desenhar com precisão a superfície do workflow
- Conjuntos de eval, outputs rotulados e taxonomias de edge cases se acumulam como um flywheel de dados especializado verticalmente e viram combustível para fine-tuning
Managing model variability and complexity
- Os labs já fazem internamente roteamento e ensemble de modelos por requisição, mas não conseguem fazer roteamento entre vendors, avaliar modelos concorrentes ou usar modelos open source fine-tuned em domínios estreitos
- Uma empresa do Rest of Oz escolhe o modelo ideal para cada subtarefa em todo o mercado de modelos, não só no que o lab controlador lançou
- Ela absorve o "trabalho que ninguém quer fazer": rerodar evals a cada upgrade, recalibrar prompts para edge cases dos clientes e fazer rollouts sem quebrar produção
- O lab apenas vende o próximo modelo e manda "migrar"; a empresa do Rest of Oz absorve a migração e entrega ao cliente a melhor inteligência do mercado com continuidade nas atualizações
Cost optimization
- Rodar todas as queries em Opus 4.7 é o caminho mais curto para margem bruta negativa
- As melhores empresas do Rest of Oz fazem roteamento por tiers
  - modelos de fronteira para as tarefas mais difíceis
  - modelos mid-tier para a maior parte do trabalho
  - modelos pequenos customizados ou fine-tuned para partes qualificadas
- Algumas ainda fazem post-training próprio por cima, otimizando para fatias estreitas que importam ao cliente e servindo isso por uma fração do custo de uma API de fronteira
- Se o lab define um preço piso de "inteligência mínima por X dólares", a empresa do Rest of Oz vende o inverso: o menor custo em dólares para o nível de inteligência que o workflow realmente exige
Governance
- Há muito valor em se tornar o control plane de como o cliente opera IA naquele vertical — permissões, auditoria, o que o agente pode fazer e o que ele realmente fez convergem ali
- O control plane é composto por guardrails específicos de cada caso de uso, totalmente diferentes por setor e função
- Como controla ferramentas, workflows e dados de ponta a ponta, é possível entregar resultados determinísticos que ferramentas horizontais têm dificuldade de oferecer
- É o ator que absorve a complexidade regulatória em vez do comprador final
  - jurídico: FRCP e regras de ética da advocacia
  - saúde: HIPAA
  - finanças: SEC e FINRA
  - seguros: regulação estadual de seguros, entre outras
- O CIO quer um parceiro que assuma contratualmente a responsabilidade pelo compliance dos agentes que fornece
Conclusão comum: foco
- Seja em um vertical como seguros, jurídico e contabilidade, seja em uma função profundamente executada como vendas, suporte ao cliente e finanças, é preciso uma equipe dedicada aos workflows, edge cases e regulações de um conjunto específico de clientes
- Os labs não conseguem fazer isso porque precisam ser tudo para todos — ou se está em todo lugar, ou se faz uma coisa muito bem

Caso de Sales — dicas práticas de Prabhav Jain, CEO da 11x

Focus on outcomes
- O caminho tático para construir uma empresa resistente aos labs é partir de um resultado específico com o qual o cliente realmente se importa — no caso da 11x, geração de pipeline
- Decompor cada atividade em tarefas → distinguir o que é agentic do que não é, e o que exige insight de domínio sofisticado do que não exige
- Em workflows com múltiplas etapas, entradas bagunçadas, estados difíceis de interpretar e restrições do mundo real, modelos melhores por si só não bastam; é preciso engenharia de software convencional, e nessa superfície os labs não têm vantagem
- Exemplos de tarefas tratadas pela 11x
  - prospecção de leads baseada em sinais customizados, lead enrichment e deep account research
  - fetchers de contexto de CRM, geradores de mensagens por canal, agentes de qualificação de leads e sistemas de entregabilidade de e-mail
- O trabalho da empresa de aplicativos é injetar no modelo, no ponto certo do workflow, conhecimento de domínio que não existe nos dados gerais de treino — e isso se acumula
- As skills envelhecem constantemente conforme o negócio evolui, então a própria capacidade de evoluir workflow e contexto vira vantagem competitiva
  - Ex.: desde o surgimento de e-mails escritos por IA, a sensibilidade dos usuários muda a cada poucos meses, e o agente precisa se adaptar continuamente à dinâmica do mercado
  - Nos últimos meses, a positive reply rate subiu 4x, gerando centenas de milhões de dólares em pipeline para clientes
Work on problems where complexity is high
- É nos problemas complexos que se libera valor real de negócio; caso contrário, você vira um thin wrapper
- Exemplo de GTM: a regra simples "não entrar em contato com pessoas de empresas que já são clientes" na prática é altamente complexa
  - Pode haver mapeamento de domínio no CRM, empresas com dezenas de subsidiárias, casos em que só o domínio da controladora está registrado, e campos de matching desatualizados no Salesforce podem levar a um cold pitch para o CRO de um cliente atual
- Dados do mundo real são bagunçados, e nem humanos nem modelos resolvem isso por mágica — é preciso um agente especializado em propósito e engenheirado para a forma concreta do problema
- Segundo os dados da 11x, a qualidade e a atualidade dos próprios dados da empresa são superiores às do cliente, então a base é ancorar-se nos próprios dados
Guardrails — não são só para evitar problemas; são a essência pela qual o cliente paga
- Guardrails são profundamente subestimados, e mesmo dentro do mesmo produto são necessários separadamente para cada caso de uso
- As garantias exigidas por um prospect regulado de serviços financeiros e por um cliente mid-market de SaaS são diferentes, e isso se espalha para como o agente escreve, com quem entra em contato, a quais dados acessa, o que fala na ligação e como registra decisões
- Um sistema one-size-fits-all desmorona; é preciso design por caso de uso, configuração por cliente e auditoria contínua
- Para isso, a empresa opera FDEs (Forward Deployed Engineers) e estrategistas de deployment técnico ajustando tudo às necessidades do cliente
- Caso de uma instituição F1000
  - executa outbound por voz baseado em consentimento para uma grande base de clientes SMB
  - nas primeiras iterações, a taxa de atendimento era baixa → a empresa aprendeu rapidamente como engajar proprietários de SMB nos primeiros 10 segundos da ligação
  - Proprietários de SMB se comportam de forma diferente de grandes compradores B2B ou consumidores, e hoje esse segmento gera mais oportunidades de vendas por dia do que o time comercial do cliente gerava em um mês

Caso de Insurance — Aman Gour, CEO da FurtherAI

Ao implantar IA em operações reais de seguros, uma suposição recorrente — "o modelo é a inteligência e o workflow é apenas scaffolding" — tornou-se, na convivência com as seguradoras, uma convicção invertida
Em seguros, boa parte da inteligência existe no próprio workflow
- Mesmo que duas seguradoras sigam o mesmo caminho (submission → review → quote → bind), a diferença está em tudo o que acontece dentro dele
  - que risco vira escalation
  - quais sinais de perda importam
  - quando regras de appetite entram em conflito, qual prevalece
  - em que momento entra a aprovação humana, quando se chama dado externo e como a decisão final é documentada
- Essa lógica não fica centralizada em um rule engine limpo, mas distribuída entre SOPs, revisões de gerentes, filosofia de underwriting, appetite específico da seguradora e anos de experiência operacional, e muita coisa nem está documentada em formato legível pelo modelo
A conclusão recorrente não é nem um agente puro que raciocina do zero toda vez, nem um workflow rígido que quebra quando a realidade fica bagunçada, mas sim agentic workflows
- workflow → repetibilidade, auditabilidade e controle de custo
- agentes → lidar com variabilidade e recuperar quando o happy path quebra
- human-in-the-loop → chamadas de julgamento em que responsabilidade importa
No Day 1 há automação de trabalho manual; com o tempo, toda escalation vira sinal, toda exceção vira feedback e toda correção humana revela um ponto faltante no runbook, fazendo o workflow evoluir para a memória operacional (operating memory) da seguradora
Os labs continuarão lançando modelos melhores e agentes generalistas melhores, mas não conseguem aprender quais contas escalaram, quais riscos foram rejeitados ou por que um underwriter contrariou o guia de appetite e estava certo sem permanecer tempo suficiente dentro da produção da seguradora
"O workflow lançado no Day 1 não é o moat; o moat é o loop que o uso em produção cria ao longo do tempo"

3 testes para saber se você pertence ao Rest of Oz

The tools-and-steps test
- Quantas etapas a tarefa percorre e quão complexas são as ferramentas de suporte?
- Comparação
  - busca horizontal com IA (vasculhar o Google Drive): 1 etapa, 1 ferramenta, resultado tolerante — se errar, basta perguntar de novo
  - redline jurídico (comparar com 3 anos de precedentes do escritório): dezenas de etapas, várias ferramentas, output que precisa passar por revisão de sócios e pode ser contestado em tribunal
- Em ambos os casos parece que "um agente está trabalhando", mas só um deles exige software profundo construído por uma equipe focada ao longo de anos
The system test
- Você está construindo um sistema por onde o trabalho do cliente realmente passa, ou apenas uma ferramenta sobre um sistema que já existe?
- Um sistema controla de ponta a ponta a captura de dados, a governança e o registro de execução, e é aquilo para o qual o cliente aponta quando diz "é aqui que o trabalho real acontece"
- Uma ferramenta apenas adiciona inteligência ao workflow que o cliente já opera; gera receita, mas é uma área que o lab pode tomar
- High ACV costuma ser um sinal de sistema, mas não é garantia — o teste real é se, mesmo que o lab lance um produto concorrente, o cliente ainda precisa da sua ferramenta
The hedge fund / P&L test
- O desempenho do lab é medido por benchmark; o desempenho do Rest of Oz é medido pelo P&L do cliente
- O cliente não liga para pontuações em SWE-Bench ou MMLU — ele quer saber se o agente fechou deals, fez o redline correto do contrato ou fez o bind da apólice certa
- Cliente obcecado por resultado específico de workflow → Rest of Oz; cliente disposto a pagar por capacidade geral → um seat de Claude ou Codex basta
- Os melhores negócios de agentes precisam competir como um hedge fund: entregando alfa medido no P&L do cliente

Os dois lados podem vencer

Também surgirão enormes vencedores na Yellow Brick Road — os labs controlam os modelos e também a distribuição das ferramentas horizontais que eles mesmos projetam
A condição de vitória no Rest of Oz é possuir o system of work — a superfície onde o trabalho da empresa realmente é executado e onde os dados são capturados
- controlar captura de dados, o sistema de ação do workflow e a governança
- à medida que workflows complexos amadurecem em um vertical, eles se condensam em uma única experiência central da qual o cliente passa a depender
- quando novas e antigas gerações de modelos são lançadas, a empresa vira a camada que as integra e entrega
- os modelos, por baixo, são fungíveis, mas o system of work não
O software enterprise da próxima geração será construído "fora da estrada"

Como evitar a morte na estrada de tijolos amarelos — a camada de aplicativos ainda não morreu

Pergunta central e premissas

The Yellow Brick Road — o caminho que os labs percorrem

The Rest of Oz — a oportunidade para startups

Por que o restante de Oz não será engolido pelo Mágico

Data and learning flywheels

Managing model variability and complexity

Cost optimization

Governance

Conclusão comum: foco

Caso de Sales — dicas práticas de Prabhav Jain, CEO da 11x

Focus on outcomes

Work on problems where complexity is high

Guardrails — não são só para evitar problemas; são a essência pela qual o cliente paga

Caso de Insurance — Aman Gour, CEO da FurtherAI

3 testes para saber se você pertence ao Rest of Oz

The tools-and-steps test

The system test

The hedge fund / P&L test

Os dois lados podem vencer

Leituras relacionadas

Ainda não há comentários.