- Para startups de IA, antes do product-market fit (PMF), é essencial verificar o model-market fit (MMF): se a capacidade do modelo atual realmente consegue resolver as demandas do mercado
- Após o lançamento do GPT-4, o mercado de IA jurídica cresceu de forma explosiva; depois do lançamento do Claude 3.5 Sonnet, os assistentes de programação passaram a se tornar parte real do fluxo de trabalho, exemplos representativos de MMF alcançado
- Áreas como prova matemática, análise financeira de alto risco e descoberta autônoma de fármacos têm demanda de mercado, mas seguem sem MMF porque a capacidade dos modelos ainda não passou do ponto crítico
- Se o Human-in-the-loop não é um recurso auxiliar, mas exige que humanos executem a tarefa principal em vez de apenas complementar o sistema, isso pode ser interpretado como ausência de MMF
- O ponto central da estratégia em IA é reconhecer a sequência MMF → PMF → sucesso e julgar com frieza quando e o que construir
O framework de Marc Andreessen e a nova variável
- Em 2007, Marc Andreessen publicou um ensaio defendendo que, entre os três elementos de uma startup (equipe, produto e mercado), o mercado é o mais importante
- Um grande mercado puxa o produto para fora da startup, e o produto não precisa ser extraordinário — basta funcionar no básico
- Passados 19 anos, surgiu uma nova variável que determina se o mercado de fato pode puxar alguma coisa: o modelo
- Em startups de IA, antes do product-market fit, existe a condição prévia de saber se a capacidade atual do modelo consegue executar o trabalho que o mercado exige
- Quando há MMF, o framework de Andreessen funciona e o mercado puxa o produto; quando não há, nem UX excelente, nem estratégia de GTM, nem engenharia de ponta conseguem gerar adoção pelos clientes
Casos de explosão de mercado quando o MMF é destravado
-
IA jurídica: GPT-4 (março de 2023)
- Antes do GPT-4, a legal tech com IA não conseguia escalar, e ferramentas de revisão documental exigiam mais supervisão humana do que a economia que geravam
- Modelos transformer anteriores, como o BERT, eram fortes em tarefas de classificação como categorização de documentos ou identificação de tipos de contrato, mas não conseguiam fazer geração e raciocínio, que são centrais no trabalho jurídico
- Era possível classificar um contrato como “emprego” ou “NDA”, mas não produzir de forma consistente um memorando explicando por que uma cláusula de não concorrência era inexequível sob a lei da Califórnia
- Nos 18 meses após o lançamento do GPT-4, startups do Vale do Silício captaram centenas de milhões de dólares, a Thomson Reuters adquiriu a Casetext por US$ 650 milhões, e dezenas de novas startups de IA jurídica surgiram
- O mercado de IA jurídica gerou mais unicórnios em apenas 12 meses do que em toda a década anterior
- A demanda do mercado era a mesma; o que mudou foi apenas o fato de que a capacidade do modelo passou do ponto crítico
-
Programação: Claude 3.5 Sonnet (junho de 2024)
- Assistentes de programação como o GitHub Copilot já existiam, mas havia uma diferença clara entre autocompletar ocasionalmente útil e uma IA que realmente entende a base de código
- Antes do Claude 3.5 Sonnet, usar o Cursor ficava no nível de uma demo interessante e não se estabelecia como fluxo de trabalho diário
- Após o lançamento do Sonnet, em uma semana ficou impossível trabalhar sem o Cursor, e a experiência passou a parecer programação em par com uma entidade que entende toda a base de código
- O motivo do crescimento vertical do Cursor não foi inovação de features, mas o fato de que o modelo de base passou do limiar de uso real
-
Análise do padrão
- O ponto central é a existência ou não de MMF; as startups vencedoras nunca foram necessariamente as primeiras, mas sim as equipes que estavam preparadas para o momento em que a capacidade do modelo cruzasse o limiar
- Tanto em programação quanto no jurídico, não houve casos em que incumbentes venceram; sempre foram novos players que dominaram o mercado
- As startups de IA jurídica que hoje lideram já haviam acumulado por meses, com antecedência, conhecimento sobre o fluxo de trabalho real dos advogados, o formato de saída exigido, requisitos regulatórios e como associados fazem pesquisa
- A vitória não fica com quem chega primeiro, mas com quem alcança primeiro o PMF depois que o MMF se estabelece
Problemas que surgem quando o MMF não existe
-
Prova matemática
- Matemáticos querem IA capaz de provar novos teoremas, e instituições de pesquisa, contratantes de defesa e empresas de tecnologia estão dispostos a pagar milhões por raciocínio matemático de verdade
- Mesmo os modelos mais avançados ainda não fazem isso de forma consistente e ficam restritos à verificação de provas conhecidas, ajuda em etapas mecânicas ou geração de insights para problemas limitados
- Gerar novas provas para problemas em aberto ainda é inviável; houve melhora gradual entre gerações como GPT-5, o1 e o3, mas ainda não estamos no ponto de esperar provas rigorosas para conjecturas em aberto
-
Finanças de alto risco
- Bancos de investimento e hedge funds querem desesperadamente IA capaz de realizar análise financeira abrangente, e uma única transação bem-sucedida ou operação de M&A pode gerar centenas de milhões de dólares em taxas
- Mas a IA ainda apresenta desempenho surpreendentemente baixo nas tarefas centrais
- Ao lidar com modelos financeiros complexos, até a saída em Excel é difícil de confiar
- Ler documentos de 200 páginas e combinar análise quantitativa com insight qualitativo é um dos maiores desafios para a IA
- Analistas humanos leem conference calls de resultados, disclosures regulatórios e relatórios setoriais, combinando isso com modelos em planilhas para chegar a decisões de investimento; a IA só consegue executar partes desse fluxo
- Humanos continuam no loop não apenas por supervisão, mas porque ainda precisam atuar como principais tomadores de decisão
-
Lacuna nos benchmarks
- A comparação de benchmarks da Vals.ai mostra de forma muito clara a diferença de desempenho entre verticais em que há MMF e verticais em que ele não existe
- LegalBench (tarefas de raciocínio jurídico): melhor modelo com 87% de acurácia, liderado pelo Gemini 3 Pro com 87,04%, e vários modelos acima de 85%
- Desempenho em nível de produção, em que advogados conseguem confiar na saída com revisão leve
- Finance Agent (tarefas centrais de analista financeiro): melhor modelo com 56,55% de acurácia; o GPT-5.1 mal passou da metade, e o Claude Sonnet 4.5 extended thinking ficou em 55,32%
- Com uma diferença de cerca de 30 pontos, o jurídico já tem MMF, enquanto finanças ainda não
- Hoje já é possível lançar produtos de IA jurídica, mas um produto de IA financeira que execute o trabalho real de um analista pode até estar próximo — só que ainda não é viável neste momento
-
Descoberta autônoma de fármacos
- A indústria farmacêutica está investindo bilhões de dólares em descoberta de fármacos com IA, e um único medicamento bem-sucedido pode valer dezenas de bilhões
- A IA contribui para acelerar etapas isoladas, como identificação de moléculas candidatas, previsão da estrutura de proteínas (a revolução do AlphaFold) e otimização do desenho de ensaios clínicos
- Mas ainda não existe descoberta autônoma de medicamentos ponta a ponta que justifique os valuations atuais
- Humanos continuam no loop não por escolha de desenho de workflow, mas porque a IA ainda não consegue executar o trabalho real
Como identificar a ausência de MMF
- O sinal mais confiável para avaliar a ausência de MMF é observar qual papel o human-in-the-loop está desempenhando
- Quando há MMF, o human-in-the-loop funciona como feature, ajudando a manter qualidade, construir confiança e lidar com edge cases
- A IA executa a tarefa principal, e o humano fornece supervisão e aprovação
- Quando não há MMF, o human-in-the-loop funciona mais como muleta, escondendo o fato de que a IA não consegue executar a tarefa central
- O humano não está ampliando a capacidade do sistema, mas suprindo o que falta, e sem ele o produto para de funcionar imediatamente
- Um critério simples: se todas as correções humanas fossem removidas desse workflow, o cliente ainda pagaria por ele?
- Se a resposta for não, então não há MMF; o que sobra é apenas uma demo
Dilema estratégico: construir para agora ou para o futuro?
-
O argumento a favor de esperar
- Construir uma startup quando ainda não existe MMF significa, na prática, apostar em melhorias de modelo que estão no roadmap de terceiros
- Você não controla quando essa capacidade vai chegar, e enquanto Anthropic e OpenAI decidem, o runway continua sendo consumido
- Também existe a chance de a avaliação sobre a capacidade necessária estar errada
- A distância entre 80% e 99% de acurácia exigida por uma vertical pode levar 5 anos para ser fechada ou, da forma imaginada, talvez nunca seja fechada
- Se você acredita em AGI, pode assumir que os modelos um dia farão quase tudo, mas a questão central não é a possibilidade, e sim o timing
- O problema não é se a IA conseguirá resolver aquilo, e sim se a startup consegue sobreviver até lá, o que no fim é uma questão de runway
-
O argumento a favor de começar cedo
- Há um contra-argumento frequentemente citado na Y Combinator, e ele é bastante convincente
- No momento em que o MMF é destravado, não basta ter capacidade de modelo
- pipelines de dados específicos do domínio
- relacionamento com reguladores
- confiança do cliente construída ao longo de anos
- workflows profundamente integrados
- entendimento de como especialistas realmente trabalham
- As startups jurídicas não apenas plugaram o GPT-4; elas já tinham construído o scaffolding de antemão e, quando o modelo apareceu, estavam prontas para agir imediatamente
- As equipes mais próximas do problema exercem influência direta sobre critérios de avaliação do modelo, direção de fine-tuning e formas de deployment
- Em vez de esperar passivamente a capacidade chegar, elas ajudam a definir o que conta como capacidade naquela vertical
-
A solução
- A pergunta central não é se vale começar cedo, mas quão cedo começar e o que construir enquanto se espera
- A zona mais perigosa é o meio do caminho
- quando o MMF parece estar a 24–36 meses de distância
- perto o suficiente para parecer iminente, mas longe o bastante para consumir várias rodadas de funding
- Nessa faixa, convicção e runway decidem tudo
- se você vai apostar em um MMF que só chega em mais de 2 anos, então ele precisa levar a um mercado gigantesco que realmente valha a espera
- Saúde e serviços financeiros são mercados de escala trilionária em que Anthropic e OpenAI estão apostando pesado, mesmo com resultados ainda mistos
- o potencial de upside é tão grande que justifica o posicionamento antecipado
- A fórmula de decisão é simples
valor esperado = probabilidade de chegada do MMF × tamanho do mercado × participação estimada
Como medir MMF
- Product-market fit é notoriamente difícil de medir com precisão, e Andreessen o descreveu de forma qualitativa
- “Quando o PMF não acontece, você sempre consegue sentir; e quando acontece, você também sempre consegue sentir”
- O MMF também é, em essência, um conceito intuitivo, mas pode ser traduzido em critérios mais claros
-
O teste de MMF
- Pergunta central: quando o modelo recebe as mesmas entradas que um especialista humano, ele consegue produzir uma saída pela qual o cliente pagaria sem exigir correções humanas substanciais?
- Três componentes
- 1. Mesma entrada
- O modelo usa como input os mesmos documentos, dados e contexto que um humano receberia
- Não vale depender de pré-processamento mágico que não poderia existir no workflow real
- 2. Saída pela qual o cliente pagaria
- Não uma demo ou prova de conceito, mas um resultado de qualidade de produção que resolva um problema real
- 3. Sem correções humanas substanciais
- Humanos podem revisar, corrigir e aprovar, mas se precisarem reescrever 50% da saída, é difícil dizer que o modelo está fazendo o trabalho
-
A lacuna 80/99
- Em verticais não reguladas, 80% de acurácia pode ser suficiente em alguns casos
- uma IA que rascunha copy de marketing pode gerar valor mesmo que humanos editem bastante
- Em verticais reguladas (finanças, jurídico, saúde), 80% de acurácia é, na prática, inútil
- uma ferramenta de revisão contratual que deixa passar 20% das cláusulas críticas não ajuda o advogado — ela cria responsabilidade
- um diagnóstico médico que erra uma em cada cinco vezes não é um produto, e sim risco de processo
- A distância entre 80% e 99% de acurácia, no trabalho real, muitas vezes é quase infinita
- é a diferença decisiva entre uma “demo promissora” e um “sistema de produção”
- Muitas startups de IA ficam presas nessa lacuna, captando recursos com demos enquanto esperam a capacidade que fará o produto realmente funcionar
O limiar agentic
- A segunda fronteira de capacidade ignorada na maior parte das discussões sobre MMF é a habilidade de trabalhar de forma autônoma por longos períodos
- Os casos atuais em que o MMF já existe (revisão de documentos jurídicos, suporte à programação) são, em essência, tarefas de horizonte curto
- entra um prompt, saem resultados úteis em segundos ou minutos, após algumas chamadas de ferramenta
- Mas o trabalho de conhecimento mais valioso não funciona assim
- um analista financeiro não responde a uma única pergunta; ele constrói modelos ao longo de dias, stressa hipóteses e sintetiza informações de dezenas de fontes
- um consultor estratégico não produz apenas um slide; ele faz semanas de pesquisa, entrevistas e análises iterativas
- um pesquisador em descoberta de fármacos não conduz um único experimento; ele desenha e executa campanhas de meses
- Esses workflows exigem capacidades que os modelos ainda não conseguem executar de forma confiável, e a principal é operação autônoma persistente
- O limiar agentic não é apenas uma questão de “consegue usar ferramentas?”
- persistência: consegue manter objetivos e contexto por horas ou dias?
- recuperação: consegue reconhecer falhas, diagnosticar a causa e tentar outra abordagem?
- coordenação: consegue dividir um objetivo complexo em subtarefas e executá-las em sequência?
- julgamento: consegue distinguir quando deve continuar e quando deve parar e pedir instruções humanas?
- Os agentes de hoje já conseguem lidar com tarefas de minutos, mas a próxima geração precisa suportar tarefas de dias
- isso não é apenas uma melhora incremental de performance, mas uma mudança de fase na própria capacidade
- É por isso que finanças ainda não têm MMF, mesmo quando se diz que os modelos “leem documentos bem”
- ler um 10-K é uma tarefa de 30 segundos; montar uma tese de investimento é um workflow de vários dias
- é preciso manter raciocínio consistente ao longo de coleta de dados, construção de modelo, testes de cenário e síntese da conclusão
- A próxima onda de MMF destravado virá não apenas de modelos mais inteligentes, mas de modelos capazes de executar autonomamente o mesmo trabalho por vários dias
Pontos estruturais centrais
- O insight central de Andreessen é que o mercado importa mais do que equipe ou produto porque um grande mercado puxa o produto para fora da startup
- A conclusão inevitável para IA é que a condição prévia para esse puxão gravitacional começar é a capacidade do modelo
- Por maior e mais faminto que seja o mercado, ele não consegue puxar um produto que não funciona
- em IA, o critério de “não funciona” não é engenharia nem design, mas o próprio modelo
- você pode ter a interface mais bonita, o workflow mais elegante e o pipeline de dados mais sofisticado; se o modelo de base não executa a tarefa central, nada disso importa
- Se você pular a sequência MMF → PMF → sucesso, a segunda etapa simplesmente não pode se formar
- Para fundadores, isso significa separar com brutal honestidade onde a capacidade realmente está hoje e onde você gostaria que ela estivesse
- Para investidores, significa avaliar não apenas o tamanho do mercado e a qualidade da equipe, mas também a lacuna entre a capacidade atual dos modelos e o que o mercado exige
- Para todos que constroem com IA, a pergunta que resta não é se o mercado quer aquilo, mas se o modelo realmente consegue entregar aquilo
- Essa é a única coisa que importa
1 comentários
Software Survival 3.0 – O que é preciso construir para sobreviver
Nestes últimos dias, têm aparecido com frequência textos sobre como sobreviver.