Verifique o Model-Market Fit (MMF) antes do PMF

(nicolasbustamante.com)

5 pontos por GN⁺ 2026-02-06 | 1 comentários | Compartilhar no WhatsApp

Para startups de IA, antes do product-market fit (PMF), é essencial verificar o model-market fit (MMF): se a capacidade do modelo atual realmente consegue resolver as demandas do mercado
Após o lançamento do GPT-4, o mercado de IA jurídica cresceu de forma explosiva; depois do lançamento do Claude 3.5 Sonnet, os assistentes de programação passaram a se tornar parte real do fluxo de trabalho, exemplos representativos de MMF alcançado
Áreas como prova matemática, análise financeira de alto risco e descoberta autônoma de fármacos têm demanda de mercado, mas seguem sem MMF porque a capacidade dos modelos ainda não passou do ponto crítico
Se o Human-in-the-loop não é um recurso auxiliar, mas exige que humanos executem a tarefa principal em vez de apenas complementar o sistema, isso pode ser interpretado como ausência de MMF
O ponto central da estratégia em IA é reconhecer a sequência MMF → PMF → sucesso e julgar com frieza quando e o que construir

O framework de Marc Andreessen e a nova variável

Em 2007, Marc Andreessen publicou um ensaio defendendo que, entre os três elementos de uma startup (equipe, produto e mercado), o mercado é o mais importante
- Um grande mercado puxa o produto para fora da startup, e o produto não precisa ser extraordinário — basta funcionar no básico
Passados 19 anos, surgiu uma nova variável que determina se o mercado de fato pode puxar alguma coisa: o modelo
Em startups de IA, antes do product-market fit, existe a condição prévia de saber se a capacidade atual do modelo consegue executar o trabalho que o mercado exige
Quando há MMF, o framework de Andreessen funciona e o mercado puxa o produto; quando não há, nem UX excelente, nem estratégia de GTM, nem engenharia de ponta conseguem gerar adoção pelos clientes

Casos de explosão de mercado quando o MMF é destravado

IA jurídica: GPT-4 (março de 2023)
- Antes do GPT-4, a legal tech com IA não conseguia escalar, e ferramentas de revisão documental exigiam mais supervisão humana do que a economia que geravam
- Modelos transformer anteriores, como o BERT, eram fortes em tarefas de classificação como categorização de documentos ou identificação de tipos de contrato, mas não conseguiam fazer geração e raciocínio, que são centrais no trabalho jurídico
  - Era possível classificar um contrato como “emprego” ou “NDA”, mas não produzir de forma consistente um memorando explicando por que uma cláusula de não concorrência era inexequível sob a lei da Califórnia
- Nos 18 meses após o lançamento do GPT-4, startups do Vale do Silício captaram centenas de milhões de dólares, a Thomson Reuters adquiriu a Casetext por US$ 650 milhões, e dezenas de novas startups de IA jurídica surgiram
- O mercado de IA jurídica gerou mais unicórnios em apenas 12 meses do que em toda a década anterior
- A demanda do mercado era a mesma; o que mudou foi apenas o fato de que a capacidade do modelo passou do ponto crítico
Programação: Claude 3.5 Sonnet (junho de 2024)
- Assistentes de programação como o GitHub Copilot já existiam, mas havia uma diferença clara entre autocompletar ocasionalmente útil e uma IA que realmente entende a base de código
- Antes do Claude 3.5 Sonnet, usar o Cursor ficava no nível de uma demo interessante e não se estabelecia como fluxo de trabalho diário
- Após o lançamento do Sonnet, em uma semana ficou impossível trabalhar sem o Cursor, e a experiência passou a parecer programação em par com uma entidade que entende toda a base de código
- O motivo do crescimento vertical do Cursor não foi inovação de features, mas o fato de que o modelo de base passou do limiar de uso real
Análise do padrão
- O ponto central é a existência ou não de MMF; as startups vencedoras nunca foram necessariamente as primeiras, mas sim as equipes que estavam preparadas para o momento em que a capacidade do modelo cruzasse o limiar
- Tanto em programação quanto no jurídico, não houve casos em que incumbentes venceram; sempre foram novos players que dominaram o mercado
- As startups de IA jurídica que hoje lideram já haviam acumulado por meses, com antecedência, conhecimento sobre o fluxo de trabalho real dos advogados, o formato de saída exigido, requisitos regulatórios e como associados fazem pesquisa
- A vitória não fica com quem chega primeiro, mas com quem alcança primeiro o PMF depois que o MMF se estabelece

Problemas que surgem quando o MMF não existe

Prova matemática
- Matemáticos querem IA capaz de provar novos teoremas, e instituições de pesquisa, contratantes de defesa e empresas de tecnologia estão dispostos a pagar milhões por raciocínio matemático de verdade
- Mesmo os modelos mais avançados ainda não fazem isso de forma consistente e ficam restritos à verificação de provas conhecidas, ajuda em etapas mecânicas ou geração de insights para problemas limitados
- Gerar novas provas para problemas em aberto ainda é inviável; houve melhora gradual entre gerações como GPT-5, o1 e o3, mas ainda não estamos no ponto de esperar provas rigorosas para conjecturas em aberto
Finanças de alto risco
- Bancos de investimento e hedge funds querem desesperadamente IA capaz de realizar análise financeira abrangente, e uma única transação bem-sucedida ou operação de M&A pode gerar centenas de milhões de dólares em taxas
- Mas a IA ainda apresenta desempenho surpreendentemente baixo nas tarefas centrais
  - Ao lidar com modelos financeiros complexos, até a saída em Excel é difícil de confiar
  - Ler documentos de 200 páginas e combinar análise quantitativa com insight qualitativo é um dos maiores desafios para a IA
- Analistas humanos leem conference calls de resultados, disclosures regulatórios e relatórios setoriais, combinando isso com modelos em planilhas para chegar a decisões de investimento; a IA só consegue executar partes desse fluxo
- Humanos continuam no loop não apenas por supervisão, mas porque ainda precisam atuar como principais tomadores de decisão
Lacuna nos benchmarks
- A comparação de benchmarks da Vals.ai mostra de forma muito clara a diferença de desempenho entre verticais em que há MMF e verticais em que ele não existe
- LegalBench (tarefas de raciocínio jurídico): melhor modelo com 87% de acurácia, liderado pelo Gemini 3 Pro com 87,04%, e vários modelos acima de 85%
  - Desempenho em nível de produção, em que advogados conseguem confiar na saída com revisão leve
- Finance Agent (tarefas centrais de analista financeiro): melhor modelo com 56,55% de acurácia; o GPT-5.1 mal passou da metade, e o Claude Sonnet 4.5 extended thinking ficou em 55,32%
- Com uma diferença de cerca de 30 pontos, o jurídico já tem MMF, enquanto finanças ainda não
- Hoje já é possível lançar produtos de IA jurídica, mas um produto de IA financeira que execute o trabalho real de um analista pode até estar próximo — só que ainda não é viável neste momento
Descoberta autônoma de fármacos
- A indústria farmacêutica está investindo bilhões de dólares em descoberta de fármacos com IA, e um único medicamento bem-sucedido pode valer dezenas de bilhões
- A IA contribui para acelerar etapas isoladas, como identificação de moléculas candidatas, previsão da estrutura de proteínas (a revolução do AlphaFold) e otimização do desenho de ensaios clínicos
- Mas ainda não existe descoberta autônoma de medicamentos ponta a ponta que justifique os valuations atuais
- Humanos continuam no loop não por escolha de desenho de workflow, mas porque a IA ainda não consegue executar o trabalho real

Como identificar a ausência de MMF

O sinal mais confiável para avaliar a ausência de MMF é observar qual papel o human-in-the-loop está desempenhando
Quando há MMF, o human-in-the-loop funciona como feature, ajudando a manter qualidade, construir confiança e lidar com edge cases
- A IA executa a tarefa principal, e o humano fornece supervisão e aprovação
Quando não há MMF, o human-in-the-loop funciona mais como muleta, escondendo o fato de que a IA não consegue executar a tarefa central
- O humano não está ampliando a capacidade do sistema, mas suprindo o que falta, e sem ele o produto para de funcionar imediatamente
Um critério simples: se todas as correções humanas fossem removidas desse workflow, o cliente ainda pagaria por ele?
- Se a resposta for não, então não há MMF; o que sobra é apenas uma demo

Dilema estratégico: construir para agora ou para o futuro?

O argumento a favor de esperar
- Construir uma startup quando ainda não existe MMF significa, na prática, apostar em melhorias de modelo que estão no roadmap de terceiros
- Você não controla quando essa capacidade vai chegar, e enquanto Anthropic e OpenAI decidem, o runway continua sendo consumido
- Também existe a chance de a avaliação sobre a capacidade necessária estar errada
  - A distância entre 80% e 99% de acurácia exigida por uma vertical pode levar 5 anos para ser fechada ou, da forma imaginada, talvez nunca seja fechada
- Se você acredita em AGI, pode assumir que os modelos um dia farão quase tudo, mas a questão central não é a possibilidade, e sim o timing
  - O problema não é se a IA conseguirá resolver aquilo, e sim se a startup consegue sobreviver até lá, o que no fim é uma questão de runway
O argumento a favor de começar cedo
- Há um contra-argumento frequentemente citado na Y Combinator, e ele é bastante convincente
- No momento em que o MMF é destravado, não basta ter capacidade de modelo
  - pipelines de dados específicos do domínio
  - relacionamento com reguladores
  - confiança do cliente construída ao longo de anos
  - workflows profundamente integrados
  - entendimento de como especialistas realmente trabalham
- As startups jurídicas não apenas plugaram o GPT-4; elas já tinham construído o scaffolding de antemão e, quando o modelo apareceu, estavam prontas para agir imediatamente
- As equipes mais próximas do problema exercem influência direta sobre critérios de avaliação do modelo, direção de fine-tuning e formas de deployment
  - Em vez de esperar passivamente a capacidade chegar, elas ajudam a definir o que conta como capacidade naquela vertical
A solução
- A pergunta central não é se vale começar cedo, mas quão cedo começar e o que construir enquanto se espera
- A zona mais perigosa é o meio do caminho
  - quando o MMF parece estar a 24–36 meses de distância
  - perto o suficiente para parecer iminente, mas longe o bastante para consumir várias rodadas de funding
- Nessa faixa, convicção e runway decidem tudo
  - se você vai apostar em um MMF que só chega em mais de 2 anos, então ele precisa levar a um mercado gigantesco que realmente valha a espera
- Saúde e serviços financeiros são mercados de escala trilionária em que Anthropic e OpenAI estão apostando pesado, mesmo com resultados ainda mistos
  - o potencial de upside é tão grande que justifica o posicionamento antecipado
- A fórmula de decisão é simples
  valor esperado = probabilidade de chegada do MMF × tamanho do mercado × participação estimada

Como medir MMF

Product-market fit é notoriamente difícil de medir com precisão, e Andreessen o descreveu de forma qualitativa
- “Quando o PMF não acontece, você sempre consegue sentir; e quando acontece, você também sempre consegue sentir”
O MMF também é, em essência, um conceito intuitivo, mas pode ser traduzido em critérios mais claros
O teste de MMF
- Pergunta central: quando o modelo recebe as mesmas entradas que um especialista humano, ele consegue produzir uma saída pela qual o cliente pagaria sem exigir correções humanas substanciais?
- Três componentes
  - 1. Mesma entrada
    - O modelo usa como input os mesmos documentos, dados e contexto que um humano receberia
    - Não vale depender de pré-processamento mágico que não poderia existir no workflow real
  - 2. Saída pela qual o cliente pagaria
    - Não uma demo ou prova de conceito, mas um resultado de qualidade de produção que resolva um problema real
  - 3. Sem correções humanas substanciais
    - Humanos podem revisar, corrigir e aprovar, mas se precisarem reescrever 50% da saída, é difícil dizer que o modelo está fazendo o trabalho
A lacuna 80/99
- Em verticais não reguladas, 80% de acurácia pode ser suficiente em alguns casos
  - uma IA que rascunha copy de marketing pode gerar valor mesmo que humanos editem bastante
- Em verticais reguladas (finanças, jurídico, saúde), 80% de acurácia é, na prática, inútil
  - uma ferramenta de revisão contratual que deixa passar 20% das cláusulas críticas não ajuda o advogado — ela cria responsabilidade
  - um diagnóstico médico que erra uma em cada cinco vezes não é um produto, e sim risco de processo
- A distância entre 80% e 99% de acurácia, no trabalho real, muitas vezes é quase infinita
  - é a diferença decisiva entre uma “demo promissora” e um “sistema de produção”
- Muitas startups de IA ficam presas nessa lacuna, captando recursos com demos enquanto esperam a capacidade que fará o produto realmente funcionar

O limiar agentic

A segunda fronteira de capacidade ignorada na maior parte das discussões sobre MMF é a habilidade de trabalhar de forma autônoma por longos períodos
Os casos atuais em que o MMF já existe (revisão de documentos jurídicos, suporte à programação) são, em essência, tarefas de horizonte curto
- entra um prompt, saem resultados úteis em segundos ou minutos, após algumas chamadas de ferramenta
Mas o trabalho de conhecimento mais valioso não funciona assim
- um analista financeiro não responde a uma única pergunta; ele constrói modelos ao longo de dias, stressa hipóteses e sintetiza informações de dezenas de fontes
- um consultor estratégico não produz apenas um slide; ele faz semanas de pesquisa, entrevistas e análises iterativas
- um pesquisador em descoberta de fármacos não conduz um único experimento; ele desenha e executa campanhas de meses
Esses workflows exigem capacidades que os modelos ainda não conseguem executar de forma confiável, e a principal é operação autônoma persistente
O limiar agentic não é apenas uma questão de “consegue usar ferramentas?”
- persistência: consegue manter objetivos e contexto por horas ou dias?
- recuperação: consegue reconhecer falhas, diagnosticar a causa e tentar outra abordagem?
- coordenação: consegue dividir um objetivo complexo em subtarefas e executá-las em sequência?
- julgamento: consegue distinguir quando deve continuar e quando deve parar e pedir instruções humanas?
Os agentes de hoje já conseguem lidar com tarefas de minutos, mas a próxima geração precisa suportar tarefas de dias
- isso não é apenas uma melhora incremental de performance, mas uma mudança de fase na própria capacidade
É por isso que finanças ainda não têm MMF, mesmo quando se diz que os modelos “leem documentos bem”
- ler um 10-K é uma tarefa de 30 segundos; montar uma tese de investimento é um workflow de vários dias
- é preciso manter raciocínio consistente ao longo de coleta de dados, construção de modelo, testes de cenário e síntese da conclusão
A próxima onda de MMF destravado virá não apenas de modelos mais inteligentes, mas de modelos capazes de executar autonomamente o mesmo trabalho por vários dias

Pontos estruturais centrais

O insight central de Andreessen é que o mercado importa mais do que equipe ou produto porque um grande mercado puxa o produto para fora da startup
A conclusão inevitável para IA é que a condição prévia para esse puxão gravitacional começar é a capacidade do modelo
Por maior e mais faminto que seja o mercado, ele não consegue puxar um produto que não funciona
- em IA, o critério de “não funciona” não é engenharia nem design, mas o próprio modelo
- você pode ter a interface mais bonita, o workflow mais elegante e o pipeline de dados mais sofisticado; se o modelo de base não executa a tarefa central, nada disso importa
Se você pular a sequência MMF → PMF → sucesso, a segunda etapa simplesmente não pode se formar
Para fundadores, isso significa separar com brutal honestidade onde a capacidade realmente está hoje e onde você gostaria que ela estivesse
Para investidores, significa avaliar não apenas o tamanho do mercado e a qualidade da equipe, mas também a lacuna entre a capacidade atual dos modelos e o que o mercado exige
Para todos que constroem com IA, a pergunta que resta não é se o mercado quer aquilo, mas se o modelo realmente consegue entregar aquilo
Essa é a única coisa que importa

1 comentários

xguru 2026-02-06

Software Survival 3.0 – O que é preciso construir para sobreviver
Nestes últimos dias, têm aparecido com frequência textos sobre como sobreviver.

Verifique o Model-Market Fit (MMF) antes do PMF

O framework de Marc Andreessen e a nova variável

Casos de explosão de mercado quando o MMF é destravado

IA jurídica: GPT-4 (março de 2023)

Programação: Claude 3.5 Sonnet (junho de 2024)

Análise do padrão

Problemas que surgem quando o MMF não existe

Prova matemática

Finanças de alto risco

Lacuna nos benchmarks

Descoberta autônoma de fármacos

Como identificar a ausência de MMF

Dilema estratégico: construir para agora ou para o futuro?

O argumento a favor de esperar

O argumento a favor de começar cedo

A solução

Como medir MMF

O teste de MMF

A lacuna 80/99

O limiar agentic

Pontos estruturais centrais

Leituras relacionadas

1 comentários