5 pontos por GN⁺ 2026-02-06 | 1 comentários | Compartilhar no WhatsApp
  • Para startups de IA, antes do product-market fit (PMF), é essencial verificar o model-market fit (MMF): se a capacidade do modelo atual realmente consegue resolver as demandas do mercado
  • Após o lançamento do GPT-4, o mercado de IA jurídica cresceu de forma explosiva; depois do lançamento do Claude 3.5 Sonnet, os assistentes de programação passaram a se tornar parte real do fluxo de trabalho, exemplos representativos de MMF alcançado
  • Áreas como prova matemática, análise financeira de alto risco e descoberta autônoma de fármacos têm demanda de mercado, mas seguem sem MMF porque a capacidade dos modelos ainda não passou do ponto crítico
  • Se o Human-in-the-loop não é um recurso auxiliar, mas exige que humanos executem a tarefa principal em vez de apenas complementar o sistema, isso pode ser interpretado como ausência de MMF
  • O ponto central da estratégia em IA é reconhecer a sequência MMF → PMF → sucesso e julgar com frieza quando e o que construir

O framework de Marc Andreessen e a nova variável

  • Em 2007, Marc Andreessen publicou um ensaio defendendo que, entre os três elementos de uma startup (equipe, produto e mercado), o mercado é o mais importante
    • Um grande mercado puxa o produto para fora da startup, e o produto não precisa ser extraordinário — basta funcionar no básico
  • Passados 19 anos, surgiu uma nova variável que determina se o mercado de fato pode puxar alguma coisa: o modelo
  • Em startups de IA, antes do product-market fit, existe a condição prévia de saber se a capacidade atual do modelo consegue executar o trabalho que o mercado exige
  • Quando há MMF, o framework de Andreessen funciona e o mercado puxa o produto; quando não há, nem UX excelente, nem estratégia de GTM, nem engenharia de ponta conseguem gerar adoção pelos clientes

Casos de explosão de mercado quando o MMF é destravado

  • IA jurídica: GPT-4 (março de 2023)

    • Antes do GPT-4, a legal tech com IA não conseguia escalar, e ferramentas de revisão documental exigiam mais supervisão humana do que a economia que geravam
    • Modelos transformer anteriores, como o BERT, eram fortes em tarefas de classificação como categorização de documentos ou identificação de tipos de contrato, mas não conseguiam fazer geração e raciocínio, que são centrais no trabalho jurídico
      • Era possível classificar um contrato como “emprego” ou “NDA”, mas não produzir de forma consistente um memorando explicando por que uma cláusula de não concorrência era inexequível sob a lei da Califórnia
    • Nos 18 meses após o lançamento do GPT-4, startups do Vale do Silício captaram centenas de milhões de dólares, a Thomson Reuters adquiriu a Casetext por US$ 650 milhões, e dezenas de novas startups de IA jurídica surgiram
    • O mercado de IA jurídica gerou mais unicórnios em apenas 12 meses do que em toda a década anterior
    • A demanda do mercado era a mesma; o que mudou foi apenas o fato de que a capacidade do modelo passou do ponto crítico
  • Programação: Claude 3.5 Sonnet (junho de 2024)

    • Assistentes de programação como o GitHub Copilot já existiam, mas havia uma diferença clara entre autocompletar ocasionalmente útil e uma IA que realmente entende a base de código
    • Antes do Claude 3.5 Sonnet, usar o Cursor ficava no nível de uma demo interessante e não se estabelecia como fluxo de trabalho diário
    • Após o lançamento do Sonnet, em uma semana ficou impossível trabalhar sem o Cursor, e a experiência passou a parecer programação em par com uma entidade que entende toda a base de código
    • O motivo do crescimento vertical do Cursor não foi inovação de features, mas o fato de que o modelo de base passou do limiar de uso real
  • Análise do padrão

    • O ponto central é a existência ou não de MMF; as startups vencedoras nunca foram necessariamente as primeiras, mas sim as equipes que estavam preparadas para o momento em que a capacidade do modelo cruzasse o limiar
    • Tanto em programação quanto no jurídico, não houve casos em que incumbentes venceram; sempre foram novos players que dominaram o mercado
    • As startups de IA jurídica que hoje lideram já haviam acumulado por meses, com antecedência, conhecimento sobre o fluxo de trabalho real dos advogados, o formato de saída exigido, requisitos regulatórios e como associados fazem pesquisa
    • A vitória não fica com quem chega primeiro, mas com quem alcança primeiro o PMF depois que o MMF se estabelece

Problemas que surgem quando o MMF não existe

  • Prova matemática

    • Matemáticos querem IA capaz de provar novos teoremas, e instituições de pesquisa, contratantes de defesa e empresas de tecnologia estão dispostos a pagar milhões por raciocínio matemático de verdade
    • Mesmo os modelos mais avançados ainda não fazem isso de forma consistente e ficam restritos à verificação de provas conhecidas, ajuda em etapas mecânicas ou geração de insights para problemas limitados
    • Gerar novas provas para problemas em aberto ainda é inviável; houve melhora gradual entre gerações como GPT-5, o1 e o3, mas ainda não estamos no ponto de esperar provas rigorosas para conjecturas em aberto
  • Finanças de alto risco

    • Bancos de investimento e hedge funds querem desesperadamente IA capaz de realizar análise financeira abrangente, e uma única transação bem-sucedida ou operação de M&A pode gerar centenas de milhões de dólares em taxas
    • Mas a IA ainda apresenta desempenho surpreendentemente baixo nas tarefas centrais
      • Ao lidar com modelos financeiros complexos, até a saída em Excel é difícil de confiar
      • Ler documentos de 200 páginas e combinar análise quantitativa com insight qualitativo é um dos maiores desafios para a IA
    • Analistas humanos leem conference calls de resultados, disclosures regulatórios e relatórios setoriais, combinando isso com modelos em planilhas para chegar a decisões de investimento; a IA só consegue executar partes desse fluxo
    • Humanos continuam no loop não apenas por supervisão, mas porque ainda precisam atuar como principais tomadores de decisão
  • Lacuna nos benchmarks

    • A comparação de benchmarks da Vals.ai mostra de forma muito clara a diferença de desempenho entre verticais em que há MMF e verticais em que ele não existe
    • LegalBench (tarefas de raciocínio jurídico): melhor modelo com 87% de acurácia, liderado pelo Gemini 3 Pro com 87,04%, e vários modelos acima de 85%
      • Desempenho em nível de produção, em que advogados conseguem confiar na saída com revisão leve
    • Finance Agent (tarefas centrais de analista financeiro): melhor modelo com 56,55% de acurácia; o GPT-5.1 mal passou da metade, e o Claude Sonnet 4.5 extended thinking ficou em 55,32%
    • Com uma diferença de cerca de 30 pontos, o jurídico já tem MMF, enquanto finanças ainda não
    • Hoje já é possível lançar produtos de IA jurídica, mas um produto de IA financeira que execute o trabalho real de um analista pode até estar próximo — só que ainda não é viável neste momento
  • Descoberta autônoma de fármacos

    • A indústria farmacêutica está investindo bilhões de dólares em descoberta de fármacos com IA, e um único medicamento bem-sucedido pode valer dezenas de bilhões
    • A IA contribui para acelerar etapas isoladas, como identificação de moléculas candidatas, previsão da estrutura de proteínas (a revolução do AlphaFold) e otimização do desenho de ensaios clínicos
    • Mas ainda não existe descoberta autônoma de medicamentos ponta a ponta que justifique os valuations atuais
    • Humanos continuam no loop não por escolha de desenho de workflow, mas porque a IA ainda não consegue executar o trabalho real

Como identificar a ausência de MMF

  • O sinal mais confiável para avaliar a ausência de MMF é observar qual papel o human-in-the-loop está desempenhando
  • Quando há MMF, o human-in-the-loop funciona como feature, ajudando a manter qualidade, construir confiança e lidar com edge cases
    • A IA executa a tarefa principal, e o humano fornece supervisão e aprovação
  • Quando não há MMF, o human-in-the-loop funciona mais como muleta, escondendo o fato de que a IA não consegue executar a tarefa central
    • O humano não está ampliando a capacidade do sistema, mas suprindo o que falta, e sem ele o produto para de funcionar imediatamente
  • Um critério simples: se todas as correções humanas fossem removidas desse workflow, o cliente ainda pagaria por ele?
    • Se a resposta for não, então não há MMF; o que sobra é apenas uma demo

Dilema estratégico: construir para agora ou para o futuro?

  • O argumento a favor de esperar

    • Construir uma startup quando ainda não existe MMF significa, na prática, apostar em melhorias de modelo que estão no roadmap de terceiros
    • Você não controla quando essa capacidade vai chegar, e enquanto Anthropic e OpenAI decidem, o runway continua sendo consumido
    • Também existe a chance de a avaliação sobre a capacidade necessária estar errada
      • A distância entre 80% e 99% de acurácia exigida por uma vertical pode levar 5 anos para ser fechada ou, da forma imaginada, talvez nunca seja fechada
    • Se você acredita em AGI, pode assumir que os modelos um dia farão quase tudo, mas a questão central não é a possibilidade, e sim o timing
      • O problema não é se a IA conseguirá resolver aquilo, e sim se a startup consegue sobreviver até lá, o que no fim é uma questão de runway
  • O argumento a favor de começar cedo

    • Há um contra-argumento frequentemente citado na Y Combinator, e ele é bastante convincente
    • No momento em que o MMF é destravado, não basta ter capacidade de modelo
      • pipelines de dados específicos do domínio
      • relacionamento com reguladores
      • confiança do cliente construída ao longo de anos
      • workflows profundamente integrados
      • entendimento de como especialistas realmente trabalham
    • As startups jurídicas não apenas plugaram o GPT-4; elas já tinham construído o scaffolding de antemão e, quando o modelo apareceu, estavam prontas para agir imediatamente
    • As equipes mais próximas do problema exercem influência direta sobre critérios de avaliação do modelo, direção de fine-tuning e formas de deployment
      • Em vez de esperar passivamente a capacidade chegar, elas ajudam a definir o que conta como capacidade naquela vertical
  • A solução

    • A pergunta central não é se vale começar cedo, mas quão cedo começar e o que construir enquanto se espera
    • A zona mais perigosa é o meio do caminho
      • quando o MMF parece estar a 24–36 meses de distância
      • perto o suficiente para parecer iminente, mas longe o bastante para consumir várias rodadas de funding
    • Nessa faixa, convicção e runway decidem tudo
      • se você vai apostar em um MMF que só chega em mais de 2 anos, então ele precisa levar a um mercado gigantesco que realmente valha a espera
    • Saúde e serviços financeiros são mercados de escala trilionária em que Anthropic e OpenAI estão apostando pesado, mesmo com resultados ainda mistos
      • o potencial de upside é tão grande que justifica o posicionamento antecipado
    • A fórmula de decisão é simples
      valor esperado = probabilidade de chegada do MMF × tamanho do mercado × participação estimada

Como medir MMF

  • Product-market fit é notoriamente difícil de medir com precisão, e Andreessen o descreveu de forma qualitativa
    • “Quando o PMF não acontece, você sempre consegue sentir; e quando acontece, você também sempre consegue sentir
  • O MMF também é, em essência, um conceito intuitivo, mas pode ser traduzido em critérios mais claros
  • O teste de MMF

    • Pergunta central: quando o modelo recebe as mesmas entradas que um especialista humano, ele consegue produzir uma saída pela qual o cliente pagaria sem exigir correções humanas substanciais?
    • Três componentes
      • 1. Mesma entrada
        • O modelo usa como input os mesmos documentos, dados e contexto que um humano receberia
        • Não vale depender de pré-processamento mágico que não poderia existir no workflow real
      • 2. Saída pela qual o cliente pagaria
        • Não uma demo ou prova de conceito, mas um resultado de qualidade de produção que resolva um problema real
      • 3. Sem correções humanas substanciais
        • Humanos podem revisar, corrigir e aprovar, mas se precisarem reescrever 50% da saída, é difícil dizer que o modelo está fazendo o trabalho
  • A lacuna 80/99

    • Em verticais não reguladas, 80% de acurácia pode ser suficiente em alguns casos
      • uma IA que rascunha copy de marketing pode gerar valor mesmo que humanos editem bastante
    • Em verticais reguladas (finanças, jurídico, saúde), 80% de acurácia é, na prática, inútil
      • uma ferramenta de revisão contratual que deixa passar 20% das cláusulas críticas não ajuda o advogado — ela cria responsabilidade
      • um diagnóstico médico que erra uma em cada cinco vezes não é um produto, e sim risco de processo
    • A distância entre 80% e 99% de acurácia, no trabalho real, muitas vezes é quase infinita
      • é a diferença decisiva entre uma “demo promissora” e um “sistema de produção”
    • Muitas startups de IA ficam presas nessa lacuna, captando recursos com demos enquanto esperam a capacidade que fará o produto realmente funcionar

O limiar agentic

  • A segunda fronteira de capacidade ignorada na maior parte das discussões sobre MMF é a habilidade de trabalhar de forma autônoma por longos períodos
  • Os casos atuais em que o MMF já existe (revisão de documentos jurídicos, suporte à programação) são, em essência, tarefas de horizonte curto
    • entra um prompt, saem resultados úteis em segundos ou minutos, após algumas chamadas de ferramenta
  • Mas o trabalho de conhecimento mais valioso não funciona assim
    • um analista financeiro não responde a uma única pergunta; ele constrói modelos ao longo de dias, stressa hipóteses e sintetiza informações de dezenas de fontes
    • um consultor estratégico não produz apenas um slide; ele faz semanas de pesquisa, entrevistas e análises iterativas
    • um pesquisador em descoberta de fármacos não conduz um único experimento; ele desenha e executa campanhas de meses
  • Esses workflows exigem capacidades que os modelos ainda não conseguem executar de forma confiável, e a principal é operação autônoma persistente
  • O limiar agentic não é apenas uma questão de “consegue usar ferramentas?”
    • persistência: consegue manter objetivos e contexto por horas ou dias?
    • recuperação: consegue reconhecer falhas, diagnosticar a causa e tentar outra abordagem?
    • coordenação: consegue dividir um objetivo complexo em subtarefas e executá-las em sequência?
    • julgamento: consegue distinguir quando deve continuar e quando deve parar e pedir instruções humanas?
  • Os agentes de hoje já conseguem lidar com tarefas de minutos, mas a próxima geração precisa suportar tarefas de dias
    • isso não é apenas uma melhora incremental de performance, mas uma mudança de fase na própria capacidade
  • É por isso que finanças ainda não têm MMF, mesmo quando se diz que os modelos “leem documentos bem”
    • ler um 10-K é uma tarefa de 30 segundos; montar uma tese de investimento é um workflow de vários dias
    • é preciso manter raciocínio consistente ao longo de coleta de dados, construção de modelo, testes de cenário e síntese da conclusão
  • A próxima onda de MMF destravado virá não apenas de modelos mais inteligentes, mas de modelos capazes de executar autonomamente o mesmo trabalho por vários dias

Pontos estruturais centrais

  • O insight central de Andreessen é que o mercado importa mais do que equipe ou produto porque um grande mercado puxa o produto para fora da startup
  • A conclusão inevitável para IA é que a condição prévia para esse puxão gravitacional começar é a capacidade do modelo
  • Por maior e mais faminto que seja o mercado, ele não consegue puxar um produto que não funciona
    • em IA, o critério de “não funciona” não é engenharia nem design, mas o próprio modelo
    • você pode ter a interface mais bonita, o workflow mais elegante e o pipeline de dados mais sofisticado; se o modelo de base não executa a tarefa central, nada disso importa
  • Se você pular a sequência MMF → PMF → sucesso, a segunda etapa simplesmente não pode se formar
  • Para fundadores, isso significa separar com brutal honestidade onde a capacidade realmente está hoje e onde você gostaria que ela estivesse
  • Para investidores, significa avaliar não apenas o tamanho do mercado e a qualidade da equipe, mas também a lacuna entre a capacidade atual dos modelos e o que o mercado exige
  • Para todos que constroem com IA, a pergunta que resta não é se o mercado quer aquilo, mas se o modelo realmente consegue entregar aquilo
  • Essa é a única coisa que importa

1 comentários

 
xguru 2026-02-06

Software Survival 3.0 – O que é preciso construir para sobreviver
Nestes últimos dias, têm aparecido com frequência textos sobre como sobreviver.