O futuro da pesquisa em IA: de receitas a kits de refeição
(open.substack.com)Resumo principal (TL;DR)
-
Explosão de artigos de IA = progresso + ao mesmo tempo um “Noise Tax”
- 2013 → 2023 artigos anuais de IA: ~102.000 → ~242.000
- No mesmo período, participação da IA entre os artigos de CS: 21,6% → 41,8%
-
Quanto mais artigos, mais explodem os custos de triagem/reprodução/operação
- Lemos mais, mas os produtos ficam menos estáveis
- Quanto mais se persegue o SOTA, menor fica a reprodutibilidade e a operacionalização
-
Ao levar um artigo para produção, quatro modos de falha quase sempre aparecem
-
Por isso, o sinal para 2026 é simples:
DIY (implementar a receita) ↓ / Packaging (kit de refeição) ↑- Em vez de “ler o artigo e implementar”, vencem as unidades prontas para deploy
- Empacotamentos como NVIDIA NIM / SLM / Ollama criam um fluxo de padronização
Definição do problema: artigos de IA são “receitas Michelin”
O autor compara artigos de pesquisa em IA a receitas de chefs Michelin.
A receita em si não é ruim. É só que a nossa cozinha é diferente.
Os artigos são preparados em cozinhas perfeitas.
- clusters H100
- datasets limpos e refinados
- truques ocultos otimizados para o ambiente experimental
Mas quando essa receita desce para o mundo real (on-premises/legado/compliance/operação), o mesmo padrão se repete.
Do artigo à produção: 4 modos de falha
1) Broken Utensils (infraestrutura)
-
Os resultados dos artigos saem com base em milhares de H100s
-
A realidade é GPUs pequenas / VRAM limitada / rede restrita
-
O problema não é “o desempenho cair um pouco”
→ o fenômeno em si não aparece -
Sintomas comuns:
- “Roda, mas não apresenta o comportamento esperado”
- O pipeline termina, mas o promised behavior não aparece
2) Spoiled Ingredients (dados)
-
Os artigos assumem dados refinados
-
Os dados do mundo real são:
- logs, PDFs escaneados, documentos legados, mudanças de schema, fontes pouco claras
-
RAG/inferência vai direto para alucinação quando estrutura, base factual e consistência se quebram
-
O ponto ainda mais perigoso:
- Como é fluente, passa mais confiança
- “Parece normal, mas está errado” é o cenário mais caro
3) Missing Salt (detalhes de engenharia)
-
A parte “Season to taste” é a maior de todas
-
O verdadeiro campo de batalha é:
- inicialização / scheduler / tuning na casa de 0,001 / templates de prompt
-
Isso não cabe em 8 páginas de artigo
-
No fim, a prática real se decide aqui:
- Não é a receita, e sim o tempero secreto (as condições de reprodução) que determina o resultado
4) Responsibility Gap (responsabilidade)
-
Quando falha, a conclusão costuma ser:
- “A matemática está certa. O problema é o seu ambiente”
-
A responsabilidade por essa lacuna vai para downstream
→ no fim, quem sofre o impacto é quem leu o artigo e recomendou aquilo. -
Quando vem incidente/auditoria, vira “o sistema que nós construímos”
Duas limitações estruturais: o que faz abandonar o DIY
A) Paper Explosion = Noise Tax
Quanto mais artigos, mais explode o custo de triagem.
- Lemos mais, mas os produtos ficam menos estáveis
- Quanto mais se persegue o SOTA, menor a operacionalização
- Não é “abundância de conhecimento”, e sim “custo de escolha”
B) Mudança na direção do capital: de “artigos” para “operação”
O dinheiro está migrando de “novas receitas” para pacotes operáveis.
As perguntas dos investidores mudaram.
- é demo ou é operação?
- funciona em custo/latência/observabilidade/auditoria?
Os riscos operacionais normalmente convergem para estes 3:
- Risco de custo: funciona no PoC, mas quebra na operação
- Risco de confiança: se a base factual/origem quebrar, a resposta pode soar plausível e ainda assim ser perigosa
- Risco de responsabilidade: quando há incidente ou auditoria, a responsabilidade vira nossa
O sinal mais forte de 2026: Packaging
AI Meal Kit = pronto para deploy + unidade de entrega com fronteira clara de responsabilidade em caso de falha
Ou seja, a conclusão para 2026 é esta:
Packaging beats ingenuity.
4 sinais de mercado
Signal #1) NVIDIA NIMs
- Configuração de modelo/dependências/otimizações fixada em contêiner
- Menos adivinhação no toolchain
- O tempero secreto já está embutido.
- A mensagem: “Tune less. Run more.”
Signal #2) SLMs
- Aumentam as “receitas ajustadas à cozinha”
- Cresce a possibilidade de operar localmente/no edge
- Direção: bounded / predictable / cheaper to operate
Signal #3) AI in a Box
- O servidor deixa de ser vendido como “componente” e passa a ser vendido como “produto final”
- Inclui RAG/segurança/configuração básica
- Efeito: passa a existir um limite claro sobre quem é responsável pela lacuna
Signal #4) Ollama / LM Studio
- A dificuldade de configurar o ambiente despenca
- O número de operadores aumenta
- E quando os operadores aumentam, o mercado sempre segue este padrão: a padronização acelera
Perspectiva prática: métricas para ver de imediato
- Compute Fit: o desempenho-alvo se reproduz nas “nossas GPUs/VRAM”?
- Data Fit: os dados de entrada mantêm “estrutura/base factual/origem”?
- Hidden Salt: os scripts/prompts/valores de tuning necessários para reproduzir estão com versão fixada?
- Owner: quando falha, onde está a superfície de responsabilidade? (nós? fornecedor? pacote?)
- Ops: observabilidade (logs/métricas), rollback, teto de custo e auditoria estão embutidos no design?
Conclusão
Em 2026, mais do que “modelos mais inteligentes”,
vence a “unidade de deploy que quebra menos”.
Os artigos vão continuar saindo, mas o mercado compra inteligência empacotada.
As equipes também precisam escolher.
- continuar implementando receitas
- ou empacotar/operar no nível de um kit de refeição
One-liner
“Os artigos vendem ideias, o mercado compra operação.”
2 comentários
Mas, no mundo dos negócios, já existiam casos de ler um artigo e implementar diretamente para usar..?
Tem sim. Mas, na maioria dos casos, em vez de construir tudo do zero a partir de um artigo, o pessoal acaba seguindo implementações de referência open source.
Hoje em dia, quando sai um paper quente na área de IA, também surgem vários POCs de uma vez, mas, na prática, em produção, por causa de dados/infra/tuning, muitas vezes “até roda, mas não entrega o sabor esperado”.
Por isso, ultimamente, dá a sensação de que está todo mundo migrando para stacks empacotadas, como vLLM e Ollama.