O futuro da pesquisa em IA: de receitas a kits de refeição

(open.substack.com)

8 pontos por flamehaven01 2026-01-20 | 2 comentários | Compartilhar no WhatsApp

Resumo principal (TL;DR)

Explosão de artigos de IA = progresso + ao mesmo tempo um “Noise Tax”
- 2013 → 2023 artigos anuais de IA: ~102.000 → ~242.000
- No mesmo período, participação da IA entre os artigos de CS: 21,6% → 41,8%
Quanto mais artigos, mais explodem os custos de triagem/reprodução/operação
- Lemos mais, mas os produtos ficam menos estáveis
- Quanto mais se persegue o SOTA, menor fica a reprodutibilidade e a operacionalização
Ao levar um artigo para produção, quatro modos de falha quase sempre aparecem
Por isso, o sinal para 2026 é simples:
DIY (implementar a receita) ↓ / Packaging (kit de refeição) ↑
- Em vez de “ler o artigo e implementar”, vencem as unidades prontas para deploy
- Empacotamentos como NVIDIA NIM / SLM / Ollama criam um fluxo de padronização

Definição do problema: artigos de IA são “receitas Michelin”

O autor compara artigos de pesquisa em IA a receitas de chefs Michelin.
A receita em si não é ruim. É só que a nossa cozinha é diferente.

Os artigos são preparados em cozinhas perfeitas.

clusters H100
datasets limpos e refinados
truques ocultos otimizados para o ambiente experimental

Mas quando essa receita desce para o mundo real (on-premises/legado/compliance/operação), o mesmo padrão se repete.

Do artigo à produção: 4 modos de falha

1) Broken Utensils (infraestrutura)

Os resultados dos artigos saem com base em milhares de H100s
A realidade é GPUs pequenas / VRAM limitada / rede restrita
O problema não é “o desempenho cair um pouco”
→ o fenômeno em si não aparece
Sintomas comuns:
- “Roda, mas não apresenta o comportamento esperado”
- O pipeline termina, mas o promised behavior não aparece

2) Spoiled Ingredients (dados)

Os artigos assumem dados refinados
Os dados do mundo real são:
- logs, PDFs escaneados, documentos legados, mudanças de schema, fontes pouco claras
RAG/inferência vai direto para alucinação quando estrutura, base factual e consistência se quebram
O ponto ainda mais perigoso:
- Como é fluente, passa mais confiança
- “Parece normal, mas está errado” é o cenário mais caro

3) Missing Salt (detalhes de engenharia)

A parte “Season to taste” é a maior de todas
O verdadeiro campo de batalha é:
- inicialização / scheduler / tuning na casa de 0,001 / templates de prompt
Isso não cabe em 8 páginas de artigo
No fim, a prática real se decide aqui:
- Não é a receita, e sim o tempero secreto (as condições de reprodução) que determina o resultado

4) Responsibility Gap (responsabilidade)

Quando falha, a conclusão costuma ser:
- “A matemática está certa. O problema é o seu ambiente”
A responsabilidade por essa lacuna vai para downstream
→ no fim, quem sofre o impacto é quem leu o artigo e recomendou aquilo.
Quando vem incidente/auditoria, vira “o sistema que nós construímos”

Duas limitações estruturais: o que faz abandonar o DIY

A) Paper Explosion = Noise Tax

Quanto mais artigos, mais explode o custo de triagem.

Lemos mais, mas os produtos ficam menos estáveis
Quanto mais se persegue o SOTA, menor a operacionalização
Não é “abundância de conhecimento”, e sim “custo de escolha”

B) Mudança na direção do capital: de “artigos” para “operação”

O dinheiro está migrando de “novas receitas” para pacotes operáveis.
As perguntas dos investidores mudaram.

é demo ou é operação?
funciona em custo/latência/observabilidade/auditoria?

Os riscos operacionais normalmente convergem para estes 3:

Risco de custo: funciona no PoC, mas quebra na operação
Risco de confiança: se a base factual/origem quebrar, a resposta pode soar plausível e ainda assim ser perigosa
Risco de responsabilidade: quando há incidente ou auditoria, a responsabilidade vira nossa

O sinal mais forte de 2026: Packaging

AI Meal Kit = pronto para deploy + unidade de entrega com fronteira clara de responsabilidade em caso de falha

Ou seja, a conclusão para 2026 é esta:

Packaging beats ingenuity.

4 sinais de mercado

Signal #1) NVIDIA NIMs

Configuração de modelo/dependências/otimizações fixada em contêiner
Menos adivinhação no toolchain
O tempero secreto já está embutido.
A mensagem: “Tune less. Run more.”

Signal #2) SLMs

Aumentam as “receitas ajustadas à cozinha”
Cresce a possibilidade de operar localmente/no edge
Direção: bounded / predictable / cheaper to operate

Signal #3) AI in a Box

O servidor deixa de ser vendido como “componente” e passa a ser vendido como “produto final”
Inclui RAG/segurança/configuração básica
Efeito: passa a existir um limite claro sobre quem é responsável pela lacuna

Signal #4) Ollama / LM Studio

A dificuldade de configurar o ambiente despenca
O número de operadores aumenta
E quando os operadores aumentam, o mercado sempre segue este padrão: a padronização acelera

Perspectiva prática: métricas para ver de imediato

Compute Fit: o desempenho-alvo se reproduz nas “nossas GPUs/VRAM”?
Data Fit: os dados de entrada mantêm “estrutura/base factual/origem”?
Hidden Salt: os scripts/prompts/valores de tuning necessários para reproduzir estão com versão fixada?
Owner: quando falha, onde está a superfície de responsabilidade? (nós? fornecedor? pacote?)
Ops: observabilidade (logs/métricas), rollback, teto de custo e auditoria estão embutidos no design?

Conclusão

Em 2026, mais do que “modelos mais inteligentes”,
vence a “unidade de deploy que quebra menos”.

Os artigos vão continuar saindo, mas o mercado compra inteligência empacotada.
As equipes também precisam escolher.

continuar implementando receitas
ou empacotar/operar no nível de um kit de refeição

One-liner

“Os artigos vendem ideias, o mercado compra operação.”

2 comentários

cgl00 2026-01-20

Mas, no mundo dos negócios, já existiam casos de ler um artigo e implementar diretamente para usar..?

flamehaven01 2026-01-21

Tem sim. Mas, na maioria dos casos, em vez de construir tudo do zero a partir de um artigo, o pessoal acaba seguindo implementações de referência open source.
Hoje em dia, quando sai um paper quente na área de IA, também surgem vários POCs de uma vez, mas, na prática, em produção, por causa de dados/infra/tuning, muitas vezes “até roda, mas não entrega o sabor esperado”.
Por isso, ultimamente, dá a sensação de que está todo mundo migrando para stacks empacotadas, como vLLM e Ollama.