Por que contextos longos falham

(dbreunig.com)

3 pontos por GN⁺ 2025-07-06 | Ainda não há comentários. | Compartilhar no WhatsApp

As últimas grandes LLMs passaram a adotar janelas de contexto longas com suporte de até 1 milhão de tokens, gerando expectativa de um salto enorme no desempenho de agentes
Na prática, porém, contextos longos não produzem respostas melhores e, ao contrário, podem levar o sistema ao fracasso por causa de vício em contexto, erros, confusão e conflitos
Envenenamento de contexto (poisoning), distração de contexto (distraction), confusão de contexto (confusion) e conflito de contexto (clash) são os principais problemas
Esses problemas afetam ainda mais os agentes em fluxos complexos, especialmente com múltiplas fontes de informação, integração com ferramentas e raciocínio em várias etapas
Um próximo texto deve abordar soluções práticas e estratégias para evitar esses problemas

A importância do gerenciamento de contexto

Os modelos frontier mais recentes oferecem janelas de contexto extensas com suporte de até 1 milhão de tokens
Muita gente passou a esperar que seria possível jogar todas as ferramentas, documentos e instruções dentro dessa janela sem problemas
Mas, na prática, a sobrecarga de contexto provoca vários tipos de falha e se torna especialmente crítica em aplicações baseadas em agentes

O envenenamento de contexto é o fenômeno em que alucinações (hallucinations) ou erros entram no contexto e passam a ser referenciados repetidamente
O relatório técnico do Gemini 2.5 da Deep Mind descreve casos em que, durante um jogo, um estado incorreto do jogo permaneceu nas seções de objetivo ou resumo, levando o agente a repetir comportamentos errados com estratégias sem sentido e objetivos impossíveis
Esse contexto contaminado pode prejudicar temporária ou prolongadamente o julgamento do agente

A distração de contexto ocorre quando o contexto fica tão longo que o modelo passa a focar excessivamente no contexto em vez do que aprendeu durante o treinamento
Mesmo na janela de 1M+ tokens do Gemini 2.5 Pro, na prática, quando o contexto ultrapassa 100.000 tokens, o modelo tende a apenas repetir o histórico anterior e tem dificuldade em fazer planejamento criativo
Pesquisas da Databricks confirmam que, no caso do Llama 3.1 405b, a precisão já despenca em 32.000 tokens
Isso sugere que janelas extremamente grandes, na prática, são úteis principalmente para sumarização (summarization) e recuperação de fatos (retrieval)

Colocar ferramentas ou definições demais no contexto leva o modelo a gerar respostas de baixa qualidade, como chamadas de ferramenta desnecessárias ou inadequadas
Segundo o Function-Calling Leaderboard de Berkeley, quanto mais ferramentas são oferecidas, mais o desempenho de todos os modelos cai, e chamadas desnecessárias ocorrem com frequência
No artigo do benchmark GeoEngine, o modelo Llama 3.1 8b falhou quando recebeu 46 ferramentas, mas teve sucesso quando recebeu apenas 19
As informações presentes no contexto são interpretadas pelo modelo como algo que ele precisa necessariamente considerar, o que faz com que ruído desnecessário vire problema

Conflito de contexto é o estado em que há informações mutuamente contraditórias ou conflitantes entre dados coletados em várias etapas ou descrições de ferramentas
Pesquisas da Microsoft e da Salesforce mostram que, em conversas de múltiplos turnos, esse fenômeno leva a uma queda média de 39% no desempenho
Isso acontece porque uma suposição errada é criada na resposta inicial, e depois a estrutura continua dependendo excessivamente dessa resposta
O risco de conflito aumenta ao se conectar com ferramentas externas, como MCP

O surgimento do contexto de um milhão de tokens foi visto como uma inovação, mas, na prática, também aumentou novos tipos de erro, como envenenamento, distração, confusão e conflito
Esses problemas são especialmente fatais em sistemas de agentes onde se acumulam coleta de múltiplas informações, encadeamento gradual de ferramentas e longos históricos de conversa
Como solução, podem ser propostas várias estratégias, como carregamento dinâmico de ferramentas e isolamento de contexto, que devem ser tratadas em detalhes em um texto futuro