Por que contextos longos falham
(dbreunig.com)- As últimas grandes LLMs passaram a adotar janelas de contexto longas com suporte de até 1 milhão de tokens, gerando expectativa de um salto enorme no desempenho de agentes
- Na prática, porém, contextos longos não produzem respostas melhores e, ao contrário, podem levar o sistema ao fracasso por causa de vício em contexto, erros, confusão e conflitos
- Envenenamento de contexto (poisoning), distração de contexto (distraction), confusão de contexto (confusion) e conflito de contexto (clash) são os principais problemas
- Esses problemas afetam ainda mais os agentes em fluxos complexos, especialmente com múltiplas fontes de informação, integração com ferramentas e raciocínio em várias etapas
- Um próximo texto deve abordar soluções práticas e estratégias para evitar esses problemas
A importância do gerenciamento de contexto
- Os modelos frontier mais recentes oferecem janelas de contexto extensas com suporte de até 1 milhão de tokens
- Muita gente passou a esperar que seria possível jogar todas as ferramentas, documentos e instruções dentro dessa janela sem problemas
- Mas, na prática, a sobrecarga de contexto provoca vários tipos de falha e se torna especialmente crítica em aplicações baseadas em agentes
Envenenamento de contexto (Context Poisoning)
- O envenenamento de contexto é o fenômeno em que alucinações (hallucinations) ou erros entram no contexto e passam a ser referenciados repetidamente
- O relatório técnico do Gemini 2.5 da Deep Mind descreve casos em que, durante um jogo, um estado incorreto do jogo permaneceu nas seções de objetivo ou resumo, levando o agente a repetir comportamentos errados com estratégias sem sentido e objetivos impossíveis
- Esse contexto contaminado pode prejudicar temporária ou prolongadamente o julgamento do agente
Distração de contexto (Context Distraction)
- A distração de contexto ocorre quando o contexto fica tão longo que o modelo passa a focar excessivamente no contexto em vez do que aprendeu durante o treinamento
- Mesmo na janela de 1M+ tokens do Gemini 2.5 Pro, na prática, quando o contexto ultrapassa 100.000 tokens, o modelo tende a apenas repetir o histórico anterior e tem dificuldade em fazer planejamento criativo
- Pesquisas da Databricks confirmam que, no caso do Llama 3.1 405b, a precisão já despenca em 32.000 tokens
- Isso sugere que janelas extremamente grandes, na prática, são úteis principalmente para sumarização (summarization) e recuperação de fatos (retrieval)
Confusão de contexto (Context Confusion)
- Colocar ferramentas ou definições demais no contexto leva o modelo a gerar respostas de baixa qualidade, como chamadas de ferramenta desnecessárias ou inadequadas
- Segundo o Function-Calling Leaderboard de Berkeley, quanto mais ferramentas são oferecidas, mais o desempenho de todos os modelos cai, e chamadas desnecessárias ocorrem com frequência
- No artigo do benchmark GeoEngine, o modelo Llama 3.1 8b falhou quando recebeu 46 ferramentas, mas teve sucesso quando recebeu apenas 19
- As informações presentes no contexto são interpretadas pelo modelo como algo que ele precisa necessariamente considerar, o que faz com que ruído desnecessário vire problema
Conflito de contexto (Context Clash)
- Conflito de contexto é o estado em que há informações mutuamente contraditórias ou conflitantes entre dados coletados em várias etapas ou descrições de ferramentas
- Pesquisas da Microsoft e da Salesforce mostram que, em conversas de múltiplos turnos, esse fenômeno leva a uma queda média de 39% no desempenho
- Isso acontece porque uma suposição errada é criada na resposta inicial, e depois a estrutura continua dependendo excessivamente dessa resposta
- O risco de conflito aumenta ao se conectar com ferramentas externas, como MCP
Conclusão e perspectivas
- O surgimento do contexto de um milhão de tokens foi visto como uma inovação, mas, na prática, também aumentou novos tipos de erro, como envenenamento, distração, confusão e conflito
- Esses problemas são especialmente fatais em sistemas de agentes onde se acumulam coleta de múltiplas informações, encadeamento gradual de ferramentas e longos históricos de conversa
- Como solução, podem ser propostas várias estratégias, como carregamento dinâmico de ferramentas e isolamento de contexto, que devem ser tratadas em detalhes em um texto futuro
Próximo texto: “Como consertar seu contexto”
Ainda não há comentários.