3 pontos por GN⁺ 2025-07-06 | Ainda não há comentários. | Compartilhar no WhatsApp
  • As últimas grandes LLMs passaram a adotar janelas de contexto longas com suporte de até 1 milhão de tokens, gerando expectativa de um salto enorme no desempenho de agentes
  • Na prática, porém, contextos longos não produzem respostas melhores e, ao contrário, podem levar o sistema ao fracasso por causa de vício em contexto, erros, confusão e conflitos
  • Envenenamento de contexto (poisoning), distração de contexto (distraction), confusão de contexto (confusion) e conflito de contexto (clash) são os principais problemas
  • Esses problemas afetam ainda mais os agentes em fluxos complexos, especialmente com múltiplas fontes de informação, integração com ferramentas e raciocínio em várias etapas
  • Um próximo texto deve abordar soluções práticas e estratégias para evitar esses problemas

A importância do gerenciamento de contexto

  • Os modelos frontier mais recentes oferecem janelas de contexto extensas com suporte de até 1 milhão de tokens
  • Muita gente passou a esperar que seria possível jogar todas as ferramentas, documentos e instruções dentro dessa janela sem problemas
  • Mas, na prática, a sobrecarga de contexto provoca vários tipos de falha e se torna especialmente crítica em aplicações baseadas em agentes

Envenenamento de contexto (Context Poisoning)

  • O envenenamento de contexto é o fenômeno em que alucinações (hallucinations) ou erros entram no contexto e passam a ser referenciados repetidamente
  • O relatório técnico do Gemini 2.5 da Deep Mind descreve casos em que, durante um jogo, um estado incorreto do jogo permaneceu nas seções de objetivo ou resumo, levando o agente a repetir comportamentos errados com estratégias sem sentido e objetivos impossíveis
  • Esse contexto contaminado pode prejudicar temporária ou prolongadamente o julgamento do agente

Distração de contexto (Context Distraction)

  • A distração de contexto ocorre quando o contexto fica tão longo que o modelo passa a focar excessivamente no contexto em vez do que aprendeu durante o treinamento
  • Mesmo na janela de 1M+ tokens do Gemini 2.5 Pro, na prática, quando o contexto ultrapassa 100.000 tokens, o modelo tende a apenas repetir o histórico anterior e tem dificuldade em fazer planejamento criativo
  • Pesquisas da Databricks confirmam que, no caso do Llama 3.1 405b, a precisão já despenca em 32.000 tokens
  • Isso sugere que janelas extremamente grandes, na prática, são úteis principalmente para sumarização (summarization) e recuperação de fatos (retrieval)

Confusão de contexto (Context Confusion)

  • Colocar ferramentas ou definições demais no contexto leva o modelo a gerar respostas de baixa qualidade, como chamadas de ferramenta desnecessárias ou inadequadas
  • Segundo o Function-Calling Leaderboard de Berkeley, quanto mais ferramentas são oferecidas, mais o desempenho de todos os modelos cai, e chamadas desnecessárias ocorrem com frequência
  • No artigo do benchmark GeoEngine, o modelo Llama 3.1 8b falhou quando recebeu 46 ferramentas, mas teve sucesso quando recebeu apenas 19
  • As informações presentes no contexto são interpretadas pelo modelo como algo que ele precisa necessariamente considerar, o que faz com que ruído desnecessário vire problema

Conflito de contexto (Context Clash)

  • Conflito de contexto é o estado em que há informações mutuamente contraditórias ou conflitantes entre dados coletados em várias etapas ou descrições de ferramentas
  • Pesquisas da Microsoft e da Salesforce mostram que, em conversas de múltiplos turnos, esse fenômeno leva a uma queda média de 39% no desempenho
  • Isso acontece porque uma suposição errada é criada na resposta inicial, e depois a estrutura continua dependendo excessivamente dessa resposta
  • O risco de conflito aumenta ao se conectar com ferramentas externas, como MCP

Conclusão e perspectivas

  • O surgimento do contexto de um milhão de tokens foi visto como uma inovação, mas, na prática, também aumentou novos tipos de erro, como envenenamento, distração, confusão e conflito
  • Esses problemas são especialmente fatais em sistemas de agentes onde se acumulam coleta de múltiplas informações, encadeamento gradual de ferramentas e longos históricos de conversa
  • Como solução, podem ser propostas várias estratégias, como carregamento dinâmico de ferramentas e isolamento de contexto, que devem ser tratadas em detalhes em um texto futuro

Próximo texto: “Como consertar seu contexto

Ainda não há comentários.

Ainda não há comentários.