- Nos últimos 5 anos, as empresas aumentaram competitivamente o tamanho da janela de contexto de 2K para 2M
- Porém, muitas pessoas apontam que o tamanho da janela de contexto anunciado e o tamanho realmente utilizável no modelo são diferentes
- Ao comparar o desempenho real de modelos importantes como Gemini 2.5 Pro, GPT-5, Claude, Qwen e Llama, há muitos relatos de experiências bem diferentes do que foi divulgado
- Há um contraste entre a visão cética de que “contextos grandes têm valor, mas na prática só funcionam direito perto de 4–8k” e relatos positivos de que “é possível usar na prática até centenas de milhares de tokens”
Principais pontos
-
1. Tamanho de contexto realmente utilizável
- A linha do tempo de uso real é 1k→2k→4k→8k→8k→8k→32k→40k, com apenas o Gemini 2.5 Pro chegando a 80k
- Até hoje, a faixa de uso efetivo ainda se limita a 4–8k
- “O tamanho rotulado é irrelevante; o que importa é o comprimento de contexto utilizável”
- Reconhecimento da diferença entre o tamanho declarado e o tamanho realmente utilizável
-
2. Desempenho do Gemini
- O Gemini 2.5 Pro é estável até 250k, utilizável em 500k e, em 800k, ainda responde, mas com queda de precisão
- Até 200k a degradação é muito lenta e, mesmo depois disso, o Gemini continua sendo o melhor
- O Gemini não usa expansão de RoPE, mas uma arquitetura própria como sequence sharding, e algumas camadas executam atenção densa sobre todos os tokens
-
3. Avaliação do GPT-5
- O GPT-5-thinking funciona bem mesmo acima de 200k
- Até 100k é muito preciso, mas perde desempenho mais cedo que o Gemini
-
4. Avaliação do Claude
- Há uma opinião recorrente de que o Claude é fraco para manter contextos grandes
- Lembra errado de detalhes, ordem de eventos, nomes de métodos ou produz alucinações
- O Claude Sonnet 4 tem problemas de memória até mesmo com 4k, ficando abaixo do Qwen 32b
- “O Claude é realmente ruim, migrei para o Qwen”
-
5. Qwen, Mistral, Gemma etc.
- Mistral Large e Gemma3 27B parecem se sair bem em 32k
- O Gemma3 está entre os piores; recomendam consultar o benchmark Fiction.live
-
6. Série Llama
- O Llama 4 Scout afirma suportar 10 milhões de tokens
- A faixa realmente utilizável é muito menor. Em um teste de contexto de 0.5M, resumiu apenas o último documento, tornando-se inadequado também para codebases grandes
-
7. Experiências detalhadas por modelo
- “Coerência (coherence) ≠ usabilidade real”; até o Gemini 2.5 Pro tem dificuldade para rastrear contexto em resumos de romances de 10–20k
- O Gemini 1.5 Pro é considerado mais fraco em outras áreas, mas melhor que o 2.5 Pro na interpretação de contexto longo
- Ferramentas de coding orientadas a agentes têm prompts de sistema acima de 20k, então a ideia de que só se pode usar 4–8k está errada. Ainda assim, o contexto inicial é o mais estável
Outros
- Compartilhamento de ferramentas/recursos:
- Ferramenta para criar gráficos animados: Remotion
- Material relacionado à degradação de desempenho: LoCoDiff-bench
Conclusão
- Consenso geral: há uma grande diferença entre a “especificação oficial” e o “desempenho em uso real” de cada modelo
- Gemini: em geral, é avaliado como o mais estável e forte em contextos de grande volume
- GPT-5: excelente até um ponto intermediário, mas começa a degradar antes do Gemini
- Claude: recebe a pior avaliação no uso de contexto longo
- Llama/Gemma: a usabilidade real fica aquém das especificações anunciadas
3 comentários
Na verdade, eu não senti uma diferença tão esmagadora quanto a que os benchmarks costumam indicar.
Na prática, a sensação foi mais de algo “um pouco melhor”, não algo tão diferente assim.
Na verdade, como o desempenho dos modelos está ficando cada vez mais nivelado por cima, também dá a impressão de que as pessoas estão comparando com mais rigor haha
No fim, acho que o mais importante é que isso varia conforme a situação em que você vai usar.
O Gemini tem uma janela de contexto enorme, então parece ser bom para codebases grandes ou para manter contextos longos, enquanto o Claude tem como ponto forte uma precisão estável para programação, então acho que dá para escolher de acordo com o caso de uso.
Além dos números de benchmarks de IA, existe algum modelo que, na experiência real de uso, tenha desempenho de programação melhor que o Claude?
Embora o Claude tenha desvantagens com contexto longo, acho que ele é o melhor para programação.