Linha do tempo da expansão do tamanho da janela de contexto dos LLMs nos últimos 5 anos

(reddit.com)

10 pontos por GN⁺ 2025-08-27 | 3 comentários | Compartilhar no WhatsApp

Nos últimos 5 anos, as empresas aumentaram competitivamente o tamanho da janela de contexto de 2K para 2M
Porém, muitas pessoas apontam que o tamanho da janela de contexto anunciado e o tamanho realmente utilizável no modelo são diferentes
Ao comparar o desempenho real de modelos importantes como Gemini 2.5 Pro, GPT-5, Claude, Qwen e Llama, há muitos relatos de experiências bem diferentes do que foi divulgado
Há um contraste entre a visão cética de que “contextos grandes têm valor, mas na prática só funcionam direito perto de 4–8k” e relatos positivos de que “é possível usar na prática até centenas de milhares de tokens”

Principais pontos

1. Tamanho de contexto realmente utilizável
- A linha do tempo de uso real é 1k→2k→4k→8k→8k→8k→32k→40k, com apenas o Gemini 2.5 Pro chegando a 80k
- Até hoje, a faixa de uso efetivo ainda se limita a 4–8k
- “O tamanho rotulado é irrelevante; o que importa é o comprimento de contexto utilizável”
- Reconhecimento da diferença entre o tamanho declarado e o tamanho realmente utilizável
2. Desempenho do Gemini
- O Gemini 2.5 Pro é estável até 250k, utilizável em 500k e, em 800k, ainda responde, mas com queda de precisão
- Até 200k a degradação é muito lenta e, mesmo depois disso, o Gemini continua sendo o melhor
- O Gemini não usa expansão de RoPE, mas uma arquitetura própria como sequence sharding, e algumas camadas executam atenção densa sobre todos os tokens
3. Avaliação do GPT-5
- O GPT-5-thinking funciona bem mesmo acima de 200k
- Até 100k é muito preciso, mas perde desempenho mais cedo que o Gemini
4. Avaliação do Claude
- Há uma opinião recorrente de que o Claude é fraco para manter contextos grandes
  - Lembra errado de detalhes, ordem de eventos, nomes de métodos ou produz alucinações
- O Claude Sonnet 4 tem problemas de memória até mesmo com 4k, ficando abaixo do Qwen 32b
- “O Claude é realmente ruim, migrei para o Qwen”
5. Qwen, Mistral, Gemma etc.
- Mistral Large e Gemma3 27B parecem se sair bem em 32k
- O Gemma3 está entre os piores; recomendam consultar o benchmark Fiction.live
6. Série Llama
- O Llama 4 Scout afirma suportar 10 milhões de tokens
- A faixa realmente utilizável é muito menor. Em um teste de contexto de 0.5M, resumiu apenas o último documento, tornando-se inadequado também para codebases grandes
7. Experiências detalhadas por modelo
- “Coerência (coherence) ≠ usabilidade real”; até o Gemini 2.5 Pro tem dificuldade para rastrear contexto em resumos de romances de 10–20k
- O Gemini 1.5 Pro é considerado mais fraco em outras áreas, mas melhor que o 2.5 Pro na interpretação de contexto longo
- Ferramentas de coding orientadas a agentes têm prompts de sistema acima de 20k, então a ideia de que só se pode usar 4–8k está errada. Ainda assim, o contexto inicial é o mais estável

Outros

Compartilhamento de ferramentas/recursos:
- Ferramenta para criar gráficos animados: Remotion
- Material relacionado à degradação de desempenho: LoCoDiff-bench

Conclusão

Consenso geral: há uma grande diferença entre a “especificação oficial” e o “desempenho em uso real” de cada modelo
Gemini: em geral, é avaliado como o mais estável e forte em contextos de grande volume
GPT-5: excelente até um ponto intermediário, mas começa a degradar antes do Gemini
Claude: recebe a pior avaliação no uso de contexto longo
Llama/Gemma: a usabilidade real fica aquém das especificações anunciadas

3 comentários

firstlesson 2025-08-27

Na verdade, eu não senti uma diferença tão esmagadora quanto a que os benchmarks costumam indicar.
Na prática, a sensação foi mais de algo “um pouco melhor”, não algo tão diferente assim.
Na verdade, como o desempenho dos modelos está ficando cada vez mais nivelado por cima, também dá a impressão de que as pessoas estão comparando com mais rigor haha
No fim, acho que o mais importante é que isso varia conforme a situação em que você vai usar.

O Gemini tem uma janela de contexto enorme, então parece ser bom para codebases grandes ou para manter contextos longos, enquanto o Claude tem como ponto forte uma precisão estável para programação, então acho que dá para escolher de acordo com o caso de uso.

tested 2025-08-27

Além dos números de benchmarks de IA, existe algum modelo que, na experiência real de uso, tenha desempenho de programação melhor que o Claude?

shakespeares 2025-08-27

Embora o Claude tenha desvantagens com contexto longo, acho que ele é o melhor para programação.

Linha do tempo da expansão do tamanho da janela de contexto dos LLMs nos últimos 5 anos

Principais pontos

1. Tamanho de contexto realmente utilizável

2. Desempenho do Gemini

3. Avaliação do GPT-5

4. Avaliação do Claude

5. Qwen, Mistral, Gemma etc.

6. Série Llama

7. Experiências detalhadas por modelo

Outros

Conclusão

Leituras relacionadas

3 comentários