10 pontos por GN⁺ 2025-08-27 | 3 comentários | Compartilhar no WhatsApp
  • Nos últimos 5 anos, as empresas aumentaram competitivamente o tamanho da janela de contexto de 2K para 2M
  • Porém, muitas pessoas apontam que o tamanho da janela de contexto anunciado e o tamanho realmente utilizável no modelo são diferentes
  • Ao comparar o desempenho real de modelos importantes como Gemini 2.5 Pro, GPT-5, Claude, Qwen e Llama, há muitos relatos de experiências bem diferentes do que foi divulgado
  • Há um contraste entre a visão cética de que “contextos grandes têm valor, mas na prática só funcionam direito perto de 4–8k” e relatos positivos de que “é possível usar na prática até centenas de milhares de tokens”

Principais pontos

  • 1. Tamanho de contexto realmente utilizável

    • A linha do tempo de uso real é 1k→2k→4k→8k→8k→8k→32k→40k, com apenas o Gemini 2.5 Pro chegando a 80k
    • Até hoje, a faixa de uso efetivo ainda se limita a 4–8k
    • “O tamanho rotulado é irrelevante; o que importa é o comprimento de contexto utilizável”
    • Reconhecimento da diferença entre o tamanho declarado e o tamanho realmente utilizável
  • 2. Desempenho do Gemini

    • O Gemini 2.5 Pro é estável até 250k, utilizável em 500k e, em 800k, ainda responde, mas com queda de precisão
    • Até 200k a degradação é muito lenta e, mesmo depois disso, o Gemini continua sendo o melhor
    • O Gemini não usa expansão de RoPE, mas uma arquitetura própria como sequence sharding, e algumas camadas executam atenção densa sobre todos os tokens
  • 3. Avaliação do GPT-5

    • O GPT-5-thinking funciona bem mesmo acima de 200k
    • Até 100k é muito preciso, mas perde desempenho mais cedo que o Gemini
  • 4. Avaliação do Claude

    • Há uma opinião recorrente de que o Claude é fraco para manter contextos grandes
      • Lembra errado de detalhes, ordem de eventos, nomes de métodos ou produz alucinações
    • O Claude Sonnet 4 tem problemas de memória até mesmo com 4k, ficando abaixo do Qwen 32b
    • “O Claude é realmente ruim, migrei para o Qwen”
  • 5. Qwen, Mistral, Gemma etc.

    • Mistral Large e Gemma3 27B parecem se sair bem em 32k
    • O Gemma3 está entre os piores; recomendam consultar o benchmark Fiction.live
  • 6. Série Llama

    • O Llama 4 Scout afirma suportar 10 milhões de tokens
    • A faixa realmente utilizável é muito menor. Em um teste de contexto de 0.5M, resumiu apenas o último documento, tornando-se inadequado também para codebases grandes
  • 7. Experiências detalhadas por modelo

    • “Coerência (coherence) ≠ usabilidade real”; até o Gemini 2.5 Pro tem dificuldade para rastrear contexto em resumos de romances de 10–20k
    • O Gemini 1.5 Pro é considerado mais fraco em outras áreas, mas melhor que o 2.5 Pro na interpretação de contexto longo
    • Ferramentas de coding orientadas a agentes têm prompts de sistema acima de 20k, então a ideia de que só se pode usar 4–8k está errada. Ainda assim, o contexto inicial é o mais estável

Outros

  • Compartilhamento de ferramentas/recursos:
    • Ferramenta para criar gráficos animados: Remotion
    • Material relacionado à degradação de desempenho: LoCoDiff-bench

Conclusão

  • Consenso geral: há uma grande diferença entre a “especificação oficial” e o “desempenho em uso real” de cada modelo
  • Gemini: em geral, é avaliado como o mais estável e forte em contextos de grande volume
  • GPT-5: excelente até um ponto intermediário, mas começa a degradar antes do Gemini
  • Claude: recebe a pior avaliação no uso de contexto longo
  • Llama/Gemma: a usabilidade real fica aquém das especificações anunciadas

3 comentários

 
firstlesson 2025-08-27

Na verdade, eu não senti uma diferença tão esmagadora quanto a que os benchmarks costumam indicar.
Na prática, a sensação foi mais de algo “um pouco melhor”, não algo tão diferente assim.
Na verdade, como o desempenho dos modelos está ficando cada vez mais nivelado por cima, também dá a impressão de que as pessoas estão comparando com mais rigor haha
No fim, acho que o mais importante é que isso varia conforme a situação em que você vai usar.

O Gemini tem uma janela de contexto enorme, então parece ser bom para codebases grandes ou para manter contextos longos, enquanto o Claude tem como ponto forte uma precisão estável para programação, então acho que dá para escolher de acordo com o caso de uso.

 
tested 2025-08-27

Além dos números de benchmarks de IA, existe algum modelo que, na experiência real de uso, tenha desempenho de programação melhor que o Claude?

 
shakespeares 2025-08-27

Embora o Claude tenha desvantagens com contexto longo, acho que ele é o melhor para programação.