- Gemini 2.5 Pro é superior na escrita de código
- Claude 3.7 Sonnet também é excelente, mas neste momento vale mais a pena usar o Gemini 2.5 Pro
- A janela de contexto de 1 milhão de tokens e a disponibilidade gratuita são grandes vantagens
- No passado, Claude 3.7 Sonnet era sempre a referência de comparação, mas isso mudou
Breve introdução ao Gemini 2.5 Pro
- Modelo experimental de raciocínio lançado pelo Google em 26 de março de 2025
- Após o lançamento, causou enorme repercussão no Twitter(X), YouTube e outros canais
- Ficou em 1º lugar no LMArena, mostrando desempenho excelente em escrita de código, matemática, ciência, compreensão de imagens e mais
- Oferece janela de contexto de 1 milhão de tokens, com 2 milhões de tokens já anunciados para o futuro
- No SWE Bench, alcançou precisão de 63,8%, acima dos 62,3% do Claude 3.7 Sonnet
- Demonstrou desempenho excepcional com vários exemplos, incluindo a demo do jogo do dinossauro apresentada pelo Google
- No geral, é avaliado como um modelo versátil adequado não só para programação, mas para todo tipo de tarefa intelectual
Comparação dos testes de programação
1. Criar um simulador de voo
- Gemini 2.5 Pro
- Gerou um simulador que funciona perfeitamente
- Atendeu a todos os requisitos, incluindo controle do avião e geração de uma cidade no estilo Minecraft
- Nível de acabamento 10/10
- Claude 3.7 Sonnet
- Apresentou problemas como o avião voando de lado e saindo para fora da cidade
- Menor grau de completude funcional
- Resumo: vitória total do Gemini 2.5 Pro
2. Visualização e solução de um cubo mágico
- Gemini 2.5 Pro
- Implementou corretamente a visualização e a solução de primeira
- Usou Three.js e implementou perfeitamente as cores do cubo, embaralhamento aleatório, animações e mais
- Claude 3.7 Sonnet
- Falhou na exibição das cores e também na resolução
- Mostrou limitações semelhantes às de outros LLMs
- Resumo: Gemini 2.5 Pro também domina amplamente este item
3. Visualização de uma bola quicando dentro de um tesserato 4D
- Gemini 2.5 Pro
- Atendeu a todos os requisitos, incluindo colisões físicas e destaque das faces
- Qualidade do código e funcionamento muito bons
- Claude 3.7 Sonnet
- A funcionalidade funciona, mas adiciona cores desnecessárias
- Ainda assim, atende às funcionalidades exigidas
- Resumo: ambos os modelos atenderam aos requisitos, e o Claude finalmente conseguiu
4. Problema do LeetCode: encontrar a soma máxima com a colocação de 3 torres
- Gemini 2.5 Pro
- Escreveu um código complexo, mas com solução correta
- Também considerou adequadamente a complexidade de tempo
- Claude 3.7 Sonnet
- Escreveu um código conciso, mas ocorreu tempo limite excedido (TLE)
- É fácil de entender, mas fica devendo em desempenho
- Resumo: Gemini 2.5 Pro lidera tanto em desempenho quanto em precisão
Conclusão
- Gemini 2.5 Pro tem uma vantagem clara
- Supera o Claude 3.7 Sonnet em janela de contexto, precisão e desempenho multitarefa
- Claude continua sendo um excelente modelo, mas no momento usar o Gemini é mais eficiente
- Quando a expansão para uma janela de 2 milhões de tokens chegar, o desempenho deve melhorar ainda mais
- Junto com o modelo leve Gemma 3 27B lançado recentemente pelo Google, forma uma linha de IA muito forte
1 comentários
Opiniões no Hacker News
Gostaria de abrir uma competição com prêmio em dinheiro sobre um problema real de programação. Seria preciso definir as regras. Tenho dúvidas se um LLM conseguiria resolver esse problema
O Gemini é o único modelo que informa quando a conversa está prestes a ser interrompida
Usei o Gemini 2.5 Pro e achei bem decente
Na competição entre modelos de IA, o perdedor parece ser a Microsoft
O Gemini 2.5 Pro obteve uma pontuação alta no ranking de programação polyglot do aider
No exemplo do Cubo de Rubik, o Gemini 2.5 usou uma sequência de embaralhamento memorizada
Quando usava Visual Basic nos anos 90, criar um novo projeto a partir de um template era algo interessante
O Gemini 2.5 não vai bem com código Cython complexo
Há uma pergunta sobre a necessidade de uma discussão sem viés
Todas as tarefas de teste são projetos greenfield