Comparação de programação entre Gemini 2.5 Pro e Claude 3.7 Sonnet

(composio.dev)

9 pontos por GN⁺ 2025-04-01 | 1 comentários | Compartilhar no WhatsApp

Gemini 2.5 Pro é superior na escrita de código
Claude 3.7 Sonnet também é excelente, mas neste momento vale mais a pena usar o Gemini 2.5 Pro
A janela de contexto de 1 milhão de tokens e a disponibilidade gratuita são grandes vantagens
No passado, Claude 3.7 Sonnet era sempre a referência de comparação, mas isso mudou

Breve introdução ao Gemini 2.5 Pro

Modelo experimental de raciocínio lançado pelo Google em 26 de março de 2025
Após o lançamento, causou enorme repercussão no Twitter(X), YouTube e outros canais
Ficou em 1º lugar no LMArena, mostrando desempenho excelente em escrita de código, matemática, ciência, compreensão de imagens e mais
Oferece janela de contexto de 1 milhão de tokens, com 2 milhões de tokens já anunciados para o futuro
No SWE Bench, alcançou precisão de 63,8%, acima dos 62,3% do Claude 3.7 Sonnet
Demonstrou desempenho excepcional com vários exemplos, incluindo a demo do jogo do dinossauro apresentada pelo Google
No geral, é avaliado como um modelo versátil adequado não só para programação, mas para todo tipo de tarefa intelectual

Comparação dos testes de programação

1. Criar um simulador de voo

Gemini 2.5 Pro
- Gerou um simulador que funciona perfeitamente
- Atendeu a todos os requisitos, incluindo controle do avião e geração de uma cidade no estilo Minecraft
- Nível de acabamento 10/10
Claude 3.7 Sonnet
- Apresentou problemas como o avião voando de lado e saindo para fora da cidade
- Menor grau de completude funcional
Resumo: vitória total do Gemini 2.5 Pro

2. Visualização e solução de um cubo mágico

Gemini 2.5 Pro
- Implementou corretamente a visualização e a solução de primeira
- Usou Three.js e implementou perfeitamente as cores do cubo, embaralhamento aleatório, animações e mais
Claude 3.7 Sonnet
- Falhou na exibição das cores e também na resolução
- Mostrou limitações semelhantes às de outros LLMs
Resumo: Gemini 2.5 Pro também domina amplamente este item

3. Visualização de uma bola quicando dentro de um tesserato 4D

Gemini 2.5 Pro
- Atendeu a todos os requisitos, incluindo colisões físicas e destaque das faces
- Qualidade do código e funcionamento muito bons
Claude 3.7 Sonnet
- A funcionalidade funciona, mas adiciona cores desnecessárias
- Ainda assim, atende às funcionalidades exigidas
Resumo: ambos os modelos atenderam aos requisitos, e o Claude finalmente conseguiu

4. Problema do LeetCode: encontrar a soma máxima com a colocação de 3 torres

Gemini 2.5 Pro
- Escreveu um código complexo, mas com solução correta
- Também considerou adequadamente a complexidade de tempo
Claude 3.7 Sonnet
- Escreveu um código conciso, mas ocorreu tempo limite excedido (TLE)
- É fácil de entender, mas fica devendo em desempenho
Resumo: Gemini 2.5 Pro lidera tanto em desempenho quanto em precisão

Conclusão

Gemini 2.5 Pro tem uma vantagem clara
- Supera o Claude 3.7 Sonnet em janela de contexto, precisão e desempenho multitarefa
Claude continua sendo um excelente modelo, mas no momento usar o Gemini é mais eficiente
Quando a expansão para uma janela de 2 milhões de tokens chegar, o desempenho deve melhorar ainda mais
Junto com o modelo leve Gemma 3 27B lançado recentemente pelo Google, forma uma linha de IA muito forte

1 comentários

GN⁺ 2025-04-01

Opiniões no Hacker News

Gostaria de abrir uma competição com prêmio em dinheiro sobre um problema real de programação. Seria preciso definir as regras. Tenho dúvidas se um LLM conseguiria resolver esse problema
- Seria criar uma versão GTK 4 do Solvespace
- Existe um único arquivo C++ para cada plataforma
- O objetivo é reescrever o arquivo GTK3 para GTK4
- Se quiser provar o desempenho da IA, recomendam documentar toda a sessão e transformá-la em um vídeo no YouTube
- O teste final é se o PR será aceito ou não
O Gemini é o único modelo que informa quando a conversa está prestes a ser interrompida
- O ChatGPT tende a esquecer a conversa quando o contexto fica cheio
- O Gemini tem menos ferramentas, mas no geral parece um modelo melhor
Usei o Gemini 2.5 Pro e achei bem decente
- O Claude 3.5 parece melhor em seguir instruções
- Fiquei decepcionado com o Cursor e com as ferramentas CLI do Claude
- Gosto da forma como o Gemini mostra a janela de contexto
- Acho que o mercado não aguenta as avaliações das grandes empresas de IA
- Às vezes os modelos gratuitos são melhores
Na competição entre modelos de IA, o perdedor parece ser a Microsoft
- Quando o ChatGPT era a única opção, a Microsoft era vista como líder
- O Copilot é um fracasso, e o Bing não soube aproveitar a IA
- Foi mencionado que Sundar Pichai, do Google, quer comparar com os modelos da Microsoft
O Gemini 2.5 Pro obteve uma pontuação alta no ranking de programação polyglot do aider
- Ele é usado principalmente no trabalho da release mais recente do aider
- No momento, o maior problema do Gemini é o limite de taxa muito rígido
No exemplo do Cubo de Rubik, o Gemini 2.5 usou uma sequência de embaralhamento memorizada
- Resolveu o cubo invertendo a sequência de embaralhamento
Quando usava Visual Basic nos anos 90, criar um novo projeto a partir de um template era algo interessante
- Programação com IA é parecida com isso, mas parece exagerada
- Houve um comentário dizendo que ficou confuso com o avião do Claude estar de lado
O Gemini 2.5 não vai bem com código Cython complexo
- Claude e o3 seguem bem as instruções
- O Gemini tenta fazer mudanças que não têm relação
Há uma pergunta sobre a necessidade de uma discussão sem viés
- O link do OP parece ser uma propaganda enviesada da Composio
- Há descrições exageradas sobre o Gemini 2.5 Pro
Todas as tarefas de teste são projetos greenfield
- Para usar um LLM, é preciso fazer mudanças ou correções em projetos existentes
- Acho que esses testes não fazem sentido para medir a utilidade do modelo

Comparação de programação entre Gemini 2.5 Pro e Claude 3.7 Sonnet

Breve introdução ao Gemini 2.5 Pro

Comparação dos testes de programação

1. Criar um simulador de voo

2. Visualização e solução de um cubo mágico

3. Visualização de uma bola quicando dentro de um tesserato 4D

4. Problema do LeetCode: encontrar a soma máxima com a colocação de 3 torres

Conclusão

Leituras relacionadas

1 comentários

Opiniões no Hacker News