9 pontos por GN⁺ 2025-04-01 | 1 comentários | Compartilhar no WhatsApp
  • Gemini 2.5 Pro é superior na escrita de código
  • Claude 3.7 Sonnet também é excelente, mas neste momento vale mais a pena usar o Gemini 2.5 Pro
  • A janela de contexto de 1 milhão de tokens e a disponibilidade gratuita são grandes vantagens
  • No passado, Claude 3.7 Sonnet era sempre a referência de comparação, mas isso mudou

Breve introdução ao Gemini 2.5 Pro

  • Modelo experimental de raciocínio lançado pelo Google em 26 de março de 2025
  • Após o lançamento, causou enorme repercussão no Twitter(X), YouTube e outros canais
  • Ficou em 1º lugar no LMArena, mostrando desempenho excelente em escrita de código, matemática, ciência, compreensão de imagens e mais
  • Oferece janela de contexto de 1 milhão de tokens, com 2 milhões de tokens já anunciados para o futuro
  • No SWE Bench, alcançou precisão de 63,8%, acima dos 62,3% do Claude 3.7 Sonnet
  • Demonstrou desempenho excepcional com vários exemplos, incluindo a demo do jogo do dinossauro apresentada pelo Google
  • No geral, é avaliado como um modelo versátil adequado não só para programação, mas para todo tipo de tarefa intelectual

Comparação dos testes de programação

1. Criar um simulador de voo

  • Gemini 2.5 Pro
    • Gerou um simulador que funciona perfeitamente
    • Atendeu a todos os requisitos, incluindo controle do avião e geração de uma cidade no estilo Minecraft
    • Nível de acabamento 10/10
  • Claude 3.7 Sonnet
    • Apresentou problemas como o avião voando de lado e saindo para fora da cidade
    • Menor grau de completude funcional
  • Resumo: vitória total do Gemini 2.5 Pro

2. Visualização e solução de um cubo mágico

  • Gemini 2.5 Pro
    • Implementou corretamente a visualização e a solução de primeira
    • Usou Three.js e implementou perfeitamente as cores do cubo, embaralhamento aleatório, animações e mais
  • Claude 3.7 Sonnet
    • Falhou na exibição das cores e também na resolução
    • Mostrou limitações semelhantes às de outros LLMs
  • Resumo: Gemini 2.5 Pro também domina amplamente este item

3. Visualização de uma bola quicando dentro de um tesserato 4D

  • Gemini 2.5 Pro
    • Atendeu a todos os requisitos, incluindo colisões físicas e destaque das faces
    • Qualidade do código e funcionamento muito bons
  • Claude 3.7 Sonnet
    • A funcionalidade funciona, mas adiciona cores desnecessárias
    • Ainda assim, atende às funcionalidades exigidas
  • Resumo: ambos os modelos atenderam aos requisitos, e o Claude finalmente conseguiu

4. Problema do LeetCode: encontrar a soma máxima com a colocação de 3 torres

  • Gemini 2.5 Pro
    • Escreveu um código complexo, mas com solução correta
    • Também considerou adequadamente a complexidade de tempo
  • Claude 3.7 Sonnet
    • Escreveu um código conciso, mas ocorreu tempo limite excedido (TLE)
    • É fácil de entender, mas fica devendo em desempenho
  • Resumo: Gemini 2.5 Pro lidera tanto em desempenho quanto em precisão

Conclusão

  • Gemini 2.5 Pro tem uma vantagem clara
    • Supera o Claude 3.7 Sonnet em janela de contexto, precisão e desempenho multitarefa
  • Claude continua sendo um excelente modelo, mas no momento usar o Gemini é mais eficiente
  • Quando a expansão para uma janela de 2 milhões de tokens chegar, o desempenho deve melhorar ainda mais
  • Junto com o modelo leve Gemma 3 27B lançado recentemente pelo Google, forma uma linha de IA muito forte

1 comentários

 
GN⁺ 2025-04-01
Opiniões no Hacker News
  • Gostaria de abrir uma competição com prêmio em dinheiro sobre um problema real de programação. Seria preciso definir as regras. Tenho dúvidas se um LLM conseguiria resolver esse problema

    • Seria criar uma versão GTK 4 do Solvespace
    • Existe um único arquivo C++ para cada plataforma
    • O objetivo é reescrever o arquivo GTK3 para GTK4
    • Se quiser provar o desempenho da IA, recomendam documentar toda a sessão e transformá-la em um vídeo no YouTube
    • O teste final é se o PR será aceito ou não
  • O Gemini é o único modelo que informa quando a conversa está prestes a ser interrompida

    • O ChatGPT tende a esquecer a conversa quando o contexto fica cheio
    • O Gemini tem menos ferramentas, mas no geral parece um modelo melhor
  • Usei o Gemini 2.5 Pro e achei bem decente

    • O Claude 3.5 parece melhor em seguir instruções
    • Fiquei decepcionado com o Cursor e com as ferramentas CLI do Claude
    • Gosto da forma como o Gemini mostra a janela de contexto
    • Acho que o mercado não aguenta as avaliações das grandes empresas de IA
    • Às vezes os modelos gratuitos são melhores
  • Na competição entre modelos de IA, o perdedor parece ser a Microsoft

    • Quando o ChatGPT era a única opção, a Microsoft era vista como líder
    • O Copilot é um fracasso, e o Bing não soube aproveitar a IA
    • Foi mencionado que Sundar Pichai, do Google, quer comparar com os modelos da Microsoft
  • O Gemini 2.5 Pro obteve uma pontuação alta no ranking de programação polyglot do aider

    • Ele é usado principalmente no trabalho da release mais recente do aider
    • No momento, o maior problema do Gemini é o limite de taxa muito rígido
  • No exemplo do Cubo de Rubik, o Gemini 2.5 usou uma sequência de embaralhamento memorizada

    • Resolveu o cubo invertendo a sequência de embaralhamento
  • Quando usava Visual Basic nos anos 90, criar um novo projeto a partir de um template era algo interessante

    • Programação com IA é parecida com isso, mas parece exagerada
    • Houve um comentário dizendo que ficou confuso com o avião do Claude estar de lado
  • O Gemini 2.5 não vai bem com código Cython complexo

    • Claude e o3 seguem bem as instruções
    • O Gemini tenta fazer mudanças que não têm relação
  • Há uma pergunta sobre a necessidade de uma discussão sem viés

    • O link do OP parece ser uma propaganda enviesada da Composio
    • Há descrições exageradas sobre o Gemini 2.5 Pro
  • Todas as tarefas de teste são projetos greenfield

    • Para usar um LLM, é preciso fazer mudanças ou correções em projetos existentes
    • Acho que esses testes não fazem sentido para medir a utilidade do modelo