1 pontos por GN⁺ 2025-06-07 | 1 comentários | Compartilhar no WhatsApp
  • A versão de prévia mais recente do Gemini 2.5 Pro já está disponível antes do lançamento oficial
  • Em avaliações importantes como LMArena e WebDevArena, teve um aumento de 24 a 35 pontos Elo em relação ao modelo anterior
  • Registrou desempenho de ponta nos principais benchmarks, incluindo programação, ciência, matemática, compreensão multimodal e processamento de contexto longo
  • Com preço de entrada de $1.25 e saída de $10 (por milhão de tokens), tem uma estrutura de custos mais barata que a dos concorrentes

Comparação por principais benchmarks

  • Reasoning & Knowledge (Humanity's Last Exam): 21.6%, em nível semelhante ao de OpenAI/Anthropic e superior ao DeepSeek R1 (14%)
  • Science (GPQA diamond): 86.4%, o melhor desempenho do setor (em tentativa única)
  • Mathematics (AIME 2025): 88.0%, em nível semelhante ao OpenAI o3 e DeepSeek R1, e acima do Anthropic Claude 4/3
  • Code Generation/Editing: LiveCodeBench 69.0% e Aider Polyglot 82.2%, com alta precisão tanto em geração quanto em edição de código
  • Agentic Coding (SWE-bench Verified): 59.6% (única tentativa) e 67.2% (múltiplas tentativas), ligeiramente abaixo do Anthropic Claude 4, mas semelhante a OpenAI/DeepSeek
  • Factuality: SimpleQA 54.0% e FACTS Grounding 87.8%, com destaque na geração baseada em dados reais
  • Visual/Video/Image Understanding: MMMU 82.0%, Vibe-Eval (imagem) 67.2% e VideoMMMU (vídeo) 83.6%, com pontos fortes em texto, imagem e vídeo
  • Long Context (MRCR v2, 128K): 58.0%, o melhor desempenho entre os principais modelos concorrentes, como OpenAI, Anthropic e xAI

Preços e idiomas suportados

  • Preço de entrada: $1.25 / milhão de tokens (acima de 200K, $2.50)
  • Preço de saída: $10 / milhão de tokens (acima de 200K, $15)
  • Idiomas suportados: mais de 70 idiomas globais (MultiPolyglot 89.2%)

Casos de uso e recursos adicionais

  • Prévia disponível imediatamente no Google AI Studio e Vertex AI
  • Adição de recursos de controle de custo e latência para desenvolvedores, como Thinking Budget
  • Reforço de recursos adequados para uso real no trabalho, como programação, conhecimento, multimodalidade e processamento de textos longos

Conclusão

  • O Gemini 2.5 Pro se destaca frente aos concorrentes em vários aspectos, como preço, desempenho, versatilidade, multimodalidade e contexto longo
  • Na adoção de IA para empresas e desenvolvedores, é possível considerar junto comparações claras baseadas em benchmarks importantes e eficiência de custos

1 comentários

 
GN⁺ 2025-06-07
Comentários do Hacker News
  • Fiquei impressionado com o fato de o Google ter ganhado mais uns 25 pontos de ELO no lmarena, o que acaba destacando que o #1 anterior também já era o Gemini. Depois de usar bastante tanto o Gemini quanto o Claude Opus 4 nas últimas semanas, minha impressão é que o Opus está em outro nível. Lidando com problemas complexos de TypeScript, foi a primeira vez que vi o Gemini ficar girando no mesmo ponto ou até desistir e dizer que não conseguia, enquanto o Opus resolvia com facilidade. Talvez isso não represente o desempenho geral, mas a diferença para mim é que o Gemini parece forçar o código a funcionar, enquanto o Opus entende a essência do problema e aborda de forma mais limpa. Também tive a sensação de que o Opus é mais imaginativo ou mais otimizado para tarefas agenticas. O que mais me impressionou foi o fato de o Opus ter criado soluções inesperadas por conta própria, como gerar um script do playwright para fazer dump do DOM, analisar e verificar problemas de interação. Já o Gemini tenta caçar o bug lendo o próprio código de forma obsessiva, e senti que essa abordagem tem limites. Ainda assim, o Gemini também é um excelente modelo, e antes da versão 4.0 eu o considerava o melhor.

    • Pessoalmente, eu até prefiro o o3 ao Opus 4, então montei meu próprio ranking depois de gastar algumas centenas de dólares no último mês com ferramentas de geração de código por IA. Em 1º lugar, o o3: excelente em lidar com detalhes finos, entender a essência do problema e escrever código de alta qualidade realmente utilizável em produção. Os pontos fracos são a janela de cutoff, o custo e o fato de gostar demais de usar ferramentas. Em projetos Rails quase não dá problema, mas às vezes impacta. Em 2º, o Opus 4 (usado via Claude Code), que tem bom desempenho e sai mais barato que o o3, então é o que uso mais no dia a dia. Faço o Opus 4 planejar e criar o rascunho inicial, e depois deixo o o3 criticar tudo com cuidado e gerar uma lista de feedbacks para realmente elevar o nível do resultado. Em 3º, o Gemini 2.5 Pro; ainda não usei este lançamento mais recente, mas antes ele estava em 2º. Agora ele está no nível do Sonnet 4 ou um pouco acima, dependendo do caso. Em 4º, Sonnet 4: gera bastante código, mas sem coaching e supervisão diretos não costuma produzir código realmente bom, conciso e profundo. Eu sou bem obsessivo com qualidade e organização de código, como nomes e reutilização, então segundo as estatísticas do Cursor do último mês aceitei só 33% do código sugerido automaticamente. Quando o modelo não segue o melhor caminho, vou corrigindo o pedido, refinando o prompt e buscando um resultado melhor.

    • O maior destaque do Gemini em relação aos outros modelos é a qualidade da busca. Pedi para ele redigir um e-mail para uma empresa que estava enviando spam a partir de um domínio da companhia, e ele encontrou o e-mail de abuse da hospedagem, dados do domínio, servidor MX, IP, datacenter e tudo mais. Também pedi para transformar um artigo em podcast e ele fez isso na hora, ficando até divertido de ouvir.

    • Nesta semana dei a mesma tarefa ao Claude 4 e ao Gemini 2.5, e o Gemini acertou enquanto o Claude não conseguiu direito. Mesmo em tarefas que não eram particularmente difíceis, como comparar queries SQL, muitas vezes era o Gemini que encontrava o problema real.

    • Na prática, já tive muitas experiências em que tudo depende do contexto. Em alguns problemas o Gemini resolvia tudo com facilidade, mas logo depois travava em um bug muito simples, o que era bem confuso. Com o o3 e o sonnet foi parecido, e sobre o 4.0 ainda não usei o suficiente para opinar. Sinto falta de suporte para avaliar vários modelos em paralelo e escolher a melhor solução.

    • Me perguntaram se eu também tinha testado com o o3. No meu caso de uso, o o3 foi muito mais impressionante que o Opus 4.

  • Estou ficando cada vez mais preocupado com a valorização de mercado da OpenAI. Surgiram muitos concorrentes fortes, e a avaliação de que ela já não é mais uma líder isolada parece convincente. Fico me perguntando como vão captar ainda mais investimento com uma valuation de US$ 300 bilhões. Quando a receita é pequena e os custos com hardware, eletricidade e afins continuam subindo, fica difícil estimar o valor real. Quando a próxima geração de LLMs precisar de novos dados, Facebook e Google parecem estar estruturalmente em vantagem. A OpenAI não tem tantos negócios próprios de dados, então imagino que esteja em desvantagem na disputa por dados exclusivos. A valuation alta fazia sentido quando ela liderava tanto em pesquisa quanto em apps para usuários, mas agora faltam fundamentos de confiança. Não está claro qual seria o ganho para novos investidores na OpenAI. Uma valuation de US$ 300 bilhões normalmente exigiria algo como US$ 150 bilhões de receita, assumindo múltiplo de 2x sobre receita, e mesmo com um P/E extremo de 100x ainda seria preciso lucro anual de US$ 3 bilhões e um cenário de crescimento dobrando por 10 anos seguidos, estilo Amazon nos anos 2000. Hoje ainda existe a complicação da estrutura sem fins lucrativos/com fins lucrativos, então talvez abrir capital nem seja tão simples. Parabéns ao Google pelos resultados; parece bem possível que ele acabe sendo o maior vencedor da corrida da IA.

    • Há muita confusão sobre a posição da OpenAI no mercado. "chatgpt" já virou verbo do dia a dia, enquanto Claude e Gemini são totalmente desconhecidos para o público em geral. A menos que aconteça algo realmente revolucionário, não há motivo para a maioria das pessoas trocar de produto. Só a conveniência do histórico de conversas, da memória e da estrutura de exportação do ChatGPT já cria uma barreira de migração suficiente. Com 500 milhões de usuários ativos, tudo o que a OpenAI precisa fazer é manter a qualidade. Se o paradigma atual continuar, mesmo sem ser a líder absoluta ela ainda pode alcançar a tecnologia dos outros. O público em geral não troca de produto por pequenas melhorias.

    • Apontaram um erro na conta da valuation. Não seria o dobro de receita sobre US$ 300 bilhões, e sim US$ 150 bilhões de receita. Mas o argumento principal continua valendo.

    • Hoje a OpenAI claramente ainda é melhor em geração de imagem. Em ilustrações, quadrinhos, edição de fotos e ideação para projetos domésticos ela se diferencia.

    • Mesmo que o Google esteja vencendo na corrida da IA, o negócio de busca ainda vai continuar sendo corroído, e não está claro se será possível extrair retorno econômico do domínio de mercado por causa da IA. Eles são obrigados a competir, mas provavelmente teria sido melhor continuar no antigo regime monopolista centrado em anúncios.

    • Como o lançamento do o3 pro e do GPT 5 parece estar próximo, ainda é cedo para afirmar categoricamente que a OpenAI deixou de ser líder. Se esses dois modelos não mostrarem avanço perceptível, aí sim daria para considerar perda de liderança. Por enquanto, a sensação é de que ela ao menos está lado a lado com o Google.

  • Já é confuso lançar três versões preview do mesmo modelo, mas misturar até as duas últimas datas, 05-06 e 06-05, deixa tudo ainda pior. Se tivessem adiado um dia, teria ficado mais claro.

    • Como a data é ambígua, na prática teriam de adiar até o dia 13 para não haver confusão. No Canadá, os formatos britânico e americano de data se misturam e isso realmente confunde. Hoje em dia o formato y-m-d é oficialmente aceito e está se espalhando aos poucos.

    • Essa confusão entre 05-06 e 06-05 parece até uma provocação explícita aos modelos 4o e o4 da OpenAI.

    • Fico curioso para saber quando o Gemini 2.5 pro vai virar 2.6 pro. No Gemini 3, imagino que ele provavelmente vai crescer mais em tamanho.

    • Piada de que desenvolvedores realmente são péssimos para dar nomes.

  • Há dois problemas que eu sinto só no Gemini.

    1. Ele renomeia variáveis mesmo quando eu não pedi explicitamente para mudar nomes.
    2. Às vezes esquece um colchete de fechamento. Eu gosto de deixar nomes de variáveis curtos, então às vezes uso só "json"; agradeço o feedback, mas quando ele faz muitas mudanças desse tipo a revisão de código fica difícil.
    • Um exemplo concreto de caso em que o Gemini lida errado: mesmo após várias correções em um código definido claramente com processing_class=tokenizer, o Gemini continua trocando para tokenizer=tokenizer. Mesmo colocando um comentário em caixa alta dizendo DO NOT CHANGE no bloco inteiro, ele continua alterando errado. Ainda não testei a versão mais nova (06-05), mas o mesmo erro se repetia na 05-06 anterior.

    • Na prática, o o1-pro também está no topo do meu ranking junto com o Gemini. Mas o Gemini faz comentários desnecessários e mudanças irrelevantes em código demais, então é difícil usá-lo no trabalho real. Para explorar ideias ele ajuda, mas para a solução final eu acabo usando o o1-pro.

    • O Gemini também adiciona um monte de comentários inúteis que nem executam. Coisas como "# Added this function" e "# Changed this to fix the issue". Esse tipo de coisa faz sentido em commit message ou PR, não como comentário no código, então incomoda.

    • O ChatGPT também tem muitos casos em que simplesmente ignora certas instruções. Por exemplo, por mais que eu enfatize "não use em dash nem en dash", ele acaba colocando ainda mais. Mesmo tentando várias vezes, nunca consegui controlar isso direito.

  • Pago tanto o ChatGPT Plus quanto o Gemini Pro. Estou pensando em cancelar o ChatGPT porque continuo batendo no rate limit. No Gemini/AI Studio, até agora, nunca bati em rate limit.

    • O AI Studio na prática usa conta de API no backend, e um projeto de Google Cloud no free tier é criado automaticamente. Na parte de baixo da página "get an api key" dá para vincular uma conta de cobrança. Pela política de uso do serviço do Google, a API do tier gratuito pode não se qualificar como uso comercial, e os prompts podem ser revisados por humanos e usados como dados de treinamento.

    • Como o AI Studio usa API, na prática é muito raro um usuário comum atingir os limites dos modelos preview pagos.

    • Eu gostava muito mais do Gemini do que do ChatGPT, mas recentemente surgiu um limite de 100 mensagens por dia no plano Pro. No AI Studio, aparentemente ainda não há limite.

    • Fico curioso se há algum motivo para não usar a API via um intermediário como o openrouter.

  • Eu sentia que os modelos anteriores do Gemini eram inferiores ao Claude 3.7 Sonnet para assistência de programação, e o 4 parece ainda pior. Não pretendo testar esta nova versão até ver avaliações práticas. Como vejo muito elogio ao Gemini na internet e isso difere demais da minha experiência, suspeito de marketing descarado ou hype artificial no meio.

    • A posição é que a avaliação depende do que cada modelo faz na prática. Claude 3.5/3.7 Sonnet é completamente inútil para C/C++/Make/CMake. Tive experiências ruins com informações erradas, código impossível, sintaxe e APIs sem sentido, contradições lógicas e afins. Gemini 2.5-pro e o3 foram absurdamente melhores, a ponto de todo o time dizer que são superiores. Talvez o Claude seja forte em TypeScript ou Ruby, mas pelo menos no meu trabalho o Gemini vai muito além de propaganda exagerada.

    • Nunca usei o Claude, mas o Gemini sempre me deu respostas melhores que ChatGPT ou Copilot em perguntas do dia a dia. Especialmente quando uso como busca, como para métodos de linha de comando ou informações de produtos, o Gemini claramente leva vantagem.

    • No Aider, alterno entre Sonnet e Gemini. Curiosamente, alguns problemas só um dos modelos consegue resolver, e não há padrão previsível para saber isso antes.

    • A opinião é que o Claude 3.7 Sonnet é melhor que o Gemini como assistente de programação, mas em ciência de dados ou ETL complexa em Python o Claude foi decepcionante e o o3 foi muito superior.

    • No Roo Code, o Claude usa melhor as ferramentas, mas o estilo de código mais conciso do Gemini combina mais com meu gosto. Acabo misturando os dois, ou uso o outro quando um falha, para resolver o problema.

  • Em vez de continuar lançando versões preview com data no nome, seria melhor só incrementar o número de patch.

    • Para não impactar o ecossistema construído sobre as versões antigas, grandes atualizações precisariam continuar saindo como novos modelos separados.
  • Pelo Aider, marcou 82.2. Na prática, ainda fica abaixo do score oficial do o3 high. Link do leaderboard do Aider.

    • Perguntaram se 82.2 equivale ao mesmo "Percent correct" dos outros modelos. O o3 (high) "puro" fica em 79.6%, e a combinação "o3 (high) + gpt-4.1" chega ao topo com 82.7%. O antigo Gemini 2.5 Pro Preview 05-06 estava na faixa de 76.9%. Foi um salto considerável. No momento, os benchmarks do Aider são os mais confiáveis.

    • O que mais surpreende é ser muito mais barato e rápido.

    • Ressaltaram que a pontuação mencionada é da preview antiga 05-06, não da nova versão anunciada hoje.

  • Referência a um tuíte dizendo que a 06-05 preenche o intervalo entre 03-25 e 05-06. Tuíte relacionado

  • Tenho curiosidade sobre comparações de código com o Claude 4 Sonnet. Segundo esta tabela do blog, ele aparece claramente abaixo do Claude 4 Sonnet.

    • Na prática, a maioria dos benchmarks citados é relacionada a programação, e só no SWE-Bench o Claude aparece com pontuação mais alta. É difícil julgar qual benchmark reflete melhor o trabalho real, mas na comunidade o Aider Polyglot tem boa reputação.