- O Gemini 2.5 é o modelo de IA baseado em raciocínio mais inteligente já projetado para resolver problemas complexos
- A primeira versão, Gemini 2.5 Pro Experimental, registrou o melhor desempenho em vários benchmarks de IA
- Em especial, ficou em 1º lugar com ampla vantagem no ranking do LMArena
- Diferentemente dos modelos anteriores, foi projetado com uma estrutura que passa por um processo interno de pensamento antes de responder, melhorando a precisão e o desempenho
O que significa a capacidade de 'pensar' na IA?
- Vai além de simples classificação ou previsão, incluindo capacidades cognitivas de alto nível como análise de informações, dedução lógica de conclusões, compreensão de contexto e tomada de decisões
- Para isso, a DeepMind vem pesquisando a capacidade de raciocínio da IA usando aprendizado por reforço e técnicas de prompt como Chain-of-Thought
- Mostra um desempenho um passo à frente do modelo anterior Gemini 2.0 Flash Thinking
Direção futura
- Com o Gemini 2.5, combina modelos de base aprimorados com técnicas de pós-processamento para alcançar um novo nível de desempenho
- No futuro, a empresa pretende incorporar essa capacidade de pensamento como padrão em todos os modelos Gemini, permitindo resolver problemas mais complexos e dar suporte a agentes mais avançados
Apresentando o Gemini 2.5 Pro
- O Gemini 2.5 Pro Experimental apresenta excelente desempenho nas tarefas mais complexas entre os modelos desenvolvidos até agora
- Ficou em 1º lugar com ampla vantagem no LMArena, que avalia com base na preferência humana
- Também mostra excelente desempenho em benchmarks de programação, matemática e ciência
- Já está disponível no Google AI Studio e no app Gemini, e em breve também será oferecido no Vertex AI
- No futuro, será introduzido um plano de preços para permitir um serviço escalável com limites de uso mais altos
Desempenho de raciocínio aprimorado
- Registrou resultados de benchmark de nível máximo na resolução de problemas lógicos complexos
- Mantém ótimo desempenho mesmo sem técnicas de teste adicionais e custosas, como votação por maioria
- Apresenta desempenho de ponta em problemas de matemática e ciência como GPQA e AIME 2025
- No difícil teste de raciocínio 'Humanity’s Last Exam', criado por centenas de especialistas, registrou 18,8% sem ferramentas, o melhor resultado da indústria
Desempenho avançado em programação
- O desempenho em programação melhorou significativamente em relação ao Gemini 2.0
- Excelente capacidade em criação de web apps, escrita de código no estilo agente e transformação e correção de código
- Alcançou 63,8% na avaliação SWE-Bench Verified ao usar um agente personalizado
- Há inclusive um exemplo de geração de um videogame executável com apenas uma linha de prompt
Mantendo os pontos fortes dos modelos Gemini
- O Gemini 2.5 mantém os pontos fortes dos modelos Gemini anteriores, como processamento multimodal e janela de contexto longa
- Suporta uma janela de contexto de 1 milhão de tokens (com expansão para 2 milhões em breve)
- Consegue processar de forma integrada várias fontes de informação, como texto, áudio, imagens, vídeo e repositórios de código completos
- Desenvolvedores e usuários corporativos podem fazer experimentos e testes por meio do Google AI Studio, Gemini Advanced e Vertex AI
3 comentários
Ele supera com folga o Claude e o GPT-4.5, mas não consegue vencer quando o Grok 3 é testado várias vezes.
O Grok 3 é impressionante.
Com a chegada do Gemini 2.5 Pro ao Google AI Studio, todos os Gemini 2.0 Pro que existiam antes desapareceram.. Eu estava usando bastante de graça, então é uma pena. O Gemini 2.5 Pro parece ter limitações bem grandes, com restrição de 2 chamadas por minuto e no máximo 50 chamadas por dia.
Opinião no Hacker News
Um dos maiores problemas ao usar LLMs para escrever textos longos, como romances, é que, ao fornecer detalhes, o modelo reage de forma excessivamente ansiosa
Tenho usado quebra-cabeças matemáticos para comparar vários modelos
Teve desempenho muito bom em transcrição de áudio e em desenhar caixas delimitadoras ao redor de organismos em fotos complexas
Registrou o melhor desempenho nos benchmarks de uma forma sem precedentes
O Gemini 2.5 Pro alcançou o estado da arte no ranking polyglot do aider com uma pontuação de 73%
Esses anúncios estão começando a parecer um template
O Gemini 2.5 alcançou um novo nível de desempenho ao combinar um modelo base muito melhorado com pós-processamento aprimorado
Usei um caso de teste em que forneci ao LLM toda a base de código e a descrição de um bug para identificar a causa de um erro em uma biblioteca Dart
Se você pretende usar o Gemini, há alguns cuidados a tomar
O modelo 2.0 ainda nem é tão antigo, então fico me perguntando por que colocaram +0.5 no nome