Google lança o Gemini 2.5

(blog.google)

9 pontos por GN⁺ 2025-03-26 | 3 comentários | Compartilhar no WhatsApp

O Gemini 2.5 é o modelo de IA baseado em raciocínio mais inteligente já projetado para resolver problemas complexos
A primeira versão, Gemini 2.5 Pro Experimental, registrou o melhor desempenho em vários benchmarks de IA
Em especial, ficou em 1º lugar com ampla vantagem no ranking do LMArena
Diferentemente dos modelos anteriores, foi projetado com uma estrutura que passa por um processo interno de pensamento antes de responder, melhorando a precisão e o desempenho

O que significa a capacidade de 'pensar' na IA?

Vai além de simples classificação ou previsão, incluindo capacidades cognitivas de alto nível como análise de informações, dedução lógica de conclusões, compreensão de contexto e tomada de decisões
Para isso, a DeepMind vem pesquisando a capacidade de raciocínio da IA usando aprendizado por reforço e técnicas de prompt como Chain-of-Thought
Mostra um desempenho um passo à frente do modelo anterior Gemini 2.0 Flash Thinking

Direção futura

Com o Gemini 2.5, combina modelos de base aprimorados com técnicas de pós-processamento para alcançar um novo nível de desempenho
No futuro, a empresa pretende incorporar essa capacidade de pensamento como padrão em todos os modelos Gemini, permitindo resolver problemas mais complexos e dar suporte a agentes mais avançados

Apresentando o Gemini 2.5 Pro

O Gemini 2.5 Pro Experimental apresenta excelente desempenho nas tarefas mais complexas entre os modelos desenvolvidos até agora
Ficou em 1º lugar com ampla vantagem no LMArena, que avalia com base na preferência humana
Também mostra excelente desempenho em benchmarks de programação, matemática e ciência
Já está disponível no Google AI Studio e no app Gemini, e em breve também será oferecido no Vertex AI
No futuro, será introduzido um plano de preços para permitir um serviço escalável com limites de uso mais altos

Desempenho de raciocínio aprimorado

Registrou resultados de benchmark de nível máximo na resolução de problemas lógicos complexos
Mantém ótimo desempenho mesmo sem técnicas de teste adicionais e custosas, como votação por maioria
Apresenta desempenho de ponta em problemas de matemática e ciência como GPQA e AIME 2025
No difícil teste de raciocínio 'Humanity’s Last Exam', criado por centenas de especialistas, registrou 18,8% sem ferramentas, o melhor resultado da indústria

Desempenho avançado em programação

O desempenho em programação melhorou significativamente em relação ao Gemini 2.0
Excelente capacidade em criação de web apps, escrita de código no estilo agente e transformação e correção de código
Alcançou 63,8% na avaliação SWE-Bench Verified ao usar um agente personalizado
Há inclusive um exemplo de geração de um videogame executável com apenas uma linha de prompt

Mantendo os pontos fortes dos modelos Gemini

O Gemini 2.5 mantém os pontos fortes dos modelos Gemini anteriores, como processamento multimodal e janela de contexto longa
Suporta uma janela de contexto de 1 milhão de tokens (com expansão para 2 milhões em breve)
Consegue processar de forma integrada várias fontes de informação, como texto, áudio, imagens, vídeo e repositórios de código completos
Desenvolvedores e usuários corporativos podem fazer experimentos e testes por meio do Google AI Studio, Gemini Advanced e Vertex AI

3 comentários

wowfoot 2025-03-26

Ele supera com folga o Claude e o GPT-4.5, mas não consegue vencer quando o Grok 3 é testado várias vezes.
O Grok 3 é impressionante.

zxshinxz 2025-03-26

Com a chegada do Gemini 2.5 Pro ao Google AI Studio, todos os Gemini 2.0 Pro que existiam antes desapareceram.. Eu estava usando bastante de graça, então é uma pena. O Gemini 2.5 Pro parece ter limitações bem grandes, com restrição de 2 chamadas por minuto e no máximo 50 chamadas por dia.

GN⁺ 2025-03-26

Opinião no Hacker News

Um dos maiores problemas ao usar LLMs para escrever textos longos, como romances, é que, ao fornecer detalhes, o modelo reage de forma excessivamente ansiosa
- Por exemplo, ao fornecer o perfil do interesse amoroso em uma fantasia narrativa, o protagonista quase sempre acaba encontrando essa pessoa em menos de 3 páginas
- Isso leva a um desenvolvimento ilógico, e as tentativas de mudar isso não funcionam
- O modelo atual ainda mostra uma progressão normal mesmo após gerar 19 páginas, incluindo muitos detalhes
- Muito impressionante
Tenho usado quebra-cabeças matemáticos para comparar vários modelos
- Esse quebra-cabeça levou cerca de 3 dias para ser resolvido por computador, e um formado em matemática o resolveu à mão em um dia
- O Gemini 2.5 é o primeiro modelo a resolver esse quebra-cabeça, o que significa que os LLMs já superam mais de 95% da população em raciocínio matemático
- O quebra-cabeça pergunta sobre três pessoas em pé em círculo, cada uma com um número inteiro positivo flutuando sobre a cabeça, e a soma de dois números é igual ao terceiro
- A primeira pessoa diz que não sabe seu número, a segunda também diz que não sabe, e a terceira também diz que não sabe
- Quando perguntam novamente à primeira pessoa, ela responde 65
- A pergunta do quebra-cabeça é qual é o produto dos três números
Teve desempenho muito bom em transcrição de áudio e em desenhar caixas delimitadoras ao redor de organismos em fotos complexas
- Também chegou a desenhar um pelicano andando de bicicleta
- As notas relacionadas podem ser vistas no link
Registrou o melhor desempenho nos benchmarks de uma forma sem precedentes
- Mostra alta qualidade e resultados claros, mas é um pouco lento
- O Google está acertando em cheio de novo
O Gemini 2.5 Pro alcançou o estado da arte no ranking polyglot do aider com uma pontuação de 73%
- Mostra um grande salto em relação aos modelos Gemini anteriores
- É o primeiro modelo Gemini a usar com eficiência um formato de edição tipo diff
Esses anúncios estão começando a parecer um template
- Modelo de ponta
- Comparação em benchmarks com X, Y, Z
- Raciocínio "melhor"
- Pode até ser um ótimo modelo, mas esse texto repetitivo tira o interesse
O Gemini 2.5 alcançou um novo nível de desempenho ao combinar um modelo base muito melhorado com pós-processamento aprimorado
- Daqui para frente, essas capacidades de raciocínio serão incorporadas diretamente em todos os modelos para lidar com problemas mais complexos e dar suporte a agentes mais capazes e conscientes do contexto
- Está conectado à internet e funciona como modelo de raciocínio quando necessário
- Espero que o modo canvas, lançado recentemente, possa ser compatível com esse modelo
Usei um caso de teste em que forneci ao LLM toda a base de código e a descrição de um bug para identificar a causa de um erro em uma biblioteca Dart
- Incluía cerca de 360.000 tokens
- Eu havia tentado isso com os principais modelos há um mês, mas só esse modelo identificou a correção correta
Se você pretende usar o Gemini, há alguns cuidados a tomar
- Não insira informações confidenciais nem dados que revisores possam ver ou que o Google possa usar
- Para melhorar a qualidade do Google AI e dos produtos, revisores humanos leem, anotam e processam as conversas
- Nesse processo, as conversas são separadas da conta Google para proteger a privacidade
O modelo 2.0 ainda nem é tão antigo, então fico me perguntando por que colocaram +0.5 no nome
- Fico em dúvida se é por marketing, se indica uma nova arquitetura do modelo, mais dados de treinamento sobre a base 2.0 ou uma nova infraestrutura de serviço
- Quando a nomenclatura *.5 apareceu pela primeira vez, achei meio boba
- Quando a OpenAI lançou o 3.5, disse que o 4 já estava em preparação e que estava ajustando o 3 para ficar mais adequado ao ChatGPT
- Acho que o pior caso dessa nomenclatura foi a Anthropic nomeando modelos como Sonnet 3, 3.5, 3.5 (new) e 3.7
- Prefiro semver, nomes baseados em data ("Gemini Pro 2025") ou combinações significativas de letras e números (ex.: 4o - "Omni")