9 pontos por GN⁺ 2025-03-26 | 3 comentários | Compartilhar no WhatsApp
  • O Gemini 2.5 é o modelo de IA baseado em raciocínio mais inteligente já projetado para resolver problemas complexos
  • A primeira versão, Gemini 2.5 Pro Experimental, registrou o melhor desempenho em vários benchmarks de IA
  • Em especial, ficou em 1º lugar com ampla vantagem no ranking do LMArena
  • Diferentemente dos modelos anteriores, foi projetado com uma estrutura que passa por um processo interno de pensamento antes de responder, melhorando a precisão e o desempenho

O que significa a capacidade de 'pensar' na IA?

  • Vai além de simples classificação ou previsão, incluindo capacidades cognitivas de alto nível como análise de informações, dedução lógica de conclusões, compreensão de contexto e tomada de decisões
  • Para isso, a DeepMind vem pesquisando a capacidade de raciocínio da IA usando aprendizado por reforço e técnicas de prompt como Chain-of-Thought
  • Mostra um desempenho um passo à frente do modelo anterior Gemini 2.0 Flash Thinking

Direção futura

  • Com o Gemini 2.5, combina modelos de base aprimorados com técnicas de pós-processamento para alcançar um novo nível de desempenho
  • No futuro, a empresa pretende incorporar essa capacidade de pensamento como padrão em todos os modelos Gemini, permitindo resolver problemas mais complexos e dar suporte a agentes mais avançados

Apresentando o Gemini 2.5 Pro

  • O Gemini 2.5 Pro Experimental apresenta excelente desempenho nas tarefas mais complexas entre os modelos desenvolvidos até agora
  • Ficou em 1º lugar com ampla vantagem no LMArena, que avalia com base na preferência humana
  • Também mostra excelente desempenho em benchmarks de programação, matemática e ciência
  • Já está disponível no Google AI Studio e no app Gemini, e em breve também será oferecido no Vertex AI
  • No futuro, será introduzido um plano de preços para permitir um serviço escalável com limites de uso mais altos

Desempenho de raciocínio aprimorado

  • Registrou resultados de benchmark de nível máximo na resolução de problemas lógicos complexos
  • Mantém ótimo desempenho mesmo sem técnicas de teste adicionais e custosas, como votação por maioria
  • Apresenta desempenho de ponta em problemas de matemática e ciência como GPQA e AIME 2025
  • No difícil teste de raciocínio 'Humanity’s Last Exam', criado por centenas de especialistas, registrou 18,8% sem ferramentas, o melhor resultado da indústria

Desempenho avançado em programação

  • O desempenho em programação melhorou significativamente em relação ao Gemini 2.0
  • Excelente capacidade em criação de web apps, escrita de código no estilo agente e transformação e correção de código
  • Alcançou 63,8% na avaliação SWE-Bench Verified ao usar um agente personalizado
  • Há inclusive um exemplo de geração de um videogame executável com apenas uma linha de prompt

Mantendo os pontos fortes dos modelos Gemini

  • O Gemini 2.5 mantém os pontos fortes dos modelos Gemini anteriores, como processamento multimodal e janela de contexto longa
  • Suporta uma janela de contexto de 1 milhão de tokens (com expansão para 2 milhões em breve)
  • Consegue processar de forma integrada várias fontes de informação, como texto, áudio, imagens, vídeo e repositórios de código completos
  • Desenvolvedores e usuários corporativos podem fazer experimentos e testes por meio do Google AI Studio, Gemini Advanced e Vertex AI

3 comentários

 
wowfoot 2025-03-26

Ele supera com folga o Claude e o GPT-4.5, mas não consegue vencer quando o Grok 3 é testado várias vezes.
O Grok 3 é impressionante.

 
zxshinxz 2025-03-26

Com a chegada do Gemini 2.5 Pro ao Google AI Studio, todos os Gemini 2.0 Pro que existiam antes desapareceram.. Eu estava usando bastante de graça, então é uma pena. O Gemini 2.5 Pro parece ter limitações bem grandes, com restrição de 2 chamadas por minuto e no máximo 50 chamadas por dia.

 
GN⁺ 2025-03-26
Opinião no Hacker News
  • Um dos maiores problemas ao usar LLMs para escrever textos longos, como romances, é que, ao fornecer detalhes, o modelo reage de forma excessivamente ansiosa

    • Por exemplo, ao fornecer o perfil do interesse amoroso em uma fantasia narrativa, o protagonista quase sempre acaba encontrando essa pessoa em menos de 3 páginas
    • Isso leva a um desenvolvimento ilógico, e as tentativas de mudar isso não funcionam
    • O modelo atual ainda mostra uma progressão normal mesmo após gerar 19 páginas, incluindo muitos detalhes
    • Muito impressionante
  • Tenho usado quebra-cabeças matemáticos para comparar vários modelos

    • Esse quebra-cabeça levou cerca de 3 dias para ser resolvido por computador, e um formado em matemática o resolveu à mão em um dia
    • O Gemini 2.5 é o primeiro modelo a resolver esse quebra-cabeça, o que significa que os LLMs já superam mais de 95% da população em raciocínio matemático
    • O quebra-cabeça pergunta sobre três pessoas em pé em círculo, cada uma com um número inteiro positivo flutuando sobre a cabeça, e a soma de dois números é igual ao terceiro
    • A primeira pessoa diz que não sabe seu número, a segunda também diz que não sabe, e a terceira também diz que não sabe
    • Quando perguntam novamente à primeira pessoa, ela responde 65
    • A pergunta do quebra-cabeça é qual é o produto dos três números
  • Teve desempenho muito bom em transcrição de áudio e em desenhar caixas delimitadoras ao redor de organismos em fotos complexas

    • Também chegou a desenhar um pelicano andando de bicicleta
    • As notas relacionadas podem ser vistas no link
  • Registrou o melhor desempenho nos benchmarks de uma forma sem precedentes

    • Mostra alta qualidade e resultados claros, mas é um pouco lento
    • O Google está acertando em cheio de novo
  • O Gemini 2.5 Pro alcançou o estado da arte no ranking polyglot do aider com uma pontuação de 73%

    • Mostra um grande salto em relação aos modelos Gemini anteriores
    • É o primeiro modelo Gemini a usar com eficiência um formato de edição tipo diff
  • Esses anúncios estão começando a parecer um template

    • Modelo de ponta
    • Comparação em benchmarks com X, Y, Z
    • Raciocínio "melhor"
    • Pode até ser um ótimo modelo, mas esse texto repetitivo tira o interesse
  • O Gemini 2.5 alcançou um novo nível de desempenho ao combinar um modelo base muito melhorado com pós-processamento aprimorado

    • Daqui para frente, essas capacidades de raciocínio serão incorporadas diretamente em todos os modelos para lidar com problemas mais complexos e dar suporte a agentes mais capazes e conscientes do contexto
    • Está conectado à internet e funciona como modelo de raciocínio quando necessário
    • Espero que o modo canvas, lançado recentemente, possa ser compatível com esse modelo
  • Usei um caso de teste em que forneci ao LLM toda a base de código e a descrição de um bug para identificar a causa de um erro em uma biblioteca Dart

    • Incluía cerca de 360.000 tokens
    • Eu havia tentado isso com os principais modelos há um mês, mas só esse modelo identificou a correção correta
  • Se você pretende usar o Gemini, há alguns cuidados a tomar

    • Não insira informações confidenciais nem dados que revisores possam ver ou que o Google possa usar
    • Para melhorar a qualidade do Google AI e dos produtos, revisores humanos leem, anotam e processam as conversas
    • Nesse processo, as conversas são separadas da conta Google para proteger a privacidade
  • O modelo 2.0 ainda nem é tão antigo, então fico me perguntando por que colocaram +0.5 no nome

    • Fico em dúvida se é por marketing, se indica uma nova arquitetura do modelo, mais dados de treinamento sobre a base 2.0 ou uma nova infraestrutura de serviço
    • Quando a nomenclatura *.5 apareceu pela primeira vez, achei meio boba
    • Quando a OpenAI lançou o 3.5, disse que o 4 já estava em preparação e que estava ajustando o 3 para ficar mais adequado ao ChatGPT
    • Acho que o pior caso dessa nomenclatura foi a Anthropic nomeando modelos como Sonnet 3, 3.5, 3.5 (new) e 3.7
    • Prefiro semver, nomes baseados em data ("Gemini Pro 2025") ou combinações significativas de letras e números (ex.: 4o - "Omni")