Gemini 3 - Google revela seu mais recente modelo de IA Gemini

(blog.google)

19 pontos por GN⁺ 2025-11-19 | 3 comentários | Compartilhar no WhatsApp

O Google revelou o Gemini 3, seu modelo de IA mais inteligente, oferecendo capacidade de raciocínio e compreensão multimodal aprimoradas
O Gemini 3 Pro registrou o melhor desempenho em todos os principais benchmarks em relação à geração anterior, processando diversos tipos de entrada como texto, imagem, vídeo e código
O modo Deep Think adiciona recursos avançados de raciocínio para resolver problemas complexos e será disponibilizado gradualmente para assinantes Ultra
O Gemini 3 dá suporte a aprendizado, desenvolvimento e planejamento de forma abrangente, podendo ser usado no Google Search, app Gemini, AI Studio, Vertex AI e mais
Com o Gemini 3, o Google acelera a transição para a era de agentes inteligentes e IA personalizada

Visão geral do Gemini 3

O Gemini 3 é o modelo de IA mais inteligente desenvolvido pelo Google, criado para ajudar os usuários a transformar qualquer ideia em realidade
Ele combina compreensão multimodal com codificação agêntica (Agentic Coding) para processar de forma integrada diversos tipos de entrada, como texto, imagem, vídeo, áudio e código
O Gemini 3 Pro pode ser usado em todo o ecossistema do Google, incluindo AI Studio, Vertex AI, app Gemini e plataforma Google Antigravity
O modo Deep Think oferece suporte à resolução de problemas complexos com capacidade de raciocínio aprimorada e será disponibilizado para assinantes do Google AI Ultra

Mensagem do CEO

Sundar Pichai citou, dois anos após o início do projeto Gemini, resultados como 2 bilhões de usuários mensais do AI Overviews, 650 milhões de usuários do app Gemini e mais de 130 mil desenvolvedores participantes
A estrutura de inovação em IA full-stack do Google (infraestrutura–pesquisa–modelo–produto) possibilita a rápida disseminação da tecnologia
O Gemini 3 é um modelo que integra os recursos multimodais, de raciocínio e agênticos da geração anterior, entendendo com mais precisão a intenção e o contexto do usuário
O Gemini 3 foi lançado simultaneamente no AI Mode do Search, app Gemini, AI Studio, Vertex AI e Google Antigravity

Desempenho do Gemini 3 Pro

O Gemini 3 Pro registrou desempenho superior ao 2.5 Pro em todos os principais benchmarks de IA
- Alcançou 1501 Elo no ranking LMArena, 37.5% no Humanity’s Last Exam, 91.9% no GPQA Diamond e 23.4% no MathArena Apex
- Também registrou 81% no benchmark multimodal MMMU-Pro, 87.6% no Video-MMMU e 72.1% no SimpleQA Verified
Ele fornece respostas precisas e concisas e pode ser usado para visualizar conceitos científicos ou concretizar ideias criativas
Como exemplo, pode gerar código para visualização do fluxo de plasma em um tokamak e escrever um poema sobre física de fusão nuclear

Gemini 3 Deep Think

O modo Deep Think fortalece ainda mais as capacidades de raciocínio e compreensão multimodal do Gemini 3
- Obteve desempenho de alto nível com 41.0% no Humanity’s Last Exam, 93.8% no GPQA Diamond e 45.1% no ARC-AGI-2
Isso comprova capacidade avançada de raciocínio para resolver problemas complexos e enfrentar novos desafios

Aprendizado (Learn anything)

O Gemini 3 oferece suporte ao aprendizado usando uma janela de contexto de 1 milhão de tokens e raciocínio multimodal
- Tradução de receitas manuscritas e criação de livros de receitas digitais
- Resumo de aulas longas e artigos, além da geração de flashcards interativos ou código de visualização
- Geração de planos de treino personalizados com base na análise de vídeos esportivos
O AI Mode do Google Search, baseado no Gemini 3, gera em tempo real layouts visuais imersivos e ferramentas interativas

Desenvolvimento (Build anything)

O Gemini 3 é forte em geração zero-shot e processamento de prompts complexos, alcançando 1487 Elo no WebDev Arena
- Obteve 54.2% no Terminal-Bench 2.0 e 76.2% no SWE-bench Verified, melhorando o uso de ferramentas e o desempenho de agentes de codificação
O desenvolvimento é possível no Google AI Studio, Vertex AI, Gemini CLI e Google Antigravity
Também há suporte em plataformas de terceiros como Cursor, GitHub, JetBrains, Manus e Replit

Google Antigravity: ambiente de desenvolvimento centrado em agentes

O Google Antigravity é uma plataforma de desenvolvimento agêntico baseada no Gemini 3, na qual desenvolvedores podem colaborar com a IA em um nível orientado a tarefas
Os agentes acessam diretamente o editor, terminal e navegador para executar automaticamente escrita, execução e validação de código
Ele integra o Gemini 3 Pro, o modelo Gemini 2.5 Computer Use e o modelo de edição de imagens Nano Banana
Como exemplo, implementa um fluxo de trabalho em que o agente projeta, codifica e valida sozinho um app de rastreamento de voos

Planejamento (Plan anything)

O Gemini 3 reforça a capacidade de planejamento de longo prazo, alcançando o 1º lugar no ranking Vending-Bench 2
- Em uma operação simulada de negócio de máquinas de venda automática, manteve decisões estáveis por um ano
Também permite a automação de tarefas complexas em várias etapas, como organizar e-mails e fazer reservas de serviços
Assinantes Ultra podem experimentar diretamente no app Gemini por meio do recurso Gemini Agent

Desenvolvimento responsável

O Gemini 3 é descrito como o modelo mais seguro entre as IAs do Google, com maior resistência a prompt injection e capacidade de defesa contra ataques cibernéticos
Testes internos e avaliações de especialistas externos foram conduzidos de acordo com o Frontier Safety Framework
- Participaram instituições como UK AISI, Apollo, Vaultis e Dreadnode
Os resultados detalhados das avaliações de segurança foram divulgados no model card do Gemini 3

O início da era Gemini 3

O Gemini 3 começou a ser distribuído pelos seguintes caminhos
- app Gemini e AI Mode do Search
- Acesso para desenvolvedores via AI Studio, Google Antigravity e Gemini CLI
- Distribuição corporativa via Vertex AI e Gemini Enterprise
O modo Deep Think será disponibilizado para assinantes Ultra após verificações adicionais de segurança
Mais modelos da série Gemini 3 serão revelados futuramente, com planos de expansão baseados no feedback dos usuários

3 comentários

t7vonn 2025-11-19

O Gemini é brabo demais, pqp

GN⁺ 2025-11-19

Comentários do Hacker News

Coloquei um antigo app de calculadora baseado em XML no Gemini e, em menos de 1 minuto, ele criou um webapp completo
Passei anos construindo eu mesmo um compilador para converter XML customizado em apps Android/Swing, e o Gemini conseguiu fazer isso sem nenhuma descrição formal do formato
Quando tentei com o Lovable, o app não funcionou direito e só desperdiçou créditos, mas desta vez foi um nível completamente diferente
Link do resultado
Testei o Gemini com o problema mais recente do Project Euler (#970). Era bem provável que não estivesse nos dados de treino, mas depois de pensar por 5 minutos e 10 segundos ele entregou código Python com a resposta correta
Os 3 melhores tempos humanos de solução foram 14 minutos, 20 minutos e 1 hora e 14 minutos, respectivamente
Eu já esperava que esse tipo de problema estivesse numa área em que o modelo recebeu ajuste com RL, mas mesmo assim é impressionante que algo que levaria dias tenha sido resolvido em poucos minutos
- Também tentei resolver o mesmo problema com o Gemini 3 Pro Preview, e ele deu um resultado em 4 minutos e 31 segundos, mas estava errado
  Mesmo com busca na web proibida, ele retornou 8 “fontes”, incluindo stackexchange e youtube
  Ainda assim, a maior parte dos insights estava correta e continua sendo uma ferramenta bem útil
  Link do prompt
- Tentei de novo o problema low do Kattis, que eu vinha usando para testes havia tempos, e pela primeira vez um LLM passou
  Desde o ChatGPT nenhum modelo tinha conseguido resolver, mas o Gemini 3 finalmente conseguiu
- A pontuação alta de Elo do modelo talvez seja só por causa da velocidade
  Mas, vendo resultados assim, parece provável que em menos de 10 anos teremos uma IA nível Stockfish para puzzles
- Só para referência, o problema mais recente no momento é o Project Euler #970
- Tentei com gpt-5.1 thinking e ele simplesmente foi procurar a resposta na internet 😅
Peguei um prompt de widget de relógio analógico que eu costumava testar com o Flash 2.5 e coloquei no Gemini 3 Pro Preview; de primeira ele gerou algo que funcionava perfeitamente
Link do resultado
- O Flash 2.5 também era razoavelmente bom. Ele criou um relógio UNIX métrico, expressando os segundos em quilo-segundos (kiloseconds)
  Um dia tem 86.4ks, e neste momento estamos em cerca de 1.76 gigassegundos desde a época AUNIX. Quero fazer um relógio físico de 20 pés algum dia
- Não dá para aceitar que a animação de “wiggle” não apareça quando o ponteiro dos segundos chega no 12 😂
- Este projeto faz parte do curso 30 Days of JavaScript, do Wes Bos, então há uma boa chance de que estivesse nos dados de treino
- Eu adicionei algumas melhorias, mas o som de tique-taque só funcionou na segunda tentativa
  Link da versão melhorada
- O prompt usado por outra pessoa era muito mais simples. O que eu usava originalmente gerava só HTML/CSS com a variável ${time}, e o Gemini estragou tudo completamente
  Link do exemplo com falha
Organizei meus registros sobre o benchmark Pelican e a nova versão de alta dificuldade
Post no blog
- Agora parece que cada laboratório vai ter um “responsável pelo pelicano”. Devem estar treinando dia e noite para desenhar melhor aquele pelicano de SVG andando de bicicleta
- Passaram meses treinando pelicanos, e no momento em que eu mudei o benchmark o alvo também mudou 😂
- É bem provável que “pelicano andando de bicicleta” já estivesse incluído nos dados de treino
- Disseram que não havia problema de saturação, mas vendo os resultados parece que os grandes laboratórios estavam subindo secretamente a colina do pelicano
- É uma pena que o knowledge cutoff de Gemini 3 seja janeiro de 2025, igual ao 2.5
  Talvez estejam usando o mesmo modelo base e só tenham melhorado o ajuste com RL
O Gemini 3 Pro Preview falhou completamente no meu benchmark básico de Python
O Gemini 2.5 Pro chegou um pouco mais perto, mas ainda assim errou
Em contraste, gpt-5.1-thinking, Claude Sonnet 4.5 e Opus 4.1 passaram
Isso me fez perceber de novo que benchmark não é um critério absoluto
- Dizer que “benchmark não serve para nada” é exagero. Ele tem limitações, mas ainda é um indicador útil
  Fiquei curioso para saber que tipo de problema “básico” de Python fez o GPT-5 thinking falhar
- Tirar conclusões com base em um único benchmark pessoal não parece muito confiável. Se compartilhar, dá para todo mundo validar junto
- Eu costumo testar com “criar um jogo de Pac-Man em uma única página HTML”. O Gemini 3 falhou de forma parecida com o 2.5
- O valor de um benchmark depende da qualidade do seu desenho. Não dá para julgar só pelo fato de ele ser público ou não
- Na pontuação de SWEBench divulgada pelo Google, o Gemini 3 Pro ficou abaixo do Claude Sonnet 4.5. Também fico curioso se o Opus 4.5 se sairia melhor
Enquanto eu lidava com uma questão médica, o Gemini 2.5 Pro acertou só mais ou menos metade, mas o Gemini 3.0 resolveu tudo perfeitamente
Ele ainda organizou de forma lógica os regulamentos, pesquisas e processos de aprovação envolvidos, o que realmente ajudou na tomada de decisão
Modelos assim parecem capazes de mudar de verdade a vida das pessoas
Achei engraçadíssimo que o post de anúncio do Google tenha um botão de “Ler resumo gerado por IA”
O próximo passo deve ser “deixe nossa IA ler o resumo da sua IA”
No fim, talvez até a crença seja automatizada, como no Electric Monk de Douglas Adams
- Eu também tentei usar Electric Monk como nome de um projeto de IA na empresa, mas era controverso demais, então mudei para Electric Mentor
- A propósito, esta tirinha da SMBC é perfeita para isso
- Agora só falta a IA automatizar também a resolução de incidentes na nuvem
- Parece que não vai demorar muito para a IA substituir não só desenvolvedores, mas também funções de gestão
Meu benchmark favorito é resumir um arquivo de áudio longo de reunião e separar os locutores
O Gemini 2.5 fazia um resumo razoável, mas separava muito mal os locutores; o 3.0 acertou isso perfeitamente
- Eu testei com um podcast de 90 minutos, mas o Gemini 3 inventou citações alucinadas e errou todos os timestamps
  Ainda há limites claros com áudio longo
- Se usar modelos de áudio dedicados como ElevenLabs ou Soniox, a precisão fica muito melhor
- Fiquei curioso para saber que prompt você usa
- Eu também estou criando um projeto de separação de locutores para podcasts, e está funcionando muito bem
- O Parakeet TDT v3 parece muito adequado para esse tipo de tarefa
No meu teste da foto de um cachorro com 5 patas, o Gemini 3 também falhou
Ainda assim, diferente de outros modelos, ele reconheceu a quinta pata, mas a confundiu com outra parte do corpo
Percepção visual continua sendo um grande desafio
- Percepção é uma área refinada pela evolução ao longo de bilhões de anos, então é um problema computacionalmente muito mais difícil
- Talvez esse erro de interpretação tenha acontecido por causa de um ponto cego do filtro de segurança

nullptr 2025-11-19

Atualmente, é possível usar gratuitamente no Antigravity ( https://antigravity.google/pricing ), um fork OSS do VSCode lançado pelo Google.
Fora isso, parece que no gemini-cli no momento só é possível usar o AI Ultra (360 mil won por mês).