Gemini 3 Pro: a fronteira da inteligência artificial de visão

(blog.google)

3 pontos por GN⁺ 2025-12-06 | 3 comentários | Compartilhar no WhatsApp

O Gemini 3 Pro vai além da etapa de reconhecimento simples e realiza raciocínio visual e espacial como um modelo multimodal de próxima geração
Em áreas como compreensão de documentos, espaço, telas e vídeos, registra desempenho de ponta e atinge o topo em benchmarks de raciocínio visual complexo
Em compreensão de documentos, oferece OCR preciso e reconstrução estrutural (derendering), além de funcionalidades de inferência mais avançadas como análise de tabelas e gráficos em múltiplas etapas
Em compreensão espacial, de telas e de vídeos, fortalece a capacidade de interação com ambientes reais com apontamento baseado em coordenadas, análise de quadros em alta velocidade e raciocínio causal em vídeo
Em setores como educação, saúde, jurídico e financeiro, apoia compreensão visual precisa e automação, e os desenvolvedores podem ajustar desempenho e custo com o parâmetro media_resolution

Visão geral do Gemini 3 Pro

O Gemini 3 Pro evoluiu do reconhecimento simples para raciocínio visual e espacial, e é o modelo multimodal mais poderoso desenvolvido pela Google
- Registrou o topo dos benchmarks mais recentes em compreensão de documentos, espaço, telas e vídeos
- Alcançou novo desempenho máximo em testes de raciocínio visual complexos, como MMMU Pro e Video MMMU

1. Compreensão de documentos

Documentos reais combinam elementos não estruturados como imagem, letra manual, tabelas e fórmulas, e o Gemini 3 Pro os reconhece e estrutura com precisão
- A precisão de OCR e a capacidade de raciocínio visual melhoraram significativamente
Com o recurso Derendering, é possível restaurar documentos visuais em código estrutural como HTML, LaTeX e Markdown
- Converte o livro-razão de um comerciante do século XVIII em tabela ou reconstrói uma imagem de fórmula em código LaTeX
- Recreia o diagrama original de Florence Nightingale como um gráfico interativo
A capacidade de raciocínio composto permite analisar tabelas e gráficos de forma gradual em relatórios longos
- No benchmark CharXiv Reasoning, supera o padrão humano (80,5%)
- Em um exemplo de relatório do Censo dos EUA, identifica corretamente a causa (fim da política ARPA, fim do estímulo econômico) correlacionando mudança no índice de Gini com análise numérica e de política
- Conclui, por comparação de tabelas, que a participação do 5º quintil de menor renda aumentou

2. Compreensão espacial

O Gemini 3 Pro é a versão com a capacidade de reconhecimento espacial mais forte, otimizada para compreender o mundo físico
- Com saída de coordenadas por pixel, aponta com precisão locais específicos dentro de uma imagem
- Realiza estimativa de pose humana ou rastreamento de trajetória usando pontos 2D contínuos
A função de referência de vocabulário aberto identifica objetos e intenções
- Possibilita a criação de planejamento baseado em espaço, como instruir um robô a “classificar o lixo desta mesa”
- Em dispositivos AR/XR, suporta a execução de instruções visuais, como “apontar para o parafuso de acordo com o manual do usuário”

3. Compreensão de telas

Reconhece com precisão as telas de desktop e de sistemas operacionais móveis, suportando automação do uso de computador
- Aplicável em automação de tarefas repetitivas, testes de QA, onboarding de usuários e análise de UX
- Reconhece elementos de UI e determina com precisão a posição de clique

4. Compreensão de vídeos

Vídeo é o formato de dados mais complexo, e o Gemini 3 Pro o analisa com alta velocidade e precisão
- Com processamento de taxa de quadros alta (>1 FPS), reconhece movimentos rápidos e permite análise detalhada de movimentos, como o swing de golfe
- Com processamento em 10 FPS, captura detalhes como a transferência de peso e partes específicas do movimento do swing
Com o modo “Thinking”, expande do reconhecimento de objeto simples para raciocínio de vídeo orientado a causa e efeito
- Entende não apenas o “o quê” do evento, mas também o “porquê”
É possível converter vídeos longos em código de app ou informação estruturada, reforçando a conexão entre vídeo e código

5. Aplicações práticas

Educação: melhora a capacidade de resolver problemas de matemática e ciências centrados em gráficos
- Trata de problemas de raciocínio multimodal do ensino médio ao nível universitário
- Analisa puzzles matemáticos visuais como [Math Kangaroo] e diagramas complexos de química e física
- Combinado com [Nano Banana Pro], destaca visualmente erros em tarefas de alunos
Saúde e ciências da vida: melhores resultados de ponta nos benchmarks médicos MedXpertQA-MM, VQA-RAD e MicroVQA
- Útil para perguntas e respostas com imagens de radiologia, pesquisa biológica baseada em microscopia e outros casos
Jurídico e financeiro: apoia automação de processamento de documentos profissionais por meio da análise de tabelas e gráficos em relatórios e contratos complexos

6. Controle de resolução de mídia

No processamento de entrada visual, a manutenção da proporção original da mídia melhora a qualidade
Com o parâmetro media_resolution, é possível ajustar o equilíbrio entre desempenho e custo
- High resolution: adequado para OCR detalhado e compreensão complexa de documentos
- Low resolution: otimiza custo e latência em reconhecimento de cenas e processamento de contexto longo
Detalhes de configuração podem ser conferidos no [Guia de Documentação do Gemini 3.0]

Acesso para desenvolvedores

O Gemini 3 Pro pode ser testado diretamente no Google AI Studio,
e a documentação para desenvolvedores fornece suporte para integração de API e uso do modelo

3 comentários

y15un 2025-12-06

Tudo bem, mas eu queria muito que corrigissem esse negócio de ficar inserindo vídeos do YouTube contra as instruções do usuário. Isso vive quebrando minha concentração no meio da resposta por causa da reprodução automática, então até proibi vídeos no personal context, mas às vezes ainda ignoram isso e empurram vídeos assim mesmo. Que irritação...

colus001 2025-12-08

Quando eu pedi para criar uma lista, de repente ele mandou conectar ao Google Drive kkk

GN⁺ 2025-12-06

Comentários do Hacker News

Pela primeira vez apareceu um modelo que conseguiu uma pontuação parcial no meu teste de imagem para LLMs
O teste consiste em contar o número de pernas de um cachorro com 5 pernas, e a maioria dos LLMs insistiu teimosamente que eram 4
O GPT-5 chegou a escrever por conta própria um script de detecção de bordas para encontrar a fronteira entre as “patas douradas do cachorro” e a “grama verde-clara”, tentando provar que eram 4, mas quando na prática encontrou 5, alegou que era um bug e ajustou a sensibilidade
O Gemini 3 errou a quantidade de pernas no começo, mas reconheceu a “anatomia masculina” na foto. Ou seja, a quinta perna estava naquela posição
Ainda assim, continua difícil chamar isso de impressionante
Para referência, o image slicer da Meta reconheceu corretamente as 5 pernas. Todos os cachorros com pernas extras foram gerados pelo nano-banana
- Eu também pedi ao Gemini para criar uma imagem de um cachorro com 5 pernas, mas ele não conseguiu direito. Normalmente gera um cachorro normal ou transforma a cauda em algum apêndice estranho
  Quando pedi ao Gemini e ao Grok para contar as pernas, os dois insistiram que eram 4
  Quando eu disse ao Grok que ele estava errado, ele entrou em confusão ontológica e acabou concluindo: “esta é uma famosa foto de ilusão de ótica que parece mostrar um cachorro sem cabeça, mas na verdade tem só três pernas”
  Testes assim sempre me trazem de volta à realidade quando começo a sentir que os LLMs são realmente ‘inteligentes’
- Não sou especialista em IA, mas tenho um teste de imagem com labirinto em que todos os modelos falharam
  Quando peço ao LLM para desenhar o caminho ótimo, todos falham
  Aqui está o resultado do Nano Banana: link do teste
- Esses testes parecem uma abordagem enviesada de avaliar LLMs com base na cognição humana
  Fora mostrar que o modelo não pensa como um humano, isso não prova muita coisa
  Fico na dúvida se o prompt diz explicitamente ao modelo para “interpretar esta imagem de forma muito literal” ou se foi desenhado de propósito para enganar
  Também não está claro se o critério de sucesso é simplesmente responder “5” ou se inclui o contexto da conversa
  No fim, esses testes parecem uma análise improdutiva para avaliar o nível de cognição dos LLMs
- O Nano Banana 2 realmente gerou uma imagem de cachorro com 5 pernas bem convincente
  link do resultado
  Mas o modelo não ‘achou’ que tinha feito isso
  Na etapa final de raciocínio, reconheceu sua própria limitação dizendo que “a quinta perna continua faltando” e concluiu que “identificou a falha, mas fornece a melhor imagem possível”
- Quando precisa superar conceitos desbalanceados nos dados de treino, o modelo tem dificuldade
  Por exemplo, se você pedir para gerar uma aranha com uma perna a menos, uma estrela de 9 pontas, um trevo de 5 folhas ou pessoas com números diferentes de dedos, a taxa de sucesso fica abaixo de 25%
  O problema dos dedos é especialmente irônico, considerando o esforço que foi feito antigamente para corrigir os erros anatômicos do SD 1.5
Trabalho com projetos elétricos para construção e às vezes passo tarefas simples para LLMs
Dei a ele um diagrama de fiação malfeito e ele quase completou de primeira a disposição das tomadas em um cômodo
Com um controle um pouco mais fino, parece que em breve poderá substituir uma parte significativa do trabalho dos meus colegas
- Queria que existisse uma varinha mágica que tornasse ferramentas como AVEVA ou AutoCAD menos dolorosas de usar
  Quem deveria melhorar essas ferramentas não são os engenheiros usuários, e sim as próprias empresas que as criaram
  Depender de aceleradores de terceiros pouco confiáveis é arriscado
- Queria ver um exemplo do diagrama de fiação que você usou. Também quero experimentar
- A frase “IA nunca poderá substituir a criatividade humana” continua parecendo um gol que se move
  O alcance está se expandindo aos poucos para arte digital, gestão de projetos, engenharia e até trabalho manual
  Parece que ninguém mais lembra que o teste de Turing já foi uma discussão séria
Se essa melhora de OCR for aplicada ao Google Books, o impacto pode ser enorme
No longo prazo, talvez isso até permita armazenar livros raros de forma compactada por menos de US$ 5.000
Vale a pena ler também o post do blog do Anna’s Archive
Seria ótimo se o archive.org usasse isso no lugar do Tesseract. Só fico curioso com o custo
- Isso é a estrutura clássica de um flywheel de dados — modelos melhores → dados melhores → modelos melhores
- “Mais dados para o deus dos dados!”
Os resultados do ScreenSpot Pro são interessantes
```
72.7% Gemini 3 Pro
11.4% Gemini 2.5 Pro
49.9% Claude Opus 4.5
3.50% GPT-5.1
```
É um teste de uso de computador em GUI com alta resolução
link do artigo
- Fiquei surpreso alguns meses atrás, num teste simples de OCR, ao ver o GPT-5 ter um desempenho muito fraco em comparação com o Opus 4.1 e o Gemini 2.5
  Pretendo testar de novo com os modelos mais recentes
  blog relacionado
- O resultado do GPT-5.1 está extremamente baixo. Será que há perda de informação por downscaling?
- Nesse ritmo, logo deve chegar na faixa dos 90% de precisão
Aviso para o autor do artigo — o link de “HTML transcription” está quebrado
Ele leva para um endereço interno do Google
- É engraçado como o design dos portais internos de empresa continua igual há décadas. Aquele estilo antigo dá até nostalgia
- Sou o Rohan, autor do artigo. Obrigado pelo aviso, acabei de corrigir
- Surpreende que o link de ajuda de login abra sem exigir login
- O link “See prompt in Google AI Studio” também aponta para um prompt privado
O Nano Banana Pro ainda não consegue resolver perfeitamente caça-palavras
Já o Gemini 3 Pro with Code Execution acertou de primeira e ainda marcou corretamente a posição das palavras
imagem do puzzle, resultado do Nano Banana 1, resultado 2
O Nano Banana acertou só duas palavras, mas ainda assim é um grande avanço em relação a antes
É um tipo de problema que exige pré-processamento minucioso, como acertar maiúsculas/minúsculas ou remover espaços
- Ao usar o app web do Gemini, é melhor não começar já no modo de geração de imagem; primeiro configure um fluxo de prompts preciso no modo de conversa normal e só depois peça a geração da imagem
Disseram que o “Gemini 3 Pro é um salto geracional de reconhecimento simples para raciocínio espacial”, mas
quando pedi uma “taça de vinho cheia”, ele desenhou uma taça só 2/3 cheia
O verdadeiro raciocínio espacial ainda está longe
- Gemini 3 Pro é diferente do Nano Banana Pro, e a robustez do modelo de decodificação de imagem pode ser menor
  O Nano Banana Pro é melhor em inferir onde estão os erros dentro da imagem
- Também testei com o mesmo prompt e, quando pedi mais uma vez para “encher a taça até quase transbordar”, saiu uma taça perfeitamente cheia
- Por outro lado, se você der a imagem e perguntar “esta taça está cheia?”, provavelmente vai acertar. O Qwen-VL já funciona bem desse jeito
Este anúncio não é sobre um modelo novo, e sim apenas um destaque para casos reais de uso de visão no Gemini 3
Dizem que a função de saída de coordenadas do Gemini 3 permite estimativa de pose ou rastreamento de trajetória,
mas é uma pena não haver prompts ou documentação concretos
- Eu queria um recurso em CMS que fizesse automaticamente o enquadramento por proporção das fotos
  Por exemplo, um modelo que recorte fotos em formatos wide, quadrado, vertical e 4:3. Não achei nada assim no Hugging Face
- O blog relacionado do Simon Willison ajuda: Bounding Box Visualization
Se fosse possível ter YouTube com descrição em áudio, seria realmente incrível
Daria para ouvir um playthrough narrado, com o Gemini descrevendo as cenas sem precisar jogar você mesmo
- Analisei um vídeo de Zelda TOTK em intervalos de 5 segundos para criar uma descrição narrativa em voz
  vídeo original, script, áudio TTS
  Como o vídeo era 144p, alguns detalhes ficaram um pouco imprecisos, mas a descrição das cenas foi bem correta
- Também processei um vídeo de 1 hora de Witcher 3 em 144p, e deu para gerar facilmente descrições por cena com cerca de 300.000 tokens
- Enviei ao app do Gemini os 5 minutos iniciais de Zelda: Breath of the Wild e pedi uma descrição cena a cena
  vídeo original, gist do resultado
  Ficou bem preciso como descrição para pessoas com deficiência visual