- O Gemini 3 Pro vai além da etapa de reconhecimento simples e realiza raciocínio visual e espacial como um modelo multimodal de próxima geração
- Em áreas como compreensão de documentos, espaço, telas e vídeos, registra desempenho de ponta e atinge o topo em benchmarks de raciocínio visual complexo
- Em compreensão de documentos, oferece OCR preciso e reconstrução estrutural (derendering), além de funcionalidades de inferência mais avançadas como análise de tabelas e gráficos em múltiplas etapas
- Em compreensão espacial, de telas e de vídeos, fortalece a capacidade de interação com ambientes reais com apontamento baseado em coordenadas, análise de quadros em alta velocidade e raciocínio causal em vídeo
- Em setores como educação, saúde, jurídico e financeiro, apoia compreensão visual precisa e automação, e os desenvolvedores podem ajustar desempenho e custo com o parâmetro media_resolution
Visão geral do Gemini 3 Pro
- O Gemini 3 Pro evoluiu do reconhecimento simples para raciocínio visual e espacial, e é o modelo multimodal mais poderoso desenvolvido pela Google
- Registrou o topo dos benchmarks mais recentes em compreensão de documentos, espaço, telas e vídeos
- Alcançou novo desempenho máximo em testes de raciocínio visual complexos, como MMMU Pro e Video MMMU
1. Compreensão de documentos
- Documentos reais combinam elementos não estruturados como imagem, letra manual, tabelas e fórmulas, e o Gemini 3 Pro os reconhece e estrutura com precisão
- A precisão de OCR e a capacidade de raciocínio visual melhoraram significativamente
- Com o recurso Derendering, é possível restaurar documentos visuais em código estrutural como HTML, LaTeX e Markdown
- Converte o livro-razão de um comerciante do século XVIII em tabela ou reconstrói uma imagem de fórmula em código LaTeX
- Recreia o diagrama original de Florence Nightingale como um gráfico interativo
- A capacidade de raciocínio composto permite analisar tabelas e gráficos de forma gradual em relatórios longos
- No benchmark CharXiv Reasoning, supera o padrão humano (80,5%)
- Em um exemplo de relatório do Censo dos EUA, identifica corretamente a causa (fim da política ARPA, fim do estímulo econômico) correlacionando mudança no índice de Gini com análise numérica e de política
- Conclui, por comparação de tabelas, que a participação do 5º quintil de menor renda aumentou
2. Compreensão espacial
- O Gemini 3 Pro é a versão com a capacidade de reconhecimento espacial mais forte, otimizada para compreender o mundo físico
- Com saída de coordenadas por pixel, aponta com precisão locais específicos dentro de uma imagem
- Realiza estimativa de pose humana ou rastreamento de trajetória usando pontos 2D contínuos
- A função de referência de vocabulário aberto identifica objetos e intenções
- Possibilita a criação de planejamento baseado em espaço, como instruir um robô a “classificar o lixo desta mesa”
- Em dispositivos AR/XR, suporta a execução de instruções visuais, como “apontar para o parafuso de acordo com o manual do usuário”
3. Compreensão de telas
- Reconhece com precisão as telas de desktop e de sistemas operacionais móveis, suportando automação do uso de computador
- Aplicável em automação de tarefas repetitivas, testes de QA, onboarding de usuários e análise de UX
- Reconhece elementos de UI e determina com precisão a posição de clique
4. Compreensão de vídeos
- Vídeo é o formato de dados mais complexo, e o Gemini 3 Pro o analisa com alta velocidade e precisão
- Com processamento de taxa de quadros alta (>1 FPS), reconhece movimentos rápidos e permite análise detalhada de movimentos, como o swing de golfe
- Com processamento em 10 FPS, captura detalhes como a transferência de peso e partes específicas do movimento do swing
- Com o modo “Thinking”, expande do reconhecimento de objeto simples para raciocínio de vídeo orientado a causa e efeito
- Entende não apenas o “o quê” do evento, mas também o “porquê”
- É possível converter vídeos longos em código de app ou informação estruturada, reforçando a conexão entre vídeo e código
5. Aplicações práticas
- Educação: melhora a capacidade de resolver problemas de matemática e ciências centrados em gráficos
- Trata de problemas de raciocínio multimodal do ensino médio ao nível universitário
- Analisa puzzles matemáticos visuais como [Math Kangaroo] e diagramas complexos de química e física
- Combinado com [Nano Banana Pro], destaca visualmente erros em tarefas de alunos
- Saúde e ciências da vida: melhores resultados de ponta nos benchmarks médicos MedXpertQA-MM, VQA-RAD e MicroVQA
- Útil para perguntas e respostas com imagens de radiologia, pesquisa biológica baseada em microscopia e outros casos
- Jurídico e financeiro: apoia automação de processamento de documentos profissionais por meio da análise de tabelas e gráficos em relatórios e contratos complexos
6. Controle de resolução de mídia
- No processamento de entrada visual, a manutenção da proporção original da mídia melhora a qualidade
- Com o parâmetro media_resolution, é possível ajustar o equilíbrio entre desempenho e custo
- High resolution: adequado para OCR detalhado e compreensão complexa de documentos
- Low resolution: otimiza custo e latência em reconhecimento de cenas e processamento de contexto longo
- Detalhes de configuração podem ser conferidos no [Guia de Documentação do Gemini 3.0]
Acesso para desenvolvedores
3 comentários
Tudo bem, mas eu queria muito que corrigissem esse negócio de ficar inserindo vídeos do YouTube contra as instruções do usuário. Isso vive quebrando minha concentração no meio da resposta por causa da reprodução automática, então até proibi vídeos no personal context, mas às vezes ainda ignoram isso e empurram vídeos assim mesmo. Que irritação...
Quando eu pedi para criar uma lista, de repente ele mandou conectar ao Google Drive kkk
Comentários do Hacker News
Pela primeira vez apareceu um modelo que conseguiu uma pontuação parcial no meu teste de imagem para LLMs
O teste consiste em contar o número de pernas de um cachorro com 5 pernas, e a maioria dos LLMs insistiu teimosamente que eram 4
O GPT-5 chegou a escrever por conta própria um script de detecção de bordas para encontrar a fronteira entre as “patas douradas do cachorro” e a “grama verde-clara”, tentando provar que eram 4, mas quando na prática encontrou 5, alegou que era um bug e ajustou a sensibilidade
O Gemini 3 errou a quantidade de pernas no começo, mas reconheceu a “anatomia masculina” na foto. Ou seja, a quinta perna estava naquela posição
Ainda assim, continua difícil chamar isso de impressionante
Para referência, o image slicer da Meta reconheceu corretamente as 5 pernas. Todos os cachorros com pernas extras foram gerados pelo nano-banana
Quando pedi ao Gemini e ao Grok para contar as pernas, os dois insistiram que eram 4
Quando eu disse ao Grok que ele estava errado, ele entrou em confusão ontológica e acabou concluindo: “esta é uma famosa foto de ilusão de ótica que parece mostrar um cachorro sem cabeça, mas na verdade tem só três pernas”
Testes assim sempre me trazem de volta à realidade quando começo a sentir que os LLMs são realmente ‘inteligentes’
Quando peço ao LLM para desenhar o caminho ótimo, todos falham
Aqui está o resultado do Nano Banana: link do teste
Fora mostrar que o modelo não pensa como um humano, isso não prova muita coisa
Fico na dúvida se o prompt diz explicitamente ao modelo para “interpretar esta imagem de forma muito literal” ou se foi desenhado de propósito para enganar
Também não está claro se o critério de sucesso é simplesmente responder “5” ou se inclui o contexto da conversa
No fim, esses testes parecem uma análise improdutiva para avaliar o nível de cognição dos LLMs
link do resultado
Mas o modelo não ‘achou’ que tinha feito isso
Na etapa final de raciocínio, reconheceu sua própria limitação dizendo que “a quinta perna continua faltando” e concluiu que “identificou a falha, mas fornece a melhor imagem possível”
Por exemplo, se você pedir para gerar uma aranha com uma perna a menos, uma estrela de 9 pontas, um trevo de 5 folhas ou pessoas com números diferentes de dedos, a taxa de sucesso fica abaixo de 25%
O problema dos dedos é especialmente irônico, considerando o esforço que foi feito antigamente para corrigir os erros anatômicos do SD 1.5
Trabalho com projetos elétricos para construção e às vezes passo tarefas simples para LLMs
Dei a ele um diagrama de fiação malfeito e ele quase completou de primeira a disposição das tomadas em um cômodo
Com um controle um pouco mais fino, parece que em breve poderá substituir uma parte significativa do trabalho dos meus colegas
Quem deveria melhorar essas ferramentas não são os engenheiros usuários, e sim as próprias empresas que as criaram
Depender de aceleradores de terceiros pouco confiáveis é arriscado
O alcance está se expandindo aos poucos para arte digital, gestão de projetos, engenharia e até trabalho manual
Parece que ninguém mais lembra que o teste de Turing já foi uma discussão séria
Se essa melhora de OCR for aplicada ao Google Books, o impacto pode ser enorme
No longo prazo, talvez isso até permita armazenar livros raros de forma compactada por menos de US$ 5.000
Vale a pena ler também o post do blog do Anna’s Archive
Seria ótimo se o archive.org usasse isso no lugar do Tesseract. Só fico curioso com o custo
Os resultados do ScreenSpot Pro são interessantes
É um teste de uso de computador em GUI com alta resolução
link do artigo
Pretendo testar de novo com os modelos mais recentes
blog relacionado
Aviso para o autor do artigo — o link de “HTML transcription” está quebrado
Ele leva para um endereço interno do Google
O Nano Banana Pro ainda não consegue resolver perfeitamente caça-palavras
Já o Gemini 3 Pro with Code Execution acertou de primeira e ainda marcou corretamente a posição das palavras
imagem do puzzle, resultado do Nano Banana 1, resultado 2
O Nano Banana acertou só duas palavras, mas ainda assim é um grande avanço em relação a antes
É um tipo de problema que exige pré-processamento minucioso, como acertar maiúsculas/minúsculas ou remover espaços
Disseram que o “Gemini 3 Pro é um salto geracional de reconhecimento simples para raciocínio espacial”, mas
quando pedi uma “taça de vinho cheia”, ele desenhou uma taça só 2/3 cheia
O verdadeiro raciocínio espacial ainda está longe
O Nano Banana Pro é melhor em inferir onde estão os erros dentro da imagem
Este anúncio não é sobre um modelo novo, e sim apenas um destaque para casos reais de uso de visão no Gemini 3
Dizem que a função de saída de coordenadas do Gemini 3 permite estimativa de pose ou rastreamento de trajetória,
mas é uma pena não haver prompts ou documentação concretos
Por exemplo, um modelo que recorte fotos em formatos wide, quadrado, vertical e 4:3. Não achei nada assim no Hugging Face
Se fosse possível ter YouTube com descrição em áudio, seria realmente incrível
Daria para ouvir um playthrough narrado, com o Gemini descrevendo as cenas sem precisar jogar você mesmo
vídeo original, script, áudio TTS
Como o vídeo era 144p, alguns detalhes ficaram um pouco imprecisos, mas a descrição das cenas foi bem correta
vídeo original, gist do resultado
Ficou bem preciso como descrição para pessoas com deficiência visual