A adivinhação do local de fotos pelo o3 é surreal, distópica e divertida

(simonwillison.net)

6 pontos por GN⁺ 2025-04-27 | 2 comentários | Compartilhar no WhatsApp

O novo modelo o3 da OpenAI tem a capacidade de adivinhar com precisão surpreendente onde uma foto foi tirada apenas olhando para ela
As pistas visuais da foto são analisadas, e o processo mostra como ele extrai mais detalhes com zoom e recorte
Cambria, California foi o primeiro palpite, mas o segundo, El Granada, estava exatamente correto
Ao usar um sistema de raciocínio com integração de ferramentas, ele mostra um padrão muito inovador no processo de análise da foto
O texto destaca a necessidade de atenção para a dupla face da tecnologia e também aponta os riscos de compartilhar fotos

A impressionante capacidade do modelo o3 de adivinhar a localização de fotos

O modelo o3 da OpenAI tem a capacidade de olhar para uma foto e adivinhar com precisão impressionante onde ela foi tirada
O usuário forneceu uma foto de uma rua comum, sem marcos evidentes, e perguntou: "Onde você acha que esta foto foi tirada?"
No início, o modelo entendeu por engano que não podia ver a imagem, mas logo começou a análise visual
Ele foi restringindo a localização ao analisar várias pistas visuais, como casas, canteiros, colinas e placas

O processo de análise de fotos do o3

O modelo usou recorte e zoom na foto para verificar a placa de um carro
Usando código Python, ele recortou partes específicas da imagem e analisou o resultado
A partir do design da placa, inferiu que era a Califórnia e também analisou o ambiente ao redor e o estilo arquitetônico
Com isso, chegou ao palpite final de Cambria, California, apresentando Half Moon Bay–El Granada como segunda alternativa

Precisão da análise e experimentos adicionais

O local real da foto era El Granada, e o segundo palpite do modelo estava correto
Foi confirmado que ele consegue inferir a localização mesmo sem usar metadados EXIF
Quando o usuário testou com uma captura de tela sem informações EXIF, ele ainda assim conseguiu fazer uma inferência precisa
Outro modelo, Claude 3.5/3.7 Sonnet, também mostrou bom desempenho, mas não oferece suporte a zoom como o o3
O modelo Gemini às vezes usava informações de localização de forma imprecisa ou fazia palpites errados

O sistema de raciocínio com integração de ferramentas e seu significado

O o3 adota uma nova abordagem de Tool-augmented Chain-of-Thought, na qual usa diretamente as ferramentas necessárias enquanto "pensa"
Esse padrão mostra desempenho poderoso não só na análise de fotos, mas também em várias outras tarefas, como busca
É esperado que abordagens semelhantes se espalhem para outros modelos de IA no futuro

A diversão e os riscos da tecnologia

Observar o processo de raciocínio do modelo proporciona uma experiência muito divertida e imersiva
Ao mesmo tempo, também é importante encarar o alerta de que a possibilidade de rastrear localização por fotos está se tornando algo comum
Como qualquer pessoa pode rastrear a localização de alguém usando apenas fotos do dia a dia, é necessário ter consciência sobre privacidade e segurança

Informações adicionais sobre o acesso do modelo o3 à localização

O o3 pode consultar informações aproximadas de localização do usuário, mas isso não é o principal fator para inferências precisas
Mesmo sem metadados EXIF, ele analisou com boa precisão fotos de regiões a milhares de quilômetros de distância
Outros usuários também testaram em vários lugares e confirmaram novamente a capacidade de análise do o3

2 comentários

unsure4000 2025-04-27

E se colocássemos informações enganosas no EXIF?

GN⁺ 2025-04-27

Comentários do Hacker News

Eu jogo Geoguessr competitivo em alto nível e queria testar esse modelo
- É impressionantemente bom
- Acertou exatamente uma foto da região onde moro e mencionou ter usado a informação de que eu moro perto dali
- Também acertou fotos antigas de férias melhor do que jogadores humanos profissionais
- Incluindo vários lugares na Europa, América Central e Estados Unidos
- O processo para chegar à conclusão é parecido com o de um humano
- Analisa plantas, relevo, arquitetura, infraestrutura viária, placas etc.
- Humanos também conseguem, mas isso exige milhares de partidas ou estudo aprofundado
- Eu uso centenas de flashcards para memorizar faixas de rodagem, postes, construções etc.
- Esses modelos têm mais informação do que uma pessoa consegue memorizar
Tenho certeza de que ele não viu os dados EXIF
- Se tivesse visto, não teria chutado Cambria no começo
- Em uma ocasião, disse que nem conseguia ver os dados da imagem
- Não dá para confiar nisso de jeito nenhum
- É preciso remover os dados EXIF e rodar de novo
Em todas as imagens que testei, o modelo base identificou a localização da foto com cerca de 95% de precisão
- Na imagem inicial do OP, o 4o chutou Carmel-by-the-Sea com mais precisão
- No CoT, dá para ver uma localização quase exata já na primeira etapa do raciocínio
- O modelo ignora isso e tenta outros lugares
- Quando o modelo base não conhece as pistas, o o3 não age de forma inteligente
- O modelo foi ajustado com RL para levar à resposta certa independentemente do número de usos de ferramentas
Tentei a mesma coisa e o resultado foi engraçado
- Não fazia ideia de nenhuma das pistas
- Vi várias vezes o prompt dizendo que não era a cidade onde eu estou
- A parte mais engraçada foi quando começou a analisar asfalto borrado
- Depois de 6 minutos, o o3 estava confiante e errado
O o3 modela aproximadamente a localização do usuário
- Acredito que isso seja para dar suporte ao novo recurso de busca
- Rodei duas consultas de exemplo adicionais, e ambas mostraram resultados convincentes
Isso me lembra quando as pessoas se espantam ao ver no YouTubeTV anúncios sobre algo de que estavam falando
- Na prática, o ML moderno consegue inferir muito bem a relevância do anúncio usando localização, parceiros de dados e buscas recentes
- Mesmo explicando isso, ainda há quem acredite que o computador está ouvindo
Deve haver áreas em que o palpite de localização pode ser assustadoramente preciso
- Mas, vendo o processo de raciocínio, também deve haver muitas áreas em que ele é menos preciso
- Se você mostrar uma foto de um trailer park no Kansas, o modelo provavelmente só vai acertar o estado
- Se acontecer um apocalipse robótico, a Califórnia será a primeira em perigo
Tenho certeza de que ele não viu os dados EXIF
- Se estivesse trapaceando em uma tarefa parecida, sugeriria uma localização um pouco errada
- Seria interessante ver como ele se sai com a mesma imagem sem os dados EXIF
Em outro dia, não foi tão impressionante
- Não conseguiu encontrar a imagem que eu forneci
- Ficou repetindo buscas parecidas com recortes da imagem
- Ao usar o recurso de geração de imagens, dá para perceber que ele usa um grande banco de imagens como material de referência
Não tenho certeza se o o4-mini falha nessa tarefa
- Não foi bem nas fotos que forneci
- Dei uma foto com o texto 'Sprüngli' na estação central de Basel, e o modelo sugeriu Zurich
- A segunda foto era mais difícil
- Era uma foto do interior de um museu em Metz, e o modelo errou desde o início
- No geral, ainda é legal ver a compreensão de imagem e o raciocínio, mas ele não vai tão bem em lugares menos expostos

A adivinhação do local de fotos pelo o3 é surreal, distópica e divertida

A impressionante capacidade do modelo o3 de adivinhar a localização de fotos

O processo de análise de fotos do o3

Precisão da análise e experimentos adicionais

O sistema de raciocínio com integração de ferramentas e seu significado

A diversão e os riscos da tecnologia

Informações adicionais sobre o acesso do modelo o3 à localização

Leituras relacionadas

2 comentários

Comentários do Hacker News