- O novo modelo o3 da OpenAI tem a capacidade de adivinhar com precisão surpreendente onde uma foto foi tirada apenas olhando para ela
- As pistas visuais da foto são analisadas, e o processo mostra como ele extrai mais detalhes com zoom e recorte
- Cambria, California foi o primeiro palpite, mas o segundo, El Granada, estava exatamente correto
- Ao usar um sistema de raciocínio com integração de ferramentas, ele mostra um padrão muito inovador no processo de análise da foto
- O texto destaca a necessidade de atenção para a dupla face da tecnologia e também aponta os riscos de compartilhar fotos
A impressionante capacidade do modelo o3 de adivinhar a localização de fotos
- O modelo o3 da OpenAI tem a capacidade de olhar para uma foto e adivinhar com precisão impressionante onde ela foi tirada
- O usuário forneceu uma foto de uma rua comum, sem marcos evidentes, e perguntou: "Onde você acha que esta foto foi tirada?"
- No início, o modelo entendeu por engano que não podia ver a imagem, mas logo começou a análise visual
- Ele foi restringindo a localização ao analisar várias pistas visuais, como casas, canteiros, colinas e placas
O processo de análise de fotos do o3
- O modelo usou recorte e zoom na foto para verificar a placa de um carro
- Usando código Python, ele recortou partes específicas da imagem e analisou o resultado
- A partir do design da placa, inferiu que era a Califórnia e também analisou o ambiente ao redor e o estilo arquitetônico
- Com isso, chegou ao palpite final de Cambria, California, apresentando Half Moon Bay–El Granada como segunda alternativa
Precisão da análise e experimentos adicionais
- O local real da foto era El Granada, e o segundo palpite do modelo estava correto
- Foi confirmado que ele consegue inferir a localização mesmo sem usar metadados EXIF
- Quando o usuário testou com uma captura de tela sem informações EXIF, ele ainda assim conseguiu fazer uma inferência precisa
- Outro modelo, Claude 3.5/3.7 Sonnet, também mostrou bom desempenho, mas não oferece suporte a zoom como o o3
- O modelo Gemini às vezes usava informações de localização de forma imprecisa ou fazia palpites errados
O sistema de raciocínio com integração de ferramentas e seu significado
- O o3 adota uma nova abordagem de Tool-augmented Chain-of-Thought, na qual usa diretamente as ferramentas necessárias enquanto "pensa"
- Esse padrão mostra desempenho poderoso não só na análise de fotos, mas também em várias outras tarefas, como busca
- É esperado que abordagens semelhantes se espalhem para outros modelos de IA no futuro
A diversão e os riscos da tecnologia
- Observar o processo de raciocínio do modelo proporciona uma experiência muito divertida e imersiva
- Ao mesmo tempo, também é importante encarar o alerta de que a possibilidade de rastrear localização por fotos está se tornando algo comum
- Como qualquer pessoa pode rastrear a localização de alguém usando apenas fotos do dia a dia, é necessário ter consciência sobre privacidade e segurança
Informações adicionais sobre o acesso do modelo o3 à localização
- O o3 pode consultar informações aproximadas de localização do usuário, mas isso não é o principal fator para inferências precisas
- Mesmo sem metadados EXIF, ele analisou com boa precisão fotos de regiões a milhares de quilômetros de distância
- Outros usuários também testaram em vários lugares e confirmaram novamente a capacidade de análise do o3
2 comentários
E se colocássemos informações enganosas no EXIF?
Comentários do Hacker News
Eu jogo Geoguessr competitivo em alto nível e queria testar esse modelo
Tenho certeza de que ele não viu os dados EXIF
Em todas as imagens que testei, o modelo base identificou a localização da foto com cerca de 95% de precisão
Tentei a mesma coisa e o resultado foi engraçado
O o3 modela aproximadamente a localização do usuário
Isso me lembra quando as pessoas se espantam ao ver no YouTubeTV anúncios sobre algo de que estavam falando
Deve haver áreas em que o palpite de localização pode ser assustadoramente preciso
Tenho certeza de que ele não viu os dados EXIF
Em outro dia, não foi tão impressionante
Não tenho certeza se o o4-mini falha nessa tarefa