6 pontos por GN⁺ 2025-04-27 | 2 comentários | Compartilhar no WhatsApp
  • O novo modelo o3 da OpenAI tem a capacidade de adivinhar com precisão surpreendente onde uma foto foi tirada apenas olhando para ela
  • As pistas visuais da foto são analisadas, e o processo mostra como ele extrai mais detalhes com zoom e recorte
  • Cambria, California foi o primeiro palpite, mas o segundo, El Granada, estava exatamente correto
  • Ao usar um sistema de raciocínio com integração de ferramentas, ele mostra um padrão muito inovador no processo de análise da foto
  • O texto destaca a necessidade de atenção para a dupla face da tecnologia e também aponta os riscos de compartilhar fotos

A impressionante capacidade do modelo o3 de adivinhar a localização de fotos

  • O modelo o3 da OpenAI tem a capacidade de olhar para uma foto e adivinhar com precisão impressionante onde ela foi tirada
  • O usuário forneceu uma foto de uma rua comum, sem marcos evidentes, e perguntou: "Onde você acha que esta foto foi tirada?"
  • No início, o modelo entendeu por engano que não podia ver a imagem, mas logo começou a análise visual
  • Ele foi restringindo a localização ao analisar várias pistas visuais, como casas, canteiros, colinas e placas

O processo de análise de fotos do o3

  • O modelo usou recorte e zoom na foto para verificar a placa de um carro
  • Usando código Python, ele recortou partes específicas da imagem e analisou o resultado
  • A partir do design da placa, inferiu que era a Califórnia e também analisou o ambiente ao redor e o estilo arquitetônico
  • Com isso, chegou ao palpite final de Cambria, California, apresentando Half Moon Bay–El Granada como segunda alternativa

Precisão da análise e experimentos adicionais

  • O local real da foto era El Granada, e o segundo palpite do modelo estava correto
  • Foi confirmado que ele consegue inferir a localização mesmo sem usar metadados EXIF
  • Quando o usuário testou com uma captura de tela sem informações EXIF, ele ainda assim conseguiu fazer uma inferência precisa
  • Outro modelo, Claude 3.5/3.7 Sonnet, também mostrou bom desempenho, mas não oferece suporte a zoom como o o3
  • O modelo Gemini às vezes usava informações de localização de forma imprecisa ou fazia palpites errados

O sistema de raciocínio com integração de ferramentas e seu significado

  • O o3 adota uma nova abordagem de Tool-augmented Chain-of-Thought, na qual usa diretamente as ferramentas necessárias enquanto "pensa"
  • Esse padrão mostra desempenho poderoso não só na análise de fotos, mas também em várias outras tarefas, como busca
  • É esperado que abordagens semelhantes se espalhem para outros modelos de IA no futuro

A diversão e os riscos da tecnologia

  • Observar o processo de raciocínio do modelo proporciona uma experiência muito divertida e imersiva
  • Ao mesmo tempo, também é importante encarar o alerta de que a possibilidade de rastrear localização por fotos está se tornando algo comum
  • Como qualquer pessoa pode rastrear a localização de alguém usando apenas fotos do dia a dia, é necessário ter consciência sobre privacidade e segurança

Informações adicionais sobre o acesso do modelo o3 à localização

  • O o3 pode consultar informações aproximadas de localização do usuário, mas isso não é o principal fator para inferências precisas
  • Mesmo sem metadados EXIF, ele analisou com boa precisão fotos de regiões a milhares de quilômetros de distância
  • Outros usuários também testaram em vários lugares e confirmaram novamente a capacidade de análise do o3

2 comentários

 
unsure4000 2025-04-27

E se colocássemos informações enganosas no EXIF?

 
GN⁺ 2025-04-27
Comentários do Hacker News
  • Eu jogo Geoguessr competitivo em alto nível e queria testar esse modelo

    • É impressionantemente bom
    • Acertou exatamente uma foto da região onde moro e mencionou ter usado a informação de que eu moro perto dali
    • Também acertou fotos antigas de férias melhor do que jogadores humanos profissionais
    • Incluindo vários lugares na Europa, América Central e Estados Unidos
    • O processo para chegar à conclusão é parecido com o de um humano
    • Analisa plantas, relevo, arquitetura, infraestrutura viária, placas etc.
    • Humanos também conseguem, mas isso exige milhares de partidas ou estudo aprofundado
    • Eu uso centenas de flashcards para memorizar faixas de rodagem, postes, construções etc.
    • Esses modelos têm mais informação do que uma pessoa consegue memorizar
  • Tenho certeza de que ele não viu os dados EXIF

    • Se tivesse visto, não teria chutado Cambria no começo
    • Em uma ocasião, disse que nem conseguia ver os dados da imagem
    • Não dá para confiar nisso de jeito nenhum
    • É preciso remover os dados EXIF e rodar de novo
  • Em todas as imagens que testei, o modelo base identificou a localização da foto com cerca de 95% de precisão

    • Na imagem inicial do OP, o 4o chutou Carmel-by-the-Sea com mais precisão
    • No CoT, dá para ver uma localização quase exata já na primeira etapa do raciocínio
    • O modelo ignora isso e tenta outros lugares
    • Quando o modelo base não conhece as pistas, o o3 não age de forma inteligente
    • O modelo foi ajustado com RL para levar à resposta certa independentemente do número de usos de ferramentas
  • Tentei a mesma coisa e o resultado foi engraçado

    • Não fazia ideia de nenhuma das pistas
    • Vi várias vezes o prompt dizendo que não era a cidade onde eu estou
    • A parte mais engraçada foi quando começou a analisar asfalto borrado
    • Depois de 6 minutos, o o3 estava confiante e errado
  • O o3 modela aproximadamente a localização do usuário

    • Acredito que isso seja para dar suporte ao novo recurso de busca
    • Rodei duas consultas de exemplo adicionais, e ambas mostraram resultados convincentes
  • Isso me lembra quando as pessoas se espantam ao ver no YouTubeTV anúncios sobre algo de que estavam falando

    • Na prática, o ML moderno consegue inferir muito bem a relevância do anúncio usando localização, parceiros de dados e buscas recentes
    • Mesmo explicando isso, ainda há quem acredite que o computador está ouvindo
  • Deve haver áreas em que o palpite de localização pode ser assustadoramente preciso

    • Mas, vendo o processo de raciocínio, também deve haver muitas áreas em que ele é menos preciso
    • Se você mostrar uma foto de um trailer park no Kansas, o modelo provavelmente só vai acertar o estado
    • Se acontecer um apocalipse robótico, a Califórnia será a primeira em perigo
  • Tenho certeza de que ele não viu os dados EXIF

    • Se estivesse trapaceando em uma tarefa parecida, sugeriria uma localização um pouco errada
    • Seria interessante ver como ele se sai com a mesma imagem sem os dados EXIF
  • Em outro dia, não foi tão impressionante

    • Não conseguiu encontrar a imagem que eu forneci
    • Ficou repetindo buscas parecidas com recortes da imagem
    • Ao usar o recurso de geração de imagens, dá para perceber que ele usa um grande banco de imagens como material de referência
  • Não tenho certeza se o o4-mini falha nessa tarefa

    • Não foi bem nas fotos que forneci
    • Dei uma foto com o texto 'Sprüngli' na estação central de Basel, e o modelo sugeriu Zurich
    • A segunda foto era mais difícil
    • Era uma foto do interior de um museu em Metz, e o modelo errou desde o início
    • No geral, ainda é legal ver a compreensão de imagem e o raciocínio, mas ele não vai tão bem em lugares menos expostos