OpenAI o3 ignora até dados EXIF falsificados e derrota um mestre de Geoguessr

(sampatt.com)

6 pontos por GN⁺ 2025-04-30 | 1 comentários | Compartilhar no WhatsApp

O modelo o3 mais recente venceu um jogador de nível Geoguessr Master I
- O nível Master I corresponde a cerca dos 1–2% melhores jogadores. O nível máximo é Champion, com 0,1–0,5%
Mesmo com dados GPS EXIF falsificados inseridos na imagem, o modelo inferiu corretamente a localização real apenas com pistas visuais
A inferência foi feita com uma abordagem de Chain of Thought (COT), analisando de forma combinada características detalhadas como prédios, relevo, faixas de rodagem, idioma e placas
Em algumas rodadas, foi usada busca na web, mas novos testes mostraram que era possível chegar à mesma resposta sem pesquisa
O tempo médio de inferência do o3 é maior que o de um humano, mas seu nível de precisão é ainda superior

IA vs humano: o início do duelo no Geoguessr

O autor é um jogador de nível Geoguessr Master I e enfrentou a IA em 5 rodadas, de forma semelhante ao jogo real
Em cada rodada, foram fornecidas apenas 2 imagens do Street View, e a localização teve de ser inferida sem metadados
A pontuação seguiu o formato normal do Geoguessr: máximo de 5.000 pontos por rodada, com total máximo de 25.000

Resumo dos resultados por rodada

Rodada 1 (Bulgária): o humano venceu ao acertar uma localização ligeiramente mais próxima, mas a diferença foi de apenas cerca de 100 pontos
Rodada 2 (Áustria): o o3 pesquisou o domínio exibido em um táxi para identificar o nome real da cidade e acertou a localização quase perfeitamente, obtendo uma pontuação próxima de 5.000
Rodada 3 (Irlanda): ambos mostraram ótima análise, e o o3 inferiu corretamente a região de Burren com base em marcas viárias e relevo calcário, vencendo por pouco
Rodada 4 (Colômbia): o o3 fez uma inferência mais precisa que a do humano com base em marcações da estrada, placas de veículo, letreiros de lojas e relevo, mostrando ótimo desempenho mesmo sem busca na web
Rodada 5 (Eslováquia): o humano venceu ao acertar uma localização ligeiramente mais próxima, mas não conseguiu recuperar a diferença na pontuação total

Assim, o o3 identificou corretamente todos os 5 países e, em duas rodadas, foi centenas de quilômetros mais preciso que o humano, mostrando alto nível de exatidão.

Experimento de manipulação de EXIF: a IA não foi enganada

Para o teste, foram usadas imagens com dados EXIF contendo coordenadas GPS sem relação com a localização real, mas o o3 percebeu que essa informação não batia com o conteúdo visual da imagem e a ignorou
Mesmo quando as informações EXIF eram fornecidas em texto, ele inferiu corretamente uma localização totalmente diferente com base no ambiente da foto
Isso comprova que a IA não depende apenas de metadados, mas analisa profundamente o conteúdo da imagem

Diferenças entre humanos e IA

O o3 levou em média de 2 a 6 minutos por rodada para inferir, enquanto o jogador humano concluiu a maioria dos palpites em 1 a 2 minutos
Às vezes a IA gastava tempo com elementos menos importantes, como outdoors, enquanto o humano reconhecia rapidamente as pistas centrais e definia prioridades
Ainda assim, o o3 demonstrou alta precisão ao combinar de forma sofisticada informações visuais diversas, como placas de trânsito, placas de veículo, arquitetura, relevo e vegetação

Conclusão

O o3 não chegou à resposta por um truque baseado apenas em EXIF ou busca, mas sim por capacidade real de análise visual
Ele mostrou um desempenho próximo ou superior ao nível Geoguessr Master I
Humanos ainda mantêm vantagem em velocidade e intuição, mas em precisão a IA já representa uma ameaça real
Mais do que uma simples demonstração técnica, este é um exemplo do estágio atual de uma IA visual de alto desempenho com aplicação prática real

1 comentários

GN⁺ 2025-04-30

Comentários do Hacker News

Há um adesivo com "www.taxilinder.at"; colado no veículo. Com uma busca na web, dá para descobrir que a Taxi Linder GmbH fica em Dornbirn, na Áustria
- Usar busca na web não é justo. Em rodadas urbanas do GeoGuessr, dá para pesquisar alguns negócios e obter pontuação perfeita, mas esse não é o objetivo do jogo
O autor está feliz que as pessoas estejam achando esse tema interessante
- Recomenda que todos experimentem GeoGuessr. O autor adora esse jogo
- Muita gente acha que o fato de o modelo o3 ter usado busca na web em 2 das 5 rodadas foi injusto e invalida o resultado
- Para verificar isso, refez as duas rodadas em que a busca foi usada e atualizou os resultados
- Conclusão: os resultados foram quase idênticos. As coordenadas GPS podem ser vistas na postagem
- Fornece um exemplo do modelo identificando a cidade austríaca com base nas montanhas ao fundo
- Ele já tinha muitas informações, então a busca não era necessária
- A busca pode ser útil em alguns casos. Mas, neste caso, não foi relevante
Sou nível Master no GeoGuessr. Esse nível certamente exige saber o que está fazendo, mas não é tão alto quanto parece pelo título
- Master fica por volta de 800-1200 de ELO, enquanto Pro fica em torno de 1900-2000. Em 95% das rodadas dá para saber o país de imediato, mas na Rússia ou no Brasil, sem informação, não dá para saber a localização. Um scripter consegue me vencer
Entendo que o o3 foi treinado com dados multimodais, incluindo dados de imagem. Não é irracional supor que os dados de treino incluam imagens com localização exata e características específicas
- O GeoGuessr usa Google Maps, e o Google Maps compra a maior parte das imagens de terceiros. Seria muito surpreendente se esses terceiros não vendessem para todas as grandes empresas de IA
Tirando o GeoGuessr, espero que essa tecnologia um dia ajude a salvar crianças. Por exemplo, poderia ajudar no ECAP do FBI
Comentários da postagem anterior:
- Deve haver áreas em que o palpite de localização possa ser assustadoramente preciso. Por exemplo, como no artigo em que acertou a vila exata como palpite de reserva
- Mas, olhando o fluxo de pensamento, também deve haver muitas áreas em que a precisão cai. Se você mostrar uma foto de um trailer park no Kansas, o modelo provavelmente só vai acertar o estado
- Esta postagem não tem um tamanho de amostra grande, mas reflete o que se esperaria de como esses modelos funcionam. Mesmo em fotos sem muita informação visual, ele foi confiável para acertar o país
- O artigo anterior testou apenas uma única foto, acertou a vila exata no segundo palpite, e o autor descreveu isso como "assustadoramente preciso". Isso é uma questão de julgamento
- Parece que o o3 com busca na web ativada consegue jogar GeoGuessr em alto nível. Agora quero ver um bot de GeoGuessr com o3 jogando várias partidas e conferir o ELO
Tentei brincar com o o3 esta semana e, curiosamente, ele tenta muito mais fazer pattern matching. Por exemplo, consegue inferir com facilidade fotos da Europa e dos EUA
- Mas, em lugares que não têm muitas fotos online, em vez de explorar mais a fundo, ele tenta fazer pattern matching com seu banco de dados/internet
- Por exemplo, pode-se citar uma trilha popular em uma ilha que cresceu desde 2020. No começo ele mencionou as rochas da ilha e a vegetação do Brasil, mas tentou encontrar um lugar no Rio de Janeiro
- Outro exemplo é uma praia famosa por piscinas naturais na maré baixa. Quando a foto foi tirada na maré alta, ele acertou a vegetação e o estado, mas tentou voltar a procurar lugares mais populares
Surpreendente. Sou positivo em relação à IA, mas aqui achei que os humanos venceriam. Espero uma mudança de meta do tipo "isso não é raciocínio de verdade"
Pessoalmente, acho que esta é uma das aplicações menos impressionantes de LLM. Ele já conhece todas as plantas, placas de trânsito etc. Imagino que redes neurais tradicionais também se sairiam bem aqui
Isso vai ser um divisor de águas para trabalhos no estilo OSINT (Bellingcat/Trace an object). Fico curioso se isso já está acontecendo
- Poderiam surgir competições no estilo GeoGuessr, e isso pode contribuir bastante para identificação em massa, pelo menos como copiloto