- O modelo o3 mais recente venceu um jogador de nível Geoguessr Master I
- O nível Master I corresponde a cerca dos 1–2% melhores jogadores. O nível máximo é Champion, com 0,1–0,5%
- Mesmo com dados GPS EXIF falsificados inseridos na imagem, o modelo inferiu corretamente a localização real apenas com pistas visuais
- A inferência foi feita com uma abordagem de Chain of Thought (COT), analisando de forma combinada características detalhadas como prédios, relevo, faixas de rodagem, idioma e placas
- Em algumas rodadas, foi usada busca na web, mas novos testes mostraram que era possível chegar à mesma resposta sem pesquisa
- O tempo médio de inferência do o3 é maior que o de um humano, mas seu nível de precisão é ainda superior
IA vs humano: o início do duelo no Geoguessr
- O autor é um jogador de nível Geoguessr Master I e enfrentou a IA em 5 rodadas, de forma semelhante ao jogo real
- Em cada rodada, foram fornecidas apenas 2 imagens do Street View, e a localização teve de ser inferida sem metadados
- A pontuação seguiu o formato normal do Geoguessr: máximo de 5.000 pontos por rodada, com total máximo de 25.000
Resumo dos resultados por rodada
- Rodada 1 (Bulgária): o humano venceu ao acertar uma localização ligeiramente mais próxima, mas a diferença foi de apenas cerca de 100 pontos
- Rodada 2 (Áustria): o o3 pesquisou o domínio exibido em um táxi para identificar o nome real da cidade e acertou a localização quase perfeitamente, obtendo uma pontuação próxima de 5.000
- Rodada 3 (Irlanda): ambos mostraram ótima análise, e o o3 inferiu corretamente a região de Burren com base em marcas viárias e relevo calcário, vencendo por pouco
- Rodada 4 (Colômbia): o o3 fez uma inferência mais precisa que a do humano com base em marcações da estrada, placas de veículo, letreiros de lojas e relevo, mostrando ótimo desempenho mesmo sem busca na web
- Rodada 5 (Eslováquia): o humano venceu ao acertar uma localização ligeiramente mais próxima, mas não conseguiu recuperar a diferença na pontuação total
Assim, o o3 identificou corretamente todos os 5 países e, em duas rodadas, foi centenas de quilômetros mais preciso que o humano, mostrando alto nível de exatidão.
Experimento de manipulação de EXIF: a IA não foi enganada
- Para o teste, foram usadas imagens com dados EXIF contendo coordenadas GPS sem relação com a localização real, mas o o3 percebeu que essa informação não batia com o conteúdo visual da imagem e a ignorou
- Mesmo quando as informações EXIF eram fornecidas em texto, ele inferiu corretamente uma localização totalmente diferente com base no ambiente da foto
- Isso comprova que a IA não depende apenas de metadados, mas analisa profundamente o conteúdo da imagem
Diferenças entre humanos e IA
- O o3 levou em média de 2 a 6 minutos por rodada para inferir, enquanto o jogador humano concluiu a maioria dos palpites em 1 a 2 minutos
- Às vezes a IA gastava tempo com elementos menos importantes, como outdoors, enquanto o humano reconhecia rapidamente as pistas centrais e definia prioridades
- Ainda assim, o o3 demonstrou alta precisão ao combinar de forma sofisticada informações visuais diversas, como placas de trânsito, placas de veículo, arquitetura, relevo e vegetação
Conclusão
- O o3 não chegou à resposta por um truque baseado apenas em EXIF ou busca, mas sim por capacidade real de análise visual
- Ele mostrou um desempenho próximo ou superior ao nível Geoguessr Master I
- Humanos ainda mantêm vantagem em velocidade e intuição, mas em precisão a IA já representa uma ameaça real
- Mais do que uma simples demonstração técnica, este é um exemplo do estágio atual de uma IA visual de alto desempenho com aplicação prática real
1 comentários
Comentários do Hacker News
Há um adesivo com
"www.taxilinder.at"colado no veículo. Com uma busca na web, dá para descobrir que a Taxi Linder GmbH fica em Dornbirn, na ÁustriaO autor está feliz que as pessoas estejam achando esse tema interessante
Sou nível Master no GeoGuessr. Esse nível certamente exige saber o que está fazendo, mas não é tão alto quanto parece pelo título
Entendo que o o3 foi treinado com dados multimodais, incluindo dados de imagem. Não é irracional supor que os dados de treino incluam imagens com localização exata e características específicas
Tirando o GeoGuessr, espero que essa tecnologia um dia ajude a salvar crianças. Por exemplo, poderia ajudar no ECAP do FBI
Comentários da postagem anterior:
"assustadoramente preciso". Isso é uma questão de julgamentoTentei brincar com o o3 esta semana e, curiosamente, ele tenta muito mais fazer pattern matching. Por exemplo, consegue inferir com facilidade fotos da Europa e dos EUA
Surpreendente. Sou positivo em relação à IA, mas aqui achei que os humanos venceriam. Espero uma mudança de meta do tipo
"isso não é raciocínio de verdade"Pessoalmente, acho que esta é uma das aplicações menos impressionantes de LLM. Ele já conhece todas as plantas, placas de trânsito etc. Imagino que redes neurais tradicionais também se sairiam bem aqui
Isso vai ser um divisor de águas para trabalhos no estilo OSINT (Bellingcat/Trace an object). Fico curioso se isso já está acontecendo