6 pontos por GN⁺ 2025-04-30 | 1 comentários | Compartilhar no WhatsApp
  • O modelo o3 mais recente venceu um jogador de nível Geoguessr Master I
    • O nível Master I corresponde a cerca dos 1–2% melhores jogadores. O nível máximo é Champion, com 0,1–0,5%
  • Mesmo com dados GPS EXIF falsificados inseridos na imagem, o modelo inferiu corretamente a localização real apenas com pistas visuais
  • A inferência foi feita com uma abordagem de Chain of Thought (COT), analisando de forma combinada características detalhadas como prédios, relevo, faixas de rodagem, idioma e placas
  • Em algumas rodadas, foi usada busca na web, mas novos testes mostraram que era possível chegar à mesma resposta sem pesquisa
  • O tempo médio de inferência do o3 é maior que o de um humano, mas seu nível de precisão é ainda superior

IA vs humano: o início do duelo no Geoguessr

  • O autor é um jogador de nível Geoguessr Master I e enfrentou a IA em 5 rodadas, de forma semelhante ao jogo real
  • Em cada rodada, foram fornecidas apenas 2 imagens do Street View, e a localização teve de ser inferida sem metadados
  • A pontuação seguiu o formato normal do Geoguessr: máximo de 5.000 pontos por rodada, com total máximo de 25.000

Resumo dos resultados por rodada

  • Rodada 1 (Bulgária): o humano venceu ao acertar uma localização ligeiramente mais próxima, mas a diferença foi de apenas cerca de 100 pontos
  • Rodada 2 (Áustria): o o3 pesquisou o domínio exibido em um táxi para identificar o nome real da cidade e acertou a localização quase perfeitamente, obtendo uma pontuação próxima de 5.000
  • Rodada 3 (Irlanda): ambos mostraram ótima análise, e o o3 inferiu corretamente a região de Burren com base em marcas viárias e relevo calcário, vencendo por pouco
  • Rodada 4 (Colômbia): o o3 fez uma inferência mais precisa que a do humano com base em marcações da estrada, placas de veículo, letreiros de lojas e relevo, mostrando ótimo desempenho mesmo sem busca na web
  • Rodada 5 (Eslováquia): o humano venceu ao acertar uma localização ligeiramente mais próxima, mas não conseguiu recuperar a diferença na pontuação total

Assim, o o3 identificou corretamente todos os 5 países e, em duas rodadas, foi centenas de quilômetros mais preciso que o humano, mostrando alto nível de exatidão.

Experimento de manipulação de EXIF: a IA não foi enganada

  • Para o teste, foram usadas imagens com dados EXIF contendo coordenadas GPS sem relação com a localização real, mas o o3 percebeu que essa informação não batia com o conteúdo visual da imagem e a ignorou
  • Mesmo quando as informações EXIF eram fornecidas em texto, ele inferiu corretamente uma localização totalmente diferente com base no ambiente da foto
  • Isso comprova que a IA não depende apenas de metadados, mas analisa profundamente o conteúdo da imagem

Diferenças entre humanos e IA

  • O o3 levou em média de 2 a 6 minutos por rodada para inferir, enquanto o jogador humano concluiu a maioria dos palpites em 1 a 2 minutos
  • Às vezes a IA gastava tempo com elementos menos importantes, como outdoors, enquanto o humano reconhecia rapidamente as pistas centrais e definia prioridades
  • Ainda assim, o o3 demonstrou alta precisão ao combinar de forma sofisticada informações visuais diversas, como placas de trânsito, placas de veículo, arquitetura, relevo e vegetação

Conclusão

  • O o3 não chegou à resposta por um truque baseado apenas em EXIF ou busca, mas sim por capacidade real de análise visual
  • Ele mostrou um desempenho próximo ou superior ao nível Geoguessr Master I
  • Humanos ainda mantêm vantagem em velocidade e intuição, mas em precisão a IA já representa uma ameaça real
  • Mais do que uma simples demonstração técnica, este é um exemplo do estágio atual de uma IA visual de alto desempenho com aplicação prática real

1 comentários

 
GN⁺ 2025-04-30
Comentários do Hacker News
  • Há um adesivo com "www.taxilinder.at"; colado no veículo. Com uma busca na web, dá para descobrir que a Taxi Linder GmbH fica em Dornbirn, na Áustria

    • Usar busca na web não é justo. Em rodadas urbanas do GeoGuessr, dá para pesquisar alguns negócios e obter pontuação perfeita, mas esse não é o objetivo do jogo
  • O autor está feliz que as pessoas estejam achando esse tema interessante

    • Recomenda que todos experimentem GeoGuessr. O autor adora esse jogo
    • Muita gente acha que o fato de o modelo o3 ter usado busca na web em 2 das 5 rodadas foi injusto e invalida o resultado
    • Para verificar isso, refez as duas rodadas em que a busca foi usada e atualizou os resultados
    • Conclusão: os resultados foram quase idênticos. As coordenadas GPS podem ser vistas na postagem
    • Fornece um exemplo do modelo identificando a cidade austríaca com base nas montanhas ao fundo
    • Ele já tinha muitas informações, então a busca não era necessária
    • A busca pode ser útil em alguns casos. Mas, neste caso, não foi relevante
  • Sou nível Master no GeoGuessr. Esse nível certamente exige saber o que está fazendo, mas não é tão alto quanto parece pelo título

    • Master fica por volta de 800-1200 de ELO, enquanto Pro fica em torno de 1900-2000. Em 95% das rodadas dá para saber o país de imediato, mas na Rússia ou no Brasil, sem informação, não dá para saber a localização. Um scripter consegue me vencer
  • Entendo que o o3 foi treinado com dados multimodais, incluindo dados de imagem. Não é irracional supor que os dados de treino incluam imagens com localização exata e características específicas

    • O GeoGuessr usa Google Maps, e o Google Maps compra a maior parte das imagens de terceiros. Seria muito surpreendente se esses terceiros não vendessem para todas as grandes empresas de IA
  • Tirando o GeoGuessr, espero que essa tecnologia um dia ajude a salvar crianças. Por exemplo, poderia ajudar no ECAP do FBI

  • Comentários da postagem anterior:

    • Deve haver áreas em que o palpite de localização possa ser assustadoramente preciso. Por exemplo, como no artigo em que acertou a vila exata como palpite de reserva
    • Mas, olhando o fluxo de pensamento, também deve haver muitas áreas em que a precisão cai. Se você mostrar uma foto de um trailer park no Kansas, o modelo provavelmente só vai acertar o estado
    • Esta postagem não tem um tamanho de amostra grande, mas reflete o que se esperaria de como esses modelos funcionam. Mesmo em fotos sem muita informação visual, ele foi confiável para acertar o país
    • O artigo anterior testou apenas uma única foto, acertou a vila exata no segundo palpite, e o autor descreveu isso como "assustadoramente preciso". Isso é uma questão de julgamento
    • Parece que o o3 com busca na web ativada consegue jogar GeoGuessr em alto nível. Agora quero ver um bot de GeoGuessr com o3 jogando várias partidas e conferir o ELO
  • Tentei brincar com o o3 esta semana e, curiosamente, ele tenta muito mais fazer pattern matching. Por exemplo, consegue inferir com facilidade fotos da Europa e dos EUA

    • Mas, em lugares que não têm muitas fotos online, em vez de explorar mais a fundo, ele tenta fazer pattern matching com seu banco de dados/internet
    • Por exemplo, pode-se citar uma trilha popular em uma ilha que cresceu desde 2020. No começo ele mencionou as rochas da ilha e a vegetação do Brasil, mas tentou encontrar um lugar no Rio de Janeiro
    • Outro exemplo é uma praia famosa por piscinas naturais na maré baixa. Quando a foto foi tirada na maré alta, ele acertou a vegetação e o estado, mas tentou voltar a procurar lugares mais populares
  • Surpreendente. Sou positivo em relação à IA, mas aqui achei que os humanos venceriam. Espero uma mudança de meta do tipo "isso não é raciocínio de verdade"

  • Pessoalmente, acho que esta é uma das aplicações menos impressionantes de LLM. Ele já conhece todas as plantas, placas de trânsito etc. Imagino que redes neurais tradicionais também se sairiam bem aqui

  • Isso vai ser um divisor de águas para trabalhos no estilo OSINT (Bellingcat/Trace an object). Fico curioso se isso já está acontecendo

    • Poderiam surgir competições no estilo GeoGuessr, e isso pode contribuir bastante para identificação em massa, pelo menos como copiloto