3 pontos por GN⁺ 2024-11-21 | 1 comentários | Compartilhar no WhatsApp
  • A Niantic está desenvolvendo um Large Geospatial Model (LGM), um modelo geoespacial de grande escala que usa aprendizado de máquina em larga escala para compreender cenas e conectá-las a milhões de outras cenas ao redor do mundo
  • Os humanos conseguem imaginar estruturas a partir de vários ângulos graças à compreensão espacial, mas isso é uma tarefa difícil para máquinas
  • O Visual Positioning System (VPS) da Niantic foi treinado com mais de 5 bilhões de redes neurais para funcionar em mais de 1 milhão de locais
  • O que é um Large Geospatial Model?
    • O LGM ajuda computadores a perceber, entender e navegar no mundo físico
    • Assim como os LLMs, o LGM é construído com enormes volumes de dados brutos, o que possibilita uma compreensão baseada em localização sobre espaço, estrutura e interações físicas
    • Indo além dos modelos de visão 3D, o modelo geoespacial está enraizado em locais geográficos específicos e pode ser medido com unidades de escala precisas
  • O andamento do trabalho da Niantic
    • Nos últimos 5 anos, a Niantic construiu o VPS para permitir que usuários posicionem conteúdo digital com precisão em ambientes físicos
    • O VPS é construído a partir de escaneamentos de usuários, coletados da perspectiva de pedestres, incluindo lugares inacessíveis por carro
    • Atualmente há 10 milhões de locais escaneados no mundo todo, e 1 milhão de novos escaneamentos são coletados por semana
  • De sistemas locais para uma compreensão compartilhada
    • Os mapas neurais atuais já são modelos geoespaciais utilizáveis, mas o LGM tem uma visão que vai além de mapas locais independentes
    • O LGM permite o compartilhamento de dados entre modelos locais e pode inferir a parte traseira de um prédio a partir de um local específico
    • Isso implementa uma compreensão centralizada do mundo com base em dados geoespaciais e visuais
  • Compreensão semelhante à humana
    • Os humanos têm a capacidade de reconhecer o que viram também de outros ângulos
    • Esse tipo de compreensão só pode ser alcançado de forma realista por meio de aprendizado de máquina em larga escala, e esse é o objetivo da Niantic
  • Evolução para modelos fundacionais complementares
    • O LGM pode ser usado para muito mais do que simples posicionamento, possibilitando novas formas de representar, manipular e gerar cenas
    • Diferentes tipos de modelos fundacionais se complementam, e esses sistemas podem perceber, entender e operar no mundo físico
    • A Niantic pretende liderar o desenvolvimento de Large Geospatial Models para oferecer novas experiências aos usuários

1 comentários

 
GN⁺ 2024-11-21
Comentários no Hacker News
  • Como jogador de Pokémon GO, parece que estou fornecendo dados de treinamento por meio do jogo e que eles estão lucrando com o meu trabalho. Parei de fazer o escaneamento de PokéStops porque o esforço é grande demais para a recompensa. Se eles disponibilizassem o modelo e os pesos, eu sentiria que isso contribuiu para um bem público maior.

  • Eu quase não usava a tecnologia de AR do Pokémon GO porque era lenta, então é surpreendente que agora ela tenha evoluído a ponto de ser usada no treinamento de um LGM. Economicamente, os jogadores recebem um jogo gratuito, a Niantic obtém lucro e uma nova tecnologia é oferecida ao mundo.

  • No MyFitnessPal, quando o usuário escaneia um código de barras, o aplicativo coleta o ruído de fundo e o usa como dado de treinamento. Com isso, é possível obter informações sobre uma despensa comum, uma geladeira e corredores de supermercado.

  • Este post do blog e a reação no HN são confusos. Na prática, eles não treinaram de fato o modelo; anunciaram um plano. Dizem que treinaram 50 milhões de redes neurais, mas isso é apenas parte do que já vinham fazendo. Parece um documento de visão para posicionar a Niantic como uma empresa de IA.

  • Há uma opinião filosófica de que dados geoespaciais deveriam ser um bem público. Como os dados obtidos por crowdsourcing vieram de pessoas comuns, conhecimento e fatos deveriam ser patrimônio público.

  • Não acho que gerar cenas 3D em tempo real seja o futuro dos mapas. Edifícios, estradas e placas são bastante estáticos, e não há tanta mudança para a maioria dos casos de uso. Seria mais útil carregar da nuvem um modelo preciso.

  • Em alguma reunião entre Google/Niantic, provavelmente surgiu a ideia de construir uma nova geração de modelos 3D por meio de crowdsourcing. Eles compraram os direitos de Pokémon para viabilizar isso.

  • Brian Maclendon (Niantic) apresentou detalhes interessantes sobre isso em uma palestra no Bellingfest.

  • É difícil entender o que é o LGM. Parece mais algo sobre melhorar um modelo de visão que prevê a parte de trás de edifícios, e não propriamente dados geoespaciais. Os dados de treinamento vieram de imagens geradas ao capturar Pokémon.

  • Há quem diga que a CIA provavelmente já teria acesso a isso. Preocupações com privacidade já vinham sendo levantadas há alguns anos.