- A Niantic está desenvolvendo um Large Geospatial Model (LGM), um modelo geoespacial de grande escala que usa aprendizado de máquina em larga escala para compreender cenas e conectá-las a milhões de outras cenas ao redor do mundo
- Os humanos conseguem imaginar estruturas a partir de vários ângulos graças à compreensão espacial, mas isso é uma tarefa difícil para máquinas
- O Visual Positioning System (VPS) da Niantic foi treinado com mais de 5 bilhões de redes neurais para funcionar em mais de 1 milhão de locais
- O que é um Large Geospatial Model?
- O LGM ajuda computadores a perceber, entender e navegar no mundo físico
- Assim como os LLMs, o LGM é construído com enormes volumes de dados brutos, o que possibilita uma compreensão baseada em localização sobre espaço, estrutura e interações físicas
- Indo além dos modelos de visão 3D, o modelo geoespacial está enraizado em locais geográficos específicos e pode ser medido com unidades de escala precisas
- O andamento do trabalho da Niantic
- Nos últimos 5 anos, a Niantic construiu o VPS para permitir que usuários posicionem conteúdo digital com precisão em ambientes físicos
- O VPS é construído a partir de escaneamentos de usuários, coletados da perspectiva de pedestres, incluindo lugares inacessíveis por carro
- Atualmente há 10 milhões de locais escaneados no mundo todo, e 1 milhão de novos escaneamentos são coletados por semana
- De sistemas locais para uma compreensão compartilhada
- Os mapas neurais atuais já são modelos geoespaciais utilizáveis, mas o LGM tem uma visão que vai além de mapas locais independentes
- O LGM permite o compartilhamento de dados entre modelos locais e pode inferir a parte traseira de um prédio a partir de um local específico
- Isso implementa uma compreensão centralizada do mundo com base em dados geoespaciais e visuais
- Compreensão semelhante à humana
- Os humanos têm a capacidade de reconhecer o que viram também de outros ângulos
- Esse tipo de compreensão só pode ser alcançado de forma realista por meio de aprendizado de máquina em larga escala, e esse é o objetivo da Niantic
- Evolução para modelos fundacionais complementares
- O LGM pode ser usado para muito mais do que simples posicionamento, possibilitando novas formas de representar, manipular e gerar cenas
- Diferentes tipos de modelos fundacionais se complementam, e esses sistemas podem perceber, entender e operar no mundo físico
- A Niantic pretende liderar o desenvolvimento de Large Geospatial Models para oferecer novas experiências aos usuários
1 comentários
Comentários no Hacker News
Como jogador de Pokémon GO, parece que estou fornecendo dados de treinamento por meio do jogo e que eles estão lucrando com o meu trabalho. Parei de fazer o escaneamento de PokéStops porque o esforço é grande demais para a recompensa. Se eles disponibilizassem o modelo e os pesos, eu sentiria que isso contribuiu para um bem público maior.
Eu quase não usava a tecnologia de AR do Pokémon GO porque era lenta, então é surpreendente que agora ela tenha evoluído a ponto de ser usada no treinamento de um LGM. Economicamente, os jogadores recebem um jogo gratuito, a Niantic obtém lucro e uma nova tecnologia é oferecida ao mundo.
No MyFitnessPal, quando o usuário escaneia um código de barras, o aplicativo coleta o ruído de fundo e o usa como dado de treinamento. Com isso, é possível obter informações sobre uma despensa comum, uma geladeira e corredores de supermercado.
Este post do blog e a reação no HN são confusos. Na prática, eles não treinaram de fato o modelo; anunciaram um plano. Dizem que treinaram 50 milhões de redes neurais, mas isso é apenas parte do que já vinham fazendo. Parece um documento de visão para posicionar a Niantic como uma empresa de IA.
Há uma opinião filosófica de que dados geoespaciais deveriam ser um bem público. Como os dados obtidos por crowdsourcing vieram de pessoas comuns, conhecimento e fatos deveriam ser patrimônio público.
Não acho que gerar cenas 3D em tempo real seja o futuro dos mapas. Edifícios, estradas e placas são bastante estáticos, e não há tanta mudança para a maioria dos casos de uso. Seria mais útil carregar da nuvem um modelo preciso.
Em alguma reunião entre Google/Niantic, provavelmente surgiu a ideia de construir uma nova geração de modelos 3D por meio de crowdsourcing. Eles compraram os direitos de Pokémon para viabilizar isso.
Brian Maclendon (Niantic) apresentou detalhes interessantes sobre isso em uma palestra no Bellingfest.
É difícil entender o que é o LGM. Parece mais algo sobre melhorar um modelo de visão que prevê a parte de trás de edifícios, e não propriamente dados geoespaciais. Os dados de treinamento vieram de imagens geradas ao capturar Pokémon.
Há quem diga que a CIA provavelmente já teria acesso a isso. Preocupações com privacidade já vinham sendo levantadas há alguns anos.