- Inteligência espacial (spatial intelligence) é uma área central que muda de forma fundamental como a IA entende e interage com os mundos real e virtual
- Os atuais modelos de linguagem de grande porte (LLMs) são excelentes no processamento de linguagem, mas sua capacidade de raciocínio espacial — como distância, direção e consistência física — ainda não alcança o nível humano
- Como uma nova abordagem para resolver isso, foi proposto o
world model, uma arquitetura de modelo generativo de próxima geração com características generativas, multimodais e interativas
- A World Labs está desenvolvendo esse tipo de modelo, e uma versão inicial chamada Marble demonstrou a capacidade de gerar e manter ambientes 3D consistentes com base em múltiplas entradas
- A inteligência espacial é a próxima etapa do avanço da IA para ampliar as capacidades humanas em áreas como criatividade, robótica, ciência, medicina e educação
Conceito e importância da inteligência espacial
- A inteligência humana evoluiu com base no ciclo percepção-ação (perception-action loop), e a inteligência espacial é um elemento essencial que torna isso possível
- Ações cotidianas como estacionar um carro, pegar um objeto e se mover em ambientes complexos dependem de raciocínio espacial
- Mesmo no desenvolvimento infantil anterior à linguagem, o senso espacial é adquirido por meio da interação com o ambiente
- Criatividade e imaginação também se baseiam na inteligência espacial
- Das pinturas rupestres a filmes, jogos e realidade virtual (VR), os humanos expressam o mundo por meio do pensamento espacial
- Simulações espaciais também desempenham papel central em design industrial, gêmeos digitais e treinamento de robôs
- Historicamente, a inteligência espacial também foi uma força motriz do progresso da civilização
- O cálculo da circunferência da Terra por Eratóstenes, a inovação estrutural da Spinning Jenny e a descoberta da estrutura do DNA são todos resultados de pensamento espacial
- A IA atual avançou em reconhecimento visual e geração, mas ainda carece de consistência espacial, como compreensão de distância, direção e leis físicas
- Mesmo os modelos multimodais mais recentes têm baixo desempenho em rotação de objetos, navegação em labirintos e previsão física
- Essa limitação restringe aplicações no mundo real, como controle de robôs, direção autônoma e aprendizado imersivo
World model: uma nova arquitetura de IA para implementar inteligência espacial
- Para implementar inteligência espacial, é necessário um
world model mais complexo do que um LLM
- Ele precisa compreender, gerar e interagir de forma integrada com a complexidade semântica, física, geométrica e dinâmica dos mundos real e virtual
- Três capacidades centrais de um
world model
- Generativa (Generative): gerar mundos consistentes em termos perceptivos, geométricos e físicos
- Simula espaços reais ou virtuais e mantém continuidade entre o estado atual e os estados passados
- Multimodal (Multimodal): processar de forma integrada várias entradas, como imagens, vídeos, texto e gestos
- Deve reunir ao mesmo tempo fidelidade visual e capacidade de interpretação semântica
- Interativa (Interactive): prever e gerar o próximo estado de acordo com as ações fornecidas
- Se um estado-alvo for dado, também deve ser capaz de prever as mudanças no mundo e as ações correspondentes
- Como precisa refletir de forma consistente leis físicas, estruturas geométricas e dinâmica muito mais complexas do que a geração de linguagem, o grau de dificuldade técnica é extremamente alto
A pesquisa da World Labs e os desafios técnicos
- A World Labs foi fundada no início de 2024 e está conduzindo pesquisas sobre
world models focados em inteligência espacial
- Principais temas de pesquisa
- Definição de uma função de aprendizado universal: estabelecer um objetivo de treinamento tão simples quanto a “previsão do próximo token” dos LLMs, mas que também reflita leis físicas e geométricas
- Dados de treinamento em larga escala: uso de múltiplas fontes, como imagens e vídeos da internet, dados sintéticos e informações de profundidade e tato
- Novas arquiteturas de modelo: pesquisa sobre tokenização baseada em percepção 3D e 4D e estruturas de memória
- Exemplo: o RTFM (Real-Time Frame-based Model) usa quadros espaciais como memória para permitir geração em tempo real e manutenção da consistência
- O resultado inicial, Marble, gera e mantém ambientes 3D consistentes a partir de múltiplas entradas e já foi demonstrado para alguns usuários
- Está em desenvolvimento com o objetivo de ser lançado futuramente
Áreas de aplicação da inteligência espacial
Criatividade e produção de conteúdo
- Marble oferece a cineastas, designers de jogos e arquitetos a capacidade de gerar mundos 3D totalmente exploráveis
- Permite experimentar diferentes cenas e pontos de vista sem limitações de orçamento ou geografia
- Cria experiências imersivas em storytelling, arte, educação e design
- Por meio do design de narrativas espaciais, encurta o processo de visualização em arquitetura, indústria e design de moda
- Com a expansão de experiências imersivas baseadas em VR e XR, até criadores individuais podem construir seus próprios mundos
Robótica
- O gargalo no aprendizado de robôs é a falta de dados de treinamento, e os
world models ajudam a suprir isso
- Reduzem a lacuna entre simulação e realidade, permitindo aprendizado em diversos ambientes
- A inteligência espacial é essencial para viabilizar robôs colaborativos com humanos
- Desenvolvimento de robôs que compreendem os objetivos e ações humanas e cooperam com elas em laboratórios, residências e outros ambientes
- Também pode ser usada para construir ambientes de treinamento e benchmarks para robôs de várias formas — nanorrobôs, robôs macios e robôs para águas profundas ou espaço
Ciência, medicina e educação
- Pesquisa científica: aceleração de experimentos com simulações multidimensionais e redução de custos computacionais em áreas como clima e pesquisa de materiais
- Medicina: ampliação do uso de IA com inteligência espacial em descoberta de fármacos, diagnóstico por imagem e monitoramento de pacientes
- Educação: visualização de conceitos complexos e oferta de ambientes de aprendizado imersivos personalizados para cada estudante
- Estudantes podem explorar estruturas celulares ou eventos históricos, e especialistas podem praticar habilidades com simulações realistas
Visão de um avanço de IA centrado no ser humano
- O objetivo do desenvolvimento da IA é ampliar as capacidades humanas, não substituí-las
- O progresso deve seguir na direção de aumentar criatividade, produtividade, conexão e satisfação com a vida
- A inteligência espacial é apresentada como uma tecnologia que expande a imaginação, o cuidado e a capacidade de exploração humanas
- Para concretizar essa visão, é necessária a colaboração de todo o ecossistema de IA, incluindo pesquisadores, empresas e formuladores de políticas públicas
Conclusão
- A IA já transformou a sociedade como um todo, mas a inteligência espacial é apresentada como a próxima etapa de inovação
- Por meio dos
world models, torna-se possível desenvolver máquinas espacialmente inteligentes que interagem em harmonia com o mundo real
- Isso é avaliado como um ponto de virada tecnológico capaz de aprimorar atividades humanas essenciais, como pesquisa de doenças, storytelling e cuidado
- Assim como a evolução da inteligência humana começou com a inteligência espacial, apresenta-se a visão de que a conclusão da IA também será completada pela inteligência espacial
1 comentários
Comentários no Hacker News
Lendo o texto, não ficou claro o que exatamente eles entendem
As notas quase não trazem informação concreta; é basicamente “vamos coletar dados espaciais como no ImageNet”
Quem pesquisa inteligência espacial está, em grande parte, no campo da neurociência
No artigo de revisão que escrevi, explico que entorhinal cortex, grid cell e transformações de coordenadas podem ser centrais
Todos os animais exploram o mundo convertendo coordenadas em tempo real, e os humanos são os que têm o maior número de representações de coordenadas
Acho que inteligência em nível humano é saber quando e como transformar sistemas de coordenadas para extrair informação útil
Escrevi isso antes do boom dos LLMs, mas ainda acredito que essa direção está certa
Isso acabou levando a pesquisas em detecção de colisão, animação baseada em física, solução de equações não lineares e locomoção com pernas em terreno acidentado, mas não era IA
Hoje em dia, a abordagem é despejar uma quantidade enorme de computação e esperar que o sistema de aprendizado descubra sozinho uma representação interna do mundo espacial
A locomoção robótica melhorou bastante, mas a manipulação em ambientes não estruturados ainda é péssima
Mesmo comparando com vídeos do laboratório do McCarthy em Stanford nos anos 1960, a diferença não é tão grande
Antes eu achava que precisaríamos alcançar primeiro uma inteligência no nível de um rato ou esquilo antes de chegar à humana, então foi surpreendente ver a IA abstrata aparecer antes
Ultimamente, tenho achado interessante a pesquisa em geração de vídeo que prevê a próxima cena a partir de um vídeo curto
Acho que o núcleo do senso comum é justamente a capacidade de prever, em pouco tempo, “o que vai acontecer em seguida”
Vale ver também este comunicado do Nobel
Tem muita buzzword de VC como “transform”, “revolutionize”, “next frontier” e “North Star”, e isso reduz a credibilidade
O artigo da Nature de 2018 "Vector-based navigation using grid-like representations in artificial agents",
o da Nature de 2024 "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
e também a simulação de grid cells da DeepMind valem a pena
A neurociência já pesquisa percepção espacial há bastante tempo
Copiar sistemas biológicos literalmente quase sempre fracassa
CNNs foram inspiradas no cérebro, mas são estruturalmente diferentes, e LLMs quase não se parecem com o cérebro humano
A semelhança funcional dos LLMs não vem de imitar a estrutura cerebral, e sim do processo de treinamento
Isso não passa de um sistema de simulação que funciona em um mundo virtual estreito
Sistemas assim quase não ajudam a aprender a dinâmica complexa do mundo real
Modelos de mundos virtuais são apenas casos especiais simplificados de modelos do mundo físico, e não vejo evidência de que essa empresa esteja fazendo progresso real em inteligência espacial
Recentemente tive uma experiência impressionante ao aplicar agentic coding a CAD
Eu precisava adicionar roscas a um modelo para impressão 3D, então usei geometria computacional para permitir que o agente ‘sentisse’ o modelo
Fiz a convolução de um raio esférico pelo modelo inteiro para encontrar a posição da porta e adicionar a rosca
Depois de algumas tentativas, funcionou, e isso me fez perceber que o modelo precisa ter uma espécie de ‘sentido tátil’
No fim, o modelo 3D precisava ser implementado em código para poder ser validado
Já experimentei com OpenSCAD, mas os modelos atuais ainda carecem de senso comum sobre conexões geométricas
Se houver mais datasets de CAD baseados em código, isso ficará muito mais útil
Caso contrário, no fim será preciso aprendizado baseado em simulação física
Surge uma ambiguidade do tipo “não coloca isso aí, coloca ali”
O Genie 3 já alcançou em alguma medida o objetivo que ela descreveu, isto é, um modelo de mundo controlável com leis físicas consistentes
Seu modelo irmão, Veo 3, também mostra capacidade de resolver problemas espaciais
Genie e Veo estão muito mais próximos da visão dela do que a World Labs
Mas o texto nem sequer menciona os modelos do Google, então parece mais um artigo promocional da própria empresa
Veja DeepMind Gemini Robotics ER
Hoje a IA aprende só na web e não aprende a partir da interação com humanos
Humanos aprendem com contexto e memória acumulados ao longo da vida, mas na IA esse contexto desaparece quando a conversa termina
Uma grande memória de contexto personalizada teria muito mais valor
Nas abordagens tradicionais, aprendizagem adicional causa catastrophic forgetting, mas o Nested Learning divide o sistema em vários modelos pequenos para que o retreinamento não destrua outras partes
Nossa compreensão espacial é vasta como uma simulação quântica em escala cósmica
Em contraste, hoje o máximo que conseguimos simular completamente é algo no nível de átomos ou células
Lendo isso, pensei que o primeiro caso em que a humanidade ‘pensou à frente da natureza’ foi a roda
A natureza é irregular, mas os humanos construíram estradas planas para permitir o rolamento
O avanço da ciência e da tecnologia é outro exemplo de como foi possível transmitir entre gerações uma intuição de padrões
Não sei se ‘superinteligência’ é possível de alguma forma além da velocidade, mas a capacidade de pensar em 3D será essencial para que a IA vá além dos humanos e da natureza
Assim como os vasos sanguíneos transportam nutrientes e sinais, as estradas transportam recursos
Talvez a natureza apenas tenha expandido essa capacidade de organização para o nível das espécies, e não haja muita base para dizer que os humanos estão acima da natureza
A cognição humana é uma estrutura erguida sobre a inteligência espacial
Ela não é feita só de pensamento abstrato, mas de experiência integrada baseada nos sentidos
A evolução não chegou à generalização por um cérebro simbólico, mas pela fusão dos sentidos
A inteligência não surge de algoritmos, mas de uma harmonia consistente entre os sentidos
A integridade dos sentidos é o verdadeiro caminho a seguir
Estou acompanhando este post de blog que resume o estado atual do raciocínio espacial em LLMs
A conclusão é... ainda falta bastante caminho
Spatial token pode ajudar, mas não é indispensável
Muitos problemas físicos ainda podem ser resolvidos com papel e caneta
É impressionante que uma imagem 512×512 possa ser representada por 85 tokens, e vídeo por 263 tokens por segundo
Isso parece um novo problema de equilíbrio entre memória e embedding
Como na pergunta “você consegue girar uma maçã na cabeça?”, embeddings espaciais podem tornar possível uma compreensão intuitiva da dinâmica
Nossa equipe na FlyShirley também está pesquisando essa área por meio de simulação de treinamento de pilotos, e pretendemos testar o modelo da Fei-Fei
Como aprendizado e inferência baseados em vídeo exigem recursos computacionais enormes,
fico em dúvida se essa abordagem realmente ajudará em assistentes agentes (programação, marketing, gestão de agenda etc.)
Acho mais provável que seja uma estrutura computacional mais vantajosa para a área de robótica