A inteligência espacial é a próxima fronteira da IA

(drfeifei.substack.com)

14 pontos por GN⁺ 2025-11-12 | 1 comentários | Compartilhar no WhatsApp

Inteligência espacial (spatial intelligence) é uma área central que muda de forma fundamental como a IA entende e interage com os mundos real e virtual
Os atuais modelos de linguagem de grande porte (LLMs) são excelentes no processamento de linguagem, mas sua capacidade de raciocínio espacial — como distância, direção e consistência física — ainda não alcança o nível humano
Como uma nova abordagem para resolver isso, foi proposto o world model, uma arquitetura de modelo generativo de próxima geração com características generativas, multimodais e interativas
A World Labs está desenvolvendo esse tipo de modelo, e uma versão inicial chamada Marble demonstrou a capacidade de gerar e manter ambientes 3D consistentes com base em múltiplas entradas
A inteligência espacial é a próxima etapa do avanço da IA para ampliar as capacidades humanas em áreas como criatividade, robótica, ciência, medicina e educação

Conceito e importância da inteligência espacial

A inteligência humana evoluiu com base no ciclo percepção-ação (perception-action loop), e a inteligência espacial é um elemento essencial que torna isso possível
- Ações cotidianas como estacionar um carro, pegar um objeto e se mover em ambientes complexos dependem de raciocínio espacial
- Mesmo no desenvolvimento infantil anterior à linguagem, o senso espacial é adquirido por meio da interação com o ambiente
Criatividade e imaginação também se baseiam na inteligência espacial
- Das pinturas rupestres a filmes, jogos e realidade virtual (VR), os humanos expressam o mundo por meio do pensamento espacial
- Simulações espaciais também desempenham papel central em design industrial, gêmeos digitais e treinamento de robôs
Historicamente, a inteligência espacial também foi uma força motriz do progresso da civilização
- O cálculo da circunferência da Terra por Eratóstenes, a inovação estrutural da Spinning Jenny e a descoberta da estrutura do DNA são todos resultados de pensamento espacial
A IA atual avançou em reconhecimento visual e geração, mas ainda carece de consistência espacial, como compreensão de distância, direção e leis físicas
- Mesmo os modelos multimodais mais recentes têm baixo desempenho em rotação de objetos, navegação em labirintos e previsão física
- Essa limitação restringe aplicações no mundo real, como controle de robôs, direção autônoma e aprendizado imersivo

`World model`: uma nova arquitetura de IA para implementar inteligência espacial

Para implementar inteligência espacial, é necessário um world model mais complexo do que um LLM
- Ele precisa compreender, gerar e interagir de forma integrada com a complexidade semântica, física, geométrica e dinâmica dos mundos real e virtual
Três capacidades centrais de um world model
1. Generativa (Generative): gerar mundos consistentes em termos perceptivos, geométricos e físicos
  - Simula espaços reais ou virtuais e mantém continuidade entre o estado atual e os estados passados
2. Multimodal (Multimodal): processar de forma integrada várias entradas, como imagens, vídeos, texto e gestos
  - Deve reunir ao mesmo tempo fidelidade visual e capacidade de interpretação semântica
3. Interativa (Interactive): prever e gerar o próximo estado de acordo com as ações fornecidas
  - Se um estado-alvo for dado, também deve ser capaz de prever as mudanças no mundo e as ações correspondentes
Como precisa refletir de forma consistente leis físicas, estruturas geométricas e dinâmica muito mais complexas do que a geração de linguagem, o grau de dificuldade técnica é extremamente alto

A pesquisa da World Labs e os desafios técnicos

A World Labs foi fundada no início de 2024 e está conduzindo pesquisas sobre world models focados em inteligência espacial
Principais temas de pesquisa
- Definição de uma função de aprendizado universal: estabelecer um objetivo de treinamento tão simples quanto a “previsão do próximo token” dos LLMs, mas que também reflita leis físicas e geométricas
- Dados de treinamento em larga escala: uso de múltiplas fontes, como imagens e vídeos da internet, dados sintéticos e informações de profundidade e tato
- Novas arquiteturas de modelo: pesquisa sobre tokenização baseada em percepção 3D e 4D e estruturas de memória
  - Exemplo: o RTFM (Real-Time Frame-based Model) usa quadros espaciais como memória para permitir geração em tempo real e manutenção da consistência
O resultado inicial, Marble, gera e mantém ambientes 3D consistentes a partir de múltiplas entradas e já foi demonstrado para alguns usuários
- Está em desenvolvimento com o objetivo de ser lançado futuramente

Áreas de aplicação da inteligência espacial

Criatividade e produção de conteúdo

Marble oferece a cineastas, designers de jogos e arquitetos a capacidade de gerar mundos 3D totalmente exploráveis
- Permite experimentar diferentes cenas e pontos de vista sem limitações de orçamento ou geografia
- Cria experiências imersivas em storytelling, arte, educação e design
Por meio do design de narrativas espaciais, encurta o processo de visualização em arquitetura, indústria e design de moda
Com a expansão de experiências imersivas baseadas em VR e XR, até criadores individuais podem construir seus próprios mundos

Robótica

O gargalo no aprendizado de robôs é a falta de dados de treinamento, e os world models ajudam a suprir isso
- Reduzem a lacuna entre simulação e realidade, permitindo aprendizado em diversos ambientes
A inteligência espacial é essencial para viabilizar robôs colaborativos com humanos
- Desenvolvimento de robôs que compreendem os objetivos e ações humanas e cooperam com elas em laboratórios, residências e outros ambientes
Também pode ser usada para construir ambientes de treinamento e benchmarks para robôs de várias formas — nanorrobôs, robôs macios e robôs para águas profundas ou espaço

Ciência, medicina e educação

Pesquisa científica: aceleração de experimentos com simulações multidimensionais e redução de custos computacionais em áreas como clima e pesquisa de materiais
Medicina: ampliação do uso de IA com inteligência espacial em descoberta de fármacos, diagnóstico por imagem e monitoramento de pacientes
Educação: visualização de conceitos complexos e oferta de ambientes de aprendizado imersivos personalizados para cada estudante
- Estudantes podem explorar estruturas celulares ou eventos históricos, e especialistas podem praticar habilidades com simulações realistas

Visão de um avanço de IA centrado no ser humano

O objetivo do desenvolvimento da IA é ampliar as capacidades humanas, não substituí-las
- O progresso deve seguir na direção de aumentar criatividade, produtividade, conexão e satisfação com a vida
A inteligência espacial é apresentada como uma tecnologia que expande a imaginação, o cuidado e a capacidade de exploração humanas
Para concretizar essa visão, é necessária a colaboração de todo o ecossistema de IA, incluindo pesquisadores, empresas e formuladores de políticas públicas

Conclusão

A IA já transformou a sociedade como um todo, mas a inteligência espacial é apresentada como a próxima etapa de inovação
Por meio dos world models, torna-se possível desenvolver máquinas espacialmente inteligentes que interagem em harmonia com o mundo real
Isso é avaliado como um ponto de virada tecnológico capaz de aprimorar atividades humanas essenciais, como pesquisa de doenças, storytelling e cuidado
Assim como a evolução da inteligência humana começou com a inteligência espacial, apresenta-se a visão de que a conclusão da IA também será completada pela inteligência espacial

1 comentários

GN⁺ 2025-11-12

Comentários no Hacker News

Lendo o texto, não ficou claro o que exatamente eles entendem
As notas quase não trazem informação concreta; é basicamente “vamos coletar dados espaciais como no ImageNet”
Quem pesquisa inteligência espacial está, em grande parte, no campo da neurociência
No artigo de revisão que escrevi, explico que entorhinal cortex, grid cell e transformações de coordenadas podem ser centrais
Todos os animais exploram o mundo convertendo coordenadas em tempo real, e os humanos são os que têm o maior número de representações de coordenadas
Acho que inteligência em nível humano é saber quando e como transformar sistemas de coordenadas para extrair informação útil
Escrevi isso antes do boom dos LLMs, mas ainda acredito que essa direção está certa
- Eu tinha ideias parecidas nos anos 1990
  Isso acabou levando a pesquisas em detecção de colisão, animação baseada em física, solução de equações não lineares e locomoção com pernas em terreno acidentado, mas não era IA
  Hoje em dia, a abordagem é despejar uma quantidade enorme de computação e esperar que o sistema de aprendizado descubra sozinho uma representação interna do mundo espacial
  A locomoção robótica melhorou bastante, mas a manipulação em ambientes não estruturados ainda é péssima
  Mesmo comparando com vídeos do laboratório do McCarthy em Stanford nos anos 1960, a diferença não é tão grande
  Antes eu achava que precisaríamos alcançar primeiro uma inteligência no nível de um rato ou esquilo antes de chegar à humana, então foi surpreendente ver a IA abstrata aparecer antes
  Ultimamente, tenho achado interessante a pesquisa em geração de vídeo que prevê a próxima cena a partir de um vídeo curto
  Acho que o núcleo do senso comum é justamente a capacidade de prever, em pouco tempo, “o que vai acontecer em seguida”
- É interessante que tanto você quanto o casal Moser (ganhadores do Nobel) acreditem que as grid cells são centrais para o modo como os animais entendem sua posição no mundo
  Vale ver também este comunicado do Nobel
- Li alguns parágrafos e desisti porque não apareceu uma definição de ‘inteligência espacial’
  Tem muita buzzword de VC como “transform”, “revolutionize”, “next frontier” e “North Star”, e isso reduz a credibilidade
- Gostei do artigo, e a bibliografia foi especialmente interessante
  O artigo da Nature de 2018 "Vector-based navigation using grid-like representations in artificial agents",
  o da Nature de 2024 "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
  e também a simulação de grid cells da DeepMind valem a pena
  A neurociência já pesquisa percepção espacial há bastante tempo
- No fim, o importante é se dá para extrair insights reais desse tipo de pesquisa
  Copiar sistemas biológicos literalmente quase sempre fracassa
  CNNs foram inspiradas no cérebro, mas são estruturalmente diferentes, e LLMs quase não se parecem com o cérebro humano
  A semelhança funcional dos LLMs não vem de imitar a estrutura cerebral, e sim do processo de treinamento
Isso não passa de um sistema de simulação que funciona em um mundo virtual estreito
Sistemas assim quase não ajudam a aprender a dinâmica complexa do mundo real
Modelos de mundos virtuais são apenas casos especiais simplificados de modelos do mundo físico, e não vejo evidência de que essa empresa esteja fazendo progresso real em inteligência espacial
Recentemente tive uma experiência impressionante ao aplicar agentic coding a CAD
Eu precisava adicionar roscas a um modelo para impressão 3D, então usei geometria computacional para permitir que o agente ‘sentisse’ o modelo
Fiz a convolução de um raio esférico pelo modelo inteiro para encontrar a posição da porta e adicionar a rosca
Depois de algumas tentativas, funcionou, e isso me fez perceber que o modelo precisa ter uma espécie de ‘sentido tátil’
No fim, o modelo 3D precisava ser implementado em código para poder ser validado
- O potencial de CAD generativo é enorme
  Já experimentei com OpenSCAD, mas os modelos atuais ainda carecem de senso comum sobre conexões geométricas
  Se houver mais datasets de CAD baseados em código, isso ficará muito mais útil
  Caso contrário, no fim será preciso aprendizado baseado em simulação física
- Fiquei curioso se você usou CadQuery; se tiver um texto reunindo o que aprendeu, eu gostaria de ler
- Queria entender melhor o processo de implementação e saber se você pretende escrever algo a respeito
- Eu também estou experimentando abordagens de objetos 3D generativos, então adoraria ouvir mais
- Ao contrário de prompts para LLM, descrever objetos geométricos em texto é realmente difícil
  Surge uma ambiguidade do tipo “não coloca isso aí, coloca ali”
O Genie 3 já alcançou em alguma medida o objetivo que ela descreveu, isto é, um modelo de mundo controlável com leis físicas consistentes
Seu modelo irmão, Veo 3, também mostra capacidade de resolver problemas espaciais
Genie e Veo estão muito mais próximos da visão dela do que a World Labs
Mas o texto nem sequer menciona os modelos do Google, então parece mais um artigo promocional da própria empresa
- O Gemini ER também é um modelo que opera espacialmente no mundo real
  Veja DeepMind Gemini Robotics ER
Hoje a IA aprende só na web e não aprende a partir da interação com humanos
Humanos aprendem com contexto e memória acumulados ao longo da vida, mas na IA esse contexto desaparece quando a conversa termina
Uma grande memória de contexto personalizada teria muito mais valor
- O Nested Learning do Google Research pode ser uma solução para isso
  Nas abordagens tradicionais, aprendizagem adicional causa catastrophic forgetting, mas o Nested Learning divide o sistema em vários modelos pequenos para que o retreinamento não destrua outras partes
- O ‘contexto’ humano é resultado de bilhões de anos de acúmulo evolutivo
  Nossa compreensão espacial é vasta como uma simulação quântica em escala cósmica
  Em contraste, hoje o máximo que conseguimos simular completamente é algo no nível de átomos ou células
Lendo isso, pensei que o primeiro caso em que a humanidade ‘pensou à frente da natureza’ foi a roda
A natureza é irregular, mas os humanos construíram estradas planas para permitir o rolamento
O avanço da ciência e da tecnologia é outro exemplo de como foi possível transmitir entre gerações uma intuição de padrões
Não sei se ‘superinteligência’ é possível de alguma forma além da velocidade, mas a capacidade de pensar em 3D será essencial para que a IA vá além dos humanos e da natureza
- O corpo humano é um sistema organizado de células cooperando entre si
  Assim como os vasos sanguíneos transportam nutrientes e sinais, as estradas transportam recursos
  Talvez a natureza apenas tenha expandido essa capacidade de organização para o nível das espécies, e não haja muita base para dizer que os humanos estão acima da natureza
A cognição humana é uma estrutura erguida sobre a inteligência espacial
Ela não é feita só de pensamento abstrato, mas de experiência integrada baseada nos sentidos
A evolução não chegou à generalização por um cérebro simbólico, mas pela fusão dos sentidos
A inteligência não surge de algoritmos, mas de uma harmonia consistente entre os sentidos
A integridade dos sentidos é o verdadeiro caminho a seguir
Estou acompanhando este post de blog que resume o estado atual do raciocínio espacial em LLMs
A conclusão é... ainda falta bastante caminho
Spatial token pode ajudar, mas não é indispensável
Muitos problemas físicos ainda podem ser resolvidos com papel e caneta
É impressionante que uma imagem 512×512 possa ser representada por 85 tokens, e vídeo por 263 tokens por segundo
Isso parece um novo problema de equilíbrio entre memória e embedding
Como na pergunta “você consegue girar uma maçã na cabeça?”, embeddings espaciais podem tornar possível uma compreensão intuitiva da dinâmica
Nossa equipe na FlyShirley também está pesquisando essa área por meio de simulação de treinamento de pilotos, e pretendemos testar o modelo da Fei-Fei
Como aprendizado e inferência baseados em vídeo exigem recursos computacionais enormes,
fico em dúvida se essa abordagem realmente ajudará em assistentes agentes (programação, marketing, gestão de agenda etc.)
Acho mais provável que seja uma estrutura computacional mais vantajosa para a área de robótica

A inteligência espacial é a próxima fronteira da IA

Conceito e importância da inteligência espacial

World model: uma nova arquitetura de IA para implementar inteligência espacial

A pesquisa da World Labs e os desafios técnicos

Áreas de aplicação da inteligência espacial

Criatividade e produção de conteúdo

Robótica

Ciência, medicina e educação

Visão de um avanço de IA centrado no ser humano

Conclusão

Leituras relacionadas

1 comentários

Comentários no Hacker News

`World model`: uma nova arquitetura de IA para implementar inteligência espacial