- Embora a IA de software tenha avançado de forma extraordinária, os robôs no mundo físico ainda têm dificuldade até com tarefas básicas como dobrar roupa ou organizar a lava-louças
- O mundo físico é cheio de atrito, oclusão, dinâmicas imprevisíveis e aleatoriedade, algo essencialmente diferente dos ambientes de IA centrados em texto
- Um World Model não funciona programando diretamente as leis da física, mas aprendendo a partir da experiência real para prever estados futuros com base nas ações
- JEPA (Joint-Embedding Predictive Architecture) prevê representações abstratas em vez de previsões no nível de pixel, filtrando ruído, mas sofria com o problema de colapso de representação (collapse)
- LeJEPA resolve esse problema com uma técnica de regularização matemática e apresenta uma base teórica para a transição da robótica de abordagens manuais baseadas em regras para abordagens baseadas em aprendizado
A lacuna entre a IA digital e os robôs físicos
- LLMs já conseguem escrever código, projetar novos medicamentos e proteínas, resumir documentos jurídicos, atuar como tutores para estudantes, gerar música e arte e até resolver problemas de raciocínio matemático que a IA clássica não conseguiu resolver por décadas
- Já os robôs no mundo físico, quando saem de ambientes de armazém controlados, continuam falhando em tarefas básicas como dobrar roupa, limpar quartos bagunçados, pegar objetos irregulares, organizar a lava-louças, cozinhar e pôr a mesa
- Robôs assistentes domésticos autônomos, sistemas capazes de se mover com segurança em ambientes imprevisíveis ou habilidades de manipulação flexível de objetos no nível de uma criança pequena ainda não foram concretizados, e os robôs de fábricas e laboratórios seguem caros, frágeis, dependentes de scripts e altamente especializados
- Pesquisadores de robótica como Rodney Brooks são céticos em relação a abordagens “vision-only”, e a manipulação depende fortemente de sinais de tato, feedback de força e propriocepção, mas esses sinais estão ausentes ou são muito rudimentares nos sistemas atuais
- Modelos de linguagem operam em um mundo estável com estrutura consistente chamado texto, e ações digitais podem ser desfeitas, mas o mundo físico é cheio de atrito, oclusão, dinâmicas imprevisíveis e aleatoriedade contínua
Definição e papel do World Model
- Ao tomar decisões e fazer planos no mundo real, os humanos dependem de uma representação interna (internal representation) do ambiente, e planejar é o processo de imaginar mentalmente estados futuros que podem surgir a partir de certas ações
- Essa representação interna mantém apenas as informações necessárias para resolver o problema e remove detalhes desnecessários; por exemplo, ao planejar o trajeto para o trabalho, consideramos estrada, horário e trânsito, mas não incluímos informações irrelevantes como o ruído específico produzido por cada carro
- Em um nível mais alto, essas representações internas refletem a estrutura do mundo e permitem encaixar rapidamente novas situações em padrões já familiares
- Exemplo: mesmo diante de uma porta com uma maçaneta de formato nunca visto antes, é possível reconhecer pela forma e posição que aquilo é uma maçaneta e inferir como operá-la com base no entendimento geral de que “portas são abertas aplicando força na maçaneta”
- Um World Model é diferente de uma política (policy) que transforma observações imediatamente em ações; em vez de tomar decisões por conta própria, ele prevê como o mundo mudará sob diferentes ações possíveis e gera representações comprimidas de estados futuros
- Com esse modelo preditivo, um planejador (ou política de nível inferior) pode comparar e avaliar vários futuros imaginados para escolher a sequência de ações que leva ao melhor resultado
Quatro propriedades de um World Model útil
- Refletir a estrutura do mundo: deve conter representações que revelem a estrutura do mundo, não apenas dados sensoriais brutos
- Generalização para múltiplas tarefas: deve conseguir se adaptar a novas tarefas sem precisar reaprender tudo do zero
- Filtrar detalhes irrelevantes: deve focar apenas nas informações que afetam o resultado e eliminar elementos desnecessários
- Prever mudanças no mundo em função das ações: deve permitir imaginar antecipadamente os possíveis resultados antes de agir de fato
A história do aprendizado de representações significativas do mundo
- Os principais avanços em percepção com deep learning acabaram criando internamente representações estruturadas do mundo, mesmo sem esse ser o objetivo explícito
- Na visão computacional, modelos treinados para classificar imagens como gato, cachorro ou elefante formaram representações internas bem organizadas e reutilizáveis
- No processo de otimizar um objetivo simples de acertar o conteúdo da imagem, as características aprendidas passaram naturalmente a codificar informações como forma, textura, pose e semântica
- Essas representações puderam então ser usadas como entrada de estado para tarefas como detecção, rastreamento e segmentação de objetos, mesmo sem treinamento adicional separado
- Depois, a aprendizagem evoluiu além da abordagem centrada em classificação para métodos de reconstrução de imagem, que completam partes ausentes com base no contexto dado, produzindo representações mais ricas e generalizáveis
- Mas também surgiu uma limitação fundamental: entradas sensoriais sempre incluem detalhes irrelevantes para tarefas posteriores e que, além disso, são impossíveis de prever
- Exemplo: os padrões finos de ondulação na superfície de uma panela fervendo são essencialmente aleatórios e quase não contribuem para nenhuma tomada de decisão
- Modelos baseados em reconstrução tentam prever até esses detalhes, passando a codificar junto aleatoriedade sem significado para o World Model
- Como resultado, a representação do mundo acaba formada em um estado embaralhado com ruído, em vez de refletir sua estrutura essencial
A abordagem do JEPA
- Se a reconstrução de imagens é um problema de completar padrões no espaço (prever pixels faltantes quando parte da imagem é dada), então um World Model pode ser visto como um problema de completar padrões no tempo
- O problema de prever um estado futuro dadas a situação atual do mundo e uma sequência de ações
- JEPA (Joint-Embedding Predictive Architecture) foca em prever representações abstratas do futuro condicionadas em variáveis latentes, em vez de fazer reconstrução de imagem ou prever quadros futuros de vídeo no nível de pixel
- As variáveis latentes podem ser entendidas como as ações realizadas pelo robô ou fatores independentes que influenciam mudanças futuras
- Ao ser treinado para prever o estado abstrato de uma cena, e não sua aparência exata no nível de pixel, o modelo forma representações organizadas e acionáveis sem desperdiçar capacidade com detalhes visuais irrelevantes
- O JEPA constrói representações que capturam elementos estáveis e significativos, ao mesmo tempo em que excluem naturalmente detalhes altamente aleatórios
- O próprio objetivo de treinamento o conduz a não codificar a forma exata do vapor saindo de uma chaleira ou a textura minuciosa de um pano amassado
- Esses detalhes são intrinsecamente imprevisíveis e, na prática, dificultam ainda mais a previsão do estado futuro do mundo
- Para alcançar alto desempenho, o modelo precisa representar os aspectos previsíveis que realmente importam para entender como o mundo evolui
- O ponto central dessa escolha de arquitetura é que o objetivo do modelo deixou de ser simples reconstrução e passou a ser aprender as dinâmicas previsíveis do mundo
Limites do JEPA e o problema do colapso de representação
- O motivo de o JEPA não ter se espalhado mais amplamente nos últimos anos é que é difícil separar com clareza detalhes ruidosos e imprevisíveis da estrutura realmente significativa
- Sem restrições adequadas, o modelo tende a colapsar para uma representação trivial (trivial representation)
- Isso é semelhante a um sistema de arquivamento que, para resolver o problema de haver informação demais, simplesmente descarta categorias inteiras de documentos
- Modelos JEPA acabam pegando um atalho para evitar ruído imprevisível e, nesse processo, eliminam junto estruturas úteis
LeJEPA: a solução matemática
- Randall Balestriero e Yann LeCun propuseram o LeJEPA, que apresenta um regularizador (regularizer) matematicamente fundamentado para impedir o colapso de representação observado no JEPA
- A ideia central é fazer com que o espaço de representação interna mantenha resolução uniforme em todas as direções, em vez de concentrar variação demais em algumas características e negligenciar o restante
- Para isso, a distribuição dos embeddings é induzida a assumir a forma de uma gaussiana isotrópica (isotropic Gaussian)
- Essa restrição leva o modelo a usar sua capacidade de forma equilibrada em todas as dimensões de representação, preservando representações internas ricas e bem condicionadas
- Embora pareça uma restrição geométrica simples, ela produz efeitos poderosos como
- maior estabilidade no processo de treinamento
- preservação de estrutura significativa
- aprendizado de representações ricas e previsíveis sem heurísticas como data augmentation ou negativos contrastivos
- Isso representa uma mudança: sair de técnicas improvisadas para evitar o colapso do modelo e ir para uma abordagem teórica que o leva a aprender a própria estrutura do mundo sem ser dominado pelo ruído
O novo caminho sugerido pelos World Models
- Essas ideias apontam para uma mudança fundamental na forma de encarar a robótica
- Por décadas, a robótica ficou presa a um ciclo como este
- projetar manualmente soluções para tarefas específicas
- verificar falhas em casos extremos
- continuar adicionando regras e exceções
- Os World Models mostram um caminho para sair desse ciclo
- em vez de programar diretamente as leis da física em uma máquina
- torna-se possível migrar para sistemas treinados para prever estados futuros do mundo e raciocinar sobre eles
Perguntas em aberto
- Como guiar eficientemente o modelo para explorar ações significativas e úteis
- Como escalar isso até a complexidade total de ambientes não estruturados
- Como manter a segurança e o alinhamento com a intenção humana à medida que a autonomia aumenta
- Esses problemas estão longe de ser simples, mas são qualitativamente diferentes daqueles que bloquearam a robótica nos últimos 50 anos
- O que mudou é o surgimento de um framework teórico compatível com a estrutura do problema
Conclusão
- O LeJEPA e abordagens relacionadas não representam apenas uma melhoria incremental, mas oferecem uma base matemática para treinar World Models capazes de lidar com a incerteza do mundo real
- Pela primeira vez, a lacuna entre inteligência digital e capacidade física começa a parecer não mais ficção científica, mas um desafio que pode ser superado por meio da pesquisa
Ainda não há comentários.