Modelo de mundo da Waymo: uma nova fronteira na simulação para direção autônoma

(waymo.com)

6 pontos por GN⁺ 2026-02-07 | 1 comentários | Compartilhar no WhatsApp

Um modelo de mundo generativo para simulação autônoma em grande escala, capaz de reproduzir em tempo real ambientes semelhantes ao mundo real
Construído com base no Genie 3, consegue recriar de forma realista situações raras ou extremas (tornados, enchentes, aparecimento de animais etc.)
Permite ajustar a simulação em detalhes por meio de controle de direção, composição de cena e controle por linguagem, além de gerar simultaneamente dados de câmera e LiDAR
Converte vídeos comuns ou de dashcam em simulações multissensoriais, reproduzindo cenas reais de condução
Esse modelo é uma ferramenta essencial para validação de segurança e expansão do serviço, permitindo preparação até para situações quase impossíveis no mundo real

Visão geral do modelo de mundo da Waymo

O Waymo Driver já percorreu cerca de 200 milhões de milhas em direção totalmente autônoma nas principais cidades dos EUA e, além disso, dirigiu bilhões de milhas em ambientes virtuais
- Projetado para aprender com antecedência situações complexas que são difíceis de encontrar em estradas reais
O Waymo World Model é um sistema de geração de simulações hiper-realistas para esse tipo de condução virtual
- Atua como um dos três pilares centrais do ecossistema de IA da Waymo, servindo de base para demonstrar segurança

Estrutura e recursos baseados no Genie 3

Baseado no Genie 3 da Google DeepMind, ajustado em uma forma especializada para ambientes de direção
- O Genie 3 é um modelo de mundo de uso geral que cria ambientes 3D realistas e interativos
Aproveitando o amplo conhecimento de mundo do Genie, é possível simular até eventos quase impossíveis na realidade, como encontrar um tornado ou um elefante
A simulação pode ser controlada com precisão por meio de prompts em linguagem, entradas de direção e posicionamento de cena
Suporta saída multissensorial, gerando dados de câmera e LiDAR ao mesmo tempo

Conhecimento de mundo multimodal

Enquanto simuladores tradicionais de direção autônoma são treinados apenas com dados coletados internamente, o modelo da Waymo aproveita os amplos dados de vídeo pré-treinados do Genie 3
Transfere o conhecimento de vídeo 2D para saídas 3D do sistema LiDAR da Waymo
- Câmeras se destacam na descrição de detalhes visuais, enquanto o LiDAR tem vantagem em informações precisas de profundidade
Pode gerar cenas variadas, desde condução cotidiana até situações raras de long tail
Simulação de clima extremo e desastres naturais
- Geração de cenas como dirigir na Golden Gate coberta de neve, encontro com tornado, áreas suburbanas inundadas, ruas nevadas em cidades tropicais e fuga em meio a incêndio
Eventos raros e críticos para segurança
- Reprodução de cenários ligados à segurança, como motoristas agressivos, veículos atingindo galhos de árvore, veículos com carga instável e caminhões na contramão
Objetos de long tail e situações incomuns
- Oferece simulações de encontros com objetos atípicos, como elefantes, Texas longhorns, leões, pedestres fantasiados de dinossauro e enormes cata-ventos

Recursos de controle da simulação

Pode ser ajustado de três formas: controle de ações de direção, controle de composição de cena e controle por linguagem
Controle de ações de direção
- Implementa um simulador interativo que reage a entradas específicas de direção
  - Ex.: testar o resultado caso o veículo dirigisse de forma mais agressiva em determinada situação
- Mantém consistência visual e realismo superiores ao método tradicional de 3DGS (3D Gaussian Splats)
Controle de composição de cena
- Permite modificar livremente estrutura viária, estado dos sinais e comportamento dos veículos ao redor
  - Suporta criação de cenários personalizados e transformação do ambiente viário
Controle por linguagem
- Permite alterar horário do dia, clima e cena como um todo com comandos de texto
  - Ex.: mudar entre madrugada, manhã, meio-dia, tarde, noite etc.
  - Alterar condições climáticas como nublado, neblina, chuva, neve e céu limpo

Conversão de vídeo em simulação

Recebe como entrada vídeos de câmeras comuns ou dashcams e os converte em simulações multissensoriais na perspectiva do Waymo Driver
- Como se baseia em imagens reais, oferece alto nível de realismo e precisão
Exemplos: conversão de vídeos de locais reais como Noruega, Parque Nacional Arches em Utah e Death Valley na Califórnia

Inferência escalável (Scalable Inference)

Simulações de cenas longas exigem muito processamento, mas variantes mais eficientes do modelo permitem manter alta qualidade reduzindo drasticamente o custo computacional
- Suporta cenários prolongados de condução, como passagem por faixas estreitas, cruzamentos complexos e subidas
Exemplos em reprodução 4x: evitar gargalos em rodovias, dirigir em áreas residenciais complexas, desviar de motocicleta em subida e retorno de SUV

Segurança e escalabilidade

Permite reproduzir virtualmente situações quase impossíveis no mundo real e se preparar com antecedência
Reforça os padrões de segurança do Waymo Driver e cria a base para expandir o serviço para novas regiões e ambientes

O projeto contou com a participação de diversos pesquisadores da Waymo e do Google DeepMind

1 comentários

GN⁺ 2026-02-07

Comentários do Hacker News

De repente entendi por que a DeepMind está focando em world models
Eu nunca tinha pensado no Waymo como um “robô”, como os humanoides da Boston Dynamics, mas na prática ele é um robô
Google/Alphabet tem uma integração vertical em IA surpreendentemente completa — própria geração de energia, chips, data centers, Busca·Gmail·YouTube·Gemini·Workspace·Wallet, bilhões de usuários de Android·Chromebook, rede de anúncios, navegador, Waymo, colaboração com a Boston Dynamics, pesquisa em fusão nuclear e até desenvolvimento de novos medicamentos
Nessa escala, chatbots como ChatGPT ou Grok nem se comparam
- O Google tem se concentrado mais em P&D interno e aplicação própria do que em vender IA como produto
  Antes eu achava que a pesquisa com carros autônomos era para o Street View, mas agora vejo que havia uma ambição muito maior
- O Google já vinha pesquisando world models desde 2018
  O artigo relacionado pode ser visto aqui
- A Tesla também criou um sistema parecido para treinar o FSD, mas é uma pena que não o tenha transformado em um produto de serviços de mapa
  Daria para atualizar a situação das estradas em tempo real a partir dos carros, mas agora parece estar bem atrasada
- Também passei a entender nesse contexto por que a Tesla começou com robôs humanoides
- Se você só percebeu essa perspectiva agora, então já está uns 3 anos atrás da Tesla
  Veja o vídeo relacionado aqui
Dizem que o modelo Genie consegue simular eventos raros (tornados, encontro com elefantes etc.), mas fico em dúvida se o resultado gerado é realmente realista
Por exemplo, mesmo que o modelo preveja uma situação em que a via esteja coberta por esferas de aço de 5 mm, há a preocupação de como validar se isso faz sentido ou não
- Com o tempo, a qualidade dos world models pode melhorar, permitindo treinar sistemas autônomos com dados sintéticos “realistas o suficiente”
  Não precisa ser perfeito; dá para criar um ciclo virtuoso em que o sistema melhora gradualmente por meio de uso repetido e validação
- Não se trata de declarar “agora o carro está seguro até com esferas de aço”, mas de verificar, como em testes unitários, se ele reage como esperado em certas situações
  Por exemplo, até casos extremos como uma vaca branca em meio a uma nevasca podem ser detectados por simulação
- Se dá para simular “de tornados a elefantes”, então um jogo como The Sims também poderia ficar incrível
- Na verdade, essa incerteza vale igualmente para humanos
  Previsão perfeita é impossível, mas é um processo de melhoria gradual rumo à melhor decisão possível com base no conhecimento
- É preciso uma abordagem de treinar em simulação e validar no mundo real
Dizem que o Waymo World Model pode converter até vídeo de câmeras comuns em simulações multimodais, o que significa que, se quisesse, o Waymo também poderia dirigir só com câmeras
- Mas, na prática, isso é convertido em representações inicializadas com LiDAR, vídeo e outros sensores
  Como a Tesla não passou pela etapa de LiDAR, é difícil obter esse tipo de resultado
- O LiDAR é um mecanismo de correção de erro quando a precisão da câmera cai
  Ele complementa a percepção de profundidade, como a disparidade binocular nos humanos
- Ele também continua importante para se proteger contra ataques de jamming ao LiDAR
- A conversão de vídeo → dados de sensores e a condução usando esses dados são etapas separadas
  A primeira é para treinamento; a segunda é para os veículos reais
- Para ser socialmente aceito, um carro autônomo precisa ser muito mais seguro que um humano
  Por isso, uma abordagem baseada só em câmeras tem limitações
A tecnologia é impressionante, mas acho que melhorar a infraestrutura ferroviária é mais urgente
- Do ponto de vista de quem mora na Bay Area, já existem trens, mas as tarifas, a gestão e a ordem são tão ruins que nem os custos operacionais se pagam
  Calote, violência e falta de higiene afastam os usuários
  Ficar falando só de transporte público ignorando essa realidade soa vazio
  Por isso, se um serviço como o Waymo realmente entregar a qualidade prometida, vai chamar mais atenção
  Pessoalmente, acho que só os sistemas de compartilhamento de bicicletas cumprem o que prometem como alternativa
- No fim, o trem vira um inferno se as normas de convivência das pessoas não forem mantidas
  Barulho, mendicância e problemas com drogas fazem o transporte público virar algo a ser evitado
- Em qualquer caso, o carro ainda tem uma vantagem absoluta
  Dada a realidade da infraestrutura dos EUA, uma grande reforma ferroviária é irrealista
  Mesmo em um país com trens desenvolvidos como o Japão, a taxa de posse de veículos não é tão diferente da dos EUA
- Acho melhor um veículo que permita ir aonde quiser, com segurança e limpeza e no seu próprio horário
- Ainda assim, o Waymo pode ser um ponto de virada para reduzir motoristas e diminuir a posse de veículos
O principal desta apresentação é a tecnologia de gerar dados 3D de LiDAR a partir de vídeo 2D
O acesso à DeepMind e à infraestrutura do Google é a enorme vantagem competitiva do Waymo
- Na verdade, a tecnologia de estimar 3D a partir de imagens 2D já existe há décadas
- Há também abordagens de monodepth como Metric3D, mas os resultados do Waymo são claramente de ponta (SOTA)
As simulações de enchentes, tornados e incêndios florestais são impressionantes, mas é questionável que o Waymo tenha parado tudo ao mesmo tempo em uma situação comum como um apagão
Se não consegue lidar com esse tipo de cenário básico, o significado da simulação enfraquece
- A simulação melhora o desempenho de cada veículo individualmente, mas o apagão foi um problema sistêmico causado pela sobrecarga da equipe de suporte remoto
  Ou seja, a simulação ainda tem valor, mas não pode evitar todas as falhas
- Na prática, já houve caso de o Waymo entrar em uma área alagada
  Vídeo relacionado
Parece arriscado que o Waymo use situações contrafactuais virtuais (counterfactual) no treinamento
Como deve haver mais vídeos em que “lidou bem” do que casos trágicos reais, isso pode acabar ensinando confiança excessiva
- Mas, na prática, não se trata de “contrafactual”, e sim de geração para complementar situações raras
  O objetivo é fazer com que o Waymo não apenas pare ao encontrar um tornado ou um elefante, mas saiba reagir
- Dirigir é uma questão de equilíbrio entre velocidade e segurança
  Se você buscar apenas segurança absoluta, o carro nem sai do lugar
- Não entrar em um cruzamento quando está seguro fazê-lo, ou dirigir só a 5 mph, também é uma forma errada de dirigir
  A ideia de que “mais devagar sempre é mais seguro” não está correta
Um world model pode ser perigoso em situações reais de segurança por causa de dados enviesados
Se for treinado com dados quase sem casos de falha, talvez não consiga reproduzir situações reais de acidente
- Mas o Waymo já está treinando com mais de 100 milhões de milhas de dados reais de condução
  Como exemplo, este vídeo mostra um caso de prevenção de colisão
- Claro, a possibilidade de viés ainda existe, mas é possível garantir diversidade com geração de cenários por prompt usando LLMs
  Ainda assim, o critério de “realista o suficiente” é nebuloso
  Como nem humanos são 100% confiáveis, se isso for combinado com um nível de segurança 10 vezes melhor e dispositivos de segurança verificáveis baseados em código, a aceitação social será maior
O Project Genie da DeepMind parece ser a tecnologia de base do Waymo
Texto relacionado: Genie 3: A new frontier for world models
Discussões no Hacker News: Genie 3, Project Genie
- A DeepMind não é apenas uma subsidiária do Alphabet, mas a organização central em que Demis Hassabis lidera toda a IA do Google
Isso me lembra o meme da curva em sino do aprendizado de direção autônoma
Primeiro começa com simuladores baseados em física, depois coleta dados reais e então volta para simuladores de deep learning com informação física incorporada
- No fim, o ciclo é simulação simples → dados do mundo real → simulação para raridades do mundo real
  Parece uma etapa de evolução tão natural que até merecia ganhar um nome

Modelo de mundo da Waymo: uma nova fronteira na simulação para direção autônoma

Visão geral do modelo de mundo da Waymo

Estrutura e recursos baseados no Genie 3

Conhecimento de mundo multimodal

Simulação de clima extremo e desastres naturais

Eventos raros e críticos para segurança

Objetos de long tail e situações incomuns

Recursos de controle da simulação

Controle de ações de direção

Controle de composição de cena

Controle por linguagem

Conversão de vídeo em simulação

Inferência escalável (Scalable Inference)

Segurança e escalabilidade

Leituras relacionadas

1 comentários

Comentários do Hacker News