- Um modelo de mundo generativo para simulação autônoma em grande escala, capaz de reproduzir em tempo real ambientes semelhantes ao mundo real
- Construído com base no Genie 3, consegue recriar de forma realista situações raras ou extremas (tornados, enchentes, aparecimento de animais etc.)
- Permite ajustar a simulação em detalhes por meio de controle de direção, composição de cena e controle por linguagem, além de gerar simultaneamente dados de câmera e LiDAR
- Converte vídeos comuns ou de dashcam em simulações multissensoriais, reproduzindo cenas reais de condução
- Esse modelo é uma ferramenta essencial para validação de segurança e expansão do serviço, permitindo preparação até para situações quase impossíveis no mundo real
Visão geral do modelo de mundo da Waymo
- O Waymo Driver já percorreu cerca de 200 milhões de milhas em direção totalmente autônoma nas principais cidades dos EUA e, além disso, dirigiu bilhões de milhas em ambientes virtuais
- Projetado para aprender com antecedência situações complexas que são difíceis de encontrar em estradas reais
- O Waymo World Model é um sistema de geração de simulações hiper-realistas para esse tipo de condução virtual
- Atua como um dos três pilares centrais do ecossistema de IA da Waymo, servindo de base para demonstrar segurança
Estrutura e recursos baseados no Genie 3
- Baseado no Genie 3 da Google DeepMind, ajustado em uma forma especializada para ambientes de direção
- O Genie 3 é um modelo de mundo de uso geral que cria ambientes 3D realistas e interativos
- Aproveitando o amplo conhecimento de mundo do Genie, é possível simular até eventos quase impossíveis na realidade, como encontrar um tornado ou um elefante
- A simulação pode ser controlada com precisão por meio de prompts em linguagem, entradas de direção e posicionamento de cena
- Suporta saída multissensorial, gerando dados de câmera e LiDAR ao mesmo tempo
Conhecimento de mundo multimodal
- Enquanto simuladores tradicionais de direção autônoma são treinados apenas com dados coletados internamente, o modelo da Waymo aproveita os amplos dados de vídeo pré-treinados do Genie 3
- Transfere o conhecimento de vídeo 2D para saídas 3D do sistema LiDAR da Waymo
- Câmeras se destacam na descrição de detalhes visuais, enquanto o LiDAR tem vantagem em informações precisas de profundidade
- Pode gerar cenas variadas, desde condução cotidiana até situações raras de long tail
-
Simulação de clima extremo e desastres naturais
- Geração de cenas como dirigir na Golden Gate coberta de neve, encontro com tornado, áreas suburbanas inundadas, ruas nevadas em cidades tropicais e fuga em meio a incêndio
-
Eventos raros e críticos para segurança
- Reprodução de cenários ligados à segurança, como motoristas agressivos, veículos atingindo galhos de árvore, veículos com carga instável e caminhões na contramão
-
Objetos de long tail e situações incomuns
- Oferece simulações de encontros com objetos atípicos, como elefantes, Texas longhorns, leões, pedestres fantasiados de dinossauro e enormes cata-ventos
Recursos de controle da simulação
- Pode ser ajustado de três formas: controle de ações de direção, controle de composição de cena e controle por linguagem
-
Controle de ações de direção
- Implementa um simulador interativo que reage a entradas específicas de direção
- Ex.: testar o resultado caso o veículo dirigisse de forma mais agressiva em determinada situação
- Mantém consistência visual e realismo superiores ao método tradicional de 3DGS (3D Gaussian Splats)
-
Controle de composição de cena
- Permite modificar livremente estrutura viária, estado dos sinais e comportamento dos veículos ao redor
- Suporta criação de cenários personalizados e transformação do ambiente viário
-
Controle por linguagem
- Permite alterar horário do dia, clima e cena como um todo com comandos de texto
- Ex.: mudar entre madrugada, manhã, meio-dia, tarde, noite etc.
- Alterar condições climáticas como nublado, neblina, chuva, neve e céu limpo
Conversão de vídeo em simulação
- Recebe como entrada vídeos de câmeras comuns ou dashcams e os converte em simulações multissensoriais na perspectiva do Waymo Driver
- Como se baseia em imagens reais, oferece alto nível de realismo e precisão
- Exemplos: conversão de vídeos de locais reais como Noruega, Parque Nacional Arches em Utah e Death Valley na Califórnia
Inferência escalável (Scalable Inference)
- Simulações de cenas longas exigem muito processamento, mas variantes mais eficientes do modelo permitem manter alta qualidade reduzindo drasticamente o custo computacional
- Suporta cenários prolongados de condução, como passagem por faixas estreitas, cruzamentos complexos e subidas
- Exemplos em reprodução 4x: evitar gargalos em rodovias, dirigir em áreas residenciais complexas, desviar de motocicleta em subida e retorno de SUV
Segurança e escalabilidade
- Permite reproduzir virtualmente situações quase impossíveis no mundo real e se preparar com antecedência
- Reforça os padrões de segurança do Waymo Driver e cria a base para expandir o serviço para novas regiões e ambientes
- O projeto contou com a participação de diversos pesquisadores da Waymo e do Google DeepMind
1 comentários
Comentários do Hacker News
De repente entendi por que a DeepMind está focando em world models
Eu nunca tinha pensado no Waymo como um “robô”, como os humanoides da Boston Dynamics, mas na prática ele é um robô
Google/Alphabet tem uma integração vertical em IA surpreendentemente completa — própria geração de energia, chips, data centers, Busca·Gmail·YouTube·Gemini·Workspace·Wallet, bilhões de usuários de Android·Chromebook, rede de anúncios, navegador, Waymo, colaboração com a Boston Dynamics, pesquisa em fusão nuclear e até desenvolvimento de novos medicamentos
Nessa escala, chatbots como ChatGPT ou Grok nem se comparam
Antes eu achava que a pesquisa com carros autônomos era para o Street View, mas agora vejo que havia uma ambição muito maior
O artigo relacionado pode ser visto aqui
Daria para atualizar a situação das estradas em tempo real a partir dos carros, mas agora parece estar bem atrasada
Veja o vídeo relacionado aqui
Dizem que o modelo Genie consegue simular eventos raros (tornados, encontro com elefantes etc.), mas fico em dúvida se o resultado gerado é realmente realista
Por exemplo, mesmo que o modelo preveja uma situação em que a via esteja coberta por esferas de aço de 5 mm, há a preocupação de como validar se isso faz sentido ou não
Não precisa ser perfeito; dá para criar um ciclo virtuoso em que o sistema melhora gradualmente por meio de uso repetido e validação
Por exemplo, até casos extremos como uma vaca branca em meio a uma nevasca podem ser detectados por simulação
Previsão perfeita é impossível, mas é um processo de melhoria gradual rumo à melhor decisão possível com base no conhecimento
Dizem que o Waymo World Model pode converter até vídeo de câmeras comuns em simulações multimodais, o que significa que, se quisesse, o Waymo também poderia dirigir só com câmeras
Como a Tesla não passou pela etapa de LiDAR, é difícil obter esse tipo de resultado
Ele complementa a percepção de profundidade, como a disparidade binocular nos humanos
A primeira é para treinamento; a segunda é para os veículos reais
Por isso, uma abordagem baseada só em câmeras tem limitações
A tecnologia é impressionante, mas acho que melhorar a infraestrutura ferroviária é mais urgente
Calote, violência e falta de higiene afastam os usuários
Ficar falando só de transporte público ignorando essa realidade soa vazio
Por isso, se um serviço como o Waymo realmente entregar a qualidade prometida, vai chamar mais atenção
Pessoalmente, acho que só os sistemas de compartilhamento de bicicletas cumprem o que prometem como alternativa
Barulho, mendicância e problemas com drogas fazem o transporte público virar algo a ser evitado
Dada a realidade da infraestrutura dos EUA, uma grande reforma ferroviária é irrealista
Mesmo em um país com trens desenvolvidos como o Japão, a taxa de posse de veículos não é tão diferente da dos EUA
O principal desta apresentação é a tecnologia de gerar dados 3D de LiDAR a partir de vídeo 2D
O acesso à DeepMind e à infraestrutura do Google é a enorme vantagem competitiva do Waymo
As simulações de enchentes, tornados e incêndios florestais são impressionantes, mas é questionável que o Waymo tenha parado tudo ao mesmo tempo em uma situação comum como um apagão
Se não consegue lidar com esse tipo de cenário básico, o significado da simulação enfraquece
Ou seja, a simulação ainda tem valor, mas não pode evitar todas as falhas
Vídeo relacionado
Parece arriscado que o Waymo use situações contrafactuais virtuais (counterfactual) no treinamento
Como deve haver mais vídeos em que “lidou bem” do que casos trágicos reais, isso pode acabar ensinando confiança excessiva
O objetivo é fazer com que o Waymo não apenas pare ao encontrar um tornado ou um elefante, mas saiba reagir
Se você buscar apenas segurança absoluta, o carro nem sai do lugar
A ideia de que “mais devagar sempre é mais seguro” não está correta
Um world model pode ser perigoso em situações reais de segurança por causa de dados enviesados
Se for treinado com dados quase sem casos de falha, talvez não consiga reproduzir situações reais de acidente
Como exemplo, este vídeo mostra um caso de prevenção de colisão
Ainda assim, o critério de “realista o suficiente” é nebuloso
Como nem humanos são 100% confiáveis, se isso for combinado com um nível de segurança 10 vezes melhor e dispositivos de segurança verificáveis baseados em código, a aceitação social será maior
O Project Genie da DeepMind parece ser a tecnologia de base do Waymo
Texto relacionado: Genie 3: A new frontier for world models
Discussões no Hacker News: Genie 3, Project Genie
Isso me lembra o meme da curva em sino do aprendizado de direção autônoma
Primeiro começa com simuladores baseados em física, depois coleta dados reais e então volta para simuladores de deep learning com informação física incorporada
Parece uma etapa de evolução tão natural que até merecia ganhar um nome