IA que aprende além dos jogos e até no mundo real: o desafio de aprendizado por reforço baseado na realidade de John Carmack

(twitter.com/ID_AA_Carmack)

17 pontos por GN⁺ 2025-05-24 | 1 comentários | Compartilhar no WhatsApp

Resumo das notas preparatórias e slides da apresentação de John Carmack na "Upper Bound 2025"
John Carmack passou por Id Software, Oculus, Keen Technologies e agora está focado em pesquisa de AGI baseada em aprendizado por reforço
Evita LLMs e se interessa por aprendizado contínuo e eficiente em que o sistema aprende interagindo com o ambiente, como os animais
Com base nos jogos clássicos do Atari, construiu um sistema físico de RL que aprende com câmera em tempo real e entrada de joystick
Apresenta de forma ampla os desafios técnicos que precisam ser resolvidos para que sistemas de RL se aproximem mais da realidade, como velocidade, latência, aprendizado contínuo e prevenção de esquecimento
Compartilha insights afiados baseados em experiência sobre arquiteturas CNN, representação de recompensa e estratégias de exploração, além de questionar práticas consolidadas

Slides: https://docs.google.com/presentation/d/…
Notas preparatórias: https://docs.google.com/document/d/…

Quick Background

Como fundador da Id Software, Quake impulsionou a evolução das GPUs e influenciou indiretamente a área de IA
Na Armadillo Aerospace, conduziu por 10 anos pesquisas com foguetes de decolagem e pouso vertical
Na Oculus, ajudou a construir a base da tecnologia moderna de VR
Fundou a Keen Technologies e hoje se dedica à pesquisa em IA com foco em aprendizado por reforço
Pesquisa junto com Richard Sutton e compartilha com ele uma filosofia sobre aprendizado por reforço

Where I thought I was going

Not LLMs

LLMs são “conhecimento sem aprendizado”, e por isso têm uma filosofia diferente da aprendizagem baseada em interação que ele busca
Continua em aberto a possibilidade de LLMs substituírem RL, mas ele considera mais atraente a ideia de aprender no ambiente como os animais

Games

Graças à longa experiência com desenvolvimento de jogos, usa jogos como ambiente experimental
Como nas pesquisas da DeepMind com Atari, investiga a possibilidade de aprender apenas com entrada baseada em pixels
Porém, o número gigantesco de frames de treinamento e os problemas de eficiência continuam sendo desafios
Aprendizado multitarfa, online e eficiente ainda segue sem solução

Video

Inicialmente considerou aprendizado passivo com vídeo como TV, mas decidiu focar no aprendizado em jogos

Missteps

Começou em um nível muito baixo (C++ CUDA) e depois migrou para PyTorch, acelerando a velocidade dos experimentos
Em vez de Atari, começou com o Sega Master System, mas mudou pela falta de material comparativo
Aprendizado baseado em vídeo foi adiado, porque o aprendizado dentro dos jogos já oferece desafios suficientes

Settling in with Atari

A diversidade dos jogos comerciais ajuda a reduzir viés de pesquisa
Recomenda usar diretamente o ALE (wrappers como Gym podem causar problemas)
Os modelos mais recentes resolveram a maioria dos jogos com pontuações altas, mas aprendizado eficiente em dados, como em “Atari 100k”, é mais importante
O comportamento determinístico do ambiente precisa ser contornado com recursos como Sticky action

Reality is not a turn based game

A realidade não espera pelo agente → é preciso considerar processamento assíncrono e latência
Falhar em aprender em um único ambiente sugere um problema no próprio algoritmo
Velocidade: é necessário ter políticas que possam ser avaliadas em alta velocidade (por exemplo, com CUDA graph)
Latência: a maioria dos algoritmos de RL é frágil à latência → é preciso uma estrutura que reflita o atraso na aplicação da política

Physical Atari

Construiu um sistema de aprendizado de Atari em ambiente físico
Um joystick real, uma câmera olhando para a tela e um agente de RL operam em tempo real
Ao testar vários jogos, considera problemas do mundo real como reconhecimento de pontuação, atraso de ação e erros de controle
O movimento do joystick é instável, e o reconhecimento da pontuação é a parte mais difícil
Alguns jogos foram excluídos porque a pontuação não era visível o bastante

Sparse rewards / Curiosity

RL é fraco em ambientes com recompensas esparsas → uso de recompensas intrínsecas e curiosidade artificial
Também explora se a própria pontuação do jogo pode ser usada diretamente como recompensa
Tenta reproduzir padrões de comportamento humano como trocar de jogo e manter interesse por jogos novos

Sequential multi-task learning

O problema do esquecimento em aprendizado contínuo (catastrophic forgetting) continua grave
Humanos lembram habilidades antigas, mas os modelos atuais sofrem forte queda de desempenho ao revisitar jogos antigos
Tenta melhorar isso com preservação de memória, ajuste da taxa de aprendizado e sparsity dos pesos
Usar Task ID é considerado trapaça, então a troca precisa acontecer de forma implícita

Transfer Learning

Aprender muitos jogos deveria permitir aprender jogos novos mais rapidamente
O desafio Sonic da OpenAI acabou voltando ao aprendizado from scratch
Sistemas como o GATO sofrem com transferência negativa (negative transfer)
Pode ser necessária a estratégia de “aprender devagar para aprender rápido”
Propõe um novo benchmark: repetir vários jogos em sequência e avaliar a pontuação

Plasticity vs generalization

Generalização é ignorar diferenças; plasticidade é reconhecer novos padrões → as duas podem entrar em conflito
A generalização tem base teórica fraca, em grande parte limitada ao inductive bias das CNNs
A função de valor em RL é um produto da generalização e é extremamente sensível

Exploration

Limites da escolha aleatória de ações → um único erro pode determinar a sobrevivência
Testa estruturação do espaço de ações e políticas baseadas em confidence
Também é preciso repensar ações em unidade de tempo → aprender a 60 fps é muito difícil

Recurrence vs frame stacks

Em Atari, frame stack funciona bem, mas estruturas recorrentes se parecem mais com o cérebro
Transformers são fortes em aprendizado em batch, mas aprendizado online recorrente geral ainda está incompleto

Aprendizado centrado em aproximação de função

Redes neurais fazem ao mesmo tempo estimativa de valor, generalização, média probabilística e melhoria de política
Toda atualização de pesos afeta todos os valores de saída
A combinação de inicialização, função de ativação e otimizador tem impacto crítico no desempenho

Value representation

O reward clamping do DQN clássico é eficaz para estabilizar o treinamento
Existem várias abordagens, como representação categórica, uso de MSE e compressão de valor do MuZero
Cada jogo tem uma faixa de pontuação diferente, o que cria problemas no aprendizado multitarfa

Conv Nets

CNNs continuam sendo a estrutura básica do RL
Grandes redes de imagem perdem desempenho em RL (ex.: ConvNeXT)
Faz experimentos com mudanças na estrutura dos kernels, compartilhamento de parâmetros e Isotropic CNN
Busca fluxo eficiente de informação com DenseNet, Dilated CNN e outras abordagens
Tenta melhorar CNNs de forma semelhante a estruturas biológicas

1 comentários

GN⁺ 2025-05-24

Comentários no Hacker News

Sempre que vejo uma palestra ou texto do Carmack, quero destacar como isso é uma experiência interessante. Nesta nota também impressiona a forma como ele registra meticulosamente seu processo de pensamento como engenheiro. Eu tinha curiosidade sobre a parte em que ele foca aprendizado em tempo real como direção de pesquisa. Entendo que Carmack está fazendo online learning em tempo real. É um desafio interessante que pode aproveitar demos legais e experiência com otimização, mas, olhando para lições recentes e para a direção da pesquisa, acho que os resultados podem esbarrar em limites se não houver recursos computacionais capazes de inferência e aprendizado em tempo real. O cérebro é o único exemplo de resolver jogos de Atari, e nem mesmo a capacidade computacional do cérebro humano foi calculada com clareza. Nesse contexto, fica a dúvida sincera se não seria melhor focar em eficiência de aprendizado em vez de impor restrições de tempo real. Claro, há muito valor em trabalhar dentro de restrições, mas até aranhas-saltadoras resolvem problemas complexos com 100 mil neurônios, então é difícil prever
- Na época das pesquisas iniciais de Carmack com gráficos 3D e renderização em tempo real no começo dos anos 90, os especialistas em offline baseados em workstations provavelmente pensavam de forma parecida. A maior força do Carmack sempre foi a capacidade de obter resultados extremos com recursos limitados (id Software, Oculus, Armadillo Aerospace etc.). A impressão é que, quando ele fica preso a grandes organizações ou a tecnologias existentes, o resultado até piora (imagino que sua saída da Bethesda-id e da Meta também tenha relação com isso). Entendo o estilo do Carmack de focar em tempo real, e acho que ele provavelmente não gosta muito da abordagem atual do boom de IA de simplesmente forçar tudo com poder computacional. Ainda bem que ele não está gastando dinheiro de investidores treinando LLMs. No cenário ideal, espero que ele volte a inovar como antes, popularizando tecnologia de ponta com ótimos colegas (por exemplo, como aconteceu com a disseminação dos gráficos 3D)
- Citando uma frase das notas da apresentação, a sugestão é fazer um fact-check da ideia de que "se você acha que uma AGI com corpo está prestes a chegar, entregue um joystick ao seu robô humanoide dançante e faça-o aprender um videogame totalmente novo que nunca viu antes"
- Quero enfatizar que humanos e animais têm enormes capacidades inatas e conhecimento prévio, então sua estrutura torna muito mais fácil aprender coisas novas. Isso não é tanto uma diferença de capacidade de cálculo, mas sim de ponto de partida do aprendizado
- Sobre a opinião de que a capacidade computacional do cérebro humano não é clara: na prática, ao medir a velocidade de transmissão de sinais dos neurônios, há um limite superior para o número de neurônios conectados em sequência (cerca de 100 etapas), e isso sugere que o processamento cognitivo humano talvez não seja tão complexo quanto parece. Claro, deve haver muito paralelismo e loops de feedback, mas, no fim, se o algoritmo de AGI for descoberto, acho que pode surgir uma versão "mini" capaz de rodar em tempo real em hardware comum de 2025
Coletânea de links diretos relacionados:
- Slides da apresentação
- Documento em texto
Quero compartilhar porque houve uma resposta interessante de um insider da OpenAI: link no X
- Na verdade, é uma reação nada interessante. Essa postura vaga de ignorar opiniões externas é um comportamento típico que nasce de insegurança acadêmica. Não há explicação concreta nem evidência, então não ajuda em nada a discussão. Entre um "insider da OpenAI" e John Carmack com Richard Sutton, é óbvio de que lado eu fico
- Carmack respondeu diretamente ao post: resposta do Carmack
- Algumas pessoas estão avaliando vendo a thread inteira no Twitter, enquanto quem não está logado só vê o primeiro tweet, então acaba parecendo apenas desdém
- É engraçado dizer "aprendi certas lições" e ao mesmo tempo não contar quais foram essas lições
- Ao ver o tweet "they will learn the same lesson I did", dá vontade de acrescentar a piada: "quer dizer que não se deve confiar no Altman?"
Fiquei realmente empolgado ao saber que o Carmack decidiu se concentrar em IA. Estou esperando sair um vídeo e, pelos slides, parece que ele montou um sistema capaz de jogar Atari. Acho um projeto divertido, mas fico curioso se haverá outros artigos ou resultados
- Jogos de Atari são amplamente usados como benchmark padrão em pesquisa de RL (aprendizado por reforço). Material de referência: Arcade Learning Environment. O objetivo é desenvolver algoritmos que possam generalizar para várias tarefas
- Já existem muitos agentes que zeram ou fazem pontuações altas em jogos de Atari, mas ainda é um campo com um longo caminho pela frente. No meu mestrado, pesquisei formas de aprender com pouca interação, e aplicar isso a robôs reais evitaria que um robô precisasse andar e cair por centenas de anos para aprender um comportamento. Ainda há poucos estudos sobre generalização em nível mais alto, ou seja, princípios que permitam aprender vários videogames e também aprender intuitivamente novos jogos
- O objetivo deste projeto não é simplesmente "zerar" jogos de Atari, mas construir uma metodologia geral que possa ser aplicada a jogos mais complexos ou ao mundo físico. Porém, do ponto de vista de insights de pesquisa, ainda acho mais eficiente modificar o ambiente Atari para testar coisas como tempo real, em vez de introduzir jogos complexos já nesta fase
- É legal que será lançado como open source. Jogar em tempo real com controlador físico e câmera em uma GPU de laptop é algo novo, mas tenho dúvidas se isso, por si só, é inovador. Se superar pesquisas anteriores em eficiência de amostra ou generalização, aí sim será realmente surpreendente
- Meu desejo é simplesmente que os NPCs dos jogos fiquem mais inteligentes
Como aparece no começo dos slides, fica a sensação de que teria sido interessante fazer esse tipo de pesquisa em um ambiente de VR. Se alguém tiver a habilidade de implementar bem em VR filtros de câmera JPEG, simulação física, ruído e até ambientes simulados de robótica, esse alguém é o Carmack. Usar robôs reais é um gargalo enorme em termos de tempo de treinamento
Isso me faz pensar por que a AGI precisaria necessariamente ter um corpo físico e por que, ao criar uma inteligência superior, esperamos que ela dirija nossos carros e limpe nossas casas. Um cenário como no romance Hyperion, de Dan Simmons, em que a AGI desaparece na nuvem e basicamente ignora os humanos, parece mais realista
- Não precisa ser para sempre; os humanos também provavelmente abandonariam o corpo se pudessem. Ficar preso permanentemente a uma interface física tem suas desvantagens
- Acho que um motivo recorrente na ficção científica é: "para que a AGI não consiga apertar o botão de desligar do meu corpo"
Para discutir AGI, tenho a sensação de que nem sequer está claro o que é um "conceito". Ainda não sabemos o que é o processo de usar um conceito de uma área em outra, nem como o cérebro combina ideias e abstrai
- Quando coisas aparecem repetidamente, damos nomes a elas; conceitos são padrões recorrentes de pensamento. Abstração, relação e metáfora são todas ferramentas para mover padrões entre domínios
Como exemplo de experimento mental, se a AGI da OpenAI realmente estivesse tão próxima, seria bom perguntar por que estão desperdiçando tempo e dinheiro comprando a startup de hardware do Ive. Se vão entrar em robótica, tudo bem, mas, se fosse realmente a melhor AGI possível, inúmeras empresas correriam para licenciar hardware e software, e isso por si só geraria receita infinita
- Só AGI não basta. Mesmo colocando AGI na interface do ChatGPT, para afetar o mundo real de verdade a AGI precisa estar "em toda parte"
- Se uma empresa estiver realmente perto de desenvolver AGI, também é bem possível que esconda informações de propósito para evitar regulação de governos ou militares. Sair na frente na AGI traz riscos grandes
- Quero sugerir a direção de que AGI também poderia ser capaz de fazer design de produtos
Acho que a linha de pesquisa escolhida pelo Carmack está certa. Precisamos ir além de treinar apenas com linguagem, como acontece agora. A IA precisa de fisicalidade
- Na prática, treinar IA seriamente com vários tipos de dados além de linguagem já acontece há anos. Os modelos de fronteira mais recentes estão sendo treinados de forma multimodal dentro de um único modelo com texto, áudio, vídeo e imagens (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4 etc.). Todas as entradas são tokenizadas e processadas em um espaço compartilhado de embeddings
- Do ponto de vista de que a IA precisa de fisicalidade, é interessante que o próprio Carmack no passado enfatizava que ambientes simulados eram mais adequados para o desenvolvimento de IA e que ambientes físicos eram, na prática, ineficientes
- A Nvidia também tem a mesma opinião. Jim Fan fala sobre o "teste de Turing físico" e o futuro da embodied AI. Vídeo da palestra do Jim Fan. Ali também se enfatiza que são necessários recursos computacionais massivos para rodar ambientes de simulação robustos
A expressão "como sou novato na comunidade de pesquisa, prestei atenção nisso" parece insinuar a possibilidade de submeter um artigo
- Ele está deixando claro que este projeto é uma tentativa voltada à pesquisa, não uma empresa de produto

IA que aprende além dos jogos e até no mundo real: o desafio de aprendizado por reforço baseado na realidade de John Carmack

Quick Background

Where I thought I was going

Not LLMs

Games

Video

Missteps

Settling in with Atari

Reality is not a turn based game

Physical Atari

Sparse rewards / Curiosity

Sequential multi-task learning

Transfer Learning

Plasticity vs generalization

Exploration

Recurrence vs frame stacks

Aprendizado centrado em aproximação de função

Value representation

Conv Nets

Leituras relacionadas

1 comentários

Comentários no Hacker News