- Resumo das notas preparatórias e slides da apresentação de John Carmack na "Upper Bound 2025"
- John Carmack passou por Id Software, Oculus, Keen Technologies e agora está focado em pesquisa de AGI baseada em aprendizado por reforço
- Evita LLMs e se interessa por aprendizado contínuo e eficiente em que o sistema aprende interagindo com o ambiente, como os animais
- Com base nos jogos clássicos do Atari, construiu um sistema físico de RL que aprende com câmera em tempo real e entrada de joystick
- Apresenta de forma ampla os desafios técnicos que precisam ser resolvidos para que sistemas de RL se aproximem mais da realidade, como velocidade, latência, aprendizado contínuo e prevenção de esquecimento
- Compartilha insights afiados baseados em experiência sobre arquiteturas CNN, representação de recompensa e estratégias de exploração, além de questionar práticas consolidadas
Quick Background
- Como fundador da Id Software, Quake impulsionou a evolução das GPUs e influenciou indiretamente a área de IA
- Na Armadillo Aerospace, conduziu por 10 anos pesquisas com foguetes de decolagem e pouso vertical
- Na Oculus, ajudou a construir a base da tecnologia moderna de VR
- Fundou a Keen Technologies e hoje se dedica à pesquisa em IA com foco em aprendizado por reforço
- Pesquisa junto com Richard Sutton e compartilha com ele uma filosofia sobre aprendizado por reforço
Where I thought I was going
Not LLMs
- LLMs são “conhecimento sem aprendizado”, e por isso têm uma filosofia diferente da aprendizagem baseada em interação que ele busca
- Continua em aberto a possibilidade de LLMs substituírem RL, mas ele considera mais atraente a ideia de aprender no ambiente como os animais
Games
- Graças à longa experiência com desenvolvimento de jogos, usa jogos como ambiente experimental
- Como nas pesquisas da DeepMind com Atari, investiga a possibilidade de aprender apenas com entrada baseada em pixels
- Porém, o número gigantesco de frames de treinamento e os problemas de eficiência continuam sendo desafios
- Aprendizado multitarfa, online e eficiente ainda segue sem solução
Video
- Inicialmente considerou aprendizado passivo com vídeo como TV, mas decidiu focar no aprendizado em jogos
Missteps
- Começou em um nível muito baixo (C++ CUDA) e depois migrou para PyTorch, acelerando a velocidade dos experimentos
- Em vez de Atari, começou com o Sega Master System, mas mudou pela falta de material comparativo
- Aprendizado baseado em vídeo foi adiado, porque o aprendizado dentro dos jogos já oferece desafios suficientes
Settling in with Atari
- A diversidade dos jogos comerciais ajuda a reduzir viés de pesquisa
- Recomenda usar diretamente o ALE (wrappers como Gym podem causar problemas)
- Os modelos mais recentes resolveram a maioria dos jogos com pontuações altas, mas aprendizado eficiente em dados, como em “Atari 100k”, é mais importante
- O comportamento determinístico do ambiente precisa ser contornado com recursos como Sticky action
Reality is not a turn based game
- A realidade não espera pelo agente → é preciso considerar processamento assíncrono e latência
- Falhar em aprender em um único ambiente sugere um problema no próprio algoritmo
- Velocidade: é necessário ter políticas que possam ser avaliadas em alta velocidade (por exemplo, com CUDA graph)
- Latência: a maioria dos algoritmos de RL é frágil à latência → é preciso uma estrutura que reflita o atraso na aplicação da política
Physical Atari
- Construiu um sistema de aprendizado de Atari em ambiente físico
- Um joystick real, uma câmera olhando para a tela e um agente de RL operam em tempo real
- Ao testar vários jogos, considera problemas do mundo real como reconhecimento de pontuação, atraso de ação e erros de controle
- O movimento do joystick é instável, e o reconhecimento da pontuação é a parte mais difícil
- Alguns jogos foram excluídos porque a pontuação não era visível o bastante
Sparse rewards / Curiosity
- RL é fraco em ambientes com recompensas esparsas → uso de recompensas intrínsecas e curiosidade artificial
- Também explora se a própria pontuação do jogo pode ser usada diretamente como recompensa
- Tenta reproduzir padrões de comportamento humano como trocar de jogo e manter interesse por jogos novos
Sequential multi-task learning
- O problema do esquecimento em aprendizado contínuo (catastrophic forgetting) continua grave
- Humanos lembram habilidades antigas, mas os modelos atuais sofrem forte queda de desempenho ao revisitar jogos antigos
- Tenta melhorar isso com preservação de memória, ajuste da taxa de aprendizado e sparsity dos pesos
- Usar Task ID é considerado trapaça, então a troca precisa acontecer de forma implícita
Transfer Learning
- Aprender muitos jogos deveria permitir aprender jogos novos mais rapidamente
- O desafio Sonic da OpenAI acabou voltando ao aprendizado from scratch
- Sistemas como o GATO sofrem com transferência negativa (negative transfer)
- Pode ser necessária a estratégia de “aprender devagar para aprender rápido”
- Propõe um novo benchmark: repetir vários jogos em sequência e avaliar a pontuação
Plasticity vs generalization
- Generalização é ignorar diferenças; plasticidade é reconhecer novos padrões → as duas podem entrar em conflito
- A generalização tem base teórica fraca, em grande parte limitada ao inductive bias das CNNs
- A função de valor em RL é um produto da generalização e é extremamente sensível
Exploration
- Limites da escolha aleatória de ações → um único erro pode determinar a sobrevivência
- Testa estruturação do espaço de ações e políticas baseadas em confidence
- Também é preciso repensar ações em unidade de tempo → aprender a 60 fps é muito difícil
Recurrence vs frame stacks
- Em Atari, frame stack funciona bem, mas estruturas recorrentes se parecem mais com o cérebro
- Transformers são fortes em aprendizado em batch, mas aprendizado online recorrente geral ainda está incompleto
Aprendizado centrado em aproximação de função
- Redes neurais fazem ao mesmo tempo estimativa de valor, generalização, média probabilística e melhoria de política
- Toda atualização de pesos afeta todos os valores de saída
- A combinação de inicialização, função de ativação e otimizador tem impacto crítico no desempenho
Value representation
- O reward clamping do DQN clássico é eficaz para estabilizar o treinamento
- Existem várias abordagens, como representação categórica, uso de MSE e compressão de valor do MuZero
- Cada jogo tem uma faixa de pontuação diferente, o que cria problemas no aprendizado multitarfa
Conv Nets
- CNNs continuam sendo a estrutura básica do RL
- Grandes redes de imagem perdem desempenho em RL (ex.: ConvNeXT)
- Faz experimentos com mudanças na estrutura dos kernels, compartilhamento de parâmetros e Isotropic CNN
- Busca fluxo eficiente de informação com DenseNet, Dilated CNN e outras abordagens
- Tenta melhorar CNNs de forma semelhante a estruturas biológicas
1 comentários
Comentários no Hacker News
Sempre que vejo uma palestra ou texto do Carmack, quero destacar como isso é uma experiência interessante. Nesta nota também impressiona a forma como ele registra meticulosamente seu processo de pensamento como engenheiro. Eu tinha curiosidade sobre a parte em que ele foca aprendizado em tempo real como direção de pesquisa. Entendo que Carmack está fazendo online learning em tempo real. É um desafio interessante que pode aproveitar demos legais e experiência com otimização, mas, olhando para lições recentes e para a direção da pesquisa, acho que os resultados podem esbarrar em limites se não houver recursos computacionais capazes de inferência e aprendizado em tempo real. O cérebro é o único exemplo de resolver jogos de Atari, e nem mesmo a capacidade computacional do cérebro humano foi calculada com clareza. Nesse contexto, fica a dúvida sincera se não seria melhor focar em eficiência de aprendizado em vez de impor restrições de tempo real. Claro, há muito valor em trabalhar dentro de restrições, mas até aranhas-saltadoras resolvem problemas complexos com 100 mil neurônios, então é difícil prever
Na época das pesquisas iniciais de Carmack com gráficos 3D e renderização em tempo real no começo dos anos 90, os especialistas em offline baseados em workstations provavelmente pensavam de forma parecida. A maior força do Carmack sempre foi a capacidade de obter resultados extremos com recursos limitados (
id Software, Oculus, Armadillo Aerospace etc.). A impressão é que, quando ele fica preso a grandes organizações ou a tecnologias existentes, o resultado até piora (imagino que sua saída da Bethesda-id e da Meta também tenha relação com isso). Entendo o estilo do Carmack de focar em tempo real, e acho que ele provavelmente não gosta muito da abordagem atual do boom de IA de simplesmente forçar tudo com poder computacional. Ainda bem que ele não está gastando dinheiro de investidores treinando LLMs. No cenário ideal, espero que ele volte a inovar como antes, popularizando tecnologia de ponta com ótimos colegas (por exemplo, como aconteceu com a disseminação dos gráficos 3D)Citando uma frase das notas da apresentação, a sugestão é fazer um fact-check da ideia de que "se você acha que uma AGI com corpo está prestes a chegar, entregue um joystick ao seu robô humanoide dançante e faça-o aprender um videogame totalmente novo que nunca viu antes"
Quero enfatizar que humanos e animais têm enormes capacidades inatas e conhecimento prévio, então sua estrutura torna muito mais fácil aprender coisas novas. Isso não é tanto uma diferença de capacidade de cálculo, mas sim de ponto de partida do aprendizado
Sobre a opinião de que a capacidade computacional do cérebro humano não é clara: na prática, ao medir a velocidade de transmissão de sinais dos neurônios, há um limite superior para o número de neurônios conectados em sequência (cerca de 100 etapas), e isso sugere que o processamento cognitivo humano talvez não seja tão complexo quanto parece. Claro, deve haver muito paralelismo e loops de feedback, mas, no fim, se o algoritmo de AGI for descoberto, acho que pode surgir uma versão "mini" capaz de rodar em tempo real em hardware comum de 2025
Coletânea de links diretos relacionados:
Quero compartilhar porque houve uma resposta interessante de um insider da OpenAI: link no X
Na verdade, é uma reação nada interessante. Essa postura vaga de ignorar opiniões externas é um comportamento típico que nasce de insegurança acadêmica. Não há explicação concreta nem evidência, então não ajuda em nada a discussão. Entre um "insider da OpenAI" e John Carmack com Richard Sutton, é óbvio de que lado eu fico
Carmack respondeu diretamente ao post: resposta do Carmack
Algumas pessoas estão avaliando vendo a thread inteira no Twitter, enquanto quem não está logado só vê o primeiro tweet, então acaba parecendo apenas desdém
É engraçado dizer "aprendi certas lições" e ao mesmo tempo não contar quais foram essas lições
Ao ver o tweet "they will learn the same lesson I did", dá vontade de acrescentar a piada: "quer dizer que não se deve confiar no Altman?"
Fiquei realmente empolgado ao saber que o Carmack decidiu se concentrar em IA. Estou esperando sair um vídeo e, pelos slides, parece que ele montou um sistema capaz de jogar Atari. Acho um projeto divertido, mas fico curioso se haverá outros artigos ou resultados
Jogos de Atari são amplamente usados como benchmark padrão em pesquisa de RL (aprendizado por reforço). Material de referência: Arcade Learning Environment. O objetivo é desenvolver algoritmos que possam generalizar para várias tarefas
Já existem muitos agentes que zeram ou fazem pontuações altas em jogos de Atari, mas ainda é um campo com um longo caminho pela frente. No meu mestrado, pesquisei formas de aprender com pouca interação, e aplicar isso a robôs reais evitaria que um robô precisasse andar e cair por centenas de anos para aprender um comportamento. Ainda há poucos estudos sobre generalização em nível mais alto, ou seja, princípios que permitam aprender vários videogames e também aprender intuitivamente novos jogos
O objetivo deste projeto não é simplesmente "zerar" jogos de Atari, mas construir uma metodologia geral que possa ser aplicada a jogos mais complexos ou ao mundo físico. Porém, do ponto de vista de insights de pesquisa, ainda acho mais eficiente modificar o ambiente Atari para testar coisas como tempo real, em vez de introduzir jogos complexos já nesta fase
É legal que será lançado como open source. Jogar em tempo real com controlador físico e câmera em uma GPU de laptop é algo novo, mas tenho dúvidas se isso, por si só, é inovador. Se superar pesquisas anteriores em eficiência de amostra ou generalização, aí sim será realmente surpreendente
Meu desejo é simplesmente que os NPCs dos jogos fiquem mais inteligentes
Como aparece no começo dos slides, fica a sensação de que teria sido interessante fazer esse tipo de pesquisa em um ambiente de VR. Se alguém tiver a habilidade de implementar bem em VR filtros de câmera JPEG, simulação física, ruído e até ambientes simulados de robótica, esse alguém é o Carmack. Usar robôs reais é um gargalo enorme em termos de tempo de treinamento
Isso me faz pensar por que a AGI precisaria necessariamente ter um corpo físico e por que, ao criar uma inteligência superior, esperamos que ela dirija nossos carros e limpe nossas casas. Um cenário como no romance
Hyperion, de Dan Simmons, em que a AGI desaparece na nuvem e basicamente ignora os humanos, parece mais realistaNão precisa ser para sempre; os humanos também provavelmente abandonariam o corpo se pudessem. Ficar preso permanentemente a uma interface física tem suas desvantagens
Acho que um motivo recorrente na ficção científica é: "para que a AGI não consiga apertar o botão de desligar do meu corpo"
Para discutir AGI, tenho a sensação de que nem sequer está claro o que é um "conceito". Ainda não sabemos o que é o processo de usar um conceito de uma área em outra, nem como o cérebro combina ideias e abstrai
Como exemplo de experimento mental, se a AGI da OpenAI realmente estivesse tão próxima, seria bom perguntar por que estão desperdiçando tempo e dinheiro comprando a startup de hardware do Ive. Se vão entrar em robótica, tudo bem, mas, se fosse realmente a melhor AGI possível, inúmeras empresas correriam para licenciar hardware e software, e isso por si só geraria receita infinita
Só AGI não basta. Mesmo colocando AGI na interface do ChatGPT, para afetar o mundo real de verdade a AGI precisa estar "em toda parte"
Se uma empresa estiver realmente perto de desenvolver AGI, também é bem possível que esconda informações de propósito para evitar regulação de governos ou militares. Sair na frente na AGI traz riscos grandes
Quero sugerir a direção de que AGI também poderia ser capaz de fazer design de produtos
Acho que a linha de pesquisa escolhida pelo Carmack está certa. Precisamos ir além de treinar apenas com linguagem, como acontece agora. A IA precisa de fisicalidade
Na prática, treinar IA seriamente com vários tipos de dados além de linguagem já acontece há anos. Os modelos de fronteira mais recentes estão sendo treinados de forma multimodal dentro de um único modelo com texto, áudio, vídeo e imagens (
Gemini,GPT-4o,Grok 3,Claude 3,Llama 4etc.). Todas as entradas são tokenizadas e processadas em um espaço compartilhado de embeddingsDo ponto de vista de que a IA precisa de fisicalidade, é interessante que o próprio Carmack no passado enfatizava que ambientes simulados eram mais adequados para o desenvolvimento de IA e que ambientes físicos eram, na prática, ineficientes
A Nvidia também tem a mesma opinião. Jim Fan fala sobre o "teste de Turing físico" e o futuro da embodied AI. Vídeo da palestra do Jim Fan. Ali também se enfatiza que são necessários recursos computacionais massivos para rodar ambientes de simulação robustos
A expressão "como sou novato na comunidade de pesquisa, prestei atenção nisso" parece insinuar a possibilidade de submeter um artigo