- Recentemente, a escalabilidade do aprendizado por reforço (RL) vem ganhando atenção, como aconteceu com os grandes modelos de linguagem (LLMs)
- Na prática, AlphaGo, LLMs e outros mostram desempenho forte, mas algoritmos de RL on-policy são usados na maior parte dos casos
- O Q-learning, principal algoritmo de RL off-policy, perde escalabilidade em problemas longos (horizonte grande) por causa do problema de viés acumulado
- Resultados experimentais mostram que, mesmo aumentando muito os dados e a computação, algoritmos padrão da família Q-learning têm limites de desempenho em tarefas complexas de longo prazo
- Como existem apenas soluções locais, como métodos hierárquicos para aliviar o problema de horizonte, é necessário um novo objetivo de RL off-policy fundamentalmente escalável
RL, é escalável?
- Recentemente, objetivos como previsão do próximo token em modelos de linguagem, modelos de difusão e aprendizado contrastivo escalam bem à medida que se aumentam dados e computação
- Em jogos, matemática, programação e outras áreas, o RL também teve resultados fortes, e em muitos desses casos foram usados algoritmos de RL on-policy (ex.: PPO, REINFORCE)
- RL on-policy sempre exige novos roll-outs, ou seja, só pode usar dados gerados diretamente pela política mais recente
- Essa abordagem não é um grande problema em simulações ou em LLMs, mas é muito ineficiente em ambientes reais, como robótica
- Por exemplo, em experimentos com robôs, pode levar meses para obter dados suficientes, além de exigir intervenção manual de pessoas
O surgimento do RL off-policy
- O RL off-policy tem alta eficiência amostral por poder reutilizar todos os dados anteriores
- O Q-learning é o exemplo mais representativo e já mostrou resultados como caminhada em tempo real de robôs-cão
- O Q-learning utiliza a minimização da perda temporal-diferencial (TD loss), e quase todo RL off-policy segue esse princípio
- Para aplicar RL a problemas do mundo real, a pergunta central acaba sendo: o Q-learning também é escalável?
Limites de escalabilidade do Q-learning
- O autor defende que o Q-learning atual não escala bem quando surgem problemas com horizonte longo (mais de 100 etapas de decisão)
- Aqui, “escalabilidade” significa se o problema pode ser resolvido apenas com mais dados e recursos computacionais, mesmo quando a profundidade/dificuldade ('depth') aumenta
- Como vários artigos mostraram experimentalmente, isso não significa apenas aumentar a quantidade de problemas tratáveis ('width')
- A tese do autor: a família Q-learning tem baixa escalabilidade no eixo da profundidade (dificuldade), e inovação algorítmica é indispensável
- Há duas bases principais para isso: a ausência de casos de sucesso empíricos e experimentos sistemáticos realizados recentemente
Evidências empíricas
- AlphaGo, AlphaZero e MuZero são todos casos de RL on-policy baseado em modelo (model-based), não da família TD-learning
- OpenAI Five também usa métodos on-policy, como PPO
- No RL para LLMs, a corrente principal também é formada por variantes on-policy baseadas em policy gradient
- Quase não há grandes casos reais de sucesso em escala AlphaGo ou LLM com Q-learning ou RL off-policy semelhante
- O autor afirma que, após investigar diversos artigos e casos práticos, não conhece grandes casos de sucesso baseados em Q-learning
Causa dos limites do Q-learning: horizonte e viés acumulado
- No Q-learning, o alvo TD com bootstrap (gerar previsões a partir de estimativas) é sempre enviesado; esse viés se acumula ao longo do horizonte temporal
- Em contraste, outros objetivos altamente escaláveis, como previsão de tokens, difusão e aprendizado contrastivo, não têm viés acumulado no alvo de previsão
- Quanto maior o horizonte (comprimento da sequência de decisões), mais a performance do Q-learning fica limitada por causa do erro acumulado
- Para aliviar isso, é comum definir um fator de desconto menor
- Métodos de estimação de valor on-policy, como policy gradient, sofrem relativamente menos com o problema de horizonte graças a técnicas como GAE
Verificação experimental dos limites de escalabilidade
- Em um artigo recente, foram projetadas tarefas difíceis com milhares de steps em ambientes como o OGBench para estudar tarefas de horizonte ultralongo
- No ambiente experimental, foram minimizados fatores de ruído com dados “quase infinitos”, modelos fortes e menor carga sobre redes de representação
- Métodos existentes de RL offline (BC, IQL, CRL, SAC+BC etc.) não conseguiram aprender tarefas complexas nem mesmo com datasets gigantescos
- Foram feitos testes de ablação sobre todas as variáveis — tamanho de dados e de modelo, tempo de treinamento, hiperparâmetros — mas não foi possível superar o limite de desempenho
- No entanto, apenas técnicas para reduzir o horizonte (comprimento da decisão) mostraram efeito claro na escalabilidade do desempenho
Efeito das técnicas de redução de horizonte
- Apenas estratégias de redução de horizonte, como n-step return e RL hierárquico, mostraram efeito decisivo no escalonamento do RL
- A redução de horizonte não apenas acelera o treinamento, como também melhora drasticamente o desempenho final em si
- Mas essas abordagens não resolvem o problema na raiz; apenas reduzem o horizonte por um fator constante
- É necessário um novo enfoque algorítmico que elimine a maldição do horizonte
Necessidade de um novo objetivo de RL off-policy escalável
- As pesquisas até agora mostram que simplesmente aumentar o tamanho dos dados e dos modelos não basta para superar fundamentalmente a maldição do horizonte
- Em última instância, é necessário um novo tipo de RL off-policy que escale mesmo para problemas de longo prazo com horizontes arbitrários
- Se esse objetivo for alcançado, será possível resolver uma gama mais ampla de problemas reais envolvendo robótica, LLMs e diversos agentes de tomada de decisão
Ideias e propostas para pesquisas futuras
- Indo além de uma hierarquia de dois níveis, pode-se propor uma nova estrutura hierárquica simples e escalável capaz de lidar com horizontes de comprimento arbitrário
- O RL baseado em modelo (model-based RL) pode ter potencial de escalabilidade ao combinar modelagem baseada em aprendizado supervisionado com RL on-policy
- Também pode ser útil explorar novas linhas, como quasimetric RL e contrastive RL, que eliminam completamente o TD learning
- O ambiente de avaliação e o código gerados foram abertos e podem ser usados como benchmark de teste de escala para vários novos algoritmos de RL
Agradecimentos
- O autor agradece a vários pesquisadores que contribuíram com colaboração e feedback para o artigo e o post
- O conteúdo é baseado em trabalhos como o artigo [Horizon Reduction Makes RL Scalable] e é apresentado como opinião pessoal do autor
1 comentários
Comentário no Hacker News
Acho que as limitações de escalabilidade do Q-Learning são ainda maiores do que as mencionadas no blog. O número de estados que o agente precisa lidar normalmente cresce de forma exponencial à medida que o horizonte aumenta. Por causa disso, a demanda por dados para treinar o Q que cobre esses estados também cresce exponencialmente. Já o aprendizado on-policy aprende apenas os estados importantes, então, apesar do espaço de estados exponencial, os dados de treino ficam concentrados apenas onde são necessários, simplificando relativamente o problema
Concordo com a análise do viés de superaproximação no Q-learning mencionada no texto. O operador Max do Q-learning tende a amplificar o ruído ao longo do eixo temporal. Há casos em que métodos para mitigar esse viés, como este artigo, melhoraram com sucesso o desempenho de agentes de RL. Também existem resultados mostrando que esse fenômeno aparece mais em estados pouco visitados pela rede. A força do deep learning é que, mesmo quando o número de estados cresce exponencialmente, o desempenho ainda é possível se houver estrutura aprendível. O ponto central é definir o objetivo de treinamento correto, e o texto argumenta que o Q-learning tem limitações justamente nisso. Fico curioso se sistemas de RL baseados em modelo, como o MuZero, poderiam ser uma solução. O MuZero aumenta a eficiência do treinamento ao reanalisar trajetórias anteriores, e o Monte Carlo Tree Search (MCTS) é uma forma principiada de reduzir o horizonte ao desdobrar vários passos. O problema do operador Max também pode surgir dentro do MCTS, mas, à medida que a busca se aprofunda, pode haver compensações para esse tipo de problema
Acho que este tópico pode ajudar. De uma perspectiva totalmente leiga, algumas tarefas podem ter “profundidade” e ainda assim manter certa homogeneidade, e nesses casos talvez seja possível aprender mesmo com qualidade de amostra um pouco pior. Eu gostaria de chamar essas tarefas de “ergódicas”. Mas certamente também existem tarefas que não são assim
Fico pensando se isso é parecido com a diferença entre integração de Monte Carlo em grade regular e integração de Monte Carlo com amostragem por importância
Compartilhando impressões sobre o Majorana-1
Senti falta de o blog não mencionar abordagens offline como Decision Transformers e Trajectory Transformers. Elas mostram bom desempenho em tarefas de longo horizonte porque evitam o problema de credit assignment graças ao mecanismo de atenção. Muitos pesquisadores de RL consideram que essas abordagens não são “RL de verdade”, porque não conseguem atribuir crédito fora da context window. Por isso, muita gente avalia que são difíceis de aplicar a tarefas de horizonte infinito. Mas fico pensando se, com uma context window acima de 1 milhão, isso ainda seria um grande problema na prática. Ver o artigo do Decision Transformer e o artigo do Trajectory Transformer
Acho que isso resume bem o núcleo de RL. Em termos bem simples, é uma situação em que você continua se movendo atrás de um objetivo, mas a posição desse objetivo também continua mudando dependendo de como você se move. Ou seja, em RL baseado em valor não existe uma resposta absoluta (ground truth); é um jogo de alinhar os dois lados usando apenas as próprias estimativas. Mas não acho que seja um quadro desesperador. Pelo contrário, acredito que RL está prestes a se tornar prático, e parte do motivo de isso ter demorado foi a falta de world models ou funções de dinâmica confiáveis. Agora também estamos vendo grande avanço nessa área
Este artigo/blog é voltado para quem já tem conhecimento de RL. Se quiser estudar RL mais a fundo, recomendo as aulas introdutórias do David Silver (Deep Mind)
A limitação fundamental do aprendizado off-policy é que dados iniciais de exploração pouco eficazes não ajudam muito no aprendizado de políticas mais avançadas. Por exemplo, em xadrez, erros básicos de iniciante, movimentos sem sentido ou comportamentos que não resolvem o problema. Os dados se tornam off-policy no momento em que essas ações se desviam da política atual, isto é, do que o agente realmente escolheria agora. Então, no fim, a essência do problema está em melhor generalização e maior eficiência amostral
Quando humanos aprendem tarefas de longo prazo, usam treino repetido para dividir a tarefa inteira em subtarefas de horizonte curto, e depois combinam essas habilidades parciais de forma hierárquica
Humanos de fato usam tanto aprendizado on-policy quanto off-policy. Aprendem on-policy ao explorar diretamente os resultados das próprias ações e também aprendem off-policy ao observar demonstrações de outros especialistas. Mas a diferença em relação a RL é que humanos distinguem entre ações boas e ruins e filtram apenas as “boas” para aprender. Já na maior parte do RL off-policy, ações ruins também entram como dados, o que acaba reduzindo a velocidade total de treinamento
Gosto do conteúdo do blog, mas é uma pena que o uso de siglas e jargões não explicados reduza a utilidade para um público mais amplo. Seria melhor explicar os termos e siglas para aumentar a acessibilidade
Em posts de blog como este, o conteúdo é muito rico, mas exige muito conhecimento prévio, então ferramentas de IA ajudam bastante com explicações e versões mais acessíveis. Recentemente usei o Dia no navegador e foi eficaz. Mesmo copiando e colando em outros modelos de IA, dá para obter uma visão geral concisa e também explicações sobre os pontos que despertarem curiosidade
Dá para sentir claramente que este texto foi escrito para pesquisadores de RL. A conclusão soa como “alguém, por favor, encontre um jeito de tornar Q-learning escalável!”
Na verdade, acho que isso deixou o texto mais enxuto
A força de técnicas off-policy como Q-Learning é que, mesmo obtendo apenas dados quase ótimos (ou dados ruins), elas acabam convergindo para a solução ótima. Por exemplo, mesmo que você reúna apenas dados de partidas de xadrez sem qualquer estratégia e use isso como entrada para Q-Learning, ainda assim é possível aprender a política ótima no fim das contas (embora mais lentamente do que com bons dados)