3 pontos por GN⁺ 2025-06-15 | 1 comentários | Compartilhar no WhatsApp
  • Os grandes modelos de linguagem (LLMs) existentes têm capacidade limitada de se adaptar imediatamente a novas tarefas ou conhecimentos
  • O novo framework SEAL permite que o próprio LLM gere seus dados de ajuste fino e instruções de atualização, adquirindo capacidade de autoadaptação
  • Esse processo inclui a geração de self-edits, execução de instruções e melhoria contínua de desempenho por meio de um loop de aprendizado por reforço (Based on RL)
  • O SEAL demonstrou desempenho superior aos métodos existentes em experimentos de integração de novo conhecimento e generalização few-shot
  • Este estudo apresenta um passo promissor para viabilizar LLMs com capacidade de adaptação autoinstrutiva

Visão geral

  • Grandes modelos de linguagem (LLMs) apresentam desempenho poderoso, mas não possuem um mecanismo para ajustar dinamicamente seus próprios pesos de acordo com novas tarefas, informações ou exemplos
  • Este artigo apresenta o framework Self-Adapting LLM (SEAL), que possibilita ao LLM gerar por conta própria os dados para ajuste fino e criar instruções de atualização
  • Ao receber novas entradas, o SEAL gera self-edits, como reestruturar informações de várias formas, definir hiperparâmetros de otimização ou chamar ferramentas para aumento de dados e atualizações baseadas em gradiente
  • Esses self-edits levam a atualizações permanentes nos pesos do modelo por meio de um processo de supervised fine-tuning (SFT), garantindo capacidade contínua de adaptação
  • Para gerar self-edits eficazes, utiliza-se um loop de aprendizado por reforço, com o desempenho downstream após a atualização do modelo sendo usado como sinal de recompensa

Analogia com o aprendizado humano

  • A proposta se inspira na forma como um estudante, ao se preparar para uma prova, reescreve em suas próprias anotações as informações obtidas em aulas, livros didáticos, internet etc.
  • Cada pessoa reconstrói a informação de um jeito diferente: alguns resumem com diagramas, outros com texto, outros com fórmulas
  • Isso mostra que reorganizar ou reforçar o conhecimento externo para torná-lo mais fácil de compreender é uma característica universal do aprendizado humano
  • Os LLMs existentes, quando recebem uma nova tarefa, apenas fazem ajuste fino com o dataset fornecido ou recorrem ao in-context learning
  • No entanto, essa abordagem tem a limitação de que o formato e a quantidade de dados podem não estar otimizados para o aprendizado

SEAL: proposta de um framework de autoadaptação

  • O SEAL é treinado com um algoritmo de aprendizado por reforço para que o LLM gere por si só dados de treinamento e instruções de ajuste fino em linguagem natural
  • Aqui, o self-edit assume a forma de um comando que especifica dados e, opcionalmente, hiperparâmetros de otimização
  • O SEAL se destaca por controlar diretamente seu próprio processo de adaptação apenas com a capacidade de geração em linguagem natural do modelo, sem módulos adicionais nem redes auxiliares

Como o SEAL funciona

  • Em cada iteração do loop externo de aprendizado por reforço (RL), o modelo gera self-edits candidatos
  • Os self-edits gerados são aplicados para atualizar os pesos
  • Em seguida, o desempenho do modelo é avaliado em tarefas downstream, e desse resultado é obtido um sinal de recompensa
  • O sinal de recompensa é usado para melhorar repetidamente a política de geração de self-edits

Experimentos e resultados

  • Na tarefa de integração de conhecimento, o SEAL realiza ajuste fino com dados sintéticos gerados pelo próprio modelo
    • Na versão no-passage-in-context do SQuAD, o desempenho de perguntas e respostas melhorou significativamente de 33,5% antes do treinamento com RL para 47,0% depois do treinamento com RL
    • Os dados gerados pelo SEAL mostraram desempenho ainda melhor do que os dados sintéticos criados pelo GPT-4.1
  • Nos experimentos de aprendizado few-shot, foi usada uma versão simplificada do benchmark ARC-AGI, na qual o SEAL seleciona diretamente dados aumentados e hiperparâmetros de otimização
    • Ele seleciona automaticamente várias combinações de ferramentas, como taxa de aprendizado, épocas e cálculo seletivo de perda por tipo de token
    • O uso do SEAL com aprendizado por reforço alcançou melhoria de desempenho, sendo mais eficaz do que o simples in-context learning ou o uso apenas de ferramentas sem RL

Conclusão

  • O framework SEAL demonstra experimentalmente que a autoadaptação de LLMs por meio de dados e instruções autogerados é possível
  • Essa abordagem sugere um avanço importante para o desenvolvimento da próxima geração de modelos de linguagem com eficiência de dados, adaptabilidade e generalidade

1 comentários

 
GN⁺ 2025-06-15
Comentários do Hacker News
  • Quando dois amigos meus, gênios da matemática, entraram em ML bem cedo, lá pela metade dos anos 2010, eles sempre falavam sobre um algoritmo chamado NEAT/HyperNEAT (Neuroevolution of Augmented Topologies) [link da Wikipédia sobre NEAT] Não sou especialista em ML, então posso estar entendendo errado, mas a diferença me parece ser que o NEAT evolui a topologia da rede, enquanto este artigo evolui os pesos Acho que, no fundo, são duas abordagens diferentes tentando resolver o mesmo problema: mudar a estrutura da rede versus mudar os pesos Aqueles dois amigos pareciam acreditar firmemente que o futuro da IA estava em RL (aprendizado por reforço) e algoritmos evolutivos

    • Tenho um vídeo introdutório sobre NEAT de que gosto muito: SethBling, MarI/O - Machine Learning for Video Games [link do YouTube]

    • Acho os humanos incríveis Tentamos entender os neurônios criando sistemas computacionais virtuais, percebemos que na prática eles não funcionam assim, e mesmo assim pegamos ideias desse sistema imaginário para criar tecnologias inovadoras E ainda hoje continuamos avançando inspirados nesse sistema imaginado

    • Recentemente fiquei completamente fascinado por esse conceito de NEAT/evolução Depois de ter algum sucesso usando algoritmo genético em um projeto de clonagem de voz com Kokoro, comecei a me perguntar se seria possível evoluir a própria estrutura da rede e chegar a uma “inteligência que se monta sozinha” Gostaria de entender o que seria necessário para isso se tornar viável na prática, e vendo como os LLMs surgiram, fico pensando se uma abordagem híbrida não seria uma alternativa realista

  • Acho muito inteligente a abordagem de self-edit, em que o modelo usa RL para reestruturar a própria informação e aumentar a eficiência do aprendizado A ideia central é que representações diferentes funcionam melhor para tipos diferentes de conhecimento (assim como matemática e história pedem formas diferentes de anotações) Há duas observações importantes Primeiro, o resultado da integração de conhecimento (47% vs 46,3%, com dados do GPT-4.1) mostra que o modelo realmente encontrou um formato de aprendizado melhor, e não que simplesmente recebeu mais dados O problema do esquecimento catastrófico (catastrophic forgetting) ainda não foi resolvido, e também não está claro o quanto a diversidade dos dados realmente melhora Segundo, uma única avaliação de recompensa leva de 30 a 45 segundos, o que torna isso inviável para a maioria dos usos reais Mas em casos como processamento de documentos realmente importantes, em que é preciso preservar a informação da melhor forma possível, talvez valha o investimento A grande limitação é que isso fica restrito a tarefas com métricas de avaliação claras (é preciso ter Q&A de referência ou casos de teste para calcular a recompensa) Mesmo assim, em áreas como documentação técnica ou material educacional, em que a avaliação pode ser automatizada, isso tem potencial para trazer um paradigma totalmente novo de processamento de conhecimento Ainda não chegamos a um agente totalmente autoaperfeiçoador, mas parece um avanço importante: o modelo começa a melhorar por conta própria a forma como aprende

  • Há alguns dias a Anthropic também divulgou uma pesquisa parecida sobre self finetuning [link do artigo no arXiv]

    • Há uma discussão relacionada em andamento [thread vinculada no HN]

    • Acho isso realmente impressionante Pelo RM de nível de produção do Claude 3.5 Sonnet, a política de assistente unsupervised vence em comparação pareada, em 60% dos casos, a política treinada com RM supervisionado por humanos Acho que agora entramos numa fase em que modelos já conseguem superar desempenho mesmo sem orientação humana direta

  • Os grandes modelos de linguagem (LLMs) são poderosos, mas o problema é que não têm um mecanismo para adaptar os pesos quando recebem novas tarefas A inteligência humana integra o processo de aprender e o de aplicar em um único ciclo de feedback, enquanto nos LLMs treinamento e inferência estão totalmente separados Nós implantamos um novo modelo que “aprendeu” um pouco mais e descartamos o anterior Nos LLMs, a inferência já é o fim do aprendizado Acho que esse é o mal-entendido mais disseminado sobre IA Se a pessoa acha que LLM aprende, é fácil cair na ilusão de que AGI está logo ali

    • Como no caso do Deepseek, dá para refinar o desempenho de LLMs usando aprendizado por reforço

    • E se fosse possível retreinar o LLM com base na reação do usuário (positiva/negativa)? Fico imaginando se não daria para usar os dados de entrada e saída e colocá-los num ciclo de feedback

  • Gostaria muito que algum especialista que realmente entendesse do assunto organizasse o estado atual e os limites da linha de pesquisa que tenta fazer o LLM continuar aprendendo “em produção”, por exemplo em agentes de código que vão aprendendo a codebase ao longo do tempo (custo? colapso do modelo? outros problemas?) Imagino que os grandes laboratórios certamente tentem isso, mas do ponto de vista do usuário comum quase não se ouve falar nisso No momento parece que todo o foco está em métodos melhores de treinamento com RL, e o que o modelo não aprendeu durante o treino acaba sendo empurrado depois via contexto Mas tenho a impressão de que a ausência de autoaprendizado em tempo real baseado em experiência é justamente o ponto de bifurcação em relação à AGI

    • Aprendizado contínuo (continual learning) ainda não tem uma solução realmente afiada hoje Faz sentido citar vários motivos, como recursos computacionais, colapso do modelo e esquecimento A única forma parece ser: 1) treinar o modelo 2) adicionar novos dados 3) retreinar tudo 4) repetir E mesmo em termos de tempo nada garante completamente Na área de CL, a situação é realmente de não haver resposta “de verdade” nenhuma É preciso ampliar o espaço de representação do modelo preservando ao máximo o espaço de representação anterior, e exigir as duas coisas ao mesmo tempo é quase impossível Organismos biológicos com sistema nervoso parecem fazer isso com enorme facilidade, mas para IA essa tarefa é brutalmente difícil Na minha opinião, talvez a inteligência artificial também precise de algo como “sono” ou “descanso”

    • Não sou especialista, mas acho que questões de privacidade também têm papel importante Para fazer aprendizado contínuo, por causa de tráfego ou custo, isso provavelmente teria de ser feito em nível agregado, e não por usuário, o que cria risco de vazamento de informação entre sessões Concordo fortemente que descobrir como fazer aprendizado contínuo com segurança é um dos maiores obstáculos para a AGI

    • A questão da confiabilidade também é grande Como não há tanta confiança em avaliação automática, ninguém sai implantando de imediato uma versão de continuous training automatizada antes de confirmar que o desempenho realmente melhorou No fim, várias atualizações são agrupadas e só depois de uma checagem final (“vibe check”) é que entram em produção

    • O problema mais claro parece ser que o ajuste fino contínuo de LLM pode facilmente desalinhar o modelo (alignment) No fim das contas, estabilidade e segurança não ficam garantidas

    • Acho que o obstáculo mais óbvio é o problema do esquecimento catastrófico (catastrophic forgetting)

  • Meu CPU é um neural-net processor, um learning computer Mas isso me lembrou de quando a Skynet me envia sozinho e coloca a chave em modo read-only (referência a Terminator)

  • Site oficial com código e exemplos [página do projeto SEAL]

  • Segundo a estimativa de Villalobos et al. [75], até 2028 os LLMs de fronteira terão chegado ao limite de todo o texto escrito por humanos disponível publicamente A alegação é que esse “muro de dados” vai impulsionar a necessidade de synthetic data augmentation Quando os corpora em escala web se esgotarem, os modelos só poderão continuar avançando se eles próprios forem capazes de gerar novos sinais de treinamento de alta eficiência Em resumo, a ideia do SEAL é meta-treinar um modelo gerador de synthetic data para fazer pretraining com dados novos e aumentar a eficiência de modelos futuros Achei isso muito perspicaz, ainda mais porque 2028 já está logo aí

  • Parece que “esquecer corretamente” (forgetting correctly) está se tornando um problema mais importante do que “aprender corretamente” (learning correctly) Tivemos muito progresso em absorver fatos novos rapidamente, mas ainda estamos bem atrasados em técnicas para descartar de forma eficiente informações menos importantes dentro de uma capacidade finita “Esquecimento correto” é algo que o cérebro humano parece fazer muito bem, e eu queria entender como isso realmente funciona

    • Não concordo que os humanos sejam tão bons em “esquecer corretamente” Na verdade, acho que o ser humano não tem um sistema tão extraordinário assim A capacidade do cérebro é tão grande que, em vez de apagar espaço deliberadamente para nova informação, ele parece esquecer só quando informação ruim já existente atrapalha o novo aprendizado

    • Acho que aprendizado e spaced repetition (repetição espaçada) estão muito ligados Isso se conecta bastante com ferramentas de estudo como o Anki, mas o mundo real em si já é uma forma natural de spaced repetition (dia e noite, estações do ano, lugares que frequentamos, pessoas que vemos com frequência etc.) Também fico pensando se não existiria uma “versão reversa” desse conceito

    • Em uma pesquisa que fiz, apareceu que LLMs “escondem” dados internos Não é simplesmente que eles “esquecem”; quando passam por aprendizado adicional depois, essa informação pode voltar à superfície Por isso, se você não monitora continuamente o estado real de memória completo durante o treinamento do modelo, uma inspeção parcial sempre terá limitações

    • Será que não funciona como least-recently-used? Estou testando isso mentalmente por curiosidade É por isso que esse tema é tão interessante

  • À primeira vista, isso parece um framework de ajuste fino de adaptadores LoRA e depois fusão no modelo base Está usando a função merge_and_unload do PeftModel da HuggingFace para integrar o adaptador ao modelo base… então não sei bem o que há de novo

    • Parece que o principal diferencial é a estabilidade É uma estrutura pensada para evitar alignment tax ou colapso do modelo Eu gostaria de ver uma estrutura de “ciclo completo” com uma hypernetwork, ou seja, dois modelos sendo continuamente atualizados com LoRA, enquanto a hypernetwork é atualizada para absorver o novo estado do modelo Se usassem uma meta-hypernetwork para aplicar LoRA também à própria hypernetwork, talvez houvesse uma possibilidade de continual learning no sentido mais pleno