Modelos de linguagem de grande porte auto-adaptativos (Self-Adapting)

(arxiv.org)

3 pontos por GN⁺ 2025-06-15 | 1 comentários | Compartilhar no WhatsApp

Os LLMs existentes muitas vezes mantêm os pesos inalterados mesmo quando recebem novo conhecimento ou novas tarefas, e o SEAL propõe um framework de auto-adaptação em que o próprio modelo cria e atualiza dados e procedimentos de aprendizado
A unidade central, self-edit, reorganiza informações, define hiperparâmetros de otimização e inclui até chamadas de ferramentas para aumento de dados e atualizações baseadas em gradiente
O SEAL aprende uma política de geração de self-edit mais eficaz por meio de um loop de aprendizado por reforço que usa como recompensa o desempenho downstream do modelo atualizado
Nos experimentos de integração de conhecimento, após o fine-tuning com dados sintéticos autogerados, o desempenho no SQuAD sem passagem no contexto subiu de 33.5% para 47.0%, superando os dados sintéticos gerados pelo GPT-4.1
No aprendizado few-shot em um subconjunto simplificado do ARC-AGI, ele também selecionou automaticamente aumento de dados, taxa de aprendizado, epoch e cálculo de loss por tipo de token, obtendo resultados melhores do que o ICL padrão e a self-editing sem RL

Como atualizar LLMs estáticos por conta própria

Os LLMs atuais são poderosos, mas estáticos (static), e não têm um mecanismo para adaptar os pesos a novas tarefas, conhecimentos ou exemplos
O SEAL (Self-Adapting LLMs) foi projetado para que, ao receber uma nova entrada, o próprio modelo altere os dados e o procedimento de aprendizado para se auto-adaptar
O principal artefato gerado é o self-edit
- Ele pode reorganizar informações em outros formatos
- Pode especificar hiperparâmetros de otimização
- Pode chamar ferramentas para aumento de dados e atualizações baseadas em gradiente
O self-edit leva, após fine-tuning supervisionado (SFT), a uma atualização persistente dos pesos do modelo
O site e o código estão em https://jyopari.github.io/posts/seal

Diferença em relação às abordagens de adaptação existentes

Hoje, quando recebem uma nova tarefa, os LLMs normalmente consomem os dados da tarefa como estão (as-is) por meio de fine-tuning ou aprendizado em contexto (in-context learning)
Os dados de entrada podem não estar no formato nem na quantidade ideais para o aprendizado, mas as abordagens existentes não fazem o modelo desenvolver por conta própria uma estratégia de como transformar e absorver esses dados
O SEAL não depende de módulos de adaptação separados nem de redes auxiliares; ele parametriza e controla o processo de adaptação com as próprias saídas geradas pelo modelo
Isso é semelhante à forma como um estudante humano aprende reinterpretando e reorganizando o material original em anotações, em vez de apenas memorizá-lo diretamente
- Cada pessoa assimila a informação de maneiras diferentes, como diagramas visuais, texto ou explicações matemáticas
- O SEAL é uma tentativa de introduzir esse processo de reorganização e reescrita no procedimento de aprendizado dos LLMs

Aprendizado da política de `self-edit` com aprendizado por reforço

O SEAL treina o LLM com um algoritmo de aprendizado por reforço para que ele gere self-edits eficazes
Cada iteração do outer loop de aprendizado por reforço segue o fluxo abaixo
- O modelo gera candidatos a self-edit
- Aplica atualizações de peso de acordo com o self-edit
- Avalia o modelo atualizado em tarefas downstream
- Usa a recompensa obtida nessa avaliação para melhorar a política de geração de self-edit
O sinal de recompensa é o desempenho downstream do modelo atualizado

Resultados experimentais: integração de conhecimento

Os experimentos de integração de conhecimento tratam da tarefa de inserir novo conhecimento factual em um LLM
Em vez de fazer fine-tuning diretamente no texto da passagem, o ajuste é feito com dados sintéticos gerados pelo modelo SEAL
Após o treinamento com aprendizado por reforço, os dados sintéticos autogerados pelo SEAL elevaram o desempenho de perguntas e respostas no SQuAD sem passagem no contexto de 33.5% para 47.0%
Os dados autogerados pelo SEAL registraram desempenho superior ao dos dados sintéticos criados pelo GPT-4.1

Resultados experimentais: generalização few-shot no ARC-AGI

A segunda avaliação realiza few-shot learning em um subconjunto simplificado do benchmark ARC-AGI
O modelo usa um conjunto de ferramentas para escolher de forma autônoma o aumento de dados sintéticos e os hiperparâmetros de otimização
Entre os itens selecionados automaticamente estão
- taxa de aprendizado
- training epochs
- cálculo seletivo de loss por tipo de token
A seleção e configuração automáticas de ferramentas via SEAL elevaram o desempenho em relação ao aprendizado em contexto padrão (ICL) e à self-editing sem RL, que não aprendeu a usar ferramentas de forma eficaz
Os dois experimentos mostram que o SEAL pode se tornar um framework para adaptar de forma autônoma modelos de linguagem a novos dados

1 comentários

GN⁺ 2025-06-15

Comentários do Hacker News

A abordagem de self-edit é inteligente por otimizar, via aprendizado por reforço, a forma como o modelo reorganiza informações para seu próprio aprendizado
O ponto central é que cada tipo de conhecimento combina melhor com uma forma diferente de representação, algo parecido com uma pessoa usando métodos de anotação diferentes ao estudar matemática e história
Nos dados do GPT-4.1, o resultado de integração de conhecimento foi 47% contra 46,3%, bem acima da linha de base do modelo pequeno, então parece que não foi apenas mais dados, mas sim a descoberta de um formato de aprendizado melhor
Ainda assim, o esquecimento catastrófico continua sem solução, e também não está totalmente claro se a diversidade dos dados de fato melhorou
O custo computacional de 30 a 45 segundos por avaliação de recompensa é pesado demais para a maioria dos usos, mas pode valer a pena no processamento de documentos de alto valor, em que a preservação ideal é realmente importante
A maior limitação é ficar restrito a tarefas com métricas de avaliação explícitas; para calcular a recompensa, são necessários pares de perguntas e respostas corretas ou casos de teste
Mesmo assim, em áreas nas quais é possível gerar avaliações, como documentação técnica ou conteúdo educacional, isso pode melhorar bastante a forma de processar novas informações e, embora ainda não seja a etapa de “agentes que se autoaprimoram continuamente”, parece um passo importante na direção de modelos que ajustam sua própria estratégia de aprendizado
Desde meados da década de 2010, dois amigos prodígios em matemática que começaram muito cedo com aprendizado de máquina falavam bastante de algoritmos NEAT/HyperNEAT, que soam parecidos com isso
“NEAT/HyperNEAT” (Neuroevolution of Augmented Topologies) [0]
Não sou especialista em aprendizado de máquina, mas, pelo que entendi, o NEAT evolui a topologia da rede, enquanto este artigo parece evoluir os pesos
No fim, parecem duas abordagens para resolver o mesmo problema: uma evolui a estrutura da rede, a outra evolui os pesos
Esses dois amigos estão entre as pessoas mais inteligentes que já conheci e tinham bastante convicção de que aprendizado por reforço e algoritmos evolutivos seriam o caminho a seguir em aprendizado de máquina
[0] https://en.wikipedia.org/wiki/Neuroevolution_of_augmenting_t...
- Humanos são incríveis. Criaram um sistema computacional imaginário para tentar entender neurônios, descobriram que neurônios reais não funcionam assim, mas ainda assim construíram sobre isso uma tecnologia que muda paradigmas
  E continuam fortalecendo a tecnologia com ideias vindas desse sistema imaginado
- Meu material introdutório sobre NEAT favorito é MarI/O - Machine Learning for Video Games, do SethBling
  https://www.youtube.com/watch?v=qv6UVOQ0F44
- Recentemente fiquei totalmente obcecado por essa ideia. Depois de conseguir algum sucesso usando algoritmos genéticos para clonagem de voz no Kokoro, fiquei curioso para saber se seria possível evoluir a própria arquitetura
  A ideia de uma inteligência auto-organizável é fascinante, mas fico em dúvida sobre como torná-la viável
  Vendo como os LLMs evoluíram até aqui, talvez uma abordagem híbrida desse tipo seja a melhor opção
A Anthropic também publicou há alguns dias um artigo relacionado a self finetuning
https://arxiv.org/html/2506.10139v1
- Isso é enorme
  “Quando avaliada pelo modelo de recompensa em nível de produção do Claude 3.5 Sonnet, a política auxiliar não supervisionada venceu 60% dos confrontos diretos contra uma política treinada com um modelo de recompensa supervisionado por humanos”
  Ou seja, agora os modelos podem se sair melhor que humanos até no pós-treinamento de novos modelos
- Há uma thread relacionada em andamento
  Unsupervised Elicitation of Language Models - https://news.ycombinator.com/item?id=44276041
Gostaria que alguém que conhece bem o assunto resumisse até onde chegou a pesquisa para fazer LLMs aprenderem “durante o trabalho” e quais são os gargalos que impedem isso de virar algo realmente implantável
Por exemplo, ao criar um modelo + agente de codificação que realmente aprende uma base de código ao longo do tempo, por meio de algo como ajuste fino contínuo, fico curioso se o problema é custo, colapso do modelo ou algum outro fator
Os grandes laboratórios certamente estão tentando, mas, do ponto de vista de um usuário de LLMs, não se fala muito nisso, e hoje a atenção parece estar em métodos de treinamento melhores, como aprendizado por reforço
Também parece haver a suposição de que aquilo que o modelo não aprendeu durante o treinamento pode ser colocado no contexto quando necessário
De uma perspectiva ingênua, a incapacidade de aprender com a experiência depois do treinamento parece ser o maior obstáculo no caminho para a AGI
- Nós não fazemos a menor ideia de como realizar aprendizado contínuo
  As questões de custo computacional, colapso e esquecimento são reais, mas a única forma “realmente” viável é treinar o modelo, receber novos dados, retreinar o modelo do zero com todos os dados antigos mais os novos, e repetir
  Mesmo assim, não há garantias no aspecto do “tempo”
  A área de aprendizado contínuo quase não tem respostas que resolvam isso de verdade, e é absurdamente difícil porque as soluções são autocontraditórias em vários sentidos
  É preciso expandir o espaço de representação do modelo mantendo quase intacto o espaço de representação anterior; no fim, isso significa mudar sem mudar
  O mais irritante é que até cérebros naturais bem pequenos fazem isso com facilidade
  Tenho uma teoria longa sobre isso, mas, em resumo, é provável que a IA também precise, de alguma forma, de um processo de dormir ou descansar
- Não sou especialista, mas acho que privacidade tem, ou deveria ter, um papel importante
  Por causa do custo computacional, qualquer aprendizado provavelmente teria de ser agregado, não por usuário; com isso, o risco de vazamento de informações entre sessões fica muito alto
  Concordo totalmente que encontrar uma forma segura de aprendizado contínuo parece ser o maior obstáculo para a AGI
- A resposta real é que não confiamos o bastante em avaliações automáticas
  Mesmo que a pontuação de avaliação suba, é difícil ter certeza de que um determinado lançamento treinado automaticamente melhorou o desempenho real; por isso, hoje todos agrupam as atualizações e fazem uma validação intuitiva antes da implantação
- O problema mais óbvio é o alinhamento
  Já se sabe que até o ajuste fino de LLMs pode eliminar o alinhamento, então, em teoria, qualquer forma de ajuste fino contínuo também pode eliminá-lo da mesma maneira
- O obstáculo mais claro é o esquecimento catastrófico
À primeira vista, parece apenas um framework que faz o fine-tuning de adaptadores LoRA e depois os mescla ao modelo original
Ele usa o PeftModel da biblioteca HuggingFace e merge_and_unload para mesclar o adaptador ao modelo base, mas não sei exatamente o que há de novo nisso
- A parte que parece nova talvez esteja na estabilidade da abordagem, em evitar custos de alinhamento e o colapso do modelo
  Gostaria de ver um ciclo completo da hipernetwork, em que os dois modelos continuam sendo atualizados com LoRAs gerados, e a própria hipernetwork também é atualizada para acompanhar o novo estado do modelo
  Para aplicar LoRA à hipernetwork, seria necessária uma meta-hipernetwork, e isso poderia, na prática, viabilizar aprendizado contínuo
O ponto central é a passagem: “modelos de linguagem grandes são poderosos, mas estáticos, e não têm um mecanismo para ajustar seus pesos em resposta a novas tarefas”
Como os processos de treinamento e inferência são completamente separados, isso é muito confuso para quem está acostumado a concepções tradicionais de inteligência humana
Para humanos, aprender algo e aplicar esse conhecimento à realidade é um único processo integrado de feedback, mas com LLMs não é assim
Nós treinamos, implantamos e substituímos por um novo modelo um pouco mais “aprendido”
Para um LLM, a inferência é o fim do aprendizado
Talvez o maior mal-entendido sobre IA esteja aí
Se você acha que um LLM está aprendendo, fica fácil imaginar que a AGI está logo ali
- Como a DeepSeek mostrou, é possível refinar LLMs com aprendizado por reforço
- E se, depois de verificar se o usuário reage positiva ou negativamente à saída, treinássemos o LLM com a entrada que o modelo recebeu e a saída que ele gerou?
Site com código e exemplos: https://jyopari.github.io/posts/seal
Nesta área, esquecer corretamente parece estar se tornando rapidamente um problema mais importante do que “aprender corretamente”
Há grande progresso em fazer modelos ensinarem novos fatos a si mesmos, mas o estado da arte em descartar as informações menos relevantes, dado novo conhecimento e uma capacidade finita, está muito mais atrasado
A maior parte do cérebro humano é muito boa em “esquecer corretamente”, e fico curioso sobre como isso funciona
- Não acho que humanos sejam realmente bons em esquecer corretamente
  Sinceramente, nem tenho certeza de que o cérebro humano seja “excepcionalmente bom” em muitas das coisas que fazemos
  Como a capacidade de memória do cérebro humano é tão grande, vejo a maior parte do esquecimento menos como abrir espaço para novas informações e mais como o cérebro saber corretamente que informações ruins do passado atrapalham novos aprendizados
- Pelo que sei, houve pouquíssimo avanço em identificar, em redes neurais artificiais, quais pesos são responsáveis por quais saídas e em que grau
  Por isso, não é possível descartar informações que o usuário marcou como erradas, imprecisas ou indesejáveis
  Já a mente humana faz isso com facilidade
  Ela se lembra de que algo foi classificado como errado, inútil ou irrelevante e deixa de fazê-lo; com o tempo, pode até esquecer o próprio caminho menos percorrido
  Pelo menos em redes neurais artificiais, não há um mecanismo óbvio desse tipo
- O aprendizado está fortemente ligado à repetição espaçada
  Normalmente isso é associado a ferramentas de estudo como o Anki, mas o mundo real está cheio de encontros com coisas em determinadas frequências
  O ciclo de dia e noite, as estações, os lugares que visitamos, as pessoas que encontramos — praticamente tudo é assim
  Fico me perguntando se talvez exista algo como o inverso da repetição espaçada
- Vi uma pesquisa interessante dizendo que LLMs também “escondem” dados internos
  Não é simplesmente esquecer: se você continuar treinando, essa informação pode reaparecer depois
  Por isso, ao treinar um modelo, é preciso verificar a memória inteira, não apenas uma pequena parte
- Seria algo como uma política de uso menos recente?
  Estou tentando descobrir testando na minha própria cabeça :D
  É por coisas assim que gosto desta área da ciência da computação
Achei marcante a passagem: “Villalobos et al. [75] preveem que os LLMs de fronteira terão sido treinados com todo o texto gerado por humanos publicamente disponível até 2028”
O artigo considera que, por causa da próxima barreira de dados, será necessário adotar aumento com dados sintéticos, e que, quando os corpora em escala web se esgotarem, o avanço dependerá da capacidade dos modelos de gerar sinais de treinamento úteis por conta própria
O próximo passo natural seria meta-aprender um modelo SEAL dedicado de geração de dados sintéticos para criar novos corpora de pré-treinamento, permitindo que modelos futuros aumentem a escalabilidade e a eficiência de dados sem depender de mais texto humano
2028 é praticamente amanhã, e é uma percepção interessante
- Isso é apenas teoria
  Um único cérebro humano é muito mais complexo do que toda a web em termos de número de nós e conexões
  Nós sequer entendemos o cérebro o suficiente para explicar como o pensamento acontece
  Também não entendemos completamente o processo antes de o cérebro produzir uma saída e enviá-la para a web
  A previsão de que, depois do fim da escala web, modelos poderão criar por conta própria dados de treinamento úteis é apenas especulação
  Esses dados de treinamento podem não atingir a mesma qualidade do pensamento humano, ou podem apenas ficar regurgitando, sem melhorar em nada o aprendizado ou a qualidade do modelo
  Chamar isso de “percepção” é um pouco otimista
- Isso praticamente já é o estado atual
  Os LLMs de fronteira já foram treinados com todo o texto gerado por humanos publicamente disponível, e também já são bastante treinados com dados sintéticos para melhorar tarefas verificáveis, como programação

Modelos de linguagem de grande porte auto-adaptativos (Self-Adapting)

Como atualizar LLMs estáticos por conta própria

Diferença em relação às abordagens de adaptação existentes

Aprendizado da política de self-edit com aprendizado por reforço

Resultados experimentais: integração de conhecimento

Resultados experimentais: generalização few-shot no ARC-AGI

Leituras relacionadas

1 comentários

Comentários do Hacker News

Aprendizado da política de `self-edit` com aprendizado por reforço