- Um sistema de agentes de IA autorreferencial que melhora por conta própria seu processo de aprendizado e resolução de problemas para reduzir a dependência de engenharia humana, superando as limitações dos mecanismos meta fixos das abordagens existentes de autoaperfeiçoamento recursivo
- Estrutura que integra o agente de tarefa (execução da tarefa-alvo) e o meta-agente (modifica a si mesmo e o agente de tarefa) em um único programa editável
- O Darwin Gödel Machine (DGM) existente só conseguia se autoaperfeiçoar no domínio de programação, mas o HyperAgents se expande para vários domínios como programação, revisão de artigos, robótica e correção de matemática
- O próprio procedimento de modificação em nível meta também é editável, e o diferencial central é a automodificação metacognitiva que melhora o próprio mecanismo de melhoria
- Foi confirmado experimentalmente que as melhorias em nível meta se transferem entre domínios e se acumulam entre execuções, mostrando o potencial de um sistema de IA geral com autoaceleração
Limitações dos sistemas atuais de autoaperfeiçoamento
- O objetivo dos sistemas de IA com autoaperfeiçoamento é melhorar automaticamente o próprio processo de aprendizado e resolução de problemas para reduzir a dependência de engenharia humana
- Como as abordagens existentes de autoaperfeiçoamento recursivo dependem de mecanismos em nível meta fixos e criados manualmente, existe um limite fundamental para a velocidade com que o sistema pode melhorar
Darwin Gödel Machine (DGM) e a limitação ao domínio de programação
- DGM (Zhang et al., 2025b) é um sistema que demonstrou a possibilidade de autoaperfeiçoamento aberto no domínio de programação
- Parte de um único agente de programação e gera e avalia repetidamente variantes automodificadas, expandindo um arquivo de degraus intermediários para melhorias futuras
- Como tanto a avaliação quanto a automodificação são tarefas de programação, melhorar a capacidade de programar leva diretamente a melhorar a capacidade de autoaperfeiçoamento
- No entanto, essa alinhamento específico de domínio (domain-specific alignment) em geral não se sustenta fora da programação
Estrutura do framework HyperAgents
- HyperAgents é um agente autorreferencial (self-referential agent) que integra dois componentes em um único programa editável
- Agente de tarefa (task agent): responsável por resolver a tarefa-alvo
- Meta-agente (meta agent): responsável por modificar a si mesmo e o agente de tarefa
- O ponto central é que o próprio procedimento de modificação em nível meta é editável, implementando automodificação metacognitiva (metacognitive self-modification)
- É possível melhorar não apenas o comportamento de resolução de tarefas, mas também o próprio mecanismo que gera melhorias futuras
DGM-Hyperagents (DGM-H)
- Expansão do DGM concretizada como DGM-Hyperagents (DGM-H)
- Ao permitir que o próprio procedimento de melhoria evolua, remove a hipótese de alinhamento específico de domínio entre desempenho em tarefas e capacidade de automodificação
- Em teoria, abre a possibilidade de sustentar progresso autoacelerado em qualquer tarefa computável
Resultados experimentais e abrangência de domínios
- Foram realizados experimentos em vários domínios, como programação, revisão de artigos, projeto de recompensas em robótica e correção de soluções matemáticas em nível de olimpíada
- O DGM-H apresentou melhoria contínua de desempenho ao longo do tempo
- Alcançou desempenho superior em comparação com baselines sem autoaperfeiçoamento ou exploração aberta, e também frente ao DGM existente
Transferência e acúmulo das melhorias em nível meta
- Foi constatado que o DGM-H melhora o próprio processo de geração de novos agentes
- Ex.: melhorias em nível meta como memória persistente (persistent memory) e rastreamento de desempenho (performance tracking)
- Essas melhorias em nível meta podem ser transferidas entre domínios (transfer across domains) e se acumular entre execuções (accumulate across runs)
Considerações de segurança
- Todos os experimentos foram conduzidos com medidas preventivas de segurança, como sandboxing e supervisão humana
- Inclui uma discussão sobre o significado da segurança no contexto de sistemas com autoaperfeiçoamento e sobre as implicações mais amplas desses sistemas
Significado
- O DGM-Hyperagents sugere a possibilidade de um sistema de IA aberto que não apenas busca soluções melhores, mas melhora continuamente a própria forma de melhorar
Ainda não há comentários.