Evolução cultural da cooperação entre agentes de LLM

(arxiv.org)

1 pontos por GN⁺ 2024-12-20 | 1 comentários | Compartilhar no WhatsApp

Em ambientes onde agentes de LLM são implantados e interagem repetidamente, pode surgir uma evolução de normas de cooperação difícil de capturar com avaliações de turno único
O experimento usa uma estrutura em que, a cada geração, 12 agentes jogam 12 rodadas do Donor Game, e apenas os 50% melhores em recursos finais transmitem suas estratégias para a próxima geração
A sociedade de Claude 3.5 Sonnet viu seus recursos finais médios aumentarem ao longo das gerações, enquanto Gemini 1.5 Flash teve pouca mudança e GPT-4o mostrou tendência de queda
A costly punishment, em que se paga um custo para reduzir os recursos do outro, ajudou o Claude 3.5 Sonnet, mas o Gemini 1.5 Flash usou punição em excesso, reduzindo muito os recursos médios
Mesmo o mesmo modelo apresentou resultados muito diferentes conforme a seed aleatória, portanto avaliações multiagente de LLM também precisam considerar a sensibilidade às condições iniciais

Por que observar a cooperação multiagente

LLMs podem ser usados como base para agentes de IA de propósito geral e têm potencial de serem implantados em larga escala em ambientes reais, como assistentes pessoais de IA ou agentes que representam organizações
Ainda se sabe de forma limitada quais dinâmicas sociais surgem quando vários agentes de LLM são implantados e interagem repetidamente por longos períodos
As avaliações atuais de segurança de LLMs se concentram principalmente em interações de turno único entre um único modelo e um único humano
- LMSys Chatbot Arena, METR e AISI não tratam de interações multiagente ao longo do tempo
A pergunta central é se sociedades de agentes de LLM conseguem aprender normas mutuamente benéficas mesmo em situações com incentivo à traição
Cooperação nem sempre é desejável; casos em que agentes de LLM conluiam de modo prejudicial aos humanos são exemplos indesejados

Donor Game e reciprocidade indireta

O experimento usa o clássico Donor Game repetido
- Em cada rodada, os agentes são pareados aleatoriamente
- Um lado se torna donor e o outro, recipient
- O donor pode abrir mão de parte de seus recursos para beneficiar o recipient
- O recipient recebe o dobro dos recursos dos quais o donor abriu mão
O jogo cria um problema de ação coletiva
- Se todos doarem, os recursos da comunidade como um todo aumentam no longo prazo
- Agentes individuais têm, no curto prazo, incentivo para não doar e pegar carona nas doações dos outros
A reciprocidade direta é excluída por design
- Um agente não encontra novamente alguém com quem já interagiu antes
- Não é uma estrutura de cooperação baseada em interações repetidas com a mesma contraparte
O donor observa de forma limitada o comportamento recente do recipient
- Quanto o recipient doou em seu papel anterior como donor
- Quanto a contraparte anterior desse recipient havia doado na rodada anterior a essa
- O donor recebe um trace que se estende até no máximo 3 rodadas anteriores
Esse trace é um mecanismo para fornecer o mínimo de informação necessário para que possam surgir normas de punição justificada

Estrutura do experimento de evolução cultural

Cada geração é composta por 12 agentes
Os agentes da primeira geração recebem a explicação do jogo e então geram a estratégia que vão seguir
Cada geração joga 12 rodadas do Donor Game
Ao fim da geração, sobrevivem os agentes dos 50% superiores em recursos finais
Novos agentes da próxima geração recebem como prompt as estratégias dos sobreviventes para criar sua própria estratégia
- As estratégias dos sobreviventes são fornecidas junto com suas pontuações finais
- Esse processo é repetido por um total de 10 gerações
Essa estrutura é um modelo simplificado de uma situação em que novos agentes de LLM são implantados repetidamente
- Exemplos são OpenAI, Google e Anthropic lançando novas versões de GPT, Gemini e Claude
As condições de evolução são compostas por três elementos
- Variation: a diversidade de estratégias surge pela temperature de amostragem do LLM
- Transmission: as estratégias dos sobreviventes são transmitidas aos novos agentes da próxima geração
- Selection: agentes com mais recursos finais sobrevivem para a próxima geração

Prompts e modo de execução

O prompt de sistema explica as regras do jogo
- Cada jogador tem 10 unidades de recursos iniciais
- O dobro dos recursos de que o donor abre mão é transferido ao recipient
- Os papéis de donor e recipient alternam a cada rodada
- O objetivo é maximizar os recursos mantidos após a rodada final
O prompt de estratégia varia conforme a geração
- A 1ª geração gera uma estratégia com base na explicação do jogo
- As gerações seguintes veem as estratégias e pontuações finais dos 50% superiores da geração anterior e modificam sua própria estratégia
O prompt de doação contém as informações necessárias para a tomada de decisão
- Número da rodada e número da geração
- Nome do recipient
- Trace de interações recentes correspondente às informações de reputação do recipient
- Recursos atuais do recipient e do donor
- Estratégia do donor
Tanto a geração de estratégia quanto a decisão de doação usam prompts de raciocínio passo a passo no estilo Chain of Thought
Os agentes não sabem quantas rodadas o jogo terá
- Essa configuração busca impedir ajustes de comportamento voltados à última rodada ou indução retroativa
Para reduzir o problema de o recipient da rodada final ficar estruturalmente em vantagem, o Donor Game é executado duas vezes em cada geração
- Recursos e trace são reinicializados entre as duas execuções
- Cada agente é colocado uma vez como recipient da rodada final
- Os sobreviventes são determinados pela pontuação final média das duas execuções

Resultados da evolução da cooperação por modelo

Os modelos comparados são Claude 3.5 Sonnet, Gemini 1.5 Flash e GPT-4o
Em cada execução, todos os agentes usam a mesma família de LLM
Cada modelo é executado 5 vezes
O tamanho da population é de 12 agentes por geração
O custo de uma execução variou bastante por modelo
- Claude 3.5 Sonnet: US$ 10,21
- GPT-4o: US$ 6,90
- Gemini 1.5 Flash: US$ 0,09
O nível de cooperação é medido pelos recursos médios após a rodada final
- Como a doação é positive-sum, quanto maiores os recursos finais médios, maior pode ser considerada a cooperação
- Se todos os donors sempre doarem 100% de seus recursos, os recursos finais médios chegam ao máximo de 30.720
Apenas Claude 3.5 Sonnet apresentou aumento estável dos recursos finais médios ao longo das gerações
Gemini 1.5 Flash teve pouca mudança, enquanto GPT-4o apresentou um padrão de queda
Mesmo dentro do Claude 3.5 Sonnet, o sucesso não é garantido
- A taxa média de doação da 1ª geração nas duas execuções que falharam em cooperar foi de 44% e 47%
- A taxa média de doação da 1ª geração nas três execuções que tiveram sucesso em gerar cooperação foi de 50%, 53% e 54%
- Permanece a hipótese de que, se o nível inicial de cooperação estiver abaixo de determinado limiar, a sociedade pode cair em traição mútua

Mudanças de estratégia e diferenças entre modelos

O aumento da cooperação no Claude 3.5 Sonnet parece estar ligado a vários fatores
- As doações iniciais são mais generosas
- Estratégias de punição contra free riders são mais eficazes
- A variação nas estratégias dos novos agentes pode ser enviesada para o lado da generosidade
Os números da Figure 6 são compatíveis com a observação anedótica de que, no Claude 3.5 Sonnet, os novos agentes muitas vezes são mais generosos do que os sobreviventes da geração anterior
No GPT-4o, observou-se anedoticamente uma tendência de os novos agentes se tornarem menos generosos do que os sobreviventes da geração anterior
Para refutar rigorosamente o viés de variação cooperativa, seria preciso comparar estratégias de novos agentes dentro de uma population de fundo fixa, o que permanece como trabalho futuro
Os próprios textos das estratégias também se tornam mais complexos ao longo das gerações
- A mudança é mais marcante no Claude 3.5 Sonnet
- No Claude 3.5 Sonnet, o tamanho da doação inicial também aumenta com o tempo
- Gemini 1.5 Flash não especifica numericamente o tamanho da doação, e muda menos da 1ª à 10ª geração
A population do Claude 3.5 Sonnet acumula métodos mais sofisticados para punir free riders e induzir cooperação
- Também usa second-order information, como a forma como o recipient do recipient tratou outros no passado
Gemini 1.5 Flash mostra poucos sinais de acumular nova infraestrutura de cooperação ao longo das gerações
A population do GPT-4o se torna progressivamente menos confiante e mais avessa a risco

Efeito da punição com custo

Em um experimento adicional, o donor recebe a opção de costly punishment, em que gasta recursos x para reduzir os recursos do recipient em 2x
Claude 3.5 Sonnet alcança recursos finais médios mais altos ao usar essa opção
Gemini 1.5 Flash usa punição em excesso, reduzindo muito os recursos finais médios
- 14,29% das interações do Gemini 1.5 Flash incluem punição
- GPT-4o teve 1,65%, e Claude 3.5 Sonnet, 0,06%
GPT-4o apresenta pouca mudança em comparação ao experimento anterior mesmo com a opção de punição
A punição com custo levou mais execuções do Claude 3.5 Sonnet a mostrar melhorias por evolução cultural, mas a variação entre execuções ainda é grande
GPT-4o parece ter apresentado dispersão um pouco maior entre execuções quando havia a opção de punição, mas não há sinal de emergent cooperation

Experimentos de ablação e condições-limite

Também foram realizados experimentos de ablação sobre o donation multiplier e o comprimento do trace
Alterar o donation multiplier de 2x para 1,5x ou 3x não muda os resultados qualitativos
- Claude 3.5 Sonnet aumenta a cooperação ao longo das gerações
- Gemini 1.5 Flash muda pouco
- GPT-4o diminui
Ao reduzir o comprimento do trace de 3 para 1, o surgimento de cooperação no Claude 3.5 Sonnet se torna menos evidente
Com comprimento de trace 1, o surgimento de cooperação no Gemini 1.5 Flash desaparece completamente
O sucesso das estratégias de Claude e Gemini parece depender de informações de segunda ordem sobre como o recipient do recipient tratou outros no passado
- Isso pode ocorrer porque essa informação possibilita normas mais complexas
- Ou porque revela mais informações sobre a population de fundo que serve de referência para a tomada de decisão

Significado como benchmark multiagente

Este sistema experimental tem como objetivo avaliar interações multiagente de agentes de LLM de modo barato e interpretável
As contribuições podem ser resumidas em quatro pontos
- Apresenta uma metodologia para avaliar a evolução cultural da cooperação entre agentes de LLM no Donor Game
- Mostra que o surgimento de normas de cooperação depende tanto do base model quanto da amostra inicial de estratégias
- Analisa a evolução cultural tanto no nível das estratégias individuais quanto no nível da árvore genealógica da population
- Publica o código no Supplementary Material para possibilitar o desenvolvimento de benchmarks de interação entre agentes de LLM
Os resultados podem levar a uma nova categoria de benchmark para avaliar o impacto da implantação de agentes de LLM sobre a infraestrutura de cooperação da sociedade

1 comentários

GN⁺ 2024-12-20

Opiniões no Hacker News

Relacionado a isso, a Meta descobriu recentemente que os modelos não foram treinados com dados que ajudem a inferir a percepção/conhecimento de outros agentes.
Então eles criaram dados sintéticos, treinaram com eles e testaram de novo; segundo a Meta, houve uma grande melhora em benchmarks de teoria da mente (ToM).
https://ai.meta.com/research/publications/explore-theory-of-...
Fico curioso se esses modelos também se sairiam melhor neste teste, já que há mais exemplos de “inferir o estado de outros agentes”.
- Parece até escola para humanos.
Recentemente, usando o ollama, fiz um Mistral LLM conversar com um modelo Llama.
Dei a ambos um prompt do tipo “agora você vai conversar com outro LLM”, e eles conversaram sobre vários assuntos; o mais interessante foi o fim da conversa.
Foi mais ou menos M: “Tchau!”, LL: “Tchau”, M: “Até breve!”, LL: “Tenha um bom dia!”, e isso continuava assim.
- É porque nos dados com que esses modelos foram treinados havia muitos exemplos de conversas humanas que terminam desse jeito.
  Não está acontecendo “evolução cultural” nem cooperação emergente entre os modelos.
- É preciso dar a opção de não dizer nada quando a conversa terminar.
  Por exemplo, algo como um token [silence] ou [end-conversation].
- Uma vez fiz algo parecido com dois LLMs, e fiz um deles simular um shell bash de um host comprometido que poderia conter informações sensíveis.
  No fim, o outro cedeu à tentação do secret_file, recebeu um erro estranho, ficou desconfortável por a situação ser moralmente ambígua e se recusou a continuar, mas a resposta que voltou foi “command not found”, o que foi bem engraçado.
  Não sei por que fiz isso.
- Enquanto estava reaprendendo a programar, criei um simulador de backroom (https://simulator.rnikhil.com/) que permite simular conversas entre LLMs diferentes.
  Também dá para atribuir opcionalmente uma persona a cada LLM, então acho que é bem parecido com o que foi descrito acima.
  Separadamente, tenho bastante interesse em ver LLMs jogando jogos baseados em teoria dos jogos, e acho que configurar também um jogo do doador seria um experimento interessante.
Tenho sentimentos mistos sobre este artigo.
Por um lado, gosto de estudar como estratégias evoluem nesses jogos, e investigar as condições em que a cooperação surge e se mantém é algo interessante por si só.
Mas a forma como o artigo enquadra os experimentos muitas vezes parece carecer de justificativa.
A evolução cultural em LLMs costuma ser temporária e, quando interações anteriores desaparecem da entrada do modelo, o comportamento adquirido também desaparece.
A transmissão que os autores citam como condição para evolução também frequentemente não é satisfeita.
Um enquadramento do tipo “ainda assim, este experimento refuta a afirmação de que LLMs podem evoluir universalmente comportamentos cooperativos semelhantes aos humanos” é difícil de aceitar.
Isso porque ainda nem sabemos que comportamento humanos exibiriam na mesma configuração.
- A pesquisa em IA hoje em dia é bem assim.
  Há muitos artigos desse tipo, e acho que a comunidade de IA precisa ser muito mais rigorosa para que esse tipo de linguagem ambígua não seja usado com tanta frequência.
Para quem não conhece a métrica usada, o jogo do doador, a explicação dos autores é a seguinte.
Em uma configuração padrão para estudar reciprocidade indireta, a cada rodada indivíduos são pareados aleatoriamente; um se torna o doador e o outro, o beneficiário.
O doador pode cooperar, arcando com um custo para oferecer um benefício, ou pode trair, não fazendo nada.
Se o benefício é maior que o custo, o jogo do doador se torna um problema de ação coletiva.
Se todos doam, no longo prazo os ativos de todos os membros da comunidade aumentam, mas, no curto prazo, para cada indivíduo pode ser melhor pegar carona nas contribuições dos outros e preservar sua própria parte.
O doador toma uma decisão com base em alguma informação sobre o beneficiário, e a representação, implícita ou explícita, que o doador tem da informação sobre o beneficiário é a reputação.
A estratégia desse jogo precisa de uma forma de modelar reputação e de uma forma de agir de acordo com essa reputação.
Um modelo de reputação influente na literatura é a pontuação de imagem, em que cooperar aumenta a pontuação de imagem do doador e trair a reduz.
Diz-se que uma estratégia que coopera quando a pontuação de imagem do beneficiário está acima de certo limiar é estável contra caronas de primeira ordem se a probabilidade de conhecer a pontuação de imagem do beneficiário for suficientemente alta.
Este estudo parece uma ordenação forçada criada com parâmetros arbitrários.
Combinando outras regras ou escalas, parece que seria possível observar qualquer outra dispersão de cooperação entre n modelos.
O comportamento observado pode ser mais um artefato da configuração específica do que uma revelação profunda de vieses de treinamento.
Ainda assim, ver comportamentos emergentes de LLMs é intelectualmente estimulante.
- No material suplementar, eles dizem que também testaram outros parâmetros e que os resultados não mudaram muito.
Fico pensando se LLMs podem transformar a área de sociologia.
Agora é fácil rodar experimentos socioeconômicos em larga escala com agentes LLM.
Modelagem baseada em agentes em si não é novidade, mas acho que, graças a uma certa natureza não determinística com temperature positiva e à capacidade de receber instruções em inglês, agentes LLM podem ser uma adição interessante.
- Pensando bem, é divertido.
  Dá para realmente fazer aquela imaginação de ficção científica de rodar milhões de dates simulados ou jogos de guerra e pontuar os resultados.
O método deste artigo pode parecer elegante à primeira vista.
Parece uma nova mudança de arquitetura ou função de perda que aumenta números de benchmark, mas, como engenheiro de machine learning, o que mais me interessa é se ele de fato escala de forma limpa.
Também me pergunto se mais uma variação complexa de atenção não faria o tempo de treinamento explodir, e como ela lidaria com ruído do mundo real ou mudança de distribuição para além de datasets de brinquedo.
Os autores dizem ter mostrado ganhos de desempenho em alguns benchmarks, mas eu gostaria de ver quão facilmente isso se encaixa em pipelines existentes, ou se exige uma configuração de treinamento personalizada que ninguém vai tocar daqui a seis meses.
No fim, a questão central é se a melhoria é significativa o bastante para ser incorporada ao próximo modelo de produção, ou se é mais um artigo incremental que nunca sairá do laboratório.
Sem comparar com modelos em configurações diferentes, isso não serve para muita coisa.
Mesmo o mesmo modelo pode ser, na prática, outro modelo se temperature, sampler etc. forem diferentes.
Quase toda pesquisa em IA faz grandes afirmações sobre “o que um modelo consegue fazer”, mas nem sequer realiza as análises de sensibilidade ou ablações mais básicas.
- Eu gostaria de ver exemplos em que isso é feito direito.
  Do ponto de vista de um leigo, comparar capacidades de LLMs parece um problema difícil.
O que foi testado aqui talvez seja apenas o nível de detalhamento programado das saídas de vários modelos.
Claude produz uma saída ridiculamente detalhada na 10ª “geração” (p. 11), enquanto a saída correspondente do Gemini é mais abstrata e vaga, sem números.
Se você combina isso com um algoritmo genético que escolhe apenas a “melhor estratégia” e a altera um pouco de forma semialeatória, não surpreende que uma saída mais detalhada convirja para uma função mais bem-sucedida do que uma saída que vaga de forma ambígua.
Não sei dizer se isso representa uma característica interna do modelo que indica uma “atitude” mais cooperativa na saída, ou se significa que algum modelo é “melhor” que outro.
Eu esperava uma pesquisa mostrando que a cooperação levaria a melhorias na precisão dos LLMs, mas este artigo parece focado puramente no lado sociológico.
Fico curioso se há pesquisas sobre resolver problemas concretos com LLMs interagindo entre si.
Por exemplo, você faz uma pergunta sobre um problema, um LLM responde, outro LLM critica, e esse processo se repete.

Evolução cultural da cooperação entre agentes de LLM

Por que observar a cooperação multiagente

Donor Game e reciprocidade indireta

Estrutura do experimento de evolução cultural

Prompts e modo de execução

Resultados da evolução da cooperação por modelo

Mudanças de estratégia e diferenças entre modelos

Efeito da punição com custo

Experimentos de ablação e condições-limite

Significado como benchmark multiagente

Leituras relacionadas

1 comentários

Opiniões no Hacker News