1 pontos por GN⁺ 2024-12-20 | 1 comentários | Compartilhar no WhatsApp

Mudança na política de privacidade do arXiv

  • A política de privacidade do arXiv foi alterada. Ao continuar usando o arxiv.org, você concorda com essa política.

Evolução cultural da cooperação

  • Contexto da pesquisa: Grandes modelos de linguagem (LLMs) geralmente fornecem uma base importante para construir agentes de IA competentes. Esses agentes podem representar os interesses de indivíduos ou grupos.
  • Objetivo da pesquisa: Buscar entender a dinâmica das interações à medida que vários agentes LLM são implantados repetidamente. Em particular, investigar se os agentes podem aprender normas sociais mutuamente benéficas.
  • Método de pesquisa: Os agentes LLM estudam interações indiretas por meio de jogos repetidos do Doador. Nesse jogo, os agentes podem observar as ações recentes de seus pares.
  • Resultados da pesquisa:
    • Agentes Claude 3.5 Sonnet registraram pontuações médias mais altas do que Gemini 1.5 Flash e GPT-4o.
    • Claude 3.5 Sonnet conseguiu obter pontuações mais altas utilizando um mecanismo adicional de punição.
    • Foram observados comportamentos diversos que mostram forte dependência sensível às condições iniciais.
  • Importância da pesquisa: Este estudo pode propor um novo benchmark para avaliar o impacto da implantação de agentes LLM na infraestrutura cooperativa da sociedade.

Informações do artigo

  • Número de páginas: 15 páginas, incluindo 6 figuras
  • Tema: sistemas multiagente, inteligência artificial
  • Citação: arXiv:2412.10270 [cs.MA]
  • Autor da submissão: Edward Hughes

Outras informações

  • Como acessar: o artigo pode ser acessado em vários formatos, como PDF, HTML e código-fonte TeX
  • Referências e ferramentas de citação: várias ferramentas disponíveis, como NASA ADS, Google Scholar e Semantic Scholar
  • Artigos e dados relacionados: artigos e dados relacionados, além de demonstrações em mídia

Este estudo apresenta a possibilidade de compreender o comportamento cooperativo de agentes LLM e, com isso, contribuir para o desenvolvimento da cooperação social.

1 comentários

 
GN⁺ 2024-12-20
Comentários do Hacker News
  • A Meta identificou uma falta de dados de treino sobre percepção e conhecimento dos modelos e, ao retreiná-los com dados sintéticos para melhorar isso, houve uma grande melhora no benchmark de Theory of Mind (TOM)

  • Foi feita uma tentativa de usar o ollama para promover uma conversa entre o Mistral LLM e um modelo Llama, e foi interessante ver os dois modelos conversando sobre tópicos aleatórios. A interação no fim da conversa foi especialmente marcante

  • Há sentimentos mistos em relação ao artigo, e considera-se que o enquadramento do experimento é inadequado, já que a evolução cultural dos LLMs pode ser temporária. É difícil aceitar essa afirmação, dado que não se sabe como humanos se comportariam na mesma situação

  • Explicação do Donor Game: indivíduos pareados aleatoriamente são divididos em doador e beneficiário, e o doador pode oferecer um benefício ou não fazer nada. A reputação do doador tem um papel importante, e a estratégia de cooperar quando a pontuação de reputação está acima de um certo limite é estável

  • A pesquisa parece impor rankings à força com parâmetros arbitrários, e o comportamento observado pode ser produto de configurações específicas. Ainda assim, é interessante ver novos comportamentos de LLMs

  • O método do artigo pode parecer atraente à primeira vista, mas há dúvidas sobre sua real escalabilidade. Variações complexas de atenção podem aumentar o tempo de treinamento, e faltam informações sobre o desempenho em dados reais. Há questionamentos sobre a utilidade prática desse método

  • Há uma discussão sobre se os LLMs podem trazer mudanças para a sociologia, e grandes experimentos socioeconômicos podem ser executados com facilidade por meio de agentes LLM. A natureza não determinística dos agentes LLM e sua capacidade de receber instruções em inglês podem ser elementos adicionais interessantes

  • Parece que o nível de detalhamento da saída do modelo está sendo testado, e saídas detalhadas tendem a convergir para funções mais bem-sucedidas. No entanto, não há muita confiança de que isso represente características internas do modelo

  • Esperava-se uma pesquisa mostrando que a cooperação leva a resultados mais precisos dos LLMs, mas este estudo foca apenas no aspecto sociológico. Fica a curiosidade sobre a existência de pesquisas em que a interação entre LLMs resolve problemas concretos

  • A tentativa de modelar o rollout de atualizações de LLM parece um exagero desnecessário, já que não se assemelha a implantações reais. Ainda assim, o artigo em si é interessante