2 pontos por GN⁺ 2024-04-08 | 1 comentários | Compartilhar no WhatsApp

Tudo o que você precisa é de mais agentes

  • Foi constatado que o desempenho de grandes modelos de linguagem (LLMs) pode escalar de acordo com o número de agentes instanciados.
  • Por meio de métodos de amostragem e votação, é possível melhorar os LLMs independentemente dos métodos complexos existentes, e o grau de melhoria está relacionado à dificuldade da tarefa.
  • Foram realizados experimentos extensivos em diversos benchmarks de LLM para confirmar a existência dessas descobertas e estudar as propriedades que podem favorecer sua ocorrência.
  • O código usado na pesquisa está disponível publicamente.

Opinião do GN⁺

  • Este estudo pode representar uma contribuição importante para a área de inteligência artificial ao apresentar uma nova abordagem para melhorar o desempenho de grandes modelos de linguagem.
  • A descoberta de que aumentar o número de agentes tem impacto direto na melhoria de desempenho oferece uma nova perspectiva sobre escalabilidade de recursos e eficiência.
  • São necessárias pesquisas adicionais sobre como os resultados experimentais podem ser aplicados a aplicações reais.
  • O fato de a melhoria de desempenho estar relacionada à dificuldade da tarefa pode ajudar na formulação de estratégias de otimização de modelos de linguagem para tarefas específicas.
  • Por meio do código publicado, outros pesquisadores podem contribuir para reproduzir e expandir este estudo, o que promove transparência científica e colaboração.

1 comentários

 
GN⁺ 2024-04-08
Opiniões do Hacker News
  • Resumo do primeiro comentário:

    • Este artigo questiona toda a ideia de configurações com múltiplos agentes (por exemplo, Chain-of-thought, LLM-Debate).
    • Como método alternativo, executa a mesma consulta várias vezes no mesmo LLM e usa um algoritmo de similaridade entre respostas para escolher a resposta mais comum.
    • Esse algoritmo simples apresenta desempenho excelente mesmo em comparação com outros algoritmos de múltiplos agentes.
    • Isso sugere que o esquema de múltiplos agentes não está fazendo nada de especial, e que os resultados melhores vêm principalmente do fato de o LLM ser executado várias vezes e do prompt pedir a escolha da melhor resposta.
  • Resumo do segundo comentário:

    • Afirma que, há 16 meses, vem defendendo a necessidade de estruturar agentes em camadas, em vez de focar em um agente único que faça tudo corretamente.
    • Considera interessante que o retorno por tarefa diminua rapidamente, de forma parecida com o tamanho ideal de reuniões humanas.
    • Gostaria de saber até que ponto um ajuste mais fino no número de agentes se alinha ao tamanho ideal de uma reunião.
    • Também quer ver o ganho de desempenho obtido quando cada agente é ajustado com objetivos ligeiramente diferentes.
  • Resumo do terceiro comentário:

    • Isso se relaciona ao que foi discutido recentemente em um episódio do podcast ACM ByteCast com o professor Edward Chang, do departamento de ciência da computação da Universidade Stanford.
    • O método usa vários LLMs conversando entre si sobre um tema de debate, com um humano atuando como moderador.
    • A resposta final alcançada por vários LLMs por meio da conversa melhora significativamente tanto em exatidão quanto em precisão.
  • Resumo do quarto comentário:

    • A frustração sentida em pesquisas sobre mistura de especialistas é que, por uma inferência probabilística básica, consultar um LLM várias vezes e escolher o resultado por maioria tende a funcionar melhor do que consultar uma vez e aceitar aquele resultado.
    • Parece provável que seja possível ampliar ainda mais esse ganho encontrando melhores misturas de LLMs diferentes ou formas melhores de dividir a tarefa em subtarefas.
  • Resumo do quinto comentário:

    • Pelo gráfico, a maior parte do ganho vem com 10 agentes, há um ganho um pouco maior com 20, e depois disso o retorno passa a diminuir.
  • Resumo do sexto comentário:

    • Uma reflexão bem-humorada sobre o modelo de negócios das empresas que oferecem serviços de LLM: um serviço de transporte que só leva você ao destino depois de várias tentativas, ou um detergente que só deixa a roupa "talvez" limpa após várias aplicações.
    • Se uma empresa oferece "inteligência artificial", faria sentido pagar apenas pelas respostas corretas.
  • Resumo do sétimo comentário:

    • Questiona se esse método não é caro demais e insustentável; concorda com a visão de que MoE é o caminho a seguir, já que modelos novos provavelmente também terão retorno decrescente.
    • O custo computacional para um único prompt aumentaria de 7 a 15 vezes.
  • Resumo do oitavo comentário:

    • O repositório publicado e os prompts usados no benchmark são muito interessantes.
    • Gostaria de ver agentes baseados em LLM sendo avaliados em benchmark com uso de um conjunto de ferramentas.
  • Resumo do nono comentário:

    • Se juntar todas as afirmações de que "x é tudo o que você precisa", perceberá que, na verdade, muita coisa é necessária.
  • Resumo do décimo comentário:

    • Um ensemble de qualquer quantidade de agentes GPT 3.5 é menos preciso do que uma única chamada ao GPT-4.