Fazendo 20 perguntas a 60 LLMs

(benchmarks.llmonitor.com)

8 pontos por GN⁺ 2023-09-10 | 1 comentários | Compartilhar no WhatsApp

Testa o desempenho de mais de 60 modelos de linguagem (Language Learning Models, LLMs) usando um conjunto de 20 perguntas e organiza as respostas de cada LLM
Essas perguntas foram projetadas para testar raciocínio básico, capacidade de seguir instruções e criatividade dos LLMs
As respostas dos LLMs são armazenadas em um banco de dados SQLite
As perguntas variam de problemas simples de aritmética a tarefas mais complexas, como explicar teoria quântica de campos para um estudante do ensino médio
O script também inclui tarefas que os LLMs devem executar, como traduzir frases, identificar bugs em código e gerar funções em Python
O autor executou o script usando APIs da OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha e AI21
- Há planos de melhorar o script usando sequências de parada e formatos de prompt otimizados para cada modelo
- Ideias futuras incluem cálculo de classificação ELO por votação pública, comparação lado a lado entre dois modelos e prompts enviados pela comunidade

1 comentários

GN⁺ 2023-09-10

Comentários do Hacker News

Um usuário criou um harness genérico para executar benchmarks em vários modelos de linguagem (Language Learning Models, LLMs), incentivando outras pessoas a testar os modelos com seus próprios dados. A biblioteca oferece suporte a modelos da OpenAI, Anthropic, Google, Llama, Codellama, Replicate e Ollama.
O AI Playground da Vercel é destacado como uma ferramenta útil para fazer perguntas a vários LLMs ao mesmo tempo, mas atualmente suporta apenas 24, e não 60.
A forma de benchmarking de LLMs no artigo é elogiada por ser mais realista do que métodos tradicionais, como passar em exames. No entanto, surgem preocupações sobre a possibilidade de as perguntas fazerem parte do conjunto de treinamento e distorcerem os resultados.
Foram encontradas diferenças nas respostas dos LLMs a perguntas sobre relações familiares, e um usuário relatou que o GPT-4 respondeu corretamente a uma pergunta que, segundo o artigo, todos os LLMs erraram.
O Falcon Instruct (40B) é destacado de forma bem-humorada como "o modelo mais engraçado" por causa de uma piada sobre férias.
Benchmarks adicionais para LLMs são sugeridos, incluindo "TheoremQA: conjunto de dados de perguntas e respostas [STEM] baseado em teoremas" e "Awesome-legal-nlp".
O ChatGPT 3.5 é criticado por respostas prolixas, com um usuário observando que ele frequentemente fornece explicações desnecessariamente longas.
Admirando o avanço da IA, um usuário menciona a capacidade dos LLMs de gerar "haicais éticos e não sexuais a favor e contra o Kubernetes".
Surgem dúvidas sobre o desempenho do modelo CodeLlama, com um usuário relatando resultados muito melhores do que os listados no artigo.
Apesar do interesse por LLMs, alguns usuários expressam decepção com a qualidade das respostas dos modelos, especialmente em perguntas sobre teoria musical, e questionam se esses modelos vão realmente melhorar de forma significativa ao longo do tempo.

Fazendo 20 perguntas a 60 LLMs

Leituras relacionadas

1 comentários

Comentários do Hacker News