8 pontos por GN⁺ 2023-09-10 | 1 comentários | Compartilhar no WhatsApp
  • Testa o desempenho de mais de 60 modelos de linguagem (Language Learning Models, LLMs) usando um conjunto de 20 perguntas e organiza as respostas de cada LLM
  • Essas perguntas foram projetadas para testar raciocínio básico, capacidade de seguir instruções e criatividade dos LLMs
  • As respostas dos LLMs são armazenadas em um banco de dados SQLite
  • As perguntas variam de problemas simples de aritmética a tarefas mais complexas, como explicar teoria quântica de campos para um estudante do ensino médio
  • O script também inclui tarefas que os LLMs devem executar, como traduzir frases, identificar bugs em código e gerar funções em Python
  • O autor executou o script usando APIs da OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha e AI21
    • Há planos de melhorar o script usando sequências de parada e formatos de prompt otimizados para cada modelo
    • Ideias futuras incluem cálculo de classificação ELO por votação pública, comparação lado a lado entre dois modelos e prompts enviados pela comunidade

1 comentários

 
GN⁺ 2023-09-10
Comentários do Hacker News
  • Um usuário criou um harness genérico para executar benchmarks em vários modelos de linguagem (Language Learning Models, LLMs), incentivando outras pessoas a testar os modelos com seus próprios dados. A biblioteca oferece suporte a modelos da OpenAI, Anthropic, Google, Llama, Codellama, Replicate e Ollama.
  • O AI Playground da Vercel é destacado como uma ferramenta útil para fazer perguntas a vários LLMs ao mesmo tempo, mas atualmente suporta apenas 24, e não 60.
  • A forma de benchmarking de LLMs no artigo é elogiada por ser mais realista do que métodos tradicionais, como passar em exames. No entanto, surgem preocupações sobre a possibilidade de as perguntas fazerem parte do conjunto de treinamento e distorcerem os resultados.
  • Foram encontradas diferenças nas respostas dos LLMs a perguntas sobre relações familiares, e um usuário relatou que o GPT-4 respondeu corretamente a uma pergunta que, segundo o artigo, todos os LLMs erraram.
  • O Falcon Instruct (40B) é destacado de forma bem-humorada como "o modelo mais engraçado" por causa de uma piada sobre férias.
  • Benchmarks adicionais para LLMs são sugeridos, incluindo "TheoremQA: conjunto de dados de perguntas e respostas [STEM] baseado em teoremas" e "Awesome-legal-nlp".
  • O ChatGPT 3.5 é criticado por respostas prolixas, com um usuário observando que ele frequentemente fornece explicações desnecessariamente longas.
  • Admirando o avanço da IA, um usuário menciona a capacidade dos LLMs de gerar "haicais éticos e não sexuais a favor e contra o Kubernetes".
  • Surgem dúvidas sobre o desempenho do modelo CodeLlama, com um usuário relatando resultados muito melhores do que os listados no artigo.
  • Apesar do interesse por LLMs, alguns usuários expressam decepção com a qualidade das respostas dos modelos, especialmente em perguntas sobre teoria musical, e questionam se esses modelos vão realmente melhorar de forma significativa ao longo do tempo.