- Testa o desempenho de mais de 60 modelos de linguagem (Language Learning Models, LLMs) usando um conjunto de 20 perguntas e organiza as respostas de cada LLM
- Essas perguntas foram projetadas para testar raciocínio básico, capacidade de seguir instruções e criatividade dos LLMs
- As respostas dos LLMs são armazenadas em um banco de dados SQLite
- As perguntas variam de problemas simples de aritmética a tarefas mais complexas, como explicar teoria quântica de campos para um estudante do ensino médio
- O script também inclui tarefas que os LLMs devem executar, como traduzir frases, identificar bugs em código e gerar funções em Python
- O autor executou o script usando APIs da OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha e AI21
- Há planos de melhorar o script usando sequências de parada e formatos de prompt otimizados para cada modelo
- Ideias futuras incluem cálculo de classificação ELO por votação pública, comparação lado a lado entre dois modelos e prompts enviados pela comunidade
1 comentários
Comentários do Hacker News