- No Suneung 2025, na prova de língua coreana, o O1-Preview registrou um resultado impressionante de 97 pontos
- Errou a questão 8 (3 pontos), de texto não literário
- Escolheu a alternativa 3, que estava incorreta, devido a um erro de lógica
- Para quem quiser saber mais sobre o processo de benchmark, também organizei em um blog o processo experimental e conteúdos adicionais, então vale a pena conferir!
- Resultados dos modelos GPT no benchmark de LLM para a prova de língua coreana do Suneung 2025
🥇 1st. o1-Preview: 97 pontos (nível 1)
🥈 2nd. o1-mini: 78 pontos (nível 4)
🥉 3rd. gpt-4o: 75 pontos (nível 4): gpt-4o
4th. gpt-4o-mini: 59 pontos (nível 5)
5th. gpt-3.5-turbo: 16 pontos (nível 8)
- Objetivos do projeto de leaderboard de benchmark de LLM para o Suneung
- Compartilhar informações de benchmark que permitam comparar o desempenho humano com o desempenho de LLMs
- Um conjunto de dados de benchmark cuidadosamente selecionado pelo KICE, a instituição de avaliação mais confiável da Coreia para medir proficiência em língua coreana
- Evitar data leakage com um novo conjunto de dados de benchmark da prova de língua coreana do Suneung, atualizado todos os anos
- Fazer com que LLMs open source, não dependentes de um país ou empresa específica, alcancem o nível 1 no Suneung coreano
- Este projeto foi conduzido pela Markr.AI.
- Este benchmark foi realizado com o uso do open source AutoRAG!
- Foi atualizado no leaderboard um tutorial para fazer benchmark da prova de língua coreana do Suneung 2023!
- Se tiver qualquer dúvida, entre em contato a qualquer momento!
1 comentários
O link do blog foi cortado! Vou postar de novo nos comentários! https://velog.io/@minsing-jin/…