o1-preview alcança 97 pontos na prova de língua coreana do Suneung 2025

ironman0722 · 2024-11-19T18:19:43+09:00

No Suneung 2025, na prova de língua coreana, o O1-Preview registrou um resultado impressionante de 97 pontos Errou a questão 8 (3 pontos), de texto não literário Escolheu a alternativa 3, que estava incorreta, devido a um erro de lógica Para quem quiser saber mais sobre o processo de benchmark, também organizei em um blog o processo experimental e conteúdos adicionais, então vale a pena conferir! Resultados dos modelos GPT no benchmark de LLM para a prova de língua coreana do Suneung 2025 🥇 1st. o1-Preview: 97 pontos (nível 1) 🥈 2nd. o1-mini: 78 pontos (nível 4) 🥉 3rd. gpt-4o: 75 pontos (nível 4): gpt-4o 4th. gpt-4o-mini: 59 pontos (nível 5) 5th. gpt-3.5-turbo: 16 pontos (nível 8) Objetivos do projeto de leaderboard de benchmark de LLM para o Suneung Compartilhar informações de benchmark que permitam comparar o desempenho humano com o desempenho de LLMs Um conjunto de dados de benchmark cuidadosamente selecionado pelo KICE, a instituição de avaliação mais confiável da Coreia para medir proficiência em língua coreana Evitar data leakage com um novo conjunto de dados de benchmark da prova de língua coreana do Suneung, atualizado todos os anos Fazer com que LLMs open source, não dependentes de um país ou empresa específica, alcancem o nível 1 no Suneung coreano Este projeto foi conduzido pela Markr.AI. Este benchmark foi realizado com o uso do open source AutoRAG! Foi atualizado no leaderboard um tutorial para fazer benchmark da prova de língua coreana do Suneung 2023! Se tiver qualquer dúvida, entre em contato a qualquer momento!

(velog.io)

5 pontos por ironman0722 2024-11-19 | 1 comentários | Compartilhar no WhatsApp

No Suneung 2025, na prova de língua coreana, o O1-Preview registrou um resultado impressionante de 97 pontos
- Errou a questão 8 (3 pontos), de texto não literário
  - Escolheu a alternativa 3, que estava incorreta, devido a um erro de lógica
Para quem quiser saber mais sobre o processo de benchmark, também organizei em um blog o processo experimental e conteúdos adicionais, então vale a pena conferir!
Resultados dos modelos GPT no benchmark de LLM para a prova de língua coreana do Suneung 2025
🥇 1st. o1-Preview: 97 pontos (nível 1)
🥈 2nd. o1-mini: 78 pontos (nível 4)
🥉 3rd. gpt-4o: 75 pontos (nível 4): gpt-4o
4th. gpt-4o-mini: 59 pontos (nível 5)
5th. gpt-3.5-turbo: 16 pontos (nível 8)
Objetivos do projeto de leaderboard de benchmark de LLM para o Suneung
1. Compartilhar informações de benchmark que permitam comparar o desempenho humano com o desempenho de LLMs
2. Um conjunto de dados de benchmark cuidadosamente selecionado pelo KICE, a instituição de avaliação mais confiável da Coreia para medir proficiência em língua coreana
3. Evitar data leakage com um novo conjunto de dados de benchmark da prova de língua coreana do Suneung, atualizado todos os anos
4. Fazer com que LLMs open source, não dependentes de um país ou empresa específica, alcancem o nível 1 no Suneung coreano

Este projeto foi conduzido pela Markr.AI.
Este benchmark foi realizado com o uso do open source AutoRAG!
Foi atualizado no leaderboard um tutorial para fazer benchmark da prova de língua coreana do Suneung 2023!
Se tiver qualquer dúvida, entre em contato a qualquer momento!

1 comentários

ironman0722 2024-11-22

O link do blog foi cortado! Vou postar de novo nos comentários! https://velog.io/@minsing-jin/…

o1-preview alcança 97 pontos na prova de língua coreana do Suneung 2025

Leituras relacionadas

1 comentários