5 pontos por ironman0722 2024-11-19 | 1 comentários | Compartilhar no WhatsApp
  • No Suneung 2025, na prova de língua coreana, o O1-Preview registrou um resultado impressionante de 97 pontos
    • Errou a questão 8 (3 pontos), de texto não literário
      • Escolheu a alternativa 3, que estava incorreta, devido a um erro de lógica
  • Para quem quiser saber mais sobre o processo de benchmark, também organizei em um blog o processo experimental e conteúdos adicionais, então vale a pena conferir!
  • Resultados dos modelos GPT no benchmark de LLM para a prova de língua coreana do Suneung 2025
    🥇 1st. o1-Preview: 97 pontos (nível 1)
    🥈 2nd. o1-mini: 78 pontos (nível 4)
    🥉 3rd. gpt-4o: 75 pontos (nível 4): gpt-4o
    4th. gpt-4o-mini: 59 pontos (nível 5)
    5th. gpt-3.5-turbo: 16 pontos (nível 8)
  • Objetivos do projeto de leaderboard de benchmark de LLM para o Suneung
    1. Compartilhar informações de benchmark que permitam comparar o desempenho humano com o desempenho de LLMs
    2. Um conjunto de dados de benchmark cuidadosamente selecionado pelo KICE, a instituição de avaliação mais confiável da Coreia para medir proficiência em língua coreana
    3. Evitar data leakage com um novo conjunto de dados de benchmark da prova de língua coreana do Suneung, atualizado todos os anos
    4. Fazer com que LLMs open source, não dependentes de um país ou empresa específica, alcancem o nível 1 no Suneung coreano

  • Este projeto foi conduzido pela Markr.AI.
  • Este benchmark foi realizado com o uso do open source AutoRAG!
  • Foi atualizado no leaderboard um tutorial para fazer benchmark da prova de língua coreana do Suneung 2023!
  • Se tiver qualquer dúvida, entre em contato a qualquer momento!

1 comentários

 
ironman0722 2024-11-22

O link do blog foi cortado! Vou postar de novo nos comentários! https://velog.io/@minsing-jin/…