Leaderboard de benchmark de LLM para a prova de Língua Coreana do CSAT está aberto
(github.com/minsing-jin)- Na prova de Língua Coreana do CSAT 2024, o
o1-previewalcançou nota de 1º nível (88 pontos, top 4%) - O
gpt-4oestá atualmente em 1º lugar, comllama-3.1-405B-instructem 2º eQwen-2.5-72Bem 3º- Tirando o
gpt o1-preview, os demais ainda estão girando em torno dos níveis 3 a 4 - Dá para ver que muitos modelos ainda têm dificuldade para alcançar o desempenho humano na área de linguagem em coreano.
- Tirando o
- O desempenho dos LLMs é avaliado usando, a cada ano, um novo conjunto de dados de alta qualidade da prova de Língua Coreana do CSAT
- Textos de várias áreas (humanidades, sociedade, ciência, tecnologia, artes), literatura, fala e redação
- Assim como no exame real, são usados a pontuação padronizada e o sistema de classificação por níveis para comparar o desempenho humano e o dos LLMs
- É possível solicitar benchmark do seu modelo finetuned no Hugging Face ou de algum modelo sobre o qual você tenha curiosidade: link
Abrimos o leaderboard de benchmark de LLM para a prova de Língua Coreana do CSAT!
Este leaderboard mede a capacidade linguística em coreano dos LLMs com base em questões de alta qualidade da prova de Língua Coreana do CSAT. Ele aplica a pontuação padronizada e o método de cálculo de níveis do exame para oferecer um leaderboard que permite comparar o desempenho dos modelos com o desempenho humano, e foi criado para compartilhar essas informações com outras pessoas.
Feedback é sempre bem-vindo!
Ex.:
-
No momento, estamos com escassez de recursos de GPU para avaliar os modelos! Se alguém puder fazer uma doação de GPU, ficaremos realmente muito gratos!
-
Por causa do custo de API, ainda não foi possível testar com
o1-preview; assim que a versão oficial doo1sair, planejamos fazer o teste.
10 comentários
Então chamam o Suneung de CSAT.
Os textos de coreano também têm imagens, então fiquei curioso por que não foi feito de forma multimodal?
Obrigado pelo interesse no leaderboard!
O primeiro motivo foi a questão do custo. Na época em que produzimos os dados do CSAT, o GPT-4 Turbo havia sido lançado no ano passado, então o custo de criar os dados de 10 anos do CSAT era alto.
O segundo motivo foi que, para resolver as questões do CSAT, era necessário incluir na descrição todas as pistas, inclusive as informações visuais. No entanto, havia limitações ao usar multimodal, então nós mesmos acabamos escrevendo as descrições das imagens.
Interessante! Enquanto olhava o leaderboard, surgiram algumas dúvidas, e eu agradeceria se vocês pudessem responder.
Meu palpite é que o tempo gasto seria bem menor que 80 minutos e que, mesmo em uma prova fácil, a pontuação absoluta seria parecida, mas fiquei curioso para saber como isso acontece na prática.
Muito obrigado pelo grande interesse no leaderboard de benchmark de LLM para a seção de língua coreana do CSAT! Respondendo às perguntas:
Por exemplo, no caso do
gpt-4o, foi possível confirmar que ele obteve notas melhores nas provas mais fáceis do CSAT entre 2015 e 2018, quando a pontuação padronizada máxima ficou na faixa dos 130 pontos, e que a classificação também saiu melhor do que nas provas mais difíceis de outros anos.Por outro lado, no caso do modelo
meta llama 3.1 70B, embora ele tenha recebido classificações mais baixas e pontuações padronizadas menores nas provas do CSAT entre 2015 e 2018, houve casos em que obteve nível 3 no CSAT de 2022, quando a pontuação padronizada máxima chegou à faixa de 149 pontos.Se você tiver mais alguma dúvida ou se houver alguma explicação que eu deva complementar, fique à vontade para falar a qualquer momento!
Oh... então cada modelo tem tendências um pouco diferentes, né? Parece mesmo uma pessoa. Obrigado pela explicação detalhada!
Sobre o item 1,
no fim das contas, como são 45 questões objetivas de cinco alternativas, parece que ele vai resolver 1 token (1,2,3,4,5) para 45 amostras (entradas) em algumas centenas de segundos, no máximo.
É curioso e divertido ver a IA recebendo uma nota no ENEM de coreano.
É irônico que seja um benchmark do CSAT de língua coreana, mas o README esteja em inglês.
Em coreano, acho que não existe um conjunto de dados de benchmark open source de alta qualidade desse nível, né? kkk