25 pontos por ironman0722 2024-10-18 | 10 comentários | Compartilhar no WhatsApp
  • Na prova de Língua Coreana do CSAT 2024, o o1-preview alcançou nota de 1º nível (88 pontos, top 4%)
  • O gpt-4o está atualmente em 1º lugar, com llama-3.1-405B-instruct em 2º e Qwen-2.5-72B em 3º
    • Tirando o gpt o1-preview, os demais ainda estão girando em torno dos níveis 3 a 4
    • Dá para ver que muitos modelos ainda têm dificuldade para alcançar o desempenho humano na área de linguagem em coreano.
  • O desempenho dos LLMs é avaliado usando, a cada ano, um novo conjunto de dados de alta qualidade da prova de Língua Coreana do CSAT
    • Textos de várias áreas (humanidades, sociedade, ciência, tecnologia, artes), literatura, fala e redação
  • Assim como no exame real, são usados a pontuação padronizada e o sistema de classificação por níveis para comparar o desempenho humano e o dos LLMs
  • É possível solicitar benchmark do seu modelo finetuned no Hugging Face ou de algum modelo sobre o qual você tenha curiosidade: link

Abrimos o leaderboard de benchmark de LLM para a prova de Língua Coreana do CSAT!

Este leaderboard mede a capacidade linguística em coreano dos LLMs com base em questões de alta qualidade da prova de Língua Coreana do CSAT. Ele aplica a pontuação padronizada e o método de cálculo de níveis do exame para oferecer um leaderboard que permite comparar o desempenho dos modelos com o desempenho humano, e foi criado para compartilhar essas informações com outras pessoas.

Feedback é sempre bem-vindo!

Ex.:

  • No momento, estamos com escassez de recursos de GPU para avaliar os modelos! Se alguém puder fazer uma doação de GPU, ficaremos realmente muito gratos!

  • Por causa do custo de API, ainda não foi possível testar com o1-preview; assim que a versão oficial do o1 sair, planejamos fazer o teste.

10 comentários

 
roxie 2024-10-24

Então chamam o Suneung de CSAT.

 
doolayer 2024-10-21

Os textos de coreano também têm imagens, então fiquei curioso por que não foi feito de forma multimodal?

 
ironman0722 2024-10-21

Obrigado pelo interesse no leaderboard!

O primeiro motivo foi a questão do custo. Na época em que produzimos os dados do CSAT, o GPT-4 Turbo havia sido lançado no ano passado, então o custo de criar os dados de 10 anos do CSAT era alto.

O segundo motivo foi que, para resolver as questões do CSAT, era necessário incluir na descrição todas as pistas, inclusive as informações visuais. No entanto, havia limitações ao usar multimodal, então nós mesmos acabamos escrevendo as descrições das imagens.

 
ilotoki0804 2024-10-18

Interessante! Enquanto olhava o leaderboard, surgiram algumas dúvidas, e eu agradeceria se vocês pudessem responder.

  1. Ao usar um LLM, quanto tempo leva para resolver a prova inteira? No caso de Língua Coreana do CSAT, há um limite de 80 minutos (incluindo o tempo de marcação no OMR), então fiquei curioso sobre quanto tempo o LLM leva para resolver todas as questões.
  2. Mesmo fazendo uma prova fácil, ele ficaria na mesma faixa de nota? Levando ao extremo, neste simulado de setembro a nota de corte para o nível 1 foi 100 pontos de tão fácil que estava; então fico curioso se, mesmo fazendo esse simulado, ele conseguiria obter uma classificação parecida com a que teria em outros simulados.

Meu palpite é que o tempo gasto seria bem menor que 80 minutos e que, mesmo em uma prova fácil, a pontuação absoluta seria parecida, mas fiquei curioso para saber como isso acontece na prática.

 
ironman0722 2024-10-21

Muito obrigado pelo grande interesse no leaderboard de benchmark de LLM para a seção de língua coreana do CSAT! Respondendo às perguntas:

  1. Levou de 10 minutos no mínimo a cerca de 25 minutos no máximo.
  2. Observando apenas os resultados, parece difícil generalizar, porque há modelos em que o nível de dificuldade da prova influencia até certo ponto a resolução das questões pelo LLM, e há outros em que isso não acontece.

Por exemplo, no caso do gpt-4o, foi possível confirmar que ele obteve notas melhores nas provas mais fáceis do CSAT entre 2015 e 2018, quando a pontuação padronizada máxima ficou na faixa dos 130 pontos, e que a classificação também saiu melhor do que nas provas mais difíceis de outros anos.
Por outro lado, no caso do modelo meta llama 3.1 70B, embora ele tenha recebido classificações mais baixas e pontuações padronizadas menores nas provas do CSAT entre 2015 e 2018, houve casos em que obteve nível 3 no CSAT de 2022, quando a pontuação padronizada máxima chegou à faixa de 149 pontos.

Se você tiver mais alguma dúvida ou se houver alguma explicação que eu deva complementar, fique à vontade para falar a qualquer momento!

 
ilotoki0804 2024-10-21

Oh... então cada modelo tem tendências um pouco diferentes, né? Parece mesmo uma pessoa. Obrigado pela explicação detalhada!

 
doolayer 2024-10-21

Sobre o item 1,
no fim das contas, como são 45 questões objetivas de cinco alternativas, parece que ele vai resolver 1 token (1,2,3,4,5) para 45 amostras (entradas) em algumas centenas de segundos, no máximo.

 
savvykang 2024-10-18

É curioso e divertido ver a IA recebendo uma nota no ENEM de coreano.

 
mammal 2024-10-18

É irônico que seja um benchmark do CSAT de língua coreana, mas o README esteja em inglês.

 
ng0301 2024-10-18

Em coreano, acho que não existe um conjunto de dados de benchmark open source de alta qualidade desse nível, né? kkk