ko-arena-hard-auto: benchmark para medir o desempenho de LLMs em coreano
(github.com/qwopqwop200)Leaderboard / Código / Dataset
A preferência humana é um dos indicadores importantes para avaliar o desempenho de LLMs.
No entanto, medir a preferência humana é muito difícil e caro.
Existem soluções para esse problema usando LLM-as-a-Judge, como MT-Bench e Arena-Hard-Auto.
Mas esses benchmarks anteriores foram feitos para o inglês.
Claro, também há bons benchmarks em coreano, como KoMT-Bench, LogicKor e Horangi.
No entanto, os benchmarks existentes são baseados no MT-Bench, e o MT-Bench é conhecido por ter menor correlação com a preferência humana e menor poder de discriminação em comparação com o Arena-Hard-Auto.
Para resolver esse problema, o ko-arena-hard-auto é baseado no Arena-Hard-Auto
e usa 500 perguntas difíceis e desafiadoras do Arena-Hard-Auto, traduzidas para o coreano.
A tradução foi feita com GPT-4o e o1 e revisada manualmente.
Além disso, ele difere bastante do Arena-Hard-Auto original em três pontos principais.
- Usa um prompt de sistema para o judge que leva em conta code mixing e code switching.
- Usa
gemini-2.0-flash,gpt-4o-miniedeepseek-chat-v3-0324como modelos judge e faz ensemble entre eles. Isso reduz o viés de autpreferência e permite medir o desempenho a um custo menor do que o Arena-Hard-Auto original. - O modelo baseline é o
claude-3.7-sonnet. Considerando a elevação geral do desempenho dos LLMs, foi definido como baseline um LLM forte, oclaude-3.7-sonnet.
Os resultados do benchmarking podem ser vistos em: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html
Código: https://github.com/qwopqwop200/ko-arena-hard-auto
Dataset: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1
Ainda não há comentários.