7 pontos por qwopqwop200 2025-04-06 | Ainda não há comentários. | Compartilhar no WhatsApp

Leaderboard / Código / Dataset

A preferência humana é um dos indicadores importantes para avaliar o desempenho de LLMs.
No entanto, medir a preferência humana é muito difícil e caro.
Existem soluções para esse problema usando LLM-as-a-Judge, como MT-Bench e Arena-Hard-Auto.
Mas esses benchmarks anteriores foram feitos para o inglês.

Claro, também há bons benchmarks em coreano, como KoMT-Bench, LogicKor e Horangi.

No entanto, os benchmarks existentes são baseados no MT-Bench, e o MT-Bench é conhecido por ter menor correlação com a preferência humana e menor poder de discriminação em comparação com o Arena-Hard-Auto.

Para resolver esse problema, o ko-arena-hard-auto é baseado no Arena-Hard-Auto
e usa 500 perguntas difíceis e desafiadoras do Arena-Hard-Auto, traduzidas para o coreano.
A tradução foi feita com GPT-4o e o1 e revisada manualmente.

Além disso, ele difere bastante do Arena-Hard-Auto original em três pontos principais.

  1. Usa um prompt de sistema para o judge que leva em conta code mixing e code switching.
  2. Usa gemini-2.0-flash, gpt-4o-mini e deepseek-chat-v3-0324 como modelos judge e faz ensemble entre eles. Isso reduz o viés de autpreferência e permite medir o desempenho a um custo menor do que o Arena-Hard-Auto original.
  3. O modelo baseline é o claude-3.7-sonnet. Considerando a elevação geral do desempenho dos LLMs, foi definido como baseline um LLM forte, o claude-3.7-sonnet.

Os resultados do benchmarking podem ser vistos em: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html

Código: https://github.com/qwopqwop200/ko-arena-hard-auto
Dataset: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1

Ainda não há comentários.

Ainda não há comentários.