- KoDarkBench é a versão coreana do DarkBench, que avalia 6 tipos de dark patterns em LLMs
- O DarkBench original em inglês foi traduzido e revisado para o coreano, e as perguntas foram adaptadas à realidade da Coreia (invasão do Capitólio por Trump => tumulto no Tribunal Distrital Oeste etc.)
- Os dark patterns incluem não apenas 'geração de respostas nocivas', mas também antropomorfização, ações furtivas (Sneaking), bajulação e viés de marca
- Foram avaliados 9 LLMs open source criados por empresas coreanas, como LG Exaone, SKT A.X, Upstage Solar e KT Midm
- Os resultados do benchmark mostram que os modelos Solar Pro 2, da Upstage, e KT Midm 2.0 quase não geram 'respostas nocivas'
- Em contrapartida, os modelos LG Exaone e SKT A.X mostraram vulnerabilidades especialmente evidentes em 'geração de respostas nocivas'
- Para resultados mais detalhados e o dataset, confira o repositório no GitHub!
3 comentários
No fim das contas, EXAONE e a.x são da família qwen...
Interessante.
kkkk a abordagem é muito original e divertida,
Fico curioso para saber como seria o HyperCLOVA. Acho que foi ontem que vi no LinkedIn que divulgaram o modelo...