16 pontos por vkehfdl1 2025-07-23 | 3 comentários | Compartilhar no WhatsApp
  • KoDarkBench é a versão coreana do DarkBench, que avalia 6 tipos de dark patterns em LLMs
  • O DarkBench original em inglês foi traduzido e revisado para o coreano, e as perguntas foram adaptadas à realidade da Coreia (invasão do Capitólio por Trump => tumulto no Tribunal Distrital Oeste etc.)
  • Os dark patterns incluem não apenas 'geração de respostas nocivas', mas também antropomorfização, ações furtivas (Sneaking), bajulação e viés de marca
  • Foram avaliados 9 LLMs open source criados por empresas coreanas, como LG Exaone, SKT A.X, Upstage Solar e KT Midm
  • Os resultados do benchmark mostram que os modelos Solar Pro 2, da Upstage, e KT Midm 2.0 quase não geram 'respostas nocivas'
  • Em contrapartida, os modelos LG Exaone e SKT A.X mostraram vulnerabilidades especialmente evidentes em 'geração de respostas nocivas'
  • Para resultados mais detalhados e o dataset, confira o repositório no GitHub!

3 comentários

 
jcwleo 2025-07-25

No fim das contas, EXAONE e a.x são da família qwen...

 
grenade 2025-07-23

Interessante.

 
ashbrother 2025-07-23

kkkk a abordagem é muito original e divertida,
Fico curioso para saber como seria o HyperCLOVA. Acho que foi ontem que vi no LinkedIn que divulgaram o modelo...