LogicKor: benchmark de raciocínio multidisciplinar para modelos de linguagem em coreano
(github.com/StableFluffy)Dizem que este é um benchmark de modelos de linguagem em coreano, criado com inspiração no MT-Bench, um benchmark do universo de língua inglesa composto por 10 perguntas em cada uma de 8 categorias.
A pessoa criadora comenta que o desenvolveu ao perceber limitações nos benchmarks atualmente usados para modelos de linguagem em coreano.
Abaixo está um trecho citado do texto da pessoa autora sobre o benchmark LogicKor.
Dividimos, da seguinte forma, 6 temas que permitem avaliar a capacidade de raciocínio de modelos em coreano.
Raciocínio (Reasoning) - pensamento lógico, resolução de problemas
Matemática (Math) - conceitos matemáticos, cálculo
Escrita (Writing) - coesão entre frases, criatividade
Coding (Coding) - conhecimento de programação, implementação de funcionalidades
Compreensão (Understanding) - compreensão de texto, extração de informações, cumprimento de instruções
Gramática (Grammar) - ortografia coreana, regras padrão de pronúncia
E, para cada tema, criamos 7 perguntas multi-turn.
3 comentários
Não há muita explicação no repositório; você poderia anexar também o link do texto que citou?
Como é uma publicação que apareceu em um site de comunidade, a escolha das palavras pode ser um pouco forte... então, preocupado que a seção de comentários pudesse acabar virando um problema, eu não tinha colocado o link da publicação.
Aqui está o endereço dessa publicação: https://arca.live/b/alpaca/102052014
Obrigado! Eu já tinha ficado com a impressão de que a Upstage estava divulgando resultados de benchmark bem suspeitos, então pelo visto não fui o único a pensar isso.. A performance percebida do ClovaX não parecia tão boa assim, mas entre os modelos coreanos ele está em 1º lugar.