14 pontos por libner 2024-03-29 | 3 comentários | Compartilhar no WhatsApp

Dizem que este é um benchmark de modelos de linguagem em coreano, criado com inspiração no MT-Bench, um benchmark do universo de língua inglesa composto por 10 perguntas em cada uma de 8 categorias.
A pessoa criadora comenta que o desenvolveu ao perceber limitações nos benchmarks atualmente usados para modelos de linguagem em coreano.

Abaixo está um trecho citado do texto da pessoa autora sobre o benchmark LogicKor.


Dividimos, da seguinte forma, 6 temas que permitem avaliar a capacidade de raciocínio de modelos em coreano.  
Raciocínio (Reasoning) - pensamento lógico, resolução de problemas  
Matemática (Math) - conceitos matemáticos, cálculo  
Escrita (Writing) - coesão entre frases, criatividade  
Coding (Coding) - conhecimento de programação, implementação de funcionalidades  
Compreensão (Understanding) - compreensão de texto, extração de informações, cumprimento de instruções  
Gramática (Grammar) - ortografia coreana, regras padrão de pronúncia  
  
E, para cada tema, criamos 7 perguntas multi-turn.

3 comentários

 
skymer 2024-03-29

Não há muita explicação no repositório; você poderia anexar também o link do texto que citou?

 
libner 2024-03-29

Como é uma publicação que apareceu em um site de comunidade, a escolha das palavras pode ser um pouco forte... então, preocupado que a seção de comentários pudesse acabar virando um problema, eu não tinha colocado o link da publicação.
Aqui está o endereço dessa publicação: https://arca.live/b/alpaca/102052014

 
skymer 2024-03-29

Obrigado! Eu já tinha ficado com a impressão de que a Upstage estava divulgando resultados de benchmark bem suspeitos, então pelo visto não fui o único a pensar isso.. A performance percebida do ClovaX não parecia tão boa assim, mas entre os modelos coreanos ele está em 1º lugar.