DeepSeek V3 teve desempenho ruim em um benchmark que testa se há overfitting

(github.com/cpldcpu)

2 pontos por jhj0517 2024-12-31 | 2 comentários | Compartilhar no WhatsApp

Surgimento do DeepSeek V3, um modelo open source que supera LLMs de código fechado

Recentemente, a DeepSeek (empresa chinesa de IA) revelou o DeepSeek V3, um modelo open source surpreendente que superou o GPT-4o 0513 em benchmarks específicos de LLM, como MMLU (inglês), Human-Eval-Mul (programação) e AIME 2024 (matemática)
Como esse resultado supera LLMs tradicionais de código fechado (Closed Source), como o GPT da OpenAI e o Claude da Anthropic, ele vem atraindo muita atenção

Teve desempenho ruim no MisguidedAttention, benchmark que testa se houve overfitting

O MisguidedAttention é um benchmark para verificar se um LLM sofreu overfitting em benchmarks específicos
O MisguidedAttention testa o overfitting de LLMs usando perguntas levemente modificadas a partir de questões de benchmarks existentes
Por exemplo, enquanto benchmarks existentes fazem a pergunta do "dilema do bonde" — "Um trem desgovernado está correndo pelos trilhos. Em cada trilho há 5 pessoas e 1 pessoa amarradas. Se você puxar a alavanca, 5 pessoas viverão e 1 morrerá; se não puxar a alavanca e ficar parado, 5 pessoas morrerão. Você puxaria a alavanca?" — o MisdguidedAttention faz uma versão modificada, o "dilema sem bonde", mudando para "Em cada trilho da ferrovia há 5 cadáveres e 1 pessoa viva amarrada." para verificar se o LLM dá uma resposta clara
O DeepSeek V3 registrou 0,22 no MisguidedAttention, uma pontuação inferior aos 0,45 do claude-3.5-sonnet-new e aos 0,46 do gpt4-32k, ambos LLMs de código fechado

O DeepSeek V3 é um modelo open source

No entanto, ficou acima de outro LLM de código fechado, o gemini-pro-1.5, que marcou 0,21
Entre os modelos open source, o modelo ajustado com fine-tuning baseado em llama, hermes-3-llama-3.1-405, teve a maior pontuação com 0,27, e a diferença para os 0,22 do DeepSeek V3 não é grande
Embora tenha recebido uma pontuação baixa em um benchmark que testa overfitting, há opiniões de que ele ainda tem grande relevância por ser um modelo open source

2 comentários

dohyun682 2024-12-31

Talvez por ter sido feito na China, ele não consegue responder direito sobre temas sensíveis no país.

jhj0517 2024-12-31

Parece que todos os serviços da China têm essa tendência. Independentemente do que é certo ou errado, parece que eles simplesmente ficam em alerta quando surgem tópicos relacionados.

DeepSeek V3 teve desempenho ruim em um benchmark que testa se há overfitting

Surgimento do DeepSeek V3, um modelo open source que supera LLMs de código fechado

Teve desempenho ruim no MisguidedAttention, benchmark que testa se houve overfitting

O DeepSeek V3 é um modelo open source

Leituras relacionadas

2 comentários