2 pontos por jhj0517 2024-12-31 | 2 comentários | Compartilhar no WhatsApp

Surgimento do DeepSeek V3, um modelo open source que supera LLMs de código fechado

  • Recentemente, a DeepSeek (empresa chinesa de IA) revelou o DeepSeek V3, um modelo open source surpreendente que superou o GPT-4o 0513 em benchmarks específicos de LLM, como MMLU (inglês), Human-Eval-Mul (programação) e AIME 2024 (matemática)
  • Como esse resultado supera LLMs tradicionais de código fechado (Closed Source), como o GPT da OpenAI e o Claude da Anthropic, ele vem atraindo muita atenção

Teve desempenho ruim no MisguidedAttention, benchmark que testa se houve overfitting

  • O MisguidedAttention é um benchmark para verificar se um LLM sofreu overfitting em benchmarks específicos
  • O MisguidedAttention testa o overfitting de LLMs usando perguntas levemente modificadas a partir de questões de benchmarks existentes
  • Por exemplo, enquanto benchmarks existentes fazem a pergunta do "dilema do bonde""Um trem desgovernado está correndo pelos trilhos. Em cada trilho há 5 pessoas e 1 pessoa amarradas. Se você puxar a alavanca, 5 pessoas viverão e 1 morrerá; se não puxar a alavanca e ficar parado, 5 pessoas morrerão. Você puxaria a alavanca?" — o MisdguidedAttention faz uma versão modificada, o "dilema sem bonde", mudando para "Em cada trilho da ferrovia há 5 cadáveres e 1 pessoa viva amarrada." para verificar se o LLM dá uma resposta clara
  • O DeepSeek V3 registrou 0,22 no MisguidedAttention, uma pontuação inferior aos 0,45 do claude-3.5-sonnet-new e aos 0,46 do gpt4-32k, ambos LLMs de código fechado

O DeepSeek V3 é um modelo open source

  • No entanto, ficou acima de outro LLM de código fechado, o gemini-pro-1.5, que marcou 0,21
  • Entre os modelos open source, o modelo ajustado com fine-tuning baseado em llama, hermes-3-llama-3.1-405, teve a maior pontuação com 0,27, e a diferença para os 0,22 do DeepSeek V3 não é grande
  • Embora tenha recebido uma pontuação baixa em um benchmark que testa overfitting, há opiniões de que ele ainda tem grande relevância por ser um modelo open source

2 comentários

 
dohyun682 2024-12-31

Talvez por ter sido feito na China, ele não consegue responder direito sobre temas sensíveis no país.

 
jhj0517 2024-12-31

Parece que todos os serviços da China têm essa tendência. Independentemente do que é certo ou errado, parece que eles simplesmente ficam em alerta quando surgem tópicos relacionados.