Surgimento do DeepSeek V3, um modelo open source que supera LLMs de código fechado
- Recentemente, a DeepSeek (empresa chinesa de IA) revelou o DeepSeek V3, um modelo open source surpreendente que superou o GPT-4o 0513 em benchmarks específicos de LLM, como MMLU (inglês), Human-Eval-Mul (programação) e AIME 2024 (matemática)
- Como esse resultado supera LLMs tradicionais de código fechado (Closed Source), como o GPT da OpenAI e o Claude da Anthropic, ele vem atraindo muita atenção
Teve desempenho ruim no MisguidedAttention, benchmark que testa se houve overfitting
- O MisguidedAttention é um benchmark para verificar se um LLM sofreu overfitting em benchmarks específicos
- O MisguidedAttention testa o overfitting de LLMs usando perguntas levemente modificadas a partir de questões de benchmarks existentes
- Por exemplo, enquanto benchmarks existentes fazem a pergunta do "dilema do bonde" — "Um trem desgovernado está correndo pelos trilhos. Em cada trilho há 5 pessoas e 1 pessoa amarradas. Se você puxar a alavanca, 5 pessoas viverão e 1 morrerá; se não puxar a alavanca e ficar parado, 5 pessoas morrerão. Você puxaria a alavanca?" — o MisdguidedAttention faz uma versão modificada, o "dilema sem bonde", mudando para "Em cada trilho da ferrovia há 5 cadáveres e 1 pessoa viva amarrada." para verificar se o LLM dá uma resposta clara
- O DeepSeek V3 registrou 0,22 no MisguidedAttention, uma pontuação inferior aos 0,45 do claude-3.5-sonnet-new e aos 0,46 do gpt4-32k, ambos LLMs de código fechado
O DeepSeek V3 é um modelo open source
- No entanto, ficou acima de outro LLM de código fechado, o gemini-pro-1.5, que marcou 0,21
- Entre os modelos open source, o modelo ajustado com fine-tuning baseado em llama,
hermes-3-llama-3.1-405, teve a maior pontuação com 0,27, e a diferença para os 0,22 do DeepSeek V3 não é grande
- Embora tenha recebido uma pontuação baixa em um benchmark que testa overfitting, há opiniões de que ele ainda tem grande relevância por ser um modelo open source
2 comentários
Talvez por ter sido feito na China, ele não consegue responder direito sobre temas sensíveis no país.
Parece que todos os serviços da China têm essa tendência. Independentemente do que é certo ou errado, parece que eles simplesmente ficam em alerta quando surgem tópicos relacionados.