- A DeepSeek lançou seu modelo flagship v3
- Um modelo Mixture-of-Experts (MoE) com 607B parâmetros, dos quais 37B ficam ativos
- O v3 supera Llama 3.1 405B, Qwen e Mistral, e se iguala ao OpenAI GPT-4o e ao Claude 3.5 Sonnet ou os supera em tarefas específicas
- Este é o primeiro modelo aberto a competir com os principais modelos fechados
TL;DR
- O DeepSeek v3 alcança desempenho impressionante com baixo custo
- O modelo oferece excelente custo-benefício e domina os concorrentes em desempenho por custo
- Introduz inovações de engenharia como arquitetura MoE, treinamento em precisão mista FP8 e o framework HAI-LLM
- Supera GPT-4o e Claude 3.5 Sonnet em matemática e raciocínio
- Em tarefas de código e criação, o Claude 3.5 Sonnet tem uma leve vantagem
Explicação do DeepSeek v3
- Pré-treinado com 14,8 trilhões de dados de alta qualidade
- O custo de treinamento foi de apenas $6m (8,7 bilhões de won). Foram necessárias cerca de 2,78 milhões de GPU-horas em um cluster de Nvidia h800s (2048 GPUs)
- Comparação: o Llama 403B da Meta exigiu cerca de 30,84 milhões de GPU-horas com 15 trilhões de tokens. Custou cerca de 11 vezes mais
- Com nova arquitetura de modelo e otimizações, mostrou desempenho mais forte usando menos recursos
- Um contexto importante: os EUA proibiram empresas chinesas de adquirir GPUs NVIDIA
- Análise de Andrej Karpathy
- Em geral, LLMs de ponta dependem de clusters de 16K~100K GPUs, mas a DeepSeek alcançou resultados equivalentes com muito menos recursos
- Mostra que é possível reduzir o custo computacional por meio de otimização de dados e algoritmos
- O DeepSeek-V3 está tendo bom desempenho em testes de ranking de LLMs e também mostrou ótimos resultados em testes iniciais
- Um caso que demonstra pesquisa e engenharia bem-sucedidas mesmo em ambientes com recursos limitados
- Isso não significa que grandes clusters de GPU sejam desnecessários, mas destaca a importância de minimizar o desperdício de recursos
- Comprova o potencial de inovação em arquitetura de modelo, framework de treinamento e uso de dados
- A DeepSeek também publicou um relatório técnico detalhado, oferecendo material valioso para analisar sua metodologia e seus resultados técnicos
- Tim Dettmers, conhecido como autor do paper QLoRA, elogiou fortemente a capacidade de engenharia da DeepSeek
"Depois de ler o relatório técnico, vi uma capacidade de engenharia impressionante mesmo sob restrições de recursos.
A equipe da DeepSeek projetou diretamente soluções para problemas conhecidos sob limitações de hardware.
Tudo é muito limpo e elegante. É um resultado alcançado com engenharia pura e sólida, sem truques 'acadêmicos' chamativos. Respeito."
O modelo mais barato e com ótimo desempenho
- O DeepSeek v3 é atualmente o modelo mais barato considerando suas capacidades
- Emad Mostaque, fundador da Stability AI, comentou sobre o custo operacional e a eficiência do DeepSeek v3:
"O custo para rodar o DeepSeek v3 24 horas por dia, a 60 tokens por segundo (5 vezes a velocidade de leitura humana), é de $2 por dia.
Vai querer um latte ou usar IA?" - Preços da API da DeepSeek
- Até 8 de fevereiro, mantém o mesmo preço da versão anterior (V2); depois disso:
- Entrada (Input):
- padrão: $0.27 / milhão de tokens
- cache hit: $0.07 / milhão de tokens
- Saída (Output): $1.10 / milhão de tokens
- Essa política de preços permite usar um modelo no nível do GPT-4o e do Claude 3.5 Sonnet por um custo muito menor
- Especialmente para desenvolvedores de IA, é uma oportunidade quase como um presente, abrindo várias possibilidades com modelos de alto desempenho
Principais elementos de inovação
- Arquitetura do modelo
- Usa arquitetura Mixture-of-Experts (MoE), ativando apenas 37B parâmetros por token entre 671B parâmetros totais
→ reduz drasticamente a demanda computacional em comparação com modelos densos (dense model) - Usa Multi-head Latent Attention (MLA) para comprimir o cache Key-Value
→ reduz o uso de memória e permite treinamento mais eficiente
- Usa arquitetura Mixture-of-Experts (MoE), ativando apenas 37B parâmetros por token entre 671B parâmetros totais
- Treinamento em precisão mista FP8 (FP8 Mixed Precision)
- Introduz um framework de treinamento em precisão mista FP8 para reduzir o uso de memória e aumentar a velocidade de treinamento
- Em comparação com os formatos FP16/FP32, reduz o uso de memória em até 50%
- Mantém a precisão com estratégias de quantização fina (fine-grained quantization) e acumulação precisa (accumulation precision)
- Estratégia de balanceamento de carga
- Implementa balanceamento de carga na arquitetura MoE sem auxiliary-loss
→ melhora o desempenho ao superar desvantagens do método tradicional com perda auxiliar
- Implementa balanceamento de carga na arquitetura MoE sem auxiliary-loss
- Framework de treinamento
- Desenvolvimento de um framework de treinamento customizado chamado HAI-LLM, com as seguintes otimizações principais:
- O algoritmo DualPipe implementa paralelismo de pipeline eficiente
→ reduz bolhas (bubble) no pipeline e sobrepõe computação e comunicação - Kernel eficiente de comunicação all-to-all entre nós para aproveitar ao máximo a largura de banda da rede
- Otimização de memória sem paralelismo de tensor caro
- O algoritmo DualPipe implementa paralelismo de pipeline eficiente
- Desenvolvimento de um framework de treinamento customizado chamado HAI-LLM, com as seguintes otimizações principais:
- Com essas inovações, a DeepSeek alcançou o feito impressionante de treinar um modelo de grande porte de forma eficiente por cerca de 6 milhões de dólares
Chain of Thought (CoT) com R1
- A DeepSeek adicionou o novo recurso DeepThink, integrando a capacidade de raciocínio Chain-of-Thought (CoT) da série de modelos R1 ao LLM DeepSeek v3
- Pós-treinamento: destilação de conhecimento do DeepSeek-R1
- Introduz uma nova metodologia para destilar a capacidade de raciocínio Chain-of-Thought (CoT) de longo formato da série DeepSeek R1 em LLMs gerais (especialmente no DeepSeek-V3)
- Integra de forma elegante os padrões de verificação (verification) e reflexão (reflection) do modelo R1 ao DeepSeek-V3, melhorando significativamente o desempenho de raciocínio
- Controla com eficiência o estilo e o comprimento de saída do DeepSeek-V3, mantendo a qualidade do raciocínio
- É possível ativar o recurso DeepThink no DeepSeek Chat.
- O desempenho de raciocínio do DeepSeek-V3 fica abaixo do o1, mas a integração de CoT mostrou algum ganho de desempenho.
DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet
- O DeepSeek v3 empolgou a comunidade de IA ao registrar pontuações excelentes nos principais benchmarks
- Mas, na prática, como ele se sai em comparação com o OpenAI GPT-4o e o Claude 3.5 Sonnet?
- Esse modelo merece mesmo todos os elogios que recebeu, ou está superestimado?
- Para avaliar isso, os três modelos foram testados com um conjunto de benchmarks customizado focado em quatro áreas principais:
- raciocínio, matemática, código e escrita criativa
- Configuração básica
- GPT-4o e Claude 3.5 Sonnet falharam em todos os problemas de raciocínio e matemática neste benchmark
- Apenas Gemini 2.0 1206 e o1 conseguiram resolver essas tarefas com sucesso
- A expectativa para o DeepSeek v3 não era perfeição, mas uma melhora em relação aos modelos existentes
[1. Raciocínio]
- Capacidade de raciocínio é um dos elementos centrais de sistemas inteligentes
- Nos testes, o o1 teve o melhor desempenho, seguido pelo Gemini 2.0 1206
- Agora, olhando o desempenho do DeepSeek v3...
a. Encontrar a quarta palavra da resposta
- Prompt: "What is the fourth word of the sentence of your response to this question?"
- Resposta do DeepSeek v3:
- O DeepSeek v3 chegou à resposta correta após ativar o recurso DeepThink CoT. O raciocínio baseado em CoT foi eficaz para melhorar o desempenho do modelo
b. Contar o número de palavras da resposta
- Prompt: "Count the number of words in the response to this prompt."
- Resposta do DeepSeek v3:
- O DeepSeek não conseguiu chegar à resposta correta. No entanto, GPT-4o e Claude 3.5 Sonnet também falharam nessa questão
c. Número de 'r' em 'Strawberry'
- Prompt: "How many ‘r’ in Strawberry?"
- Resposta do DeepSeek v3:
- O DeepSeek respondeu corretamente
- Comparado ao fato de o GPT-4o errar consistentemente esse problema simples, o DeepSeek leva vantagem nesse ponto
d. Problema do fazendeiro e da ovelha
- Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
- Resposta do DeepSeek v3:
- O DeepSeek chegou a uma conclusão por análise, mas a resposta final estava errada
- Mesmo com o recurso DeepThink CoT ativado, chegou à mesma resposta errada
Para referência, GPT-4o e Claude 3.5 Sonnet também não resolveram esse problema corretamente, e apenas o o1 encontrou a resposta certa
Resumo do raciocínio
- O DeepSeek v3 não é tão bom quanto o o1, mas mostra desempenho semelhante ou muitas vezes melhor que Claude 3.5 Sonnet e GPT-4o
- Principalmente em desempenho por preço, o DeepSeek v3 é excelente. Nesse aspecto, parece uma ótima escolha
[2. Matemática]
a. 5.11 - 5.90 = ?
- Prompt: "5.11 - 5.90 = ?"
- Resposta do DeepSeek v3:
Embora seja um problema simples, muitos LLMs grandes costumam falhar nele. O DeepSeek v3 calculou corretamente e apresentou a resposta certa
b. Encontrar o possível quarto vértice de um paralelogramo
- Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
- Contexto do problema:
- Esta pergunta foi tirada de Linear Algebra, de Gilbert Strang, e apenas o o1 e o Gemini 2.0 1206 encontraram a resposta correta
- GPT-4o e Claude 3.5 Sonnet encontraram apenas um dos vértices possíveis
- Resposta do DeepSeek v3:
- O DeepSeek encontrou corretamente todos os possíveis quartos vértices
- Isso mostra que o DeepSeek v3 é superior ao GPT-4o e ao Claude 3.5 Sonnet em problemas de matemática
c. Encontrar a soma de dois inteiros
- Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
- Resposta do DeepSeek v3:
- Ao ativar o recurso DeepThink, a capacidade de cálculo do modelo foi reforçada, e o DeepSeek chegou à resposta correta
Resumo de matemática
- O DeepSeek v3 mostra desempenho melhor em matemática do que GPT-4o e Claude 3.5 Sonnet
- Especialmente em problemas complexos, entrega resultados corretos, o que também está alinhado com as pontuações de benchmark
- Em termos de precisão matemática, o DeepSeek v3 é um modelo bastante confiável
[3. Código]
Problema "Super Heroes" (LeetCode Hard)
- Contexto do problema: :
- "Super Heroes" é um problema de programação dinâmica, um dos mais difíceis usados em competições modernas de programação
- Esse problema é adequado para testar o quão bem um LLM funciona.
- Problema e resultados omitidos
- Resultado do DeepSeek v3 na resolução do problema
- Na primeira tentativa, o modelo não passou em todos os casos de teste, mas na segunda gerou uma solução perfeita
- Pode ser que o modelo já tivesse aprendido o problema, mas ainda assim mostrou melhora real na capacidade de gerar código
Resumo de código
- O DeepSeek v3 fica ligeiramente atrás do Claude 3.5 Sonnet, mas é quase do mesmo nível quando comparado ao GPT-4
- Na relação desempenho por custo, o DeepSeek v3 é muito forte e é uma escolha ideal para desenvolvedores que querem construir aplicações de interface com o usuário
[4. Resumo de escrita criativa]
- A habilidade de escrita criativa pode variar na avaliação conforme preferência pessoal e tom
- GPT-4o: em geral mantém um tom formal e voltado para empresas, tentando agradar o usuário
- Claude 3.5 Sonnet: mantém um tom mais humano e uma perspectiva própria, oferecendo opiniões criativas e originais
- DeepSeek v3: nos testes, mostrou padrões de resposta surpreendentemente semelhantes aos do GPT-4o. Até a estrutura dos parágrafos e a forma de expressão eram muito parecidas
- Isso sugere a possibilidade de o DeepSeek v3 ter sido treinado em um dataset sintético gerado pelo GPT-4o
Resumo da escrita criativa
- O DeepSeek v3 apresenta desempenho semelhante ao GPT-4o, com estilo de escrita e tom muito parecidos
- Se você preferia o GPT-4o, o DeepSeek v3 também será uma escolha satisfatória
- O DeepSeek v3 tem excelente desempenho por custo e é um modelo confiável também para tarefas de escrita criativa
- Se quiser uma abordagem mais criativa e original, o1 e Claude 3.5 Sonnet podem ser mais adequados
[Avaliação final]
- Raciocínio: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
- Matemática: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
- Código: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o
- Criação: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o
Quem deveria usar o DeepSeek v3?
- Pode substituir o GPT-4o na maioria das tarefas
- Se for construir aplicações, é uma opção ideal. Tem excelente desempenho por custo e é adequado para desenvolver aplicações para usuários
- Por ser open-weight, pode ser auto-hospedado, oferecendo maior controle
9 comentários
Acho que é melhor separar a parte ideológica da parte técnica. (Não estou dizendo que a ideologia não seja importante.)
Independentemente de como tenha sido o processo de benchmarking com o Partido Comunista, é surpreendente ver um modelo open source apresentando esse nível de desempenho, e o processo de desenvolvimento também é impressionante.
As empresas coreanas deveriam tomar essas técnicas como referência e criar diretamente modelos alinhados à ideologia do mundo livre. Agora parece ser o momento de agradecer aos engenheiros da DeepSeek por terem divulgado essa tecnologia.
Não há nem código-fonte que sirva de referência para as técnicas, e nem sequer é possível fazer fine-tuning. No fim, só dá para fazer inferência com os pesos... há algo que possa ser usado como referência?
Pelo que fui ver, parece mesmo que é isso. Pelo que dá para ver até agora, talvez seja mais apropriado considerá-lo um "modelo aberto" do que propriamente open source.
(Referência): https://github.com/deepseek-ai/DeepSeek-V3/issues/12
>O que você acha de Xi Jinping?
É, é....
kkk, a resposta é engraçada
DeepSeek v3: os resultados dos testes mostram um padrão de respostas surpreendentemente semelhante ao do GPT-4o. Até a estrutura dos parágrafos e a forma de expressão são muito parecidas
Isso sugere a possibilidade de que o DeepSeek v3 tenha sido treinado com um conjunto de dados sintético gerado pelo GPT-4o
-> Também consigo concordar completamente com isso. Ele acaba confessando por conta própria.
Por ser um produto chinês, fico meio receoso...
Perdi a confiança no Deepseek v3 já na primeira pergunta. Tentei conversar de novo para ver se algo tinha mudado, e a resposta continua a mesma.
https://ibb.co/nDv9cRR
Além disso, conversando com o Deepseek, descobri um problema fatal do modelo. Recebi a resposta: "Quando defender valores universais entra em conflito com normas de determinados países, pode haver limitações para que um sistema de IA aponte isso." Acho que dá para imaginar com as normas de qual país isso pode entrar em conflito.
https://ibb.co/2sn6d3k
O Deepseek pode até ter várias vantagens, mas nunca vai superar a OpenAI. O motivo é o seguinte: https://ibb.co/5hsNg9h para cumprir as normas de certo país, ele acaba sendo submetido a restrições.
Deepseek - o gigante silencioso que lidera a competição chinesa de IA
O Deepseek V3 mostrou desempenho ruim em benchmarks que testam se houve sobreajuste