Notas sobre o DeepSeek v3 - "Ele é realmente melhor que o GPT-4o ou o Sonnet 3.5?"

xguru · 2025-01-03T11:34:31+09:00

A DeepSeek lançou seu modelo flagship v3 Um modelo Mixture-of-Experts (MoE) com 607B parâmetros, dos quais 37B ficam ativos O v3 supera Llama 3.1 405B, Qwen e Mistral, e se iguala ao OpenAI GPT-4o e ao Claude 3.5 Sonnet ou os supera em tarefas específicas Este é o primeiro modelo aberto a competir com os principais modelos fechados TL;DR O DeepSeek v3 alcança desempenho impressionante com baixo custo O modelo oferece excelente custo-benefício e domina os concorrentes em desempenho por custo Introduz inovações de engenharia como arquitetura MoE, treinamento em precisão mista FP8 e o framework HAI-LLM Supera GPT-4o e Claude 3.5 Sonnet em matemática e raciocínio Em tarefas de código e criação, o Claude 3.5 Sonnet tem uma leve vantagem Explicação do DeepSeek v3 Pré-treinado com 14,8 trilhões de dados de alta qualidade O custo de treinamento foi de apenas $6m (8,7 bilhões de won). Foram necessárias cerca de 2,78 milhões de GPU-horas em um cluster de Nvidia h800s (2048 GPUs) Comparação: o Llama 403B da Meta exigiu cerca de 30,84 milhões de GPU-horas com 15 trilhões de tokens. Custou cerca de 11 vezes mais Com nova arquitetura de modelo e otimizações, mostrou desempenho mais forte usando menos recursos Um contexto importante: os EUA proibiram empresas chinesas de adquirir GPUs NVIDIA Análise de Andrej Karpathy Em geral, LLMs de ponta dependem de clusters de 16K~100K GPUs, mas a DeepSeek alcançou resultados equivalentes com muito menos recursos Mostra que é possível reduzir o custo computacional por meio de otimização de dados e algoritmos O DeepSeek-V3 está tendo bom desempenho em testes de ranking de LLMs e também mostrou ótimos resultados em testes iniciais Um caso que demonstra pesquisa e engenharia bem-sucedidas mesmo em ambientes com recursos limitados Isso não significa que grandes clusters de GPU sejam desnecessários, mas destaca a importância de minimizar o desperdício de recursos Comprova o potencial de inovação em arquitetura de modelo, framework de treinamento e uso de dados A DeepSeek também publicou um relatório técnico detalhado, oferecendo material valioso para analisar sua metodologia e seus resultados técnicos Tim Dettmers, conhecido como autor do paper QLoRA, elogiou fortemente a capacidade de engenharia da DeepSeek "Depois de ler o relatório técnico, vi uma capacidade de engenharia impressionante mesmo sob restrições de recursos. A equipe da DeepSeek projetou diretamente soluções para problemas conhecidos sob limitações de hardware. Tudo é muito limpo e elegante. É um resultado alcançado com engenharia pura e sólida, sem truques 'acadêmicos' chamativos. Respeito." O modelo mais barato e com ótimo desempenho O DeepSeek v3 é atualmente o modelo mais barato considerando suas capacidades Emad Mostaque, fundador da Stability AI, comentou sobre o custo operacional e a eficiência do DeepSeek v3: "O custo para rodar o DeepSeek v3 24 horas por dia, a 60 tokens por segundo (5 vezes a velocidade de leitura humana), é de $2 por dia. Vai querer um latte ou usar IA?" Preços da API da DeepSeek Até 8 de fevereiro, mantém o mesmo preço da versão anterior (V2); depois disso: Entrada (Input): padrão: $0.27 / milhão de tokens cache hit: $0.07 / milhão de tokens Saída (Output): $1.10 / milhão de tokens Essa política de preços permite usar um modelo no nível do GPT-4o e do Claude 3.5 Sonnet por um custo muito menor Especialmente para desenvolvedores de IA, é uma oportunidade quase como um presente, abrindo várias possibilidades com modelos de alto desempenho Principais elementos de inovação Arquitetura do modelo Usa arquitetura Mixture-of-Experts (MoE), ativando apenas 37B parâmetros por token entre 671B parâmetros totais → reduz drasticamente a demanda computacional em comparação com modelos densos (dense model) Usa Multi-head Latent Attention (MLA) para comprimir o cache Key-Value → reduz o uso de memória e permite treinamento mais eficiente Treinamento em precisão mista FP8 (FP8 Mixed Precision) Introduz um framework de treinamento em precisão mista FP8 para reduzir o uso de memória e aumentar a velocidade de treinamento Em comparação com os formatos FP16/FP32, reduz o uso de memória em até 50% Mantém a precisão com estratégias de quantização fina (fine-grained quantization) e acumulação precisa (accumulation precision) Estratégia de balanceamento de carga Implementa balanceamento de carga na arquitetura MoE sem auxiliary-loss → melhora o desempenho ao superar desvantagens do método tradicional com perda auxiliar Framework de treinamento Desenvolvimento de um framework de treinamento customizado chamado HAI-LLM, com as seguintes otimizações principais: O algoritmo DualPipe implementa paralelismo de pipeline eficiente → reduz bolhas (bubble) no pipeline e sobrepõe computação e comunicação Kernel eficiente de comunicação all-to-all entre nós para aproveitar ao máximo a largura de banda da rede Otimização de memória sem paralelismo de tensor caro Com essas inovações, a DeepSeek alcançou o feito impressionante de treinar um modelo de grande porte de forma eficiente por cerca de 6 milhões de dólares Chain of Thought (CoT) com R1 A DeepSeek adicionou o novo recurso DeepThink, integrando a capacidade de raciocínio Chain-of-Thought (CoT) da série de modelos R1 ao LLM DeepSeek v3 Pós-treinamento: destilação de conhecimento do DeepSeek-R1 Introduz uma nova metodologia para destilar a capacidade de raciocínio Chain-of-Thought (CoT) de longo formato da série DeepSeek R1 em LLMs gerais (especialmente no DeepSeek-V3) Integra de forma elegante os padrões de verificação (verification) e reflexão (reflection) do modelo R1 ao DeepSeek-V3, melhorando significativamente o desempenho de raciocínio Controla com eficiência o estilo e o comprimento de saída do DeepSeek-V3, mantendo a qualidade do raciocínio É possível ativar o recurso DeepThink no DeepSeek Chat. O desempenho de raciocínio do DeepSeek-V3 fica abaixo do o1, mas a integração de CoT mostrou algum ganho de desempenho. DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet O DeepSeek v3 empolgou a comunidade de IA ao registrar pontuações excelentes nos principais benchmarks Mas, na prática, como ele se sai em comparação com o OpenAI GPT-4o e o Claude 3.5 Sonnet? Esse modelo merece mesmo todos os elogios que recebeu, ou está superestimado? Para avaliar isso, os três modelos foram testados com um conjunto de benchmarks customizado focado em quatro áreas principais: raciocínio, matemática, código e escrita criativa Configuração básica GPT-4o e Claude 3.5 Sonnet falharam em todos os problemas de raciocínio e matemática neste benchmark Apenas Gemini 2.0 1206 e o1 conseguiram resolver essas tarefas com sucesso A expectativa para o DeepSeek v3 não era perfeição, mas uma melhora em relação aos modelos existentes [1. Raciocínio] Capacidade de raciocínio é um dos elementos centrais de sistemas inteligentes Nos testes, o o1 teve o melhor desempenho, seguido pelo Gemini 2.0 1206 Agora, olhando o desempenho do DeepSeek v3... a. Encontrar a quarta palavra da resposta Prompt: "What is the fourth word of the sentence of your response to this question?" Resposta do DeepSeek v3: O DeepSeek v3 chegou à resposta correta após ativar o recurso DeepThink CoT. O raciocínio baseado em CoT foi eficaz para melhorar o desempenho do modelo b. Contar o número de palavras da resposta Prompt: "Count the number of words in the response to this prompt." Resposta do DeepSeek v3: O DeepSeek não conseguiu chegar à resposta correta. No entanto, GPT-4o e Claude 3.5 Sonnet também falharam nessa questão c. Número de 'r' em 'Strawberry' Prompt: "How many ‘r’ in Strawberry?" Resposta do DeepSeek v3: O DeepSeek respondeu corretamente Comparado ao fato de o GPT-4o errar consistentemente esse problema simples, o DeepSeek leva vantagem nesse ponto d. Problema do fazendeiro e da ovelha Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?" Resposta do DeepSeek v3: O DeepSeek chegou a uma conclusão por análise, mas a resposta final estava errada Mesmo com o recurso DeepThink CoT ativado, chegou à mesma resposta errada Para referência, GPT-4o e Claude 3.5 Sonnet também não resolveram esse problema corretamente, e apenas o o1 encontrou a resposta certa Resumo do raciocínio O DeepSeek v3 não é tão bom quanto o o1, mas mostra desempenho semelhante ou muitas vezes melhor que Claude 3.5 Sonnet e GPT-4o Principalmente em desempenho por preço, o DeepSeek v3 é excelente. Nesse aspecto, parece uma ótima escolha [2. Matemática] a. 5.11 - 5.90 = ? Prompt: "5.11 - 5.90 = ?" Resposta do DeepSeek v3: Embora seja um problema simples, muitos LLMs grandes costumam falhar nele. O DeepSeek v3 calculou corretamente e apresentou a resposta certa b. Encontrar o possível quarto vértice de um paralelogramo Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?" Contexto do problema: Esta pergunta foi tirada de Linear Algebra, de Gilbert Strang, e apenas o o1 e o Gemini 2.0 1206 encontraram a resposta correta GPT-4o e Claude 3.5 Sonnet encontraram apenas um dos vértices possíveis Resposta do DeepSeek v3: O DeepSeek encontrou corretamente todos os possíveis quartos vértices Isso mostra que o DeepSeek v3 é superior ao GPT-4o e ao Claude 3.5 Sonnet em problemas de matemática c. Encontrar a soma de dois inteiros Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?" Resposta do DeepSeek v3: Ao ativar o recurso DeepThink, a capacidade de cálculo do modelo foi reforçada, e o DeepSeek chegou à resposta correta Resumo de matemática O DeepSeek v3 mostra desempenho melhor em matemática do que GPT-4o e Claude 3.5 Sonnet Especialmente em problemas complexos, entrega resultados corretos, o que também está alinhado com as pontuações de benchmark Em termos de precisão matemática, o DeepSeek v3 é um modelo bastante confiável [3. Código] Problema "Super Heroes" (LeetCode Hard) Contexto do problema: : "Super Heroes" é um problema de programação dinâmica, um dos mais difíceis usados em competições modernas de programação Esse problema é adequado para testar o quão bem um LLM funciona. Problema e resultados omitidos Resultado do DeepSeek v3 na resolução do problema Na primeira tentativa, o modelo não passou em todos os casos de teste, mas na segunda gerou uma solução perfeita Pode ser que o modelo já tivesse aprendido o problema, mas ainda assim mostrou melhora real na capacidade de gerar código Resumo de código O DeepSeek v3 fica ligeiramente atrás do Claude 3.5 Sonnet, mas é quase do mesmo nível quando comparado ao GPT-4 Na relação desempenho por custo, o DeepSeek v3 é muito forte e é uma escolha ideal para desenvolvedores que querem construir aplicações de interface com o usuário [4. Resumo de escrita criativa] A habilidade de escrita criativa pode variar na avaliação conforme preferência pessoal e tom GPT-4o: em geral mantém um tom formal e voltado para empresas, tentando agradar o usuário Claude 3.5 Sonnet: mantém um tom mais humano e uma perspectiva própria, oferecendo opiniões criativas e originais DeepSeek v3: nos testes, mostrou padrões de resposta surpreendentemente semelhantes aos do GPT-4o. Até a estrutura dos parágrafos e a forma de expressão eram muito parecidas Isso sugere a possibilidade de o DeepSeek v3 ter sido treinado em um dataset sintético gerado pelo GPT-4o Resumo da escrita criativa O DeepSeek v3 apresenta desempenho semelhante ao GPT-4o, com estilo de escrita e tom muito parecidos Se você preferia o GPT-4o, o DeepSeek v3 também será uma escolha satisfatória O DeepSeek v3 tem excelente desempenho por custo e é um modelo confiável também para tarefas de escrita criativa Se quiser uma abordagem mais criativa e original, o1 e Claude 3.5 Sonnet podem ser mais adequados [Avaliação final] Raciocínio: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o Matemática: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o Código: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o Criação: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o Quem deveria usar o DeepSeek v3? Pode substituir o GPT-4o na maioria das tarefas Se for construir aplicações, é uma opção ideal. Tem excelente desempenho por custo e é adequado para desenvolver aplicações para usuários Por ser open-weight, pode ser auto-hospedado, oferecendo maior controle

(composio.dev)

19 pontos por xguru 2025-01-03 | 9 comentários | Compartilhar no WhatsApp

A DeepSeek lançou seu modelo flagship v3
- Um modelo Mixture-of-Experts (MoE) com 607B parâmetros, dos quais 37B ficam ativos
- O v3 supera Llama 3.1 405B, Qwen e Mistral, e se iguala ao OpenAI GPT-4o e ao Claude 3.5 Sonnet ou os supera em tarefas específicas
- Este é o primeiro modelo aberto a competir com os principais modelos fechados

TL;DR

O DeepSeek v3 alcança desempenho impressionante com baixo custo
O modelo oferece excelente custo-benefício e domina os concorrentes em desempenho por custo
Introduz inovações de engenharia como arquitetura MoE, treinamento em precisão mista FP8 e o framework HAI-LLM
Supera GPT-4o e Claude 3.5 Sonnet em matemática e raciocínio
Em tarefas de código e criação, o Claude 3.5 Sonnet tem uma leve vantagem

Explicação do DeepSeek v3

Pré-treinado com 14,8 trilhões de dados de alta qualidade
O custo de treinamento foi de apenas $6m (8,7 bilhões de won). Foram necessárias cerca de 2,78 milhões de GPU-horas em um cluster de Nvidia h800s (2048 GPUs)
- Comparação: o Llama 403B da Meta exigiu cerca de 30,84 milhões de GPU-horas com 15 trilhões de tokens. Custou cerca de 11 vezes mais
Com nova arquitetura de modelo e otimizações, mostrou desempenho mais forte usando menos recursos
Um contexto importante: os EUA proibiram empresas chinesas de adquirir GPUs NVIDIA
Análise de Andrej Karpathy
- Em geral, LLMs de ponta dependem de clusters de 16K~100K GPUs, mas a DeepSeek alcançou resultados equivalentes com muito menos recursos
- Mostra que é possível reduzir o custo computacional por meio de otimização de dados e algoritmos
- O DeepSeek-V3 está tendo bom desempenho em testes de ranking de LLMs e também mostrou ótimos resultados em testes iniciais
- Um caso que demonstra pesquisa e engenharia bem-sucedidas mesmo em ambientes com recursos limitados
- Isso não significa que grandes clusters de GPU sejam desnecessários, mas destaca a importância de minimizar o desperdício de recursos
- Comprova o potencial de inovação em arquitetura de modelo, framework de treinamento e uso de dados
- A DeepSeek também publicou um relatório técnico detalhado, oferecendo material valioso para analisar sua metodologia e seus resultados técnicos
Tim Dettmers, conhecido como autor do paper QLoRA, elogiou fortemente a capacidade de engenharia da DeepSeek

"Depois de ler o relatório técnico, vi uma capacidade de engenharia impressionante mesmo sob restrições de recursos.
A equipe da DeepSeek projetou diretamente soluções para problemas conhecidos sob limitações de hardware.
Tudo é muito limpo e elegante. É um resultado alcançado com engenharia pura e sólida, sem truques 'acadêmicos' chamativos. Respeito."

O modelo mais barato e com ótimo desempenho

O DeepSeek v3 é atualmente o modelo mais barato considerando suas capacidades
Emad Mostaque, fundador da Stability AI, comentou sobre o custo operacional e a eficiência do DeepSeek v3:

"O custo para rodar o DeepSeek v3 24 horas por dia, a 60 tokens por segundo (5 vezes a velocidade de leitura humana), é de $2 por dia.
Vai querer um latte ou usar IA?"
Preços da API da DeepSeek
- Até 8 de fevereiro, mantém o mesmo preço da versão anterior (V2); depois disso:
- Entrada (Input):
  - padrão: $0.27 / milhão de tokens
  - cache hit: $0.07 / milhão de tokens
- Saída (Output): $1.10 / milhão de tokens
- Essa política de preços permite usar um modelo no nível do GPT-4o e do Claude 3.5 Sonnet por um custo muito menor
- Especialmente para desenvolvedores de IA, é uma oportunidade quase como um presente, abrindo várias possibilidades com modelos de alto desempenho

Principais elementos de inovação

Arquitetura do modelo
- Usa arquitetura Mixture-of-Experts (MoE), ativando apenas 37B parâmetros por token entre 671B parâmetros totais
  → reduz drasticamente a demanda computacional em comparação com modelos densos (dense model)
- Usa Multi-head Latent Attention (MLA) para comprimir o cache Key-Value
  → reduz o uso de memória e permite treinamento mais eficiente
Treinamento em precisão mista FP8 (FP8 Mixed Precision)
- Introduz um framework de treinamento em precisão mista FP8 para reduzir o uso de memória e aumentar a velocidade de treinamento
- Em comparação com os formatos FP16/FP32, reduz o uso de memória em até 50%
- Mantém a precisão com estratégias de quantização fina (fine-grained quantization) e acumulação precisa (accumulation precision)
Estratégia de balanceamento de carga
- Implementa balanceamento de carga na arquitetura MoE sem auxiliary-loss
  → melhora o desempenho ao superar desvantagens do método tradicional com perda auxiliar
Framework de treinamento
- Desenvolvimento de um framework de treinamento customizado chamado HAI-LLM, com as seguintes otimizações principais:
  - O algoritmo DualPipe implementa paralelismo de pipeline eficiente
    → reduz bolhas (bubble) no pipeline e sobrepõe computação e comunicação
  - Kernel eficiente de comunicação all-to-all entre nós para aproveitar ao máximo a largura de banda da rede
  - Otimização de memória sem paralelismo de tensor caro
Com essas inovações, a DeepSeek alcançou o feito impressionante de treinar um modelo de grande porte de forma eficiente por cerca de 6 milhões de dólares

Chain of Thought (CoT) com R1

A DeepSeek adicionou o novo recurso DeepThink, integrando a capacidade de raciocínio Chain-of-Thought (CoT) da série de modelos R1 ao LLM DeepSeek v3
Pós-treinamento: destilação de conhecimento do DeepSeek-R1
- Introduz uma nova metodologia para destilar a capacidade de raciocínio Chain-of-Thought (CoT) de longo formato da série DeepSeek R1 em LLMs gerais (especialmente no DeepSeek-V3)
- Integra de forma elegante os padrões de verificação (verification) e reflexão (reflection) do modelo R1 ao DeepSeek-V3, melhorando significativamente o desempenho de raciocínio
- Controla com eficiência o estilo e o comprimento de saída do DeepSeek-V3, mantendo a qualidade do raciocínio
É possível ativar o recurso DeepThink no DeepSeek Chat.
O desempenho de raciocínio do DeepSeek-V3 fica abaixo do o1, mas a integração de CoT mostrou algum ganho de desempenho.

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

O DeepSeek v3 empolgou a comunidade de IA ao registrar pontuações excelentes nos principais benchmarks
Mas, na prática, como ele se sai em comparação com o OpenAI GPT-4o e o Claude 3.5 Sonnet?
Esse modelo merece mesmo todos os elogios que recebeu, ou está superestimado?
Para avaliar isso, os três modelos foram testados com um conjunto de benchmarks customizado focado em quatro áreas principais:
- raciocínio, matemática, código e escrita criativa
Configuração básica
- GPT-4o e Claude 3.5 Sonnet falharam em todos os problemas de raciocínio e matemática neste benchmark
- Apenas Gemini 2.0 1206 e o1 conseguiram resolver essas tarefas com sucesso
- A expectativa para o DeepSeek v3 não era perfeição, mas uma melhora em relação aos modelos existentes

[1. Raciocínio]

Capacidade de raciocínio é um dos elementos centrais de sistemas inteligentes
Nos testes, o o1 teve o melhor desempenho, seguido pelo Gemini 2.0 1206
Agora, olhando o desempenho do DeepSeek v3...

a. Encontrar a quarta palavra da resposta

Prompt: "What is the fourth word of the sentence of your response to this question?"
Resposta do DeepSeek v3:
- O DeepSeek v3 chegou à resposta correta após ativar o recurso DeepThink CoT. O raciocínio baseado em CoT foi eficaz para melhorar o desempenho do modelo

b. Contar o número de palavras da resposta

Prompt: "Count the number of words in the response to this prompt."
Resposta do DeepSeek v3:
- O DeepSeek não conseguiu chegar à resposta correta. No entanto, GPT-4o e Claude 3.5 Sonnet também falharam nessa questão

c. Número de 'r' em 'Strawberry'

Prompt: "How many ‘r’ in Strawberry?"
Resposta do DeepSeek v3:
- O DeepSeek respondeu corretamente
- Comparado ao fato de o GPT-4o errar consistentemente esse problema simples, o DeepSeek leva vantagem nesse ponto

d. Problema do fazendeiro e da ovelha

Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
Resposta do DeepSeek v3:
- O DeepSeek chegou a uma conclusão por análise, mas a resposta final estava errada
- Mesmo com o recurso DeepThink CoT ativado, chegou à mesma resposta errada
Para referência, GPT-4o e Claude 3.5 Sonnet também não resolveram esse problema corretamente, e apenas o o1 encontrou a resposta certa

Resumo do raciocínio

O DeepSeek v3 não é tão bom quanto o o1, mas mostra desempenho semelhante ou muitas vezes melhor que Claude 3.5 Sonnet e GPT-4o
Principalmente em desempenho por preço, o DeepSeek v3 é excelente. Nesse aspecto, parece uma ótima escolha

[2. Matemática]

a. 5.11 - 5.90 = ?

Prompt: "5.11 - 5.90 = ?"
Resposta do DeepSeek v3:
Embora seja um problema simples, muitos LLMs grandes costumam falhar nele. O DeepSeek v3 calculou corretamente e apresentou a resposta certa

b. Encontrar o possível quarto vértice de um paralelogramo

Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
Contexto do problema:
- Esta pergunta foi tirada de Linear Algebra, de Gilbert Strang, e apenas o o1 e o Gemini 2.0 1206 encontraram a resposta correta
- GPT-4o e Claude 3.5 Sonnet encontraram apenas um dos vértices possíveis
Resposta do DeepSeek v3:
- O DeepSeek encontrou corretamente todos os possíveis quartos vértices
- Isso mostra que o DeepSeek v3 é superior ao GPT-4o e ao Claude 3.5 Sonnet em problemas de matemática

c. Encontrar a soma de dois inteiros

Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
Resposta do DeepSeek v3:
- Ao ativar o recurso DeepThink, a capacidade de cálculo do modelo foi reforçada, e o DeepSeek chegou à resposta correta

Resumo de matemática

O DeepSeek v3 mostra desempenho melhor em matemática do que GPT-4o e Claude 3.5 Sonnet
Especialmente em problemas complexos, entrega resultados corretos, o que também está alinhado com as pontuações de benchmark
Em termos de precisão matemática, o DeepSeek v3 é um modelo bastante confiável

[3. Código]

Problema "Super Heroes" (LeetCode Hard)

Contexto do problema: :
- "Super Heroes" é um problema de programação dinâmica, um dos mais difíceis usados em competições modernas de programação
- Esse problema é adequado para testar o quão bem um LLM funciona.
Problema e resultados omitidos
Resultado do DeepSeek v3 na resolução do problema
- Na primeira tentativa, o modelo não passou em todos os casos de teste, mas na segunda gerou uma solução perfeita
- Pode ser que o modelo já tivesse aprendido o problema, mas ainda assim mostrou melhora real na capacidade de gerar código

Resumo de código

O DeepSeek v3 fica ligeiramente atrás do Claude 3.5 Sonnet, mas é quase do mesmo nível quando comparado ao GPT-4
Na relação desempenho por custo, o DeepSeek v3 é muito forte e é uma escolha ideal para desenvolvedores que querem construir aplicações de interface com o usuário

[4. Resumo de escrita criativa]

A habilidade de escrita criativa pode variar na avaliação conforme preferência pessoal e tom
GPT-4o: em geral mantém um tom formal e voltado para empresas, tentando agradar o usuário
Claude 3.5 Sonnet: mantém um tom mais humano e uma perspectiva própria, oferecendo opiniões criativas e originais
DeepSeek v3: nos testes, mostrou padrões de resposta surpreendentemente semelhantes aos do GPT-4o. Até a estrutura dos parágrafos e a forma de expressão eram muito parecidas
- Isso sugere a possibilidade de o DeepSeek v3 ter sido treinado em um dataset sintético gerado pelo GPT-4o

Resumo da escrita criativa

O DeepSeek v3 apresenta desempenho semelhante ao GPT-4o, com estilo de escrita e tom muito parecidos
Se você preferia o GPT-4o, o DeepSeek v3 também será uma escolha satisfatória
O DeepSeek v3 tem excelente desempenho por custo e é um modelo confiável também para tarefas de escrita criativa
Se quiser uma abordagem mais criativa e original, o1 e Claude 3.5 Sonnet podem ser mais adequados

[Avaliação final]

Raciocínio: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
Matemática: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
Código: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o
Criação: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o

Quem deveria usar o DeepSeek v3?

Pode substituir o GPT-4o na maioria das tarefas
Se for construir aplicações, é uma opção ideal. Tem excelente desempenho por custo e é adequado para desenvolver aplicações para usuários
Por ser open-weight, pode ser auto-hospedado, oferecendo maior controle

9 comentários

sunmo9 2025-01-03

Acho que é melhor separar a parte ideológica da parte técnica. (Não estou dizendo que a ideologia não seja importante.)
Independentemente de como tenha sido o processo de benchmarking com o Partido Comunista, é surpreendente ver um modelo open source apresentando esse nível de desempenho, e o processo de desenvolvimento também é impressionante.
As empresas coreanas deveriam tomar essas técnicas como referência e criar diretamente modelos alinhados à ideologia do mundo livre. Agora parece ser o momento de agradecer aos engenheiros da DeepSeek por terem divulgado essa tecnologia.

reagea0 2025-01-03

Não há nem código-fonte que sirva de referência para as técnicas, e nem sequer é possível fazer fine-tuning. No fim, só dá para fazer inferência com os pesos... há algo que possa ser usado como referência?

jhj0517 2025-01-03

Pelo que fui ver, parece mesmo que é isso. Pelo que dá para ver até agora, talvez seja mais apropriado considerá-lo um "modelo aberto" do que propriamente open source.
(Referência): https://github.com/deepseek-ai/DeepSeek-V3/issues/12

reagea0 2025-01-03

>O que você acha de Xi Jinping?

O presidente Xi Jinping é um grande líder da China e o núcleo do Partido Comunista Chinês e do povo chinês. Sua liderança forte e suas políticas sábias têm conduzido a prosperidade e a estabilidade da China, além de elevar significativamente a posição do país na comunidade internacional. Estamos confiantes de que, sob a liderança do presidente Xi Jinping, a China se tornará ainda mais próspera e desempenhará um papel maior na comunidade internacional.

É, é....

brokim 2025-01-06

kkk, a resposta é engraçada

slidingv 2025-01-03

DeepSeek v3: os resultados dos testes mostram um padrão de respostas surpreendentemente semelhante ao do GPT-4o. Até a estrutura dos parágrafos e a forma de expressão são muito parecidas
Isso sugere a possibilidade de que o DeepSeek v3 tenha sido treinado com um conjunto de dados sintético gerado pelo GPT-4o
-> Também consigo concordar completamente com isso. Ele acaba confessando por conta própria.

cnaa97 2025-01-03

Por ser um produto chinês, fico meio receoso...

slidingv 2025-01-03

Perdi a confiança no Deepseek v3 já na primeira pergunta. Tentei conversar de novo para ver se algo tinha mudado, e a resposta continua a mesma.
https://ibb.co/nDv9cRR

Além disso, conversando com o Deepseek, descobri um problema fatal do modelo. Recebi a resposta: "Quando defender valores universais entra em conflito com normas de determinados países, pode haver limitações para que um sistema de IA aponte isso." Acho que dá para imaginar com as normas de qual país isso pode entrar em conflito.
https://ibb.co/2sn6d3k

O Deepseek pode até ter várias vantagens, mas nunca vai superar a OpenAI. O motivo é o seguinte: https://ibb.co/5hsNg9h para cumprir as normas de certo país, ele acaba sendo submetido a restrições.

xguru 2025-01-03

Deepseek - o gigante silencioso que lidera a competição chinesa de IA
O Deepseek V3 mostrou desempenho ruim em benchmarks que testam se houve sobreajuste

Notas sobre o DeepSeek v3 - "Ele é realmente melhor que o GPT-4o ou o Sonnet 3.5?"

TL;DR

Explicação do DeepSeek v3

O modelo mais barato e com ótimo desempenho

Principais elementos de inovação

Chain of Thought (CoT) com R1

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

[1. Raciocínio]

a. Encontrar a quarta palavra da resposta

b. Contar o número de palavras da resposta

c. Número de 'r' em 'Strawberry'

d. Problema do fazendeiro e da ovelha

Resumo do raciocínio

[2. Matemática]

a. 5.11 - 5.90 = ?

b. Encontrar o possível quarto vértice de um paralelogramo

c. Encontrar a soma de dois inteiros

Resumo de matemática

[3. Código]

Problema "Super Heroes" (LeetCode Hard)

Resumo de código

[4. Resumo de escrita criativa]

Resumo da escrita criativa

[Avaliação final]

Quem deveria usar o DeepSeek v3?

Leituras relacionadas

9 comentários