DeepSeek v4

(huggingface.co)

10 pontos por GN⁺ 6 일 전 | 1 comentários | Compartilhar no WhatsApp

Funciona em um formato compatível com OpenAI/Anthropic, então é possível acessar a API da DeepSeek da mesma forma mudando apenas o base_url na configuração do SDK
As opções de modelo padrão exibidas são deepseek-v4-flash e deepseek-v4-pro, e deepseek-chat e deepseek-reasoner estão previstos para depreciação em 2026/07/24
Para manter a compatibilidade, deepseek-chat corresponde ao modo non-thinking de deepseek-v4-flash, e deepseek-reasoner corresponde ao modo thinking
A Chat API é chamada pelo endpoint https://api.deepseek.com/chat/completions com o header Authorization: Bearer ${DEEPSEEK_API_KEY} e body JSON, e o exemplo usa deepseek-v4-pro, thinking, reasoning_effort="high", stream=false
Há exemplos de chamadas com o OpenAI SDK tanto em Python quanto em Node.js, a resposta é lida em choices[0].message.content e, ao mudar stream para true, é possível receber resposta em streaming

Começando chamadas da API

A API da DeepSeek usa um formato compatível com OpenAI/Anthropic, então, mudando apenas a configuração, é possível acessá-la com o SDK da OpenAI ou da Anthropic e com softwares compatíveis com essas APIs
- No caso da OpenAI, o base_url é https://api.deepseek.com
- No caso da Anthropic, o base_url é https://api.deepseek.com/anthropic
- O api_key precisa ser emitido separadamente
Os modelos disponíveis exibidos são deepseek-v4-flash, deepseek-v4-pro, deepseek-chat e deepseek-reasoner
- deepseek-chat e deepseek-reasoner estão previstos para depreciação em 2026/07/24
- Para manter a compatibilidade, deepseek-chat corresponde ao modo non-thinking de deepseek-v4-flash
- deepseek-reasoner corresponde ao modo thinking de deepseek-v4-flash

Chamando a Chat API

Depois de emitir a chave de API, é possível acessar os modelos da DeepSeek com um exemplo no formato da OpenAI API
- O exemplo é uma chamada sem streaming, e, ao mudar o valor de stream para true, é possível receber resposta em streaming
- Um exemplo no formato da Anthropic API pode ser visto em Anthropic API
O exemplo em curl envia uma requisição para https://api.deepseek.com/chat/completions, usando junto o header Authorization: Bearer ${DEEPSEEK_API_KEY} e um body JSON
- O modelo é definido como deepseek-v4-pro
- Em messages, entram a mensagem system "You are a helpful assistant." e a mensagem user "Hello!"
- thinking é definido como {"type": "enabled"}
- reasoning_effort é definido como "high"
- stream é definido como false
O exemplo em Python começa após instalar o OpenAI SDK
- O comando de instalação é pip3 install openai
- No cliente OpenAI, usa-se api_key=os.environ.get('DEEPSEEK_API_KEY') e base_url="https://api.deepseek.com";
- Na chamada client.chat.completions.create, o modelo é definido como deepseek-v4-pro, stream=False, reasoning_effort="high"
- extra_body={"thinking": {"type": "enabled"}} é enviado junto
- A resposta é exibida com response.choices[0].message.content
O exemplo em Node.js também começa após instalar o OpenAI SDK
- O comando de instalação é npm install openai
- A instância OpenAI usa baseURL: 'https://api.deepseek.com' e apiKey: process.env.DEEPSEEK_API_KEY
- Na chamada openai.chat.completions.create, são definidos messages, model: "deepseek-v4-pro", thinking: {"type": "enabled"}, reasoning_effort: "high", stream: false
- O resultado é exibido com completion.choices[0].message.content

1 comentários

GN⁺ 6 일 전

Opiniões no Hacker News

Para um modelo enorme como o v4 pro, o custo fica em torno de US$ 4 por 1 milhão de tokens de saída, então não sei se é mesmo verdade essa história de que “os laboratórios de ponta estão subsidiando a inferência em nível insano”
Parece que o modelo por assinatura já daria lucro, e nem precisa falar do preço da API
A entrada é US$ 1,74/M, e a saída US$ 3,48/M segundo o OpenRouter
- Há também a explicação de que o preço está alto por causa da falta de placas de inferência da DeepSeek
  Dizem que, quando as placas de computação Ascend 950 saírem no segundo semestre deste ano, o preço do Pro deve cair bastante, segundo o comunicado à imprensa
- Pelos custos operacionais, pode até estar no azul, mas talvez ainda não esteja se considerar o custo de capital com o cronograma de depreciação atual
  Ainda assim, até essas estimativas de custo vêm subindo mais do que se esperava ultimamente
- Vejo de forma parecida
  O serviço por assinatura já dá lucro, e esse papo de subsídio no fim parece mais uma lógica para extrair margens maiores da API de clientes corporativos
- Esse ponto é válido, mas ainda não existe fornecedor ocidental que chegue nessa faixa de preço
  Na China, a eletricidade também é mais barata
É estranhamente reconfortante que a documentação para desenvolvedores tenha saído antes do comunicado cheio de firulas
- Sim, de fato, this is the way
- Se for para chamar isso de open source, onde estão os dados e os scripts de treinamento?
  Pelo visto, depois editaram e tiraram a expressão "open source" do comentário principal
Já apareceu no OpenRouter
O Pro custa US$ 1,74/m de entrada e US$ 3,48/m de saída, e o Flash custa US$ 0,14/m de entrada e US$ 0,28/m de saída
- Aqui dá Api Error
  Todos os outros modelos funcionam normalmente
- https://openrouter.ai/deepseek/deepseek-v4-pro
  
  https://openrouter.ai/deepseek/deepseek-v4-flash
É bom ver open source de verdade saindo da China
Sei que pode haver segundas intenções, mas ainda assim isso me agrada
- As empresas americanas exigem verificação de identidade exagerada até para pagar pelo acesso ao modelo, armazenam e analisam os dados, usam isso para treinamento e ainda dizem abertamente que podem entregar tudo às autoridades se forem solicitadas
  As segundas intenções da China são uma suposição; do lado americano, isso já está escancarado
- Este texto ajuda a entender por que os laboratórios chineses estão publicando seus modelos
  http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
- É só open weights
Eles colocaram o modelo base Pro de 1.6T no Hugging Face
É a primeira vez que vejo essa notação de modelo na casa dos T aqui
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

O modelo foi lançado e é bem impressionante
Tem desempenho de fronteira, mas com custo muito menor, e me parece melhor que o Opus 4.6
- Agora já nem sei se faz sentido continuar comparando modelos com o Opus
  Quem usa Opus vai continuar acreditando que ele é o melhor de qualquer jeito, e quem não usa não quer esse custo, esse lock-in e essas restrições
  Eu, por exemplo, continuo usando o modelo mais barato e rápido que resolve o trabalho, e no momento esse papel é do MiniMax M2.5
  Às vezes até testo modelos novos mais caros e o resultado é parecido, então fico pensando se não existe um certo exagero da indústria de IA inteira que faz tudo parecer avanço só em benchmark
- Queria saber como ele se sai contra o Opus 4.7
  Passei a semana toda participando do hackathon do Anthropic Opus 4.7 e usei bastante o 4.7; ele gasta muito mais tokens que o 4.6, mas foi bem impressionante
- Fico curioso se ele é realmente melhor que o Opus 4.6 ou se só foi bem otimizado para benchmarks
  Queria saber se alguém já testou codificação real com um harness de agente
  Se a capacidade de programação for melhor que Claude Code + Opus 4.6, eu troco na hora
- Lá vamos nós de novo
  Todo dia aparece post de lançamento dizendo que algo é melhor que o Opus 4.6, mas nem a própria DeepSeek afirma que supera o Opus incluindo thinking
  O Dsv3 não era um modelo inflado para benchmark e se saía de forma consistente até em tarefas fora de benchmark; não era SoTA, mas era bom
  Este modelo parece semelhante
  Está logo abaixo do topo em desempenho, mas a diferença não é grande e o preço é muito menor
  O modelo grande está sendo servido pela própria ds por US$ 1,74 in / US$ 3,48 out / US$ 0,14 cache, então o valor entregue é excelente para o preço
  O modelo pequeno custa US$ 0,14 in / US$ 0,28 out / US$ 0,028 cache, então é praticamente barato demais para se preocupar, e pode virar um candidato realista para rodar em casa
  Se o desempenho vier junto, parece bem capaz de competir com as linhas haiku e gemini-flash
- Fazendo umas contas por alto com os números de benchmark publicados, a diferença total em 20 métricas em que ambos têm pontuação é de 20,1 pontos percentuais
  A melhora média dá algo como 2%, e sinceramente não sei se isso é enorme ou irrelevante
  O Claude 4.6 foi quase 10 pp melhor em perguntas e respostas com contexto longo, especialmente nos corpuses do CorpusQA e nos diálogos multirrodada do MRCR
  Já o DSv4 ficou 14 pp acima no IMOAnswerBench e 12 pp acima no SimpleQA-Verified
Os pesos podem ser baixados aqui
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
- https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
  https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
  
  É muito bom ver que lançaram até novos modelos base
Tenho muito interesse nessa área e também estou bastante envolvido nela, mas sinceramente já estou entrando em burnout tentando acompanhar tudo
Parece que já passamos faz tempo do ponto em que, para acompanhar os avanços de IA, a própria IA precisa resumir os avanços de IA
- Melhor nem tentar acompanhar tudo
  É como notícias: quando realmente surgir algo que você precise saber, alguém vai te avisar antes
- Os principais atores quase não mudam
  Dá para acompanhar como se acompanha esporte, e se você aceitar que a liderança vai mudando, não fica tão pesado
- Pela minha sensação, desde o GPT-4 está tudo meio parecido
  Sai modelo novo e a conversa é sempre que melhorou em alguns benchmarks, mas a experiência subjetiva de uso quase não muda
  Depois disso, quase nada realmente surpreendeu, e agora parece até uma fase estagnada que só o grupo mais entusiasta ainda acompanha
Mais do que o fato de a High Flyer ter copiado descaradamente a Anthropic para fazer isso, o que mais me incomoda é que o GAB aparentemente comprou tempo suficiente para eles colocarem dezenas de easter eggs no nível do xz ali dentro
Acabei de testar no Pi Coding agent via OpenRouter, e ele frequentemente não consegue usar direito as ferramentas de read e write
Foi bem decepcionante, e queria saber se existe uma solução melhor do que prompts do tipo “não use chamadas diretas, use sempre as ferramentas fornecidas”
- Como acabou de sair, talvez seja melhor esperar um pouco
  Provavelmente eles ainda não tiveram tempo suficiente para fazer testes prévios com o Pi

DeepSeek v4

Começando chamadas da API

Chamando a Chat API

Leituras relacionadas

1 comentários

Opiniões no Hacker News