DeepSeek v4
(huggingface.co)- Funciona em um formato compatível com OpenAI/Anthropic, então é possível acessar a API da DeepSeek da mesma forma mudando apenas o
base_urlna configuração do SDK - As opções de modelo padrão exibidas são
deepseek-v4-flashedeepseek-v4-pro, edeepseek-chatedeepseek-reasonerestão previstos para depreciação em 2026/07/24 - Para manter a compatibilidade,
deepseek-chatcorresponde ao modo non-thinking dedeepseek-v4-flash, edeepseek-reasonercorresponde ao modo thinking - A Chat API é chamada pelo endpoint
https://api.deepseek.com/chat/completionscom o headerAuthorization: Bearer ${DEEPSEEK_API_KEY}e body JSON, e o exemplo usadeepseek-v4-pro,thinking,reasoning_effort="high",stream=false - Há exemplos de chamadas com o OpenAI SDK tanto em Python quanto em Node.js, a resposta é lida em
choices[0].message.contente, ao mudarstreamparatrue, é possível receber resposta em streaming
Começando chamadas da API
- A API da DeepSeek usa um formato compatível com OpenAI/Anthropic, então, mudando apenas a configuração, é possível acessá-la com o SDK da OpenAI ou da Anthropic e com softwares compatíveis com essas APIs
- No caso da OpenAI, o
base_urléhttps://api.deepseek.com - No caso da Anthropic, o
base_urléhttps://api.deepseek.com/anthropic - O
api_keyprecisa ser emitido separadamente
- No caso da OpenAI, o
- Os modelos disponíveis exibidos são
deepseek-v4-flash,deepseek-v4-pro,deepseek-chatedeepseek-reasonerdeepseek-chatedeepseek-reasonerestão previstos para depreciação em 2026/07/24- Para manter a compatibilidade,
deepseek-chatcorresponde ao modo non-thinking dedeepseek-v4-flash deepseek-reasonercorresponde ao modo thinking dedeepseek-v4-flash
Chamando a Chat API
- Depois de emitir a chave de API, é possível acessar os modelos da DeepSeek com um exemplo no formato da OpenAI API
- O exemplo é uma chamada sem streaming, e, ao mudar o valor de
streamparatrue, é possível receber resposta em streaming - Um exemplo no formato da Anthropic API pode ser visto em Anthropic API
- O exemplo é uma chamada sem streaming, e, ao mudar o valor de
- O exemplo em
curlenvia uma requisição parahttps://api.deepseek.com/chat/completions, usando junto o headerAuthorization: Bearer ${DEEPSEEK_API_KEY}e um body JSON- O modelo é definido como
deepseek-v4-pro - Em
messages, entram a mensagem system"You are a helpful assistant."e a mensagem user"Hello!" thinkingé definido como{"type": "enabled"}reasoning_efforté definido como"high"streamé definido comofalse
- O modelo é definido como
- O exemplo em Python começa após instalar o OpenAI SDK
- O comando de instalação é
pip3 install openai - No cliente
OpenAI, usa-seapi_key=os.environ.get('DEEPSEEK_API_KEY')ebase_url="https://api.deepseek.com" - Na chamada
client.chat.completions.create, o modelo é definido comodeepseek-v4-pro,stream=False,reasoning_effort="high" extra_body={"thinking": {"type": "enabled"}}é enviado junto- A resposta é exibida com
response.choices[0].message.content
- O comando de instalação é
- O exemplo em Node.js também começa após instalar o OpenAI SDK
- O comando de instalação é
npm install openai - A instância
OpenAIusabaseURL: 'https://api.deepseek.com'eapiKey: process.env.DEEPSEEK_API_KEY - Na chamada
openai.chat.completions.create, são definidosmessages,model: "deepseek-v4-pro",thinking: {"type": "enabled"},reasoning_effort: "high",stream: false - O resultado é exibido com
completion.choices[0].message.content
- O comando de instalação é
1 comentários
Opiniões no Hacker News
Para um modelo enorme como o v4 pro, o custo fica em torno de US$ 4 por 1 milhão de tokens de saída, então não sei se é mesmo verdade essa história de que “os laboratórios de ponta estão subsidiando a inferência em nível insano”
Parece que o modelo por assinatura já daria lucro, e nem precisa falar do preço da API
A entrada é US$ 1,74/M, e a saída US$ 3,48/M segundo o OpenRouter
Dizem que, quando as placas de computação Ascend 950 saírem no segundo semestre deste ano, o preço do Pro deve cair bastante, segundo o comunicado à imprensa
Ainda assim, até essas estimativas de custo vêm subindo mais do que se esperava ultimamente
O serviço por assinatura já dá lucro, e esse papo de subsídio no fim parece mais uma lógica para extrair margens maiores da API de clientes corporativos
Na China, a eletricidade também é mais barata
É estranhamente reconfortante que a documentação para desenvolvedores tenha saído antes do comunicado cheio de firulas
Pelo visto, depois editaram e tiraram a expressão "open source" do comentário principal
Já apareceu no OpenRouter
O Pro custa US$ 1,74/m de entrada e US$ 3,48/m de saída, e o Flash custa US$ 0,14/m de entrada e US$ 0,28/m de saída
Aqui dá Api Error
Todos os outros modelos funcionam normalmente
https://openrouter.ai/deepseek/deepseek-v4-pro
https://openrouter.ai/deepseek/deepseek-v4-flash
É bom ver open source de verdade saindo da China
Sei que pode haver segundas intenções, mas ainda assim isso me agrada
As segundas intenções da China são uma suposição; do lado americano, isso já está escancarado
http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
Eles colocaram o modelo base Pro de 1.6T no Hugging Face
É a primeira vez que vejo essa notação de modelo na casa dos T aqui
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
O modelo foi lançado e é bem impressionante
Tem desempenho de fronteira, mas com custo muito menor, e me parece melhor que o Opus 4.6
Quem usa Opus vai continuar acreditando que ele é o melhor de qualquer jeito, e quem não usa não quer esse custo, esse lock-in e essas restrições
Eu, por exemplo, continuo usando o modelo mais barato e rápido que resolve o trabalho, e no momento esse papel é do MiniMax M2.5
Às vezes até testo modelos novos mais caros e o resultado é parecido, então fico pensando se não existe um certo exagero da indústria de IA inteira que faz tudo parecer avanço só em benchmark
Passei a semana toda participando do hackathon do Anthropic Opus 4.7 e usei bastante o 4.7; ele gasta muito mais tokens que o 4.6, mas foi bem impressionante
Queria saber se alguém já testou codificação real com um harness de agente
Se a capacidade de programação for melhor que Claude Code + Opus 4.6, eu troco na hora
Todo dia aparece post de lançamento dizendo que algo é melhor que o Opus 4.6, mas nem a própria DeepSeek afirma que supera o Opus incluindo thinking
O Dsv3 não era um modelo inflado para benchmark e se saía de forma consistente até em tarefas fora de benchmark; não era SoTA, mas era bom
Este modelo parece semelhante
Está logo abaixo do topo em desempenho, mas a diferença não é grande e o preço é muito menor
O modelo grande está sendo servido pela própria ds por US$ 1,74 in / US$ 3,48 out / US$ 0,14 cache, então o valor entregue é excelente para o preço
O modelo pequeno custa US$ 0,14 in / US$ 0,28 out / US$ 0,028 cache, então é praticamente barato demais para se preocupar, e pode virar um candidato realista para rodar em casa
Se o desempenho vier junto, parece bem capaz de competir com as linhas haiku e gemini-flash
A melhora média dá algo como 2%, e sinceramente não sei se isso é enorme ou irrelevante
O Claude 4.6 foi quase 10 pp melhor em perguntas e respostas com contexto longo, especialmente nos corpuses do CorpusQA e nos diálogos multirrodada do MRCR
Já o DSv4 ficou 14 pp acima no IMOAnswerBench e 12 pp acima no SimpleQA-Verified
Os pesos podem ser baixados aqui
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
É muito bom ver que lançaram até novos modelos base
Tenho muito interesse nessa área e também estou bastante envolvido nela, mas sinceramente já estou entrando em burnout tentando acompanhar tudo
Parece que já passamos faz tempo do ponto em que, para acompanhar os avanços de IA, a própria IA precisa resumir os avanços de IA
É como notícias: quando realmente surgir algo que você precise saber, alguém vai te avisar antes
Dá para acompanhar como se acompanha esporte, e se você aceitar que a liderança vai mudando, não fica tão pesado
Sai modelo novo e a conversa é sempre que melhorou em alguns benchmarks, mas a experiência subjetiva de uso quase não muda
Depois disso, quase nada realmente surpreendeu, e agora parece até uma fase estagnada que só o grupo mais entusiasta ainda acompanha
Mais do que o fato de a High Flyer ter copiado descaradamente a Anthropic para fazer isso, o que mais me incomoda é que o GAB aparentemente comprou tempo suficiente para eles colocarem dezenas de easter eggs no nível do xz ali dentro
Acabei de testar no Pi Coding agent via OpenRouter, e ele frequentemente não consegue usar direito as ferramentas de read e write
Foi bem decepcionante, e queria saber se existe uma solução melhor do que prompts do tipo “não use chamadas diretas, use sempre as ferramentas fornecidas”
Provavelmente eles ainda não tiveram tempo suficiente para fazer testes prévios com o Pi