10 pontos por GN⁺ 5 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Funciona em um formato compatível com OpenAI/Anthropic, então é possível acessar a API da DeepSeek da mesma forma mudando apenas o base_url na configuração do SDK
  • As opções de modelo padrão exibidas são deepseek-v4-flash e deepseek-v4-pro, e deepseek-chat e deepseek-reasoner estão previstos para depreciação em 2026/07/24
  • Para manter a compatibilidade, deepseek-chat corresponde ao modo non-thinking de deepseek-v4-flash, e deepseek-reasoner corresponde ao modo thinking
  • A Chat API é chamada pelo endpoint https://api.deepseek.com/chat/completions com o header Authorization: Bearer ${DEEPSEEK_API_KEY} e body JSON, e o exemplo usa deepseek-v4-pro, thinking, reasoning_effort="high", stream=false
  • Há exemplos de chamadas com o OpenAI SDK tanto em Python quanto em Node.js, a resposta é lida em choices[0].message.content e, ao mudar stream para true, é possível receber resposta em streaming

Começando chamadas da API

  • A API da DeepSeek usa um formato compatível com OpenAI/Anthropic, então, mudando apenas a configuração, é possível acessá-la com o SDK da OpenAI ou da Anthropic e com softwares compatíveis com essas APIs
  • Os modelos disponíveis exibidos são deepseek-v4-flash, deepseek-v4-pro, deepseek-chat e deepseek-reasoner
    • deepseek-chat e deepseek-reasoner estão previstos para depreciação em 2026/07/24
    • Para manter a compatibilidade, deepseek-chat corresponde ao modo non-thinking de deepseek-v4-flash
    • deepseek-reasoner corresponde ao modo thinking de deepseek-v4-flash

Chamando a Chat API

  • Depois de emitir a chave de API, é possível acessar os modelos da DeepSeek com um exemplo no formato da OpenAI API
    • O exemplo é uma chamada sem streaming, e, ao mudar o valor de stream para true, é possível receber resposta em streaming
    • Um exemplo no formato da Anthropic API pode ser visto em Anthropic API
  • O exemplo em curl envia uma requisição para https://api.deepseek.com/chat/completions, usando junto o header Authorization: Bearer ${DEEPSEEK_API_KEY} e um body JSON
    • O modelo é definido como deepseek-v4-pro
    • Em messages, entram a mensagem system "You are a helpful assistant." e a mensagem user "Hello!"
    • thinking é definido como {"type": "enabled"}
    • reasoning_effort é definido como "high"
    • stream é definido como false
  • O exemplo em Python começa após instalar o OpenAI SDK
    • O comando de instalação é pip3 install openai
    • No cliente OpenAI, usa-se api_key=os.environ.get('DEEPSEEK_API_KEY') e base_url="https://api.deepseek.com";
    • Na chamada client.chat.completions.create, o modelo é definido como deepseek-v4-pro, stream=False, reasoning_effort="high"
    • extra_body={"thinking": {"type": "enabled"}} é enviado junto
    • A resposta é exibida com response.choices[0].message.content
  • O exemplo em Node.js também começa após instalar o OpenAI SDK
    • O comando de instalação é npm install openai
    • A instância OpenAI usa baseURL: 'https://api.deepseek.com' e apiKey: process.env.DEEPSEEK_API_KEY
    • Na chamada openai.chat.completions.create, são definidos messages, model: "deepseek-v4-pro", thinking: {"type": "enabled"}, reasoning_effort: "high", stream: false
    • O resultado é exibido com completion.choices[0].message.content

1 comentários

 
GN⁺ 5 일 전
Opiniões no Hacker News
  • Para um modelo enorme como o v4 pro, o custo fica em torno de US$ 4 por 1 milhão de tokens de saída, então não sei se é mesmo verdade essa história de que “os laboratórios de ponta estão subsidiando a inferência em nível insano”
    Parece que o modelo por assinatura já daria lucro, e nem precisa falar do preço da API
    A entrada é US$ 1,74/M, e a saída US$ 3,48/M segundo o OpenRouter

    • Há também a explicação de que o preço está alto por causa da falta de placas de inferência da DeepSeek
      Dizem que, quando as placas de computação Ascend 950 saírem no segundo semestre deste ano, o preço do Pro deve cair bastante, segundo o comunicado à imprensa
    • Pelos custos operacionais, pode até estar no azul, mas talvez ainda não esteja se considerar o custo de capital com o cronograma de depreciação atual
      Ainda assim, até essas estimativas de custo vêm subindo mais do que se esperava ultimamente
    • Vejo de forma parecida
      O serviço por assinatura já dá lucro, e esse papo de subsídio no fim parece mais uma lógica para extrair margens maiores da API de clientes corporativos
    • Esse ponto é válido, mas ainda não existe fornecedor ocidental que chegue nessa faixa de preço
      Na China, a eletricidade também é mais barata
  • É estranhamente reconfortante que a documentação para desenvolvedores tenha saído antes do comunicado cheio de firulas

    • Sim, de fato, this is the way
    • Se for para chamar isso de open source, onde estão os dados e os scripts de treinamento?
      Pelo visto, depois editaram e tiraram a expressão "open source" do comentário principal
  • Já apareceu no OpenRouter
    O Pro custa US$ 1,74/m de entrada e US$ 3,48/m de saída, e o Flash custa US$ 0,14/m de entrada e US$ 0,28/m de saída

  • É bom ver open source de verdade saindo da China
    Sei que pode haver segundas intenções, mas ainda assim isso me agrada

    • As empresas americanas exigem verificação de identidade exagerada até para pagar pelo acesso ao modelo, armazenam e analisam os dados, usam isso para treinamento e ainda dizem abertamente que podem entregar tudo às autoridades se forem solicitadas
      As segundas intenções da China são uma suposição; do lado americano, isso já está escancarado
    • Este texto ajuda a entender por que os laboratórios chineses estão publicando seus modelos
      http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
    • É só open weights
  • Eles colocaram o modelo base Pro de 1.6T no Hugging Face
    É a primeira vez que vejo essa notação de modelo na casa dos T aqui

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

    O modelo foi lançado e é bem impressionante
    Tem desempenho de fronteira, mas com custo muito menor, e me parece melhor que o Opus 4.6

    • Agora já nem sei se faz sentido continuar comparando modelos com o Opus
      Quem usa Opus vai continuar acreditando que ele é o melhor de qualquer jeito, e quem não usa não quer esse custo, esse lock-in e essas restrições
      Eu, por exemplo, continuo usando o modelo mais barato e rápido que resolve o trabalho, e no momento esse papel é do MiniMax M2.5
      Às vezes até testo modelos novos mais caros e o resultado é parecido, então fico pensando se não existe um certo exagero da indústria de IA inteira que faz tudo parecer avanço só em benchmark
    • Queria saber como ele se sai contra o Opus 4.7
      Passei a semana toda participando do hackathon do Anthropic Opus 4.7 e usei bastante o 4.7; ele gasta muito mais tokens que o 4.6, mas foi bem impressionante
    • Fico curioso se ele é realmente melhor que o Opus 4.6 ou se só foi bem otimizado para benchmarks
      Queria saber se alguém já testou codificação real com um harness de agente
      Se a capacidade de programação for melhor que Claude Code + Opus 4.6, eu troco na hora
    • Lá vamos nós de novo
      Todo dia aparece post de lançamento dizendo que algo é melhor que o Opus 4.6, mas nem a própria DeepSeek afirma que supera o Opus incluindo thinking
      O Dsv3 não era um modelo inflado para benchmark e se saía de forma consistente até em tarefas fora de benchmark; não era SoTA, mas era bom
      Este modelo parece semelhante
      Está logo abaixo do topo em desempenho, mas a diferença não é grande e o preço é muito menor
      O modelo grande está sendo servido pela própria ds por US$ 1,74 in / US$ 3,48 out / US$ 0,14 cache, então o valor entregue é excelente para o preço
      O modelo pequeno custa US$ 0,14 in / US$ 0,28 out / US$ 0,028 cache, então é praticamente barato demais para se preocupar, e pode virar um candidato realista para rodar em casa
      Se o desempenho vier junto, parece bem capaz de competir com as linhas haiku e gemini-flash
    • Fazendo umas contas por alto com os números de benchmark publicados, a diferença total em 20 métricas em que ambos têm pontuação é de 20,1 pontos percentuais
      A melhora média dá algo como 2%, e sinceramente não sei se isso é enorme ou irrelevante
      O Claude 4.6 foi quase 10 pp melhor em perguntas e respostas com contexto longo, especialmente nos corpuses do CorpusQA e nos diálogos multirrodada do MRCR
      Já o DSv4 ficou 14 pp acima no IMOAnswerBench e 12 pp acima no SimpleQA-Verified
  • Os pesos podem ser baixados aqui
    https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

  • Tenho muito interesse nessa área e também estou bastante envolvido nela, mas sinceramente já estou entrando em burnout tentando acompanhar tudo
    Parece que já passamos faz tempo do ponto em que, para acompanhar os avanços de IA, a própria IA precisa resumir os avanços de IA

    • Melhor nem tentar acompanhar tudo
      É como notícias: quando realmente surgir algo que você precise saber, alguém vai te avisar antes
    • Os principais atores quase não mudam
      Dá para acompanhar como se acompanha esporte, e se você aceitar que a liderança vai mudando, não fica tão pesado
    • Pela minha sensação, desde o GPT-4 está tudo meio parecido
      Sai modelo novo e a conversa é sempre que melhorou em alguns benchmarks, mas a experiência subjetiva de uso quase não muda
      Depois disso, quase nada realmente surpreendeu, e agora parece até uma fase estagnada que só o grupo mais entusiasta ainda acompanha
  • Mais do que o fato de a High Flyer ter copiado descaradamente a Anthropic para fazer isso, o que mais me incomoda é que o GAB aparentemente comprou tempo suficiente para eles colocarem dezenas de easter eggs no nível do xz ali dentro

  • Acabei de testar no Pi Coding agent via OpenRouter, e ele frequentemente não consegue usar direito as ferramentas de read e write
    Foi bem decepcionante, e queria saber se existe uma solução melhor do que prompts do tipo “não use chamadas diretas, use sempre as ferramentas fornecidas”

    • Como acabou de sair, talvez seja melhor esperar um pouco
      Provavelmente eles ainda não tiveram tempo suficiente para fazer testes prévios com o Pi