Lançamento do DeepSeek-v3.1

(api-docs.deepseek.com)

2 pontos por GN⁺ 2025-08-22 | 1 comentários | Compartilhar no WhatsApp

DeepSeek-V3.1 é o primeiro passo para a próxima era dos agentes
Vem com um recurso de raciocínio híbrido que permite usar seletivamente dois modos em um único modelo: Think (baseado em raciocínio) e Non-Think (sem raciocínio)
No modo DeepSeek-V3.1-Think, é possível chegar à resposta correta em menos tempo do que o modelo anterior DeepSeek-R1-0528, melhorando significativamente a eficiência
Por meio de pós-treinamento (Post-training), a capacidade do modelo de atuar em uso de ferramentas, operação de sistemas externos e tarefas de agentes em múltiplas etapas foi amplamente aprimorada
Os usuários podem alternar livremente entre os modos Think/Non-Think no serviço de chatbot da DeepSeek por meio do botão “DeepThink”
Atualização da API
- Alcançou resultados superiores nas avaliações SWE (Software Engineering) e Terminal-Bench
- A capacidade de raciocínio em múltiplas etapas e resolução de problemas foi bastante reforçada em buscas complexas ou tarefas multietapas
- A eficiência geral de raciocínio aumentou de forma significativa
Mudança no plano de preços (aplicável a partir de 25/9)
- API de entrada: $0.07 por 1M de tokens (cache hit) / $0.56 (cache miss)
- API de saída: $1.68 por 1M de tokens

1 comentários

GN⁺ 2025-08-22

Opiniões no Hacker News

Para rodar localmente, já fizeram um modelo GGUF; para obter bom desempenho com o esquema dinâmico de 2 bits (MoE em 2 bits, o restante em 6-8 bits), são necessários cerca de 250 GB somando RAM e VRAM, também é possível fazer offloading para SSD, mas fica lento; para detalhes sobre como executar, parâmetros ideais etc., veja a documentação oficial
- No entanto, achei estranho o unsloth, sendo uma biblioteca Python, tentar executar apt-get com sudo; no meu NixOS isso falha, então é difícil de usar
- Fiquei curioso sobre benchmarks mostrando quanto desempenho se perde nesses esquemas dinâmicos de compressão em 2 bits em relação ao modelo original
Compartilhando também o leaderboard do terminal-bench; a diferença para GPT-5, Claude 4 e GLM-4.5 é grande, mas, em comparação com outros modelos open-weight, o desempenho é relativamente respeitável; benchmark não diz tudo, então o resultado real só vai ficar claro com o tempo
- Acho que esse benchmark mistura agent tool e modelo, então os resultados ficam pouco consistentes; para fazer sentido, seria preciso fixar apenas o agent tool e comparar só os modelos; esse tipo de benchmark tende a ser pouco confiável, e me parece melhor usar o modelo diretamente no seu próprio problema
- Na minha percepção, a qualidade do resultado foi bem boa
- Empresas como Anthropic e OpenAI também tendem a desenvolver agentes customizados para benchmarks específicos
- Avisando que o DeepSeek R1 já é um modelo antigo e substituído; atualização anotada
- Se o preço não ficar caro demais, até um modelo SOTA pode ser interessante sem pesar no bolso
É uma pena que o desconto do período de baixa demanda tenha desaparecido; naquela época dava para gerar uma quantidade enorme de tokens quase sem custo, mas ainda assim não tenho grandes reclamações, porque continua muito competitivo em preço
Segundo os resultados de benchmark da artificialanalysis.ai, ele tem mais ou menos a mesma inteligência do gpt-oss-120B, mas é cerca de 10 vezes mais lento e 3 vezes mais caro
- A fonte mostrada atualmente exibe apenas um provedor específico; seria mais preciso comparar gpt-oss-120B e deepseek-chat-v3.1 com o mesmo fornecedor, levando em conta que o gpt-oss-120B já tem mais provedores implantados e otimizados, o que o favorece
O DeepSeek V3.1 é um modelo híbrido de reasoning e tem pontos fortes em tool calling (Task Tool Calling), mas frequentemente aparece usando aleatoriamente o formato antigo de ferramentas em vez do formato JSON padrão; provavelmente o dataset de treino do V3 continha bastante material desse tipo
- Queria saber se você já testou function calling strict (beta); há um guia relacionado
- Fiquei curioso sobre a que formato isso se refere; eu entendia que JSON era adequado para o LLM ser forçado a produzir saída estruturada, então não entendo por que ele sairia do JSON de propósito
Parece ficar atrás do Qwen3 235B 2507 Reasoning (meu modelo favorito) e do gpt-oss-120B; veja o benchmark e a referência de preço
- Acho que a linha Qwen3 2507 é a melhor opção local no momento; com GPU e cerca de 32 GB de RAM, o modelo A3B é excelente para trabalho de pair programming
Entre os modelos que usei nos últimos 6 meses, o DeepSeek V3.1 foi o que mais apresentou alucinações (hallucinations)
- Queria saber qual context length foi usado
- Perguntando se existe a possibilidade de terem usado dados ruins desta vez
Fica em algum ponto intermediário entre o V3 e o Qwen3 Coder; link de comparação
- Perguntando se o modelo gpt-5 Mini é oferecido gratuitamente
Entre os modelos open-weight, parece competitivo, mas em comparação com GPT-5 ou Claude ainda há uma diferença grande
Ainda não vi evidência de que seja melhor que o GLM-4.5 em tarefas de codificação agentic
- Perguntando se é só isso ou se há alguma outra evidência que eu ainda não vi

Lançamento do DeepSeek-v3.1

Leituras relacionadas

1 comentários

Opiniões no Hacker News