2 pontos por GN⁺ 2025-08-22 | 1 comentários | Compartilhar no WhatsApp
  • DeepSeek-V3.1 é o primeiro passo para a próxima era dos agentes
  • Vem com um recurso de raciocínio híbrido que permite usar seletivamente dois modos em um único modelo: Think (baseado em raciocínio) e Non-Think (sem raciocínio)
  • No modo DeepSeek-V3.1-Think, é possível chegar à resposta correta em menos tempo do que o modelo anterior DeepSeek-R1-0528, melhorando significativamente a eficiência
  • Por meio de pós-treinamento (Post-training), a capacidade do modelo de atuar em uso de ferramentas, operação de sistemas externos e tarefas de agentes em múltiplas etapas foi amplamente aprimorada
  • Os usuários podem alternar livremente entre os modos Think/Non-Think no serviço de chatbot da DeepSeek por meio do botão “DeepThink”
  • Atualização da API
    • Alcançou resultados superiores nas avaliações SWE (Software Engineering) e Terminal-Bench
    • A capacidade de raciocínio em múltiplas etapas e resolução de problemas foi bastante reforçada em buscas complexas ou tarefas multietapas
    • A eficiência geral de raciocínio aumentou de forma significativa
  • Mudança no plano de preços (aplicável a partir de 25/9)
    • API de entrada: $0.07 por 1M de tokens (cache hit) / $0.56 (cache miss)
    • API de saída: $1.68 por 1M de tokens

1 comentários

 
GN⁺ 2025-08-22
Opiniões no Hacker News
  • Para rodar localmente, já fizeram um modelo GGUF; para obter bom desempenho com o esquema dinâmico de 2 bits (MoE em 2 bits, o restante em 6-8 bits), são necessários cerca de 250 GB somando RAM e VRAM, também é possível fazer offloading para SSD, mas fica lento; para detalhes sobre como executar, parâmetros ideais etc., veja a documentação oficial
    • No entanto, achei estranho o unsloth, sendo uma biblioteca Python, tentar executar apt-get com sudo; no meu NixOS isso falha, então é difícil de usar
    • Fiquei curioso sobre benchmarks mostrando quanto desempenho se perde nesses esquemas dinâmicos de compressão em 2 bits em relação ao modelo original
  • Compartilhando também o leaderboard do terminal-bench; a diferença para GPT-5, Claude 4 e GLM-4.5 é grande, mas, em comparação com outros modelos open-weight, o desempenho é relativamente respeitável; benchmark não diz tudo, então o resultado real só vai ficar claro com o tempo
    • Acho que esse benchmark mistura agent tool e modelo, então os resultados ficam pouco consistentes; para fazer sentido, seria preciso fixar apenas o agent tool e comparar só os modelos; esse tipo de benchmark tende a ser pouco confiável, e me parece melhor usar o modelo diretamente no seu próprio problema
    • Na minha percepção, a qualidade do resultado foi bem boa
    • Empresas como Anthropic e OpenAI também tendem a desenvolver agentes customizados para benchmarks específicos
    • Avisando que o DeepSeek R1 já é um modelo antigo e substituído; atualização anotada
    • Se o preço não ficar caro demais, até um modelo SOTA pode ser interessante sem pesar no bolso
  • É uma pena que o desconto do período de baixa demanda tenha desaparecido; naquela época dava para gerar uma quantidade enorme de tokens quase sem custo, mas ainda assim não tenho grandes reclamações, porque continua muito competitivo em preço
  • Segundo os resultados de benchmark da artificialanalysis.ai, ele tem mais ou menos a mesma inteligência do gpt-oss-120B, mas é cerca de 10 vezes mais lento e 3 vezes mais caro
    • A fonte mostrada atualmente exibe apenas um provedor específico; seria mais preciso comparar gpt-oss-120B e deepseek-chat-v3.1 com o mesmo fornecedor, levando em conta que o gpt-oss-120B já tem mais provedores implantados e otimizados, o que o favorece
  • O DeepSeek V3.1 é um modelo híbrido de reasoning e tem pontos fortes em tool calling (Task Tool Calling), mas frequentemente aparece usando aleatoriamente o formato antigo de ferramentas em vez do formato JSON padrão; provavelmente o dataset de treino do V3 continha bastante material desse tipo
    • Queria saber se você já testou function calling strict (beta); há um guia relacionado
    • Fiquei curioso sobre a que formato isso se refere; eu entendia que JSON era adequado para o LLM ser forçado a produzir saída estruturada, então não entendo por que ele sairia do JSON de propósito
  • Parece ficar atrás do Qwen3 235B 2507 Reasoning (meu modelo favorito) e do gpt-oss-120B; veja o benchmark e a referência de preço
    • Acho que a linha Qwen3 2507 é a melhor opção local no momento; com GPU e cerca de 32 GB de RAM, o modelo A3B é excelente para trabalho de pair programming
  • Entre os modelos que usei nos últimos 6 meses, o DeepSeek V3.1 foi o que mais apresentou alucinações (hallucinations)
    • Queria saber qual context length foi usado
    • Perguntando se existe a possibilidade de terem usado dados ruins desta vez
  • Fica em algum ponto intermediário entre o V3 e o Qwen3 Coder; link de comparação
    • Perguntando se o modelo gpt-5 Mini é oferecido gratuitamente
  • Entre os modelos open-weight, parece competitivo, mas em comparação com GPT-5 ou Claude ainda há uma diferença grande
  • Ainda não vi evidência de que seja melhor que o GLM-4.5 em tarefas de codificação agentic
    • Perguntando se é só isso ou se há alguma outra evidência que eu ainda não vi