Algumas palavras sobre o DS4
(antirez.com)- DwarfStar 4 se espalhou mais rápido do que o esperado e revelou a demanda por uma experiência de IA local centrada em um único modelo
- A rápida disseminação foi impulsionada pelo DeepSeek v4 Flash e pela quantização assimétrica de 2/8 bits, tornando possível a execução com 96 GB ou 128 GB de RAM
- O DS4 não é um projeto preso a um modelo específico, mas busca colocar no centro modelos abertos de pesos recentes e rápidos em equipamentos GPU in a box
- Na inferência local, parece fazer sentido chamar modelos especializados como ds4-coding, ds4-legal e ds4-medical de acordo com a pergunta
- Os próximos focos são benchmarks de qualidade, agentes de programação, CI baseada em hardware doméstico, expansão de ports e inferência distribuída serial e paralela
A rápida disseminação do DS4 e seu contexto
- O DwarfStar 4 ganhou popularidade mais rápido do que o esperado e mostrou a demanda por uma experiência de IA local focada na integração de um único modelo
- Para essa rápida disseminação, atuaram em conjunto o surgimento de modelos quase frontier como o DeepSeek v4 Flash, desempenho e velocidade grandes o bastante para mudar o cenário da inferência local, e a combinação de quantização fortemente assimétrica de 2/8 bits
- Essa combinação tornou possível executar o modelo com apenas 96 GB ou 128 GB de RAM
- A experiência acumulada pelo movimento de IA local nos últimos anos influenciou a velocidade de desenvolvimento do DS4, e parece que teria sido difícil criá-lo em apenas uma semana sem a ajuda do GPT 5.5
- A primeira semana foi divertida, mas cansativa, com uma média de 14 horas de trabalho por dia, em uma intensidade parecida com os primeiros meses do Redis
Direção daqui para frente
- O DS4 não é um projeto que começa e termina com o DeepSeek v4 Flash; com o tempo, o modelo central pode mudar
- O objetivo é colocar no centro do DS4 modelos abertos de pesos recentes que de fato rodem rápido em equipamentos “GPU in a box” como Macs de alto desempenho ou o DGX Spark
- O próximo candidato é o DeepSeek v4 Flash, que será lançado como um novo checkpoint, e também são possíveis versões para programação ou variantes especializadas em áreas como direito e medicina
- Na inferência local, parece fazer sentido chamar modelos como ds4-coding, ds4-legal, ds4-medical de acordo com a pergunta
- Pode-se dizer que esta é a primeira vez em que trabalhos sérios que antes eram entregues ao Claude ou ao GPT passam a ser confiados a um modelo local
- Com vector steering, também se tornou possível ter uma experiência de uso mais livre de LLMs, e o DS4 oferece uma experiência muito mais próxima dos modelos frontier online do que dos pequenos modelos locais
- Depois de alguns dias iniciais caóticos, o projeto deve se concentrar em benchmarks de qualidade, agentes de programação, testes de CI baseados em hardware doméstico, mais ports e inferência distribuída
- A inferência distribuída inclui tanto abordagens seriais (serial) quanto paralelas (parallel) e continua sendo uma tarefa importante para o futuro
- A IA é importante demais para permanecer apenas como um serviço fornecido por terceiros
1 comentários
Comentários do Hacker News
DwarfStar4 é um pequeno runtime de inferência de LLM capaz de executar o DeepSeek 4 e, pelo post do blog, parece exigir atualmente 96 GB de VRAM
Isso é uma explicação para quem está sem contexto :-)
Parece que funcionaria, mas talvez fique um pouco mais lento ao buscar camadas do modelo no armazenamento
Tenho muita curiosidade sobre em que ponto a inteligência necessária para programar vai chegar ao nível de “suficiente”
A partir de certo momento, um modelo menos inteligente pode ficar mais tempo insistindo no problema e chegar ao mesmo resultado, e se eu não intervier, no fim das contas dá na mesma
DeepSeek V4 Pro parece estar quase nesse ponto, e talvez o Flash também
Quando isso acontecer, fico me perguntando quanto do modelo de negócio atual da Anthropic vai desmoronar
Até agora, claramente valia a pena pagar pelo modelo mais inteligente, mas agora parece evidente que o espaço de crescimento dessa ideia é limitado
A questão é quão longa é a pista restante, e se a pressa da Anthropic em se expandir para o lado corporativo/produtividade também vem de já estar vendo esse movimento
Não parece ser só uma questão de esperar mais tempo
É um equilíbrio entre tempo do desenvolvedor, custo do desenvolvedor, custo de IA e produtividade do desenvolvedor
Olhando para o 4.6, parece que já está perto do limite do que uma empresa comum consegue bancar, então outras variáveis terão de mudar
O resultado foi bom, mas a pontuação ficou bem abaixo da do Opus, e mesmo aplicando o preço promocional atual do Deepseek, o custo ficou quase igual
Essa estrutura de custos é interessante; vi algo parecido com Sonnet e Opus, e quando fiz benchmarks por conta própria também houve modelos cujo preço parecia ótimo, mas que usavam tokens demais e acabavam custando o mesmo que modelos “mais caros”
[1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
Por que fariam o programador esperar?
É bom encontrar uma ferramenta tão focada assim
O backend principal suportado é Metal, com foco inicial em MacBooks com 96 GB de RAM
NVIDIA CUDA dá atenção especial ao DGX Spark, e AMD ROCm só é suportado no branch
rocmComo o antirez não tem acesso direto ao hardware, isso fica separado da main, e a ideia é que a comunidade faça rebase quando necessário
Esse projeto não existiria sem o llama.cpp e o GGML, e também há a recomendação de ler a seção de agradecimentos
Só que ainda não parece haver suporte a offloading para RAM do sistema[0]
Então acho que ainda vale acompanhar a issue do llama.cpp[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
rocm; queria saber se alguém de fato testou issoEste tópico fala muito de MacBook Pro, mas eu gostaria de experimentar em um AMD Halo Strix com 128 GB de memória unificada
Testei a versão Q4 em uma Mac Studio pela rede local e gostei
Usando junto com vários agentes, houve um momento em que ela fazia o trabalho tão bem que foi a primeira vez que esqueci que era um modelo local
Ainda assim, fico em dúvida se realmente precisamos de mais um agente
Rodei com o Pi, mas o system prompt do Claude Code é pesado demais considerando a velocidade de prefill, embora o resultado tenha sido excelente
OpenCode também é uma boa opção
Fico me perguntando se haveria mesmo algum ganho em criar mais uma ferramenta parecida só para Deepseek 4
Mas, seguindo a própria ideia do DS4, agentes via API acabam sendo forçados a fazer coisas esquisitas, como traduzir a sintaxe DSML para JSON, e isso gera problemas de normalização ou de checkpointing do cache KV
Independentemente de isso acontecer de fato ou não, ainda faz sentido oferecer uma alternativa mais normal
Também não entendo bem por que nesta área não se tenta escrever mais coisas em C/Go/Rust para ganhar controle, velocidade e menos dependências
No lado de TUI também dá para imaginar muita coisa
Muitos projetos têm o problema de simplesmente copiar o que já existe; por exemplo, isso aqui foi feito em 20 minutos: https://x.com/antirez/status/2055190821373116619
Agora o código ficou barato, e o valor das ideias aumentou
Não tenho certeza de que ainda faz sentido pensar em termos de “precisamos de mais um XYZ?”
Pode valer a pena só para explorar ideias novas
Pessoalmente, não gosto de usar o ecossistema JavaScript / Node para código, então ao explorar um novo TUI ou fluxo de trabalho de agente, usar ferramentas mais confortáveis muda tanto o resultado quanto o processo iterativo
Ele fornece um servidor de API de inferência, e você conecta a ele o harness de programação
Não consigo usar agora por limitação de hardware, mas gostei. Tenho só um M2 Max com 96 GB
Também entendo que para o usuário comum ou para computadores de massa isso possa parecer inviável ou até pior
Isso me lembra de como computadores domésticos antigos eram tratados como brinquedo antes de os computadores pessoais virarem o que são hoje
Na minha máquina atual, a combinação mais utilizável é pi agent + llama.cpp + nemotron cascade-2
Vai até 1M de contexto e, por ser uma arquitetura híbrida, não degrada como 1/N² nas profundidades de contexto de 10K, 50K e 100K usadas por agentes de código
Alguns dias atrás, num voo, consegui rodar o pi agent com serving via llama.cpp sem internet, e ficou mais ou menos utilizável a 40~30 tokens/s, o que me fez rir
Pelo que sei, via API normalmente fica no dobro disso, algo como 60~80 tokens/s
Durante a inferência, os sensores mostravam consumo de 60 W, e a bateria provavelmente não aguentaria mais de 3 horas
O modelo tem só 30B de tamanho, então sobra bastante espaço para cache KV e outros programas, e ele fica bom mesmo com quantização confortável em 8 bits
Um MoE A3B com apenas 3B de parâmetros ativados por vez parece ser o limite do que um M2 Max envelhecido consegue suportar
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.ggufcabe dentro de 96 GB de VRAM mesmo incluindo o contextoEntão, em teoria, também deveria ser possível no macOS, a menos que ele reserve por padrão alguns GB de RAM/VRAM para o sistema operacional ou a tela
Há alguns relatos positivos
Só que o M2 Max é meio lento
Fiquei surpreso com o quão perto parece do Claude
Obviamente é muito mais lento, mas não sei dizer se é muito mais burro
Curiosamente, a quantização imatrix parece melhor do que qualquer quantização usada pelo backend de inferência zdr do OpenRouter
Ontem ele percebeu sozinho que o processo de servidor dele era ele mesmo, sem que eu precisasse dizer isso, e foi a primeira vez que vi um modelo local fazer isso
É muito mais lento, mas no preço promocional atual também é várias vezes mais barato
Não acho que foi explicado por que criar um novo motor de inferência para cada modelo
Dá para simplesmente usar llama.cpp, e já há muita gente trabalhando na integração com llama.cpp
Acaba sendo muito esforço investido em um único modelo, e há uma grande chance de isso ficar obsoleto rápido quando surgir outro modelo melhor
Em algumas discussões, as pessoas estão abrindo PRs tanto no branch do llama.cpp quanto no ds4, o que dispersa mão de obra escassa que poderia estar sendo investida no desenvolvimento deste modelo
E tudo bem. As pessoas vão portar esse trabalho para o llama.cpp, e todo mundo sai ganhando
A experiência de uso do ds4 também é excelente. É muito fácil obter um modelo validado e uma boa quantização
O llama.cpp tem botões demais; parece muito mais hackear no meio do nada
Daqui a alguns anos veremos se isso é verdade
Se alguém quiser subir suporte para esse projeto para upstream, pode fazer livremente, e o código tem licença MIT
Projetos menores e mais novos podem se mover mais rápido
DeepSeekV4 Pro é realmente um modelo muito capaz e, especialmente na faixa de preço em que é oferecido, muito bom
Estou mexendo em um engine 2.5D em C sobre raylib e usando o DeepSeek como assistente
No OpenaCode, o registro do raciocínio aparece de forma transparente, e ver esse raciocínio tem sido impressionante
A leitura é bem longa, mas não havia nada inútil ou sem sentido
O DeepSeek sempre apontava no raciocínio suposições que eu não tinha percebido ou que estavam erradas, e na saída final ainda assim se alinhava ao meu pedido defeituoso
Aí eu acabava respondendo algo como “espera, então você também pensou isso, isso está certo e eu errei, então vamos considerar esse aspecto também”
Seria ótimo poder rodar isso não só no meu computador, mas também em projetos de cliente ou em GPUs na nuvem
A ideia central de usar modelos poderosos de forma eficiente, sem cluster, ainda se aplica a muitos casos de negócio
Espero que essa abordagem também funcione em modo batch
No momento, em uma H200, parece que uma das melhores opções para chamadas de ferramentas agentic em agentes de voz inteligentes é o Qwen 3.6 27B 4-bit com MTP
Se o DS4 Flash for 80B em 2 bits, 13B ativos, com arquitetura MTP, fico curioso se ele conseguiria ser mais rápido e mais inteligente, além de permitir mais sequências simultâneas
Essa quantização especial em 2 bits parece ter bastante importância
Ver desempenho e velocidade subirem tão rápido em modelos locais, seja lá como você queira chamar isso de “inteligência”, faz pensar qual é a taxa de crescimento e onde está o teto dessa área
Em alguns anos, será que esse nível de inteligência e desempenho poderia existir, por exemplo, com 16 GB de RAM?
Dá para definir aqui um novo tipo de lei de Moore?
Seria preciso uma inovação de arquitetura, de hardware ou de alguma técnica de quantização
O problema é que mesmo os parâmetros não ativados ainda precisam estar na memória
Mesmo em modelos mixture-of-experts, trocar parâmetros para dentro e para fora da RAM é lento demais
Corvos exibem um certo nível de inteligência com cérebros muito menores que os dos humanos, e há alguma sobreposição entre a capacidade de resolver problemas do humano mais burro e do corvo mais inteligente
Então a pergunta é o que exatamente é isso
Yann LeCun parece acreditar que isso é o que hoje chamamos de modelo de mundo
Um modelo de mundo não prevê dados estruturados como linguagem, e sim ações
Se for possível prever como um mundo funciona, então em teoria é possível inferir causa e efeito
Se você conseguir combinar inferência de causa e efeito com linguagem, talvez saia algo próximo de inteligência real
A direção parece ser essa
Quando surgirem protótipos desse tipo de sistema, também vai haver muitas perguntas sobre quanta quantidade de dados eles realmente precisam
Já vimos LLMs reduzidos com quantização de 1 bit ainda apresentarem compreensão de linguagem bastante forte
Não me parece irracional achar que, nos próximos anos, veremos sistemas de IA muito inteligentes com memória relativamente baixa também