1 pontos por GN⁺ 5 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • DwarfStar 4 se espalhou mais rápido do que o esperado e revelou a demanda por uma experiência de IA local centrada em um único modelo
  • A rápida disseminação foi impulsionada pelo DeepSeek v4 Flash e pela quantização assimétrica de 2/8 bits, tornando possível a execução com 96 GB ou 128 GB de RAM
  • O DS4 não é um projeto preso a um modelo específico, mas busca colocar no centro modelos abertos de pesos recentes e rápidos em equipamentos GPU in a box
  • Na inferência local, parece fazer sentido chamar modelos especializados como ds4-coding, ds4-legal e ds4-medical de acordo com a pergunta
  • Os próximos focos são benchmarks de qualidade, agentes de programação, CI baseada em hardware doméstico, expansão de ports e inferência distribuída serial e paralela

A rápida disseminação do DS4 e seu contexto

  • O DwarfStar 4 ganhou popularidade mais rápido do que o esperado e mostrou a demanda por uma experiência de IA local focada na integração de um único modelo
  • Para essa rápida disseminação, atuaram em conjunto o surgimento de modelos quase frontier como o DeepSeek v4 Flash, desempenho e velocidade grandes o bastante para mudar o cenário da inferência local, e a combinação de quantização fortemente assimétrica de 2/8 bits
  • Essa combinação tornou possível executar o modelo com apenas 96 GB ou 128 GB de RAM
  • A experiência acumulada pelo movimento de IA local nos últimos anos influenciou a velocidade de desenvolvimento do DS4, e parece que teria sido difícil criá-lo em apenas uma semana sem a ajuda do GPT 5.5
  • A primeira semana foi divertida, mas cansativa, com uma média de 14 horas de trabalho por dia, em uma intensidade parecida com os primeiros meses do Redis

Direção daqui para frente

  • O DS4 não é um projeto que começa e termina com o DeepSeek v4 Flash; com o tempo, o modelo central pode mudar
  • O objetivo é colocar no centro do DS4 modelos abertos de pesos recentes que de fato rodem rápido em equipamentos “GPU in a box” como Macs de alto desempenho ou o DGX Spark
  • O próximo candidato é o DeepSeek v4 Flash, que será lançado como um novo checkpoint, e também são possíveis versões para programação ou variantes especializadas em áreas como direito e medicina
  • Na inferência local, parece fazer sentido chamar modelos como ds4-coding, ds4-legal, ds4-medical de acordo com a pergunta
  • Pode-se dizer que esta é a primeira vez em que trabalhos sérios que antes eram entregues ao Claude ou ao GPT passam a ser confiados a um modelo local
  • Com vector steering, também se tornou possível ter uma experiência de uso mais livre de LLMs, e o DS4 oferece uma experiência muito mais próxima dos modelos frontier online do que dos pequenos modelos locais
  • Depois de alguns dias iniciais caóticos, o projeto deve se concentrar em benchmarks de qualidade, agentes de programação, testes de CI baseados em hardware doméstico, mais ports e inferência distribuída
  • A inferência distribuída inclui tanto abordagens seriais (serial) quanto paralelas (parallel) e continua sendo uma tarefa importante para o futuro
  • A IA é importante demais para permanecer apenas como um serviço fornecido por terceiros

1 comentários

 
GN⁺ 5 시간 전
Comentários do Hacker News
  • DwarfStar4 é um pequeno runtime de inferência de LLM capaz de executar o DeepSeek 4 e, pelo post do blog, parece exigir atualmente 96 GB de VRAM
    Isso é uma explicação para quem está sem contexto :-)

    • Não é o modelo completo, e sim a versão Flash, e a quantização também está mais ou menos no nível Q2~Q3, então é impressionante, mas bem diferente do modelo completo
    • Tem essa parte de exigir 96 GB de VRAM, e fico curioso se alguém já testou como ele se comporta em Macs com menos RAM
      Parece que funcionaria, mas talvez fique um pouco mais lento ao buscar camadas do modelo no armazenamento
    • Fico curioso sobre como o DwarfStar4 se diferencia do llama.cpp
  • Tenho muita curiosidade sobre em que ponto a inteligência necessária para programar vai chegar ao nível de “suficiente”
    A partir de certo momento, um modelo menos inteligente pode ficar mais tempo insistindo no problema e chegar ao mesmo resultado, e se eu não intervier, no fim das contas dá na mesma
    DeepSeek V4 Pro parece estar quase nesse ponto, e talvez o Flash também
    Quando isso acontecer, fico me perguntando quanto do modelo de negócio atual da Anthropic vai desmoronar
    Até agora, claramente valia a pena pagar pelo modelo mais inteligente, mas agora parece evidente que o espaço de crescimento dessa ideia é limitado
    A questão é quão longa é a pista restante, e se a pressa da Anthropic em se expandir para o lado corporativo/produtividade também vem de já estar vendo esse movimento

    • Modelos mais inteligentes às vezes simplesmente conseguem fazer coisas que os menores não conseguem
      Não parece ser só uma questão de esperar mais tempo
    • No fim, sempre vai virar uma questão de custo
      É um equilíbrio entre tempo do desenvolvedor, custo do desenvolvedor, custo de IA e produtividade do desenvolvedor
      Olhando para o 4.6, parece que já está perto do limite do que uma empresa comum consegue bancar, então outras variáveis terão de mudar
    • O agente de programação open source Kilo testou e comparou Deepseek v4 Pro e Flash com Opus 4.7 e Kimi K2[1]
      O resultado foi bom, mas a pontuação ficou bem abaixo da do Opus, e mesmo aplicando o preço promocional atual do Deepseek, o custo ficou quase igual
      Essa estrutura de custos é interessante; vi algo parecido com Sonnet e Opus, e quando fiz benchmarks por conta própria também houve modelos cujo preço parecia ótimo, mas que usavam tokens demais e acabavam custando o mesmo que modelos “mais caros”
      [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
    • Para programadores por hobby, isso deve chegar bem rápido ao nível de bom o suficiente, mas as empresas provavelmente ainda vão pagar por modelos mais rápidos e mais inteligentes
      Por que fariam o programador esperar?
  • É bom encontrar uma ferramenta tão focada assim
    O backend principal suportado é Metal, com foco inicial em MacBooks com 96 GB de RAM
    NVIDIA CUDA dá atenção especial ao DGX Spark, e AMD ROCm só é suportado no branch rocm
    Como o antirez não tem acesso direto ao hardware, isso fica separado da main, e a ideia é que a comunidade faça rebase quando necessário
    Esse projeto não existiria sem o llama.cpp e o GGML, e também há a recomendação de ler a seção de agradecimentos
    Só que ainda não parece haver suporte a offloading para RAM do sistema[0]
    Então acho que ainda vale acompanhar a issue do llama.cpp[1]
    [0] https://github.com/antirez/ds4/issues/108
    [1] https://github.com/ggml-org/llama.cpp/issues/22319

    • Dizem que AMD ROCm só é suportado no branch rocm; queria saber se alguém de fato testou isso
      Este tópico fala muito de MacBook Pro, mas eu gostaria de experimentar em um AMD Halo Strix com 128 GB de memória unificada
    • Queria ao menos ainda poder comprar um Mac com essa quantidade de RAM
  • Testei a versão Q4 em uma Mac Studio pela rede local e gostei
    Usando junto com vários agentes, houve um momento em que ela fazia o trabalho tão bem que foi a primeira vez que esqueci que era um modelo local
    Ainda assim, fico em dúvida se realmente precisamos de mais um agente
    Rodei com o Pi, mas o system prompt do Claude Code é pesado demais considerando a velocidade de prefill, embora o resultado tenha sido excelente
    OpenCode também é uma boa opção
    Fico me perguntando se haveria mesmo algum ganho em criar mais uma ferramenta parecida só para Deepseek 4

    • Em termos de funcionalidade, não é necessário outro agente
      Mas, seguindo a própria ideia do DS4, agentes via API acabam sendo forçados a fazer coisas esquisitas, como traduzir a sintaxe DSML para JSON, e isso gera problemas de normalização ou de checkpointing do cache KV
      Independentemente de isso acontecer de fato ou não, ainda faz sentido oferecer uma alternativa mais normal
      Também não entendo bem por que nesta área não se tenta escrever mais coisas em C/Go/Rust para ganhar controle, velocidade e menos dependências
      No lado de TUI também dá para imaginar muita coisa
      Muitos projetos têm o problema de simplesmente copiar o que já existe; por exemplo, isso aqui foi feito em 20 minutos: https://x.com/antirez/status/2055190821373116619
      Agora o código ficou barato, e o valor das ideias aumentou
      Não tenho certeza de que ainda faz sentido pensar em termos de “precisamos de mais um XYZ?”
      Pode valer a pena só para explorar ideias novas
      Pessoalmente, não gosto de usar o ecossistema JavaScript / Node para código, então ao explorar um novo TUI ou fluxo de trabalho de agente, usar ferramentas mais confortáveis muda tanto o resultado quanto o processo iterativo
    • DS4 é um motor de inferência, não um harness de execução
      Ele fornece um servidor de API de inferência, e você conecta a ele o harness de programação
  • Não consigo usar agora por limitação de hardware, mas gostei. Tenho só um M2 Max com 96 GB
    Também entendo que para o usuário comum ou para computadores de massa isso possa parecer inviável ou até pior
    Isso me lembra de como computadores domésticos antigos eram tratados como brinquedo antes de os computadores pessoais virarem o que são hoje
    Na minha máquina atual, a combinação mais utilizável é pi agent + llama.cpp + nemotron cascade-2
    Vai até 1M de contexto e, por ser uma arquitetura híbrida, não degrada como 1/N² nas profundidades de contexto de 10K, 50K e 100K usadas por agentes de código
    Alguns dias atrás, num voo, consegui rodar o pi agent com serving via llama.cpp sem internet, e ficou mais ou menos utilizável a 40~30 tokens/s, o que me fez rir
    Pelo que sei, via API normalmente fica no dobro disso, algo como 60~80 tokens/s
    Durante a inferência, os sensores mostravam consumo de 60 W, e a bateria provavelmente não aguentaria mais de 3 horas
    O modelo tem só 30B de tamanho, então sobra bastante espaço para cache KV e outros programas, e ele fica bom mesmo com quantização confortável em 8 bits
    Um MoE A3B com apenas 3B de parâmetros ativados por vez parece ser o limite do que um M2 Max envelhecido consegue suportar

    • Não sei se no macOS funciona diferente, mas com CUDA e DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf cabe dentro de 96 GB de VRAM mesmo incluindo o contexto
      Então, em teoria, também deveria ser possível no macOS, a menos que ele reserve por padrão alguns GB de RAM/VRAM para o sistema operacional ou a tela
    • Parece que também funcionaria nesse computador
      Há alguns relatos positivos
    • Com 96 GB, especialmente com contexto limitado, deve funcionar
      Só que o M2 Max é meio lento
  • Fiquei surpreso com o quão perto parece do Claude
    Obviamente é muito mais lento, mas não sei dizer se é muito mais burro
    Curiosamente, a quantização imatrix parece melhor do que qualquer quantização usada pelo backend de inferência zdr do OpenRouter
    Ontem ele percebeu sozinho que o processo de servidor dele era ele mesmo, sem que eu precisasse dizer isso, e foi a primeira vez que vi um modelo local fazer isso

    • Fico curioso para saber que prompt foi usado
    • É claramente um teste anedótico, mas DeepseekV4 Pro foi melhor do que Sonnet para programação
      É muito mais lento, mas no preço promocional atual também é várias vezes mais barato
  • Não acho que foi explicado por que criar um novo motor de inferência para cada modelo
    Dá para simplesmente usar llama.cpp, e já há muita gente trabalhando na integração com llama.cpp
    Acaba sendo muito esforço investido em um único modelo, e há uma grande chance de isso ficar obsoleto rápido quando surgir outro modelo melhor
    Em algumas discussões, as pessoas estão abrindo PRs tanto no branch do llama.cpp quanto no ds4, o que dispersa mão de obra escassa que poderia estar sendo investida no desenvolvimento deste modelo

    • É muito mais fácil trabalhar em uma base de código em C focada e sob seu próprio controle do que em uma base madura e difícil de lidar em C++ que você não controla
      E tudo bem. As pessoas vão portar esse trabalho para o llama.cpp, e todo mundo sai ganhando
      A experiência de uso do ds4 também é excelente. É muito fácil obter um modelo validado e uma boa quantização
      O llama.cpp tem botões demais; parece muito mais hackear no meio do nada
    • A premissa parece ser “código é barato, colaboração — por exemplo, upstreaming — é cara”
      Daqui a alguns anos veremos se isso é verdade
    • Como o autor já disse várias vezes, os mantenedores do llama.cpp não querem uma enxurrada de código gerado por IA que não tenha sido revisado por humanos
      Se alguém quiser subir suporte para esse projeto para upstream, pode fazer livremente, e o código tem licença MIT
    • A partir de certo ponto, o nível de abstração e generalização necessário em projetos grandes e flexíveis como llama.cpp ou Linux faz o número de arquivos explodir
      Projetos menores e mais novos podem se mover mais rápido
  • DeepSeekV4 Pro é realmente um modelo muito capaz e, especialmente na faixa de preço em que é oferecido, muito bom
    Estou mexendo em um engine 2.5D em C sobre raylib e usando o DeepSeek como assistente
    No OpenaCode, o registro do raciocínio aparece de forma transparente, e ver esse raciocínio tem sido impressionante
    A leitura é bem longa, mas não havia nada inútil ou sem sentido
    O DeepSeek sempre apontava no raciocínio suposições que eu não tinha percebido ou que estavam erradas, e na saída final ainda assim se alinhava ao meu pedido defeituoso
    Aí eu acabava respondendo algo como “espera, então você também pensou isso, isso está certo e eu errei, então vamos considerar esse aspecto também”

  • Seria ótimo poder rodar isso não só no meu computador, mas também em projetos de cliente ou em GPUs na nuvem
    A ideia central de usar modelos poderosos de forma eficiente, sem cluster, ainda se aplica a muitos casos de negócio
    Espero que essa abordagem também funcione em modo batch
    No momento, em uma H200, parece que uma das melhores opções para chamadas de ferramentas agentic em agentes de voz inteligentes é o Qwen 3.6 27B 4-bit com MTP
    Se o DS4 Flash for 80B em 2 bits, 13B ativos, com arquitetura MTP, fico curioso se ele conseguiria ser mais rápido e mais inteligente, além de permitir mais sequências simultâneas
    Essa quantização especial em 2 bits parece ter bastante importância

  • Ver desempenho e velocidade subirem tão rápido em modelos locais, seja lá como você queira chamar isso de “inteligência”, faz pensar qual é a taxa de crescimento e onde está o teto dessa área
    Em alguns anos, será que esse nível de inteligência e desempenho poderia existir, por exemplo, com 16 GB de RAM?
    Dá para definir aqui um novo tipo de lei de Moore?

    • Enfiar modelos assim em 16 GB, inclusive com esse “cheiro de modelo grande”, sinceramente não é possível hoje ou não é realisticamente possível
      Seria preciso uma inovação de arquitetura, de hardware ou de alguma técnica de quantização
      O problema é que mesmo os parâmetros não ativados ainda precisam estar na memória
      Mesmo em modelos mixture-of-experts, trocar parâmetros para dentro e para fora da RAM é lento demais
    • As pessoas que trabalham na fronteira dessa área parecem achar que precisamos de modelos paralelos resolvendo problemas diferentes
      Corvos exibem um certo nível de inteligência com cérebros muito menores que os dos humanos, e há alguma sobreposição entre a capacidade de resolver problemas do humano mais burro e do corvo mais inteligente
      Então a pergunta é o que exatamente é isso
      Yann LeCun parece acreditar que isso é o que hoje chamamos de modelo de mundo
      Um modelo de mundo não prevê dados estruturados como linguagem, e sim ações
      Se for possível prever como um mundo funciona, então em teoria é possível inferir causa e efeito
      Se você conseguir combinar inferência de causa e efeito com linguagem, talvez saia algo próximo de inteligência real
      A direção parece ser essa
      Quando surgirem protótipos desse tipo de sistema, também vai haver muitas perguntas sobre quanta quantidade de dados eles realmente precisam
      Já vimos LLMs reduzidos com quantização de 1 bit ainda apresentarem compreensão de linguagem bastante forte
      Não me parece irracional achar que, nos próximos anos, veremos sistemas de IA muito inteligentes com memória relativamente baixa também