Prévia do Moondream 3: raciocínio de ponta com velocidade revolucionária

(moondream.ai)

14 pontos por GN⁺ 2025-09-28 | 1 comentários | Compartilhar no WhatsApp

Moondream 3 aplica uma arquitetura 9B MoE com 2B de parâmetros ativos para alcançar ao mesmo tempo desempenho de raciocínio visual de ponta e inferência rápida e eficiente
O modelo foi projetado com foco em uma arquitetura especializada para tarefas de visão do mundo real, facilidade de treinamento, alta velocidade e baixo custo
Mostra desempenho forte em uma ampla gama de aplicações reais, como detecção de objetos, pointing, saída estruturada e OCR
Suporta comprimento de contexto de 32k tokens, fortalecendo significativamente a capacidade de lidar com consultas e respostas complexas
Nos benchmarks iniciais, mostrou vantagem em velocidade de resposta e eficiência em comparação com modelos grandes existentes

Introdução e objetivos principais

Moondream 3 é um novo modelo de visão-linguagem baseado em uma arquitetura 9B Mixture-of-Experts (MoE) com 2B de parâmetros ativos
Em comparação com modelos existentes, busca ao mesmo tempo capacidade de raciocínio visual de ponta e inferência extremamente rápida e com bom custo-benefício
Para resolver problemas do mundo real, concentra-se nas quatro áreas principais a seguir
- Raciocínio visual: mesmo com escala menor, o objetivo é oferecer excelente capacidade em tarefas reais sem sacrificar habilidades práticas
- Facilidade de treinamento: dá ênfase ao fine-tuning simples para tarefas de visão especializadas, como interpretação de imagens médicas e detecção de comportamento anômalo em multidões
- Velocidade: oferece alta velocidade em aplicações de IA visual que exigem processamento em tempo real, como classificação de produtos e vigilância com drones
- Baixo custo: considerando ambientes de processamento massivo de imagens, busca minimizar o custo operacional mesmo em implantação em grande escala
Embora seja um modelo 9B MoE, apenas 2B de parâmetros ativos entram em operação, garantindo a possibilidade de inferência em tempo real rápida e barata
Usa Reinforcement Learning para reforçar a eficiência de treinamento, demonstrando alta adaptabilidade mesmo em ambientes complexos
Expandiu significativamente o comprimento de contexto de 2k para 32k, melhorando questões de processamento de contexto complexo

Casos reais do Moondream 3

Detecção de objetos (Object Detection)
- O Moondream 3 vai além da simples classificação por rótulos e consegue entender consultas complexas e fazer detecção de objetos adequada ao contexto
- Em comparação com modelos frontier, oferece desempenho diferenciado em funções essenciais como detecção de objetos e pointing
  - Exemplo 1: detectar um "corredor usando meias roxas"
  - Exemplo 2: detectar o elemento de UI "entrada de quantidade"
Pointing (função de apontar)
- O Moondream 3 traz embutida a capacidade de apontar com precisão para objetos específicos dentro de uma imagem
  - Exemplo 3: apontar para o objeto "garrafa"
  - Exemplo 4: selecionar o "utensílio mais adequado para massa"
Saída estruturada (Structured Output)
- Com contexto de 32k, melhora a capacidade de gerar saídas de estrutura complexa e retornar resultados em formatos de dados como JSON com prompts mínimos
  - Exemplo 5: gerar um array JSON com os campos dog_id, fur_color e harness_color para informações sobre cães de trenó
OCR (reconhecimento óptico de caracteres)
- Houve grande melhora no desempenho de OCR em relação à versão anterior, permitindo uso em diversas aplicações do mundo real
- Ainda há algumas limitações com textos muito pequenos, mas mostra alta precisão na extração de informações estruturadas, como tabelas
  - Exemplo 6: converter uma tabela de reações químicas em tabela Markdown

Benchmarks

O Moondream 3 mostra desempenho comparável aos VLMs líderes em diversos benchmarks
No entanto, segue demonstrando vantagens práticas consistentes em velocidade de resposta em relação a modelos grandes
Resultados de benchmark mais completos e comparações de tempo de inferência serão divulgados futuramente

Nota técnica do Moondream 3

Modelo Mixture-of-Experts esparso e granular, no qual 8 entre 64 especialistas (Experts) são ativados a cada token
Aplicação da técnica de inicialização drop upcycling a partir do Moondream 2 (2B Dense)
Suporte, no treinamento real, ao comprimento total de contexto de 32k tokens
Mistura de amostras de contexto longo no pré-treinamento para aplicação eficaz sem uma etapa adicional de expansão de contexto
Reforço da compreensão de contexto longo com temperature scaling durante o treinamento e ajuste de atenção estruturada
Suporta dois modos, raciocínio lógico e explicação não lógica, com especialização em grounding baseado em imagem
O treinamento baseado em reinforcement learning melhora gradualmente a dependência de exemplos e a adaptabilidade no raciocínio visual
Após induzir especialização por token com load balancing, perda ortogonal do roteador e afins, complementa a estabilidade na etapa de pós-treinamento
Melhora de componentes de atenção com supressão de LSE, ajuste de temperatura e afins, aumentando precisão e clareza

Conclusão e planos futuros

Nesta prévia, a velocidade pode ser menor devido a código de inferência não otimizado, e o modelo segue em treinamento adicional no momento
A expectativa é que a versão oficial melhore bastante em desempenho, benchmarks e velocidade de inferência
Os planos incluem a criação de diversos modelos derivados, como quantização e versões pequenas distilled
Pode ser usado no Moondream Playground e no HuggingFace, e feedbacks e perguntas podem ser enviados pelo Discord

Observação: como os modelos frontier não oferecem suporte nativo à detecção essencial de objetos, foi usado um prompt template para a comparação

1 comentários

GN⁺ 2025-09-28

Comentários do Hacker News

Estou usando o Moondream 2 de forma muito útil, principalmente para rotular automaticamente datasets de detecção de objetos para novas classes e fazer distill em uma CNN bem menor com precisão parecida
Desde a tag de versão 2025-01-09, não senti muito as melhorias de desempenho anunciadas; os lançamentos posteriores parecem ter melhorado o recall, mas com uma queda grande de precision, o que é uma pena
Para lidar melhor com esse tipo de problema, seria ótimo se modelos vision-language como o Moondream também reportassem confidence de classe
Gosto muito do fato de haver uma API dedicada para detecção de objetos, não vi isso em outros modelos ou wrappers
Estou animado com os resultados de otimização de inferência do Moondream 3, parabéns ao time
Vale a pena seguir o fundador Vik no X
- A resposta foi que, se houver exemplos de problemas de precision/recall, podem mandar e-mail a qualquer momento para vik@m87.ai
Eu também usei para rotulagem automática de datasets e funciona muito bem
O desempenho do modelo Moondream é realmente impressionante
Mas, vendo os resultados dos três grandes laboratórios, fiquei surpreso com o quão ruins Claude e OpenAI são nisso
O Gemini fica atrás do Moondream, mas ainda é o único que dá para chamar de realmente utilizável
Eu não imaginava que a diferença de desempenho seria tão grande
- Curiosamente, só o Gemini lê corretamente os números de um dado D20
  O ChatGPT continua errando, e o Claude só diz que não consegue ler porque a face superior do dado está obstruída (na verdade, não está)
- É curioso que o Moondream seja tão bom e ainda não tenha sido adquirido por uma big tech
  Parece algo que Anthropic, OpenAI e outras certamente gostariam de colocar em suas plataformas
  As pessoas que construíram isso merecem ficar ricas, e combinado com o alcance de uma grande organização, o uso visual dos LLMs poderia se tornar muito mais útil
- O Gemini é realmente excelente em tarefas mais próximas de OCR, mas, fora isso, na maioria das tarefas relacionadas a imagem, o desempenho costuma cair bastante
O resultado é realmente muito legal
Eu também preferia o Gemini para automação de bounding boxes, então, se um modelo 9B superar isso, fico muito animado
O Moondream 2 tinha licença Apache 2, mas o preview do 3 está com BSL; queria saber se a mudança de licença é permanente
- Pela licença do Moondream3, ela deve mudar para Apache 2 daqui a 2 anos
No paper.design usamos o moondream2 para rotular automaticamente imagens enviadas por usuários (para a árvore de camadas)
É realmente rápido e preciso, estou animado pelo 3 também
Passei 5 minutos procurando informações de preço do Moondream cloud, mas parece que elas simplesmente não existem (pelo menos antes do cadastro)
Há 5.000 requisições grátis, mas antes de conectar um serviço real, minha principal prioridade é verificar se o preço faz sentido
- O cloud deve ser lançado em breve
  Eles estão otimizando para reduzir ainda mais o custo de inferência e se preparar para oferecer o melhor preço
  Se quiser saber rapidamente quando lançar, pode seguir @moondreamai no X
Acho a escolha da arquitetura MoE particularmente interessante
O fato de manter desempenho de nível de um modelo 8B ativando apenas 2B parâmetros pode mudar bastante a implantação em dispositivos de borda
Tenho bastante experiência implantando modelos de visão em produção, onde latência é crítica, e sparse activation assim parece poder reduzir bastante a barreira de adoção causada pelo custo de inferência de grandes modelos vision-language
A capacidade de entender gráficos também é um ponto promissor para fluxos de automação de documentos
Gostaria de saber se alguém já testou a consistência do modelo com outras qualidades de imagem ou condições de iluminação
Nessas condições, modelos pequenos muitas vezes sofrem mais do que modelos flagship
Modelo impressionante
Queria saber se alguém já tentou usá-lo para controle de computador/navegador e o quão bem ele lida com gráficos e charts
- A skill point foi treinada com muitos dados de UI, e há muitos usuários combinando isso com um modelo driver maior para automação de UI
  Antes do lançamento final, estão tentando treinamento adicional para fazê-lo funcionar de ponta a ponta em ambientes de agent
  Por isso também aumentaram o comprimento de contexto
  O entendimento de charts envolve vários tipos, mas é bem decente
  No blog, divulgaram o benchmark ChartQA, e ele é parecido com o GPT5* e ligeiramente melhor que o Gemini 2.5 Flash
  - Porém, o GPT5 provavelmente funciona bem com uma variedade muito maior de charts/gráficos, enquanto o Moondream é mais adequado para vision AI onde o GPT5 é difícil de usar por preço/latência
- Estou usando para rotulagem de datasets e estou curioso para ver como vão sair os resultados
Tenho curiosidade se esse conceito de 2B parâmetros ativos se refere à inferência por token e como isso escala quando o comprimento de contexto muda
Em termos concretos, eu gostaria de ouvir uma explicação adicional sobre o impacto do MoE na ativação durante a inferência e o significado prático disso em termos de latência
Alguém recomenda qual é o hardware mais barato para rodar esse modelo localmente em um nível razoável?
- Ainda não existe versão quantizada, então só os pesos já exigem cerca de 20 GB de memória
  Incluindo o cache KV, uma combinação de CPU com 32 GB de RAM provavelmente é a opção mais barata e ainda assim razoavelmente rápida
  Como o número de parâmetros ativos é baixo, o desempenho no CPU também é decente
Tenho curiosidade sobre os resultados de comparação de desempenho entre os modelos Qwen3-VL e Moondream

Prévia do Moondream 3: raciocínio de ponta com velocidade revolucionária

Introdução e objetivos principais

Casos reais do Moondream 3

Detecção de objetos (Object Detection)

Pointing (função de apontar)

Saída estruturada (Structured Output)

OCR (reconhecimento óptico de caracteres)

Benchmarks

Nota técnica do Moondream 3

Conclusão e planos futuros

Leituras relacionadas

1 comentários

Comentários do Hacker News