- Moondream 3 aplica uma arquitetura 9B MoE com 2B de parâmetros ativos para alcançar ao mesmo tempo desempenho de raciocínio visual de ponta e inferência rápida e eficiente
- O modelo foi projetado com foco em uma arquitetura especializada para tarefas de visão do mundo real, facilidade de treinamento, alta velocidade e baixo custo
- Mostra desempenho forte em uma ampla gama de aplicações reais, como detecção de objetos, pointing, saída estruturada e OCR
- Suporta comprimento de contexto de 32k tokens, fortalecendo significativamente a capacidade de lidar com consultas e respostas complexas
- Nos benchmarks iniciais, mostrou vantagem em velocidade de resposta e eficiência em comparação com modelos grandes existentes
Introdução e objetivos principais
- Moondream 3 é um novo modelo de visão-linguagem baseado em uma arquitetura 9B Mixture-of-Experts (MoE) com 2B de parâmetros ativos
- Em comparação com modelos existentes, busca ao mesmo tempo capacidade de raciocínio visual de ponta e inferência extremamente rápida e com bom custo-benefício
- Para resolver problemas do mundo real, concentra-se nas quatro áreas principais a seguir
- Raciocínio visual: mesmo com escala menor, o objetivo é oferecer excelente capacidade em tarefas reais sem sacrificar habilidades práticas
- Facilidade de treinamento: dá ênfase ao fine-tuning simples para tarefas de visão especializadas, como interpretação de imagens médicas e detecção de comportamento anômalo em multidões
- Velocidade: oferece alta velocidade em aplicações de IA visual que exigem processamento em tempo real, como classificação de produtos e vigilância com drones
- Baixo custo: considerando ambientes de processamento massivo de imagens, busca minimizar o custo operacional mesmo em implantação em grande escala
- Embora seja um modelo 9B MoE, apenas 2B de parâmetros ativos entram em operação, garantindo a possibilidade de inferência em tempo real rápida e barata
- Usa Reinforcement Learning para reforçar a eficiência de treinamento, demonstrando alta adaptabilidade mesmo em ambientes complexos
- Expandiu significativamente o comprimento de contexto de 2k para 32k, melhorando questões de processamento de contexto complexo
Casos reais do Moondream 3
-
Detecção de objetos (Object Detection)
- O Moondream 3 vai além da simples classificação por rótulos e consegue entender consultas complexas e fazer detecção de objetos adequada ao contexto
- Em comparação com modelos frontier, oferece desempenho diferenciado em funções essenciais como detecção de objetos e pointing
- Exemplo 1: detectar um "corredor usando meias roxas"
- Exemplo 2: detectar o elemento de UI "entrada de quantidade"
-
Pointing (função de apontar)
- O Moondream 3 traz embutida a capacidade de apontar com precisão para objetos específicos dentro de uma imagem
- Exemplo 3: apontar para o objeto "garrafa"
- Exemplo 4: selecionar o "utensílio mais adequado para massa"
- O Moondream 3 traz embutida a capacidade de apontar com precisão para objetos específicos dentro de uma imagem
-
Saída estruturada (Structured Output)
- Com contexto de 32k, melhora a capacidade de gerar saídas de estrutura complexa e retornar resultados em formatos de dados como JSON com prompts mínimos
- Exemplo 5: gerar um array JSON com os campos dog_id, fur_color e harness_color para informações sobre cães de trenó
- Com contexto de 32k, melhora a capacidade de gerar saídas de estrutura complexa e retornar resultados em formatos de dados como JSON com prompts mínimos
-
OCR (reconhecimento óptico de caracteres)
- Houve grande melhora no desempenho de OCR em relação à versão anterior, permitindo uso em diversas aplicações do mundo real
- Ainda há algumas limitações com textos muito pequenos, mas mostra alta precisão na extração de informações estruturadas, como tabelas
- Exemplo 6: converter uma tabela de reações químicas em tabela Markdown
Benchmarks
- O Moondream 3 mostra desempenho comparável aos VLMs líderes em diversos benchmarks
- No entanto, segue demonstrando vantagens práticas consistentes em velocidade de resposta em relação a modelos grandes
- Resultados de benchmark mais completos e comparações de tempo de inferência serão divulgados futuramente
Nota técnica do Moondream 3
- Modelo Mixture-of-Experts esparso e granular, no qual 8 entre 64 especialistas (Experts) são ativados a cada token
- Aplicação da técnica de inicialização drop upcycling a partir do Moondream 2 (2B Dense)
- Suporte, no treinamento real, ao comprimento total de contexto de 32k tokens
- Mistura de amostras de contexto longo no pré-treinamento para aplicação eficaz sem uma etapa adicional de expansão de contexto
- Reforço da compreensão de contexto longo com temperature scaling durante o treinamento e ajuste de atenção estruturada
- Suporta dois modos, raciocínio lógico e explicação não lógica, com especialização em grounding baseado em imagem
- O treinamento baseado em reinforcement learning melhora gradualmente a dependência de exemplos e a adaptabilidade no raciocínio visual
- Após induzir especialização por token com load balancing, perda ortogonal do roteador e afins, complementa a estabilidade na etapa de pós-treinamento
- Melhora de componentes de atenção com supressão de LSE, ajuste de temperatura e afins, aumentando precisão e clareza
Conclusão e planos futuros
- Nesta prévia, a velocidade pode ser menor devido a código de inferência não otimizado, e o modelo segue em treinamento adicional no momento
- A expectativa é que a versão oficial melhore bastante em desempenho, benchmarks e velocidade de inferência
- Os planos incluem a criação de diversos modelos derivados, como quantização e versões pequenas distilled
- Pode ser usado no Moondream Playground e no HuggingFace, e feedbacks e perguntas podem ser enviados pelo Discord
Observação: como os modelos frontier não oferecem suporte nativo à detecção essencial de objetos, foi usado um prompt template para a comparação
1 comentários
Comentários do Hacker News
Desde a tag de versão 2025-01-09, não senti muito as melhorias de desempenho anunciadas; os lançamentos posteriores parecem ter melhorado o recall, mas com uma queda grande de precision, o que é uma pena
Para lidar melhor com esse tipo de problema, seria ótimo se modelos vision-language como o Moondream também reportassem confidence de classe
Gosto muito do fato de haver uma API dedicada para detecção de objetos, não vi isso em outros modelos ou wrappers
Estou animado com os resultados de otimização de inferência do Moondream 3, parabéns ao time
Vale a pena seguir o fundador Vik no X
Mas, vendo os resultados dos três grandes laboratórios, fiquei surpreso com o quão ruins Claude e OpenAI são nisso
O Gemini fica atrás do Moondream, mas ainda é o único que dá para chamar de realmente utilizável
Eu não imaginava que a diferença de desempenho seria tão grande
O ChatGPT continua errando, e o Claude só diz que não consegue ler porque a face superior do dado está obstruída (na verdade, não está)
Parece algo que Anthropic, OpenAI e outras certamente gostariam de colocar em suas plataformas
As pessoas que construíram isso merecem ficar ricas, e combinado com o alcance de uma grande organização, o uso visual dos LLMs poderia se tornar muito mais útil
Eu também preferia o Gemini para automação de bounding boxes, então, se um modelo 9B superar isso, fico muito animado
O Moondream 2 tinha licença Apache 2, mas o preview do 3 está com BSL; queria saber se a mudança de licença é permanente
É realmente rápido e preciso, estou animado pelo 3 também
Há 5.000 requisições grátis, mas antes de conectar um serviço real, minha principal prioridade é verificar se o preço faz sentido
Eles estão otimizando para reduzir ainda mais o custo de inferência e se preparar para oferecer o melhor preço
Se quiser saber rapidamente quando lançar, pode seguir @moondreamai no X
O fato de manter desempenho de nível de um modelo 8B ativando apenas 2B parâmetros pode mudar bastante a implantação em dispositivos de borda
Tenho bastante experiência implantando modelos de visão em produção, onde latência é crítica, e sparse activation assim parece poder reduzir bastante a barreira de adoção causada pelo custo de inferência de grandes modelos vision-language
A capacidade de entender gráficos também é um ponto promissor para fluxos de automação de documentos
Gostaria de saber se alguém já testou a consistência do modelo com outras qualidades de imagem ou condições de iluminação
Nessas condições, modelos pequenos muitas vezes sofrem mais do que modelos flagship
Queria saber se alguém já tentou usá-lo para controle de computador/navegador e o quão bem ele lida com gráficos e charts
pointfoi treinada com muitos dados de UI, e há muitos usuários combinando isso com um modelo driver maior para automação de UIAntes do lançamento final, estão tentando treinamento adicional para fazê-lo funcionar de ponta a ponta em ambientes de agent
Por isso também aumentaram o comprimento de contexto
O entendimento de charts envolve vários tipos, mas é bem decente
No blog, divulgaram o benchmark ChartQA, e ele é parecido com o GPT5* e ligeiramente melhor que o Gemini 2.5 Flash
Em termos concretos, eu gostaria de ouvir uma explicação adicional sobre o impacto do MoE na ativação durante a inferência e o significado prático disso em termos de latência
Incluindo o cache KV, uma combinação de CPU com 32 GB de RAM provavelmente é a opção mais barata e ainda assim razoavelmente rápida
Como o número de parâmetros ativos é baixo, o desempenho no CPU também é decente