14 pontos por GN⁺ 2025-09-28 | 1 comentários | Compartilhar no WhatsApp
  • Moondream 3 aplica uma arquitetura 9B MoE com 2B de parâmetros ativos para alcançar ao mesmo tempo desempenho de raciocínio visual de ponta e inferência rápida e eficiente
  • O modelo foi projetado com foco em uma arquitetura especializada para tarefas de visão do mundo real, facilidade de treinamento, alta velocidade e baixo custo
  • Mostra desempenho forte em uma ampla gama de aplicações reais, como detecção de objetos, pointing, saída estruturada e OCR
  • Suporta comprimento de contexto de 32k tokens, fortalecendo significativamente a capacidade de lidar com consultas e respostas complexas
  • Nos benchmarks iniciais, mostrou vantagem em velocidade de resposta e eficiência em comparação com modelos grandes existentes

Introdução e objetivos principais

  • Moondream 3 é um novo modelo de visão-linguagem baseado em uma arquitetura 9B Mixture-of-Experts (MoE) com 2B de parâmetros ativos
  • Em comparação com modelos existentes, busca ao mesmo tempo capacidade de raciocínio visual de ponta e inferência extremamente rápida e com bom custo-benefício
  • Para resolver problemas do mundo real, concentra-se nas quatro áreas principais a seguir
    • Raciocínio visual: mesmo com escala menor, o objetivo é oferecer excelente capacidade em tarefas reais sem sacrificar habilidades práticas
    • Facilidade de treinamento: dá ênfase ao fine-tuning simples para tarefas de visão especializadas, como interpretação de imagens médicas e detecção de comportamento anômalo em multidões
    • Velocidade: oferece alta velocidade em aplicações de IA visual que exigem processamento em tempo real, como classificação de produtos e vigilância com drones
    • Baixo custo: considerando ambientes de processamento massivo de imagens, busca minimizar o custo operacional mesmo em implantação em grande escala
  • Embora seja um modelo 9B MoE, apenas 2B de parâmetros ativos entram em operação, garantindo a possibilidade de inferência em tempo real rápida e barata
  • Usa Reinforcement Learning para reforçar a eficiência de treinamento, demonstrando alta adaptabilidade mesmo em ambientes complexos
  • Expandiu significativamente o comprimento de contexto de 2k para 32k, melhorando questões de processamento de contexto complexo

Casos reais do Moondream 3

  • Detecção de objetos (Object Detection)

    • O Moondream 3 vai além da simples classificação por rótulos e consegue entender consultas complexas e fazer detecção de objetos adequada ao contexto
    • Em comparação com modelos frontier, oferece desempenho diferenciado em funções essenciais como detecção de objetos e pointing
      • Exemplo 1: detectar um "corredor usando meias roxas"
      • Exemplo 2: detectar o elemento de UI "entrada de quantidade"
  • Pointing (função de apontar)

    • O Moondream 3 traz embutida a capacidade de apontar com precisão para objetos específicos dentro de uma imagem
      • Exemplo 3: apontar para o objeto "garrafa"
      • Exemplo 4: selecionar o "utensílio mais adequado para massa"
  • Saída estruturada (Structured Output)

    • Com contexto de 32k, melhora a capacidade de gerar saídas de estrutura complexa e retornar resultados em formatos de dados como JSON com prompts mínimos
      • Exemplo 5: gerar um array JSON com os campos dog_id, fur_color e harness_color para informações sobre cães de trenó
  • OCR (reconhecimento óptico de caracteres)

    • Houve grande melhora no desempenho de OCR em relação à versão anterior, permitindo uso em diversas aplicações do mundo real
    • Ainda há algumas limitações com textos muito pequenos, mas mostra alta precisão na extração de informações estruturadas, como tabelas
      • Exemplo 6: converter uma tabela de reações químicas em tabela Markdown

Benchmarks

  • O Moondream 3 mostra desempenho comparável aos VLMs líderes em diversos benchmarks
  • No entanto, segue demonstrando vantagens práticas consistentes em velocidade de resposta em relação a modelos grandes
  • Resultados de benchmark mais completos e comparações de tempo de inferência serão divulgados futuramente

Nota técnica do Moondream 3

  • Modelo Mixture-of-Experts esparso e granular, no qual 8 entre 64 especialistas (Experts) são ativados a cada token
  • Aplicação da técnica de inicialização drop upcycling a partir do Moondream 2 (2B Dense)
  • Suporte, no treinamento real, ao comprimento total de contexto de 32k tokens
  • Mistura de amostras de contexto longo no pré-treinamento para aplicação eficaz sem uma etapa adicional de expansão de contexto
  • Reforço da compreensão de contexto longo com temperature scaling durante o treinamento e ajuste de atenção estruturada
  • Suporta dois modos, raciocínio lógico e explicação não lógica, com especialização em grounding baseado em imagem
  • O treinamento baseado em reinforcement learning melhora gradualmente a dependência de exemplos e a adaptabilidade no raciocínio visual
  • Após induzir especialização por token com load balancing, perda ortogonal do roteador e afins, complementa a estabilidade na etapa de pós-treinamento
  • Melhora de componentes de atenção com supressão de LSE, ajuste de temperatura e afins, aumentando precisão e clareza

Conclusão e planos futuros

  • Nesta prévia, a velocidade pode ser menor devido a código de inferência não otimizado, e o modelo segue em treinamento adicional no momento
  • A expectativa é que a versão oficial melhore bastante em desempenho, benchmarks e velocidade de inferência
  • Os planos incluem a criação de diversos modelos derivados, como quantização e versões pequenas distilled
  • Pode ser usado no Moondream Playground e no HuggingFace, e feedbacks e perguntas podem ser enviados pelo Discord

Observação: como os modelos frontier não oferecem suporte nativo à detecção essencial de objetos, foi usado um prompt template para a comparação

1 comentários

 
GN⁺ 2025-09-28
Comentários do Hacker News
  • Estou usando o Moondream 2 de forma muito útil, principalmente para rotular automaticamente datasets de detecção de objetos para novas classes e fazer distill em uma CNN bem menor com precisão parecida
    Desde a tag de versão 2025-01-09, não senti muito as melhorias de desempenho anunciadas; os lançamentos posteriores parecem ter melhorado o recall, mas com uma queda grande de precision, o que é uma pena
    Para lidar melhor com esse tipo de problema, seria ótimo se modelos vision-language como o Moondream também reportassem confidence de classe
    Gosto muito do fato de haver uma API dedicada para detecção de objetos, não vi isso em outros modelos ou wrappers
    Estou animado com os resultados de otimização de inferência do Moondream 3, parabéns ao time
    Vale a pena seguir o fundador Vik no X
    • A resposta foi que, se houver exemplos de problemas de precision/recall, podem mandar e-mail a qualquer momento para vik@m87.ai
  • Eu também usei para rotulagem automática de datasets e funciona muito bem
  • O desempenho do modelo Moondream é realmente impressionante
    Mas, vendo os resultados dos três grandes laboratórios, fiquei surpreso com o quão ruins Claude e OpenAI são nisso
    O Gemini fica atrás do Moondream, mas ainda é o único que dá para chamar de realmente utilizável
    Eu não imaginava que a diferença de desempenho seria tão grande
    • Curiosamente, só o Gemini lê corretamente os números de um dado D20
      O ChatGPT continua errando, e o Claude só diz que não consegue ler porque a face superior do dado está obstruída (na verdade, não está)
    • É curioso que o Moondream seja tão bom e ainda não tenha sido adquirido por uma big tech
      Parece algo que Anthropic, OpenAI e outras certamente gostariam de colocar em suas plataformas
      As pessoas que construíram isso merecem ficar ricas, e combinado com o alcance de uma grande organização, o uso visual dos LLMs poderia se tornar muito mais útil
    • O Gemini é realmente excelente em tarefas mais próximas de OCR, mas, fora isso, na maioria das tarefas relacionadas a imagem, o desempenho costuma cair bastante
  • O resultado é realmente muito legal
    Eu também preferia o Gemini para automação de bounding boxes, então, se um modelo 9B superar isso, fico muito animado
    O Moondream 2 tinha licença Apache 2, mas o preview do 3 está com BSL; queria saber se a mudança de licença é permanente
  • No paper.design usamos o moondream2 para rotular automaticamente imagens enviadas por usuários (para a árvore de camadas)
    É realmente rápido e preciso, estou animado pelo 3 também
  • Passei 5 minutos procurando informações de preço do Moondream cloud, mas parece que elas simplesmente não existem (pelo menos antes do cadastro)
    Há 5.000 requisições grátis, mas antes de conectar um serviço real, minha principal prioridade é verificar se o preço faz sentido
    • O cloud deve ser lançado em breve
      Eles estão otimizando para reduzir ainda mais o custo de inferência e se preparar para oferecer o melhor preço
      Se quiser saber rapidamente quando lançar, pode seguir @moondreamai no X
  • Acho a escolha da arquitetura MoE particularmente interessante
    O fato de manter desempenho de nível de um modelo 8B ativando apenas 2B parâmetros pode mudar bastante a implantação em dispositivos de borda
    Tenho bastante experiência implantando modelos de visão em produção, onde latência é crítica, e sparse activation assim parece poder reduzir bastante a barreira de adoção causada pelo custo de inferência de grandes modelos vision-language
    A capacidade de entender gráficos também é um ponto promissor para fluxos de automação de documentos
    Gostaria de saber se alguém já testou a consistência do modelo com outras qualidades de imagem ou condições de iluminação
    Nessas condições, modelos pequenos muitas vezes sofrem mais do que modelos flagship
  • Modelo impressionante
    Queria saber se alguém já tentou usá-lo para controle de computador/navegador e o quão bem ele lida com gráficos e charts
    • A skill point foi treinada com muitos dados de UI, e há muitos usuários combinando isso com um modelo driver maior para automação de UI
      Antes do lançamento final, estão tentando treinamento adicional para fazê-lo funcionar de ponta a ponta em ambientes de agent
      Por isso também aumentaram o comprimento de contexto
      O entendimento de charts envolve vários tipos, mas é bem decente
      No blog, divulgaram o benchmark ChartQA, e ele é parecido com o GPT5* e ligeiramente melhor que o Gemini 2.5 Flash
      • Porém, o GPT5 provavelmente funciona bem com uma variedade muito maior de charts/gráficos, enquanto o Moondream é mais adequado para vision AI onde o GPT5 é difícil de usar por preço/latência
    • Estou usando para rotulagem de datasets e estou curioso para ver como vão sair os resultados
  • Tenho curiosidade se esse conceito de 2B parâmetros ativos se refere à inferência por token e como isso escala quando o comprimento de contexto muda
    Em termos concretos, eu gostaria de ouvir uma explicação adicional sobre o impacto do MoE na ativação durante a inferência e o significado prático disso em termos de latência
  • Alguém recomenda qual é o hardware mais barato para rodar esse modelo localmente em um nível razoável?
    • Ainda não existe versão quantizada, então só os pesos já exigem cerca de 20 GB de memória
      Incluindo o cache KV, uma combinação de CPU com 32 GB de RAM provavelmente é a opção mais barata e ainda assim razoavelmente rápida
      Como o número de parâmetros ativos é baixo, o desempenho no CPU também é decente
  • Tenho curiosidade sobre os resultados de comparação de desempenho entre os modelos Qwen3-VL e Moondream