7 pontos por GN⁺ 2025-11-20 | 1 comentários | Compartilhar no WhatsApp
  • Revelado o SAM 3, que encontra, segmenta e rastreia objetos desejados em imagens e vídeos por meio de texto, imagens de exemplo e prompts visuais
  • Com checkpoints do modelo, dataset de avaliação e código de fine-tuning, além do Segment Anything Playground, a Meta oferece um ambiente em que qualquer pessoa pode experimentar com facilidade
  • Com a divulgação do novo benchmark de segmentação conceitual em larga escala chamado SA-Co e do SAM 3D, expande-se o ecossistema de segmentação conceitual cobrindo 2D e 3D
  • Novos recursos de geração e edição de mídia baseados em segmentação de objetos já estão sendo aplicados em serviços da Meta como Marketplace, Instagram Edits e Meta AI
  • Como um modelo que integra segmentação conceitual baseada em texto e exemplos, amplia-se seu potencial de uso como ferramenta de percepção de propósito geral em pesquisa, indústria, conservação e robótica

Visão geral do SAM 3

  • É um modelo unificado que recebe vários tipos de prompt, como texto, exemplos de imagem, máscaras, caixas e pontos, para detectar, segmentar e rastrear conceitos em imagens e vídeos
    • Suporta nativamente segmentação open-vocabulary baseada em sintagmas nominais curtos
    • Prompts complexos como “people sitting down but not holding a gift box” podem ser processados em conjunto com um MLLM
  • Vai além da limitação do SAM anterior, preso a um conjunto fixo de rótulos, e se expande para a segmentação de conceitos arbitrários (promptable concepts)
  • Mede o desempenho de reconhecimento conceitual em larga escala em imagens e vídeos com o novo benchmark SA-Co (Segment Anything with Concepts)

Principais recursos

  • Suporte à detecção de conceitos baseada em prompts de texto e à segmentação de todas as instâncias
    • Também lida com descrições detalhadas como “striped red umbrella”
  • Permite definir conceitos com base em objetos reais por meio de imagens de exemplo (exemplar)
  • Mantém os prompts de caixa/ponto/máscara já oferecidos no SAM 1 e 2
  • Usa um MLLM como ferramenta para realizar exploração iterativa de consultas complexas (SAM 3 Agent)

Motor de dados

  • Construção de um pipeline híbrido de produção de dados combinando SAM 3 + humanos + anotador de IA (baseado no Llama 3.2v)
    • Legendagem automática → geração de rótulos de texto → geração de máscaras iniciais → validação por IA/humanos
    • Em prompts negativos (conceitos ausentes), o processamento é 5 vezes mais rápido; em prompts positivos, há ganho de 36% em velocidade
  • Foi montado um grande conjunto de treinamento com mais de 4 milhões de conceitos únicos
  • Uma ontologia de conceitos baseada na wiki amplia a cobertura de conceitos raros

Arquitetura do modelo

  • Os codificadores de texto/imagem são baseados no Meta Perception Encoder
  • A detecção de objetos usa DETR, e o rastreamento aproveita a configuração de memory bank + tracker do SAM 2
  • O ponto central foi projetar uma receita de treinamento que evita conflitos para executar várias tarefas (detecção, rastreamento e segmentação) em um único modelo

Desempenho

  • Em imagens e vídeos, houve melhoria de 2x em cgF1 em relação a modelos anteriores
  • Apresenta resultados superiores a modelos especializados como Gemini 2.5 Pro, GLEE, OWLv2 e LLMDet
  • Na avaliação de preferência dos usuários, os resultados do SAM 3 foram preferidos por uma margem de 3:1
  • Processa uma única imagem em 30 ms e, em vídeo, opera quase em tempo real com 5 objetos
  • Melhorias também foram confirmadas em cenários zero-shot como LVIS e CountBench

Casos científicos e de uso real

  • SA-FARI: dataset público com mais de 100 espécies e mais de 10 mil vídeos de armadilhas fotográficas de vida selvagem
  • FathomNet: novo benchmark para segmentação de instâncias de vida marinha
  • Marketplace “View in Room”: visualização de disposição interna de iluminação, móveis etc. implementada com SAM 3 e SAM 3D
  • Recursos de efeitos de vídeo baseados em objetos previstos para Instagram Edits, app Meta AI e meta.ai

SAM 3D

  • Divulgação de modelo, código e dados para reconstrução 3D de objetos e pessoas a partir de uma única imagem
  • Oferece grounded reconstruction considerando o contexto espacial real

Limitações e próximos desafios

  • A generalização zero-shot para conceitos muito especializados de domínios específicos (como platelet) ainda é limitada
    • Com pequena quantidade de dados, é possível adaptar rapidamente via fine-tuning
    • Receita de fine-tuning open source disponível
  • Frases curtas têm suporte nativo, mas descrições complexas como “top shelf second to last book” exigem combinação com MLLM
  • Em vídeos, o custo de processamento cresce linearmente conforme aumenta o número de objetos
    • Compartilhar informações de relação entre objetos é um ponto de melhoria futura

Segment Anything Playground

  • Plataforma web para experimentar o SAM 3 sem necessidade de conhecimento técnico
    • Oferece templates para pixelização de rosto/placa/tela, spotlight, motion trail e ampliação de objetos específicos
    • Também pode ser usada para anotação de dados e stress testing
  • Também oferece segmentação e rastreamento estáveis em vídeos em primeira pessoa do wearable Aria Gen 2
    • Pode ser aproveitado em pesquisas de robótica e percepção baseadas na perspectiva humana

1 comentários

 
GN⁺ 2025-11-20
Opiniões no Hacker News
  • É bom ver que a Meta ainda contribui para o open source e disponibiliza modelos como esse
    Sei que há muitas críticas à empresa, mas esse tipo de atitude beneficia todo mundo

    • Também concordo. Lá por 2005, cheguei a reportar uma vulnerabilidade de segurança, e naquela época a cultura da empresa era diferente
      Agora parece ter mudado bastante para uma direção mais voltada à comunidade
    • Não sou muito fã do lado de redes sociais, mas é preciso reconhecer a postura da Meta de abrir seus modelos
      Outros grandes laboratórios de pesquisa não divulgam modelos desse jeito
  • Minha primeira impressão ao usar foi que esse modelo é absurdamente bom
    A detecção por texto em “zero-shot” está muito à frente da geração anterior e até de VLMs recentes como Gemini e Qwen
    Com supervisão humana, parece que ele pode ser usado tranquilamente até como modelo professor
    No passado ajustei o YOLO para detectar agarras de escalada, e o SAM3 chega a uns 90% daquele resultado sem treinamento
    Ainda assim, ele deixa passar agarras de madeira com baixo contraste ou apoios pequenos para os pés

    • Você por acaso trabalhou em algo como o app Stokt? Ele está bem conhecido no mundo da escalada atualmente
    • Trabalho numa plataforma que rotula 1 bilhão de imagens, e acho que o SAM3 pode automatizar mais de 90% disso
      Agora estamos mudando de uma estrutura em que humanos ajudavam o modelo para uma em que o modelo ajuda os humanos
      Dá para ver mais no blog da Roboflow
  • O gerador de malha 3D também é realmente impressionante
    No demo do SAM3D, ele lida bem até com separação de objetos ocluídos, como uma pessoa sentada numa cadeira, e ainda é rápido

    • Realmente impressionante. Mas dá para exportar a malha 3D diretamente?
      Eu só consegui baixar o vídeo, então fiquei na dúvida se é preciso comprar tokens
  • Meu caso de uso é rastreamento de padrões em placas de circuito, e o modelo ainda é fraco nisso
    Ele lida bem com imagens como um cavalo na praia, mas se adapta menos a dados industriais
    Acho que pode melhorar com fine-tuning, mas ainda não tentei

    • Caso interessante. Você poderia compartilhar algum link de exemplo que sirva de referência?
  • Testei o SAM3 para remover o fundo de desenhos feitos por crianças
    (apresentação do projeto relacionado)
    Mas o BiRefNet v2 ainda funciona com um pouco mais de precisão
    O SAM3 é um pouco impreciso ao recortar seguindo as linhas, e algumas partes brancas do papel acabam ficando
    Mesmo assim, o SAM3 vai além da simples remoção de fundo e tem capacidade de reconhecer o significado do desenho
    Talvez dê até para reconhecer os desenhos das crianças e conectá-los a ações dentro de um jogo

    • É interessante ver alguém usando o BiRefNet para remoção de fundo
      Você acha que ele é o modelo com melhor desempenho no momento? Também tenho curiosidade sobre outras alternativas
  • Gostei de ver na lista de autores do artigo algo como “Core contributor (Alphabetical, Equal Contribution)
    Essa indicação igualitária de contribuição chamou a atenção

  • Nos últimos 5 anos, a velocidade de avanço da visão computacional foi lenta
    A compreensão de linguagem chegou perto do nível humano graças aos LLMs, mas a visão ainda deixa a desejar
    Segmentação de objetos e generalização em imagens científicas continuam difíceis, e mesmo com dados suficientes parece que falta alguma coisa
    Talvez sejam necessárias agência em ambientes 3D ou sinais de aprendizado mais ricos

    • Não sou especialista, mas sinto falta de um modelo de mundo (world model)
      Humanos não julgam apenas pela informação visual; complementam isso com contexto e experiência
      Por exemplo, ao ver uma forma escura numa estrada à noite, você usa experiências passadas e informações ao redor para inferir se aquilo é um cavalo ou uma cerca
      Esse tipo de inferência contextual ainda falta nos modelos atuais
    • Ainda há limitações na ideia de que “LLMs entendem texto em nível humano”
  • Minha área é segmentação de volumes 3D em imagens médicas
    Usei o SAM2 no formato de slices 2D, mas ele ficou atrás do padrão atual, o nnUNet

    • O Unet foi o modelo mais amplamente usado em imagens médicas nos últimos 10 anos
      Mas acho que a combinação de LLM + VLM pode ser uma nova direção
      Na prática, testei este demo e ele funcionou bem
  • O SAM3 é um modelo excelente
    Já dá para usá-lo de forma mais interativa em chat.vlm.run e,
    por cima do novo modelo Orion da nossa equipe, ele pode ser combinado com o SAM e outros modelos de visão
    Em breve também serão adicionados recursos de segmentação e rastreamento de vídeo

    • Testei de verdade e consegui segmentar uma pessoa e um cachorro na mesma sessão de chat
      Exemplo do resultado
  • Acho que a latência média de 4 segundos ainda dificulta o uso em vídeo em tempo real
    (vi isso num artigo relacionado no roboflow.com)

    • Esse número provavelmente é uma questão de recursos computacionais
      Segundo o blog, em uma GPU H200 leva apenas 30ms para processar uma única imagem com mais de 100 objetos