Meta revela o Segment Anything Model 3 (SAM 3)

(ai.meta.com)

7 pontos por GN⁺ 2025-11-20 | 1 comentários | Compartilhar no WhatsApp

Revelado o SAM 3, que encontra, segmenta e rastreia objetos desejados em imagens e vídeos por meio de texto, imagens de exemplo e prompts visuais
Com checkpoints do modelo, dataset de avaliação e código de fine-tuning, além do Segment Anything Playground, a Meta oferece um ambiente em que qualquer pessoa pode experimentar com facilidade
Com a divulgação do novo benchmark de segmentação conceitual em larga escala chamado SA-Co e do SAM 3D, expande-se o ecossistema de segmentação conceitual cobrindo 2D e 3D
Novos recursos de geração e edição de mídia baseados em segmentação de objetos já estão sendo aplicados em serviços da Meta como Marketplace, Instagram Edits e Meta AI
Como um modelo que integra segmentação conceitual baseada em texto e exemplos, amplia-se seu potencial de uso como ferramenta de percepção de propósito geral em pesquisa, indústria, conservação e robótica

Visão geral do SAM 3

É um modelo unificado que recebe vários tipos de prompt, como texto, exemplos de imagem, máscaras, caixas e pontos, para detectar, segmentar e rastrear conceitos em imagens e vídeos
- Suporta nativamente segmentação open-vocabulary baseada em sintagmas nominais curtos
- Prompts complexos como “people sitting down but not holding a gift box” podem ser processados em conjunto com um MLLM
Vai além da limitação do SAM anterior, preso a um conjunto fixo de rótulos, e se expande para a segmentação de conceitos arbitrários (promptable concepts)
Mede o desempenho de reconhecimento conceitual em larga escala em imagens e vídeos com o novo benchmark SA-Co (Segment Anything with Concepts)

Principais recursos

Suporte à detecção de conceitos baseada em prompts de texto e à segmentação de todas as instâncias
- Também lida com descrições detalhadas como “striped red umbrella”
Permite definir conceitos com base em objetos reais por meio de imagens de exemplo (exemplar)
Mantém os prompts de caixa/ponto/máscara já oferecidos no SAM 1 e 2
Usa um MLLM como ferramenta para realizar exploração iterativa de consultas complexas (SAM 3 Agent)

Motor de dados

Construção de um pipeline híbrido de produção de dados combinando SAM 3 + humanos + anotador de IA (baseado no Llama 3.2v)
- Legendagem automática → geração de rótulos de texto → geração de máscaras iniciais → validação por IA/humanos
- Em prompts negativos (conceitos ausentes), o processamento é 5 vezes mais rápido; em prompts positivos, há ganho de 36% em velocidade
Foi montado um grande conjunto de treinamento com mais de 4 milhões de conceitos únicos
Uma ontologia de conceitos baseada na wiki amplia a cobertura de conceitos raros

Arquitetura do modelo

Os codificadores de texto/imagem são baseados no Meta Perception Encoder
A detecção de objetos usa DETR, e o rastreamento aproveita a configuração de memory bank + tracker do SAM 2
O ponto central foi projetar uma receita de treinamento que evita conflitos para executar várias tarefas (detecção, rastreamento e segmentação) em um único modelo

Desempenho

Em imagens e vídeos, houve melhoria de 2x em cgF1 em relação a modelos anteriores
Apresenta resultados superiores a modelos especializados como Gemini 2.5 Pro, GLEE, OWLv2 e LLMDet
Na avaliação de preferência dos usuários, os resultados do SAM 3 foram preferidos por uma margem de 3:1
Processa uma única imagem em 30 ms e, em vídeo, opera quase em tempo real com 5 objetos
Melhorias também foram confirmadas em cenários zero-shot como LVIS e CountBench

Casos científicos e de uso real

SA-FARI: dataset público com mais de 100 espécies e mais de 10 mil vídeos de armadilhas fotográficas de vida selvagem
FathomNet: novo benchmark para segmentação de instâncias de vida marinha
Marketplace “View in Room”: visualização de disposição interna de iluminação, móveis etc. implementada com SAM 3 e SAM 3D
Recursos de efeitos de vídeo baseados em objetos previstos para Instagram Edits, app Meta AI e meta.ai

SAM 3D

Divulgação de modelo, código e dados para reconstrução 3D de objetos e pessoas a partir de uma única imagem
Oferece grounded reconstruction considerando o contexto espacial real

Limitações e próximos desafios

A generalização zero-shot para conceitos muito especializados de domínios específicos (como platelet) ainda é limitada
- Com pequena quantidade de dados, é possível adaptar rapidamente via fine-tuning
- Receita de fine-tuning open source disponível
Frases curtas têm suporte nativo, mas descrições complexas como “top shelf second to last book” exigem combinação com MLLM
Em vídeos, o custo de processamento cresce linearmente conforme aumenta o número de objetos
- Compartilhar informações de relação entre objetos é um ponto de melhoria futura

Segment Anything Playground

Plataforma web para experimentar o SAM 3 sem necessidade de conhecimento técnico
- Oferece templates para pixelização de rosto/placa/tela, spotlight, motion trail e ampliação de objetos específicos
- Também pode ser usada para anotação de dados e stress testing
Também oferece segmentação e rastreamento estáveis em vídeos em primeira pessoa do wearable Aria Gen 2
- Pode ser aproveitado em pesquisas de robótica e percepção baseadas na perspectiva humana

1 comentários

GN⁺ 2025-11-20

Opiniões no Hacker News

É bom ver que a Meta ainda contribui para o open source e disponibiliza modelos como esse
Sei que há muitas críticas à empresa, mas esse tipo de atitude beneficia todo mundo
- Também concordo. Lá por 2005, cheguei a reportar uma vulnerabilidade de segurança, e naquela época a cultura da empresa era diferente
  Agora parece ter mudado bastante para uma direção mais voltada à comunidade
- Não sou muito fã do lado de redes sociais, mas é preciso reconhecer a postura da Meta de abrir seus modelos
  Outros grandes laboratórios de pesquisa não divulgam modelos desse jeito
Minha primeira impressão ao usar foi que esse modelo é absurdamente bom
A detecção por texto em “zero-shot” está muito à frente da geração anterior e até de VLMs recentes como Gemini e Qwen
Com supervisão humana, parece que ele pode ser usado tranquilamente até como modelo professor
No passado ajustei o YOLO para detectar agarras de escalada, e o SAM3 chega a uns 90% daquele resultado sem treinamento
Ainda assim, ele deixa passar agarras de madeira com baixo contraste ou apoios pequenos para os pés
- Você por acaso trabalhou em algo como o app Stokt? Ele está bem conhecido no mundo da escalada atualmente
- Trabalho numa plataforma que rotula 1 bilhão de imagens, e acho que o SAM3 pode automatizar mais de 90% disso
  Agora estamos mudando de uma estrutura em que humanos ajudavam o modelo para uma em que o modelo ajuda os humanos
  Dá para ver mais no blog da Roboflow
O gerador de malha 3D também é realmente impressionante
No demo do SAM3D, ele lida bem até com separação de objetos ocluídos, como uma pessoa sentada numa cadeira, e ainda é rápido
- Realmente impressionante. Mas dá para exportar a malha 3D diretamente?
  Eu só consegui baixar o vídeo, então fiquei na dúvida se é preciso comprar tokens
Meu caso de uso é rastreamento de padrões em placas de circuito, e o modelo ainda é fraco nisso
Ele lida bem com imagens como um cavalo na praia, mas se adapta menos a dados industriais
Acho que pode melhorar com fine-tuning, mas ainda não tentei
- Caso interessante. Você poderia compartilhar algum link de exemplo que sirva de referência?
Testei o SAM3 para remover o fundo de desenhos feitos por crianças
(apresentação do projeto relacionado)
Mas o BiRefNet v2 ainda funciona com um pouco mais de precisão
O SAM3 é um pouco impreciso ao recortar seguindo as linhas, e algumas partes brancas do papel acabam ficando
Mesmo assim, o SAM3 vai além da simples remoção de fundo e tem capacidade de reconhecer o significado do desenho
Talvez dê até para reconhecer os desenhos das crianças e conectá-los a ações dentro de um jogo
- É interessante ver alguém usando o BiRefNet para remoção de fundo
  Você acha que ele é o modelo com melhor desempenho no momento? Também tenho curiosidade sobre outras alternativas
Gostei de ver na lista de autores do artigo algo como “Core contributor (Alphabetical, Equal Contribution)”
Essa indicação igualitária de contribuição chamou a atenção
Nos últimos 5 anos, a velocidade de avanço da visão computacional foi lenta
A compreensão de linguagem chegou perto do nível humano graças aos LLMs, mas a visão ainda deixa a desejar
Segmentação de objetos e generalização em imagens científicas continuam difíceis, e mesmo com dados suficientes parece que falta alguma coisa
Talvez sejam necessárias agência em ambientes 3D ou sinais de aprendizado mais ricos
- Não sou especialista, mas sinto falta de um modelo de mundo (world model)
  Humanos não julgam apenas pela informação visual; complementam isso com contexto e experiência
  Por exemplo, ao ver uma forma escura numa estrada à noite, você usa experiências passadas e informações ao redor para inferir se aquilo é um cavalo ou uma cerca
  Esse tipo de inferência contextual ainda falta nos modelos atuais
- Ainda há limitações na ideia de que “LLMs entendem texto em nível humano”
Minha área é segmentação de volumes 3D em imagens médicas
Usei o SAM2 no formato de slices 2D, mas ele ficou atrás do padrão atual, o nnUNet
- O Unet foi o modelo mais amplamente usado em imagens médicas nos últimos 10 anos
  Mas acho que a combinação de LLM + VLM pode ser uma nova direção
  Na prática, testei este demo e ele funcionou bem
O SAM3 é um modelo excelente
Já dá para usá-lo de forma mais interativa em chat.vlm.run e,
por cima do novo modelo Orion da nossa equipe, ele pode ser combinado com o SAM e outros modelos de visão
Em breve também serão adicionados recursos de segmentação e rastreamento de vídeo
- Testei de verdade e consegui segmentar uma pessoa e um cachorro na mesma sessão de chat
  Exemplo do resultado
Acho que a latência média de 4 segundos ainda dificulta o uso em vídeo em tempo real
(vi isso num artigo relacionado no roboflow.com)
- Esse número provavelmente é uma questão de recursos computacionais
  Segundo o blog, em uma GPU H200 leva apenas 30ms para processar uma única imagem com mais de 100 objetos

Meta revela o Segment Anything Model 3 (SAM 3)

Visão geral do SAM 3

Principais recursos

Motor de dados

Arquitetura do modelo

Desempenho

Casos científicos e de uso real

SAM 3D

Limitações e próximos desafios

Segment Anything Playground

Leituras relacionadas

1 comentários

Opiniões no Hacker News