- Revelado o SAM 3, que encontra, segmenta e rastreia objetos desejados em imagens e vídeos por meio de texto, imagens de exemplo e prompts visuais
- Com checkpoints do modelo, dataset de avaliação e código de fine-tuning, além do Segment Anything Playground, a Meta oferece um ambiente em que qualquer pessoa pode experimentar com facilidade
- Com a divulgação do novo benchmark de segmentação conceitual em larga escala chamado SA-Co e do SAM 3D, expande-se o ecossistema de segmentação conceitual cobrindo 2D e 3D
- Novos recursos de geração e edição de mídia baseados em segmentação de objetos já estão sendo aplicados em serviços da Meta como Marketplace, Instagram Edits e Meta AI
- Como um modelo que integra segmentação conceitual baseada em texto e exemplos, amplia-se seu potencial de uso como ferramenta de percepção de propósito geral em pesquisa, indústria, conservação e robótica
Visão geral do SAM 3
- É um modelo unificado que recebe vários tipos de prompt, como texto, exemplos de imagem, máscaras, caixas e pontos, para detectar, segmentar e rastrear conceitos em imagens e vídeos
- Suporta nativamente segmentação open-vocabulary baseada em sintagmas nominais curtos
- Prompts complexos como “people sitting down but not holding a gift box” podem ser processados em conjunto com um MLLM
- Vai além da limitação do SAM anterior, preso a um conjunto fixo de rótulos, e se expande para a segmentação de conceitos arbitrários (promptable concepts)
- Mede o desempenho de reconhecimento conceitual em larga escala em imagens e vídeos com o novo benchmark SA-Co (Segment Anything with Concepts)
Principais recursos
- Suporte à detecção de conceitos baseada em prompts de texto e à segmentação de todas as instâncias
- Também lida com descrições detalhadas como “striped red umbrella”
- Permite definir conceitos com base em objetos reais por meio de imagens de exemplo (exemplar)
- Mantém os prompts de caixa/ponto/máscara já oferecidos no SAM 1 e 2
- Usa um MLLM como ferramenta para realizar exploração iterativa de consultas complexas (SAM 3 Agent)
Motor de dados
- Construção de um pipeline híbrido de produção de dados combinando SAM 3 + humanos + anotador de IA (baseado no Llama 3.2v)
- Legendagem automática → geração de rótulos de texto → geração de máscaras iniciais → validação por IA/humanos
- Em prompts negativos (conceitos ausentes), o processamento é 5 vezes mais rápido; em prompts positivos, há ganho de 36% em velocidade
- Foi montado um grande conjunto de treinamento com mais de 4 milhões de conceitos únicos
- Uma ontologia de conceitos baseada na wiki amplia a cobertura de conceitos raros
Arquitetura do modelo
- Os codificadores de texto/imagem são baseados no Meta Perception Encoder
- A detecção de objetos usa DETR, e o rastreamento aproveita a configuração de memory bank + tracker do SAM 2
- O ponto central foi projetar uma receita de treinamento que evita conflitos para executar várias tarefas (detecção, rastreamento e segmentação) em um único modelo
Desempenho
- Em imagens e vídeos, houve melhoria de 2x em cgF1 em relação a modelos anteriores
- Apresenta resultados superiores a modelos especializados como Gemini 2.5 Pro, GLEE, OWLv2 e LLMDet
- Na avaliação de preferência dos usuários, os resultados do SAM 3 foram preferidos por uma margem de 3:1
- Processa uma única imagem em 30 ms e, em vídeo, opera quase em tempo real com 5 objetos
- Melhorias também foram confirmadas em cenários zero-shot como LVIS e CountBench
Casos científicos e de uso real
- SA-FARI: dataset público com mais de 100 espécies e mais de 10 mil vídeos de armadilhas fotográficas de vida selvagem
- FathomNet: novo benchmark para segmentação de instâncias de vida marinha
- Marketplace “View in Room”: visualização de disposição interna de iluminação, móveis etc. implementada com SAM 3 e SAM 3D
- Recursos de efeitos de vídeo baseados em objetos previstos para Instagram Edits, app Meta AI e meta.ai
SAM 3D
- Divulgação de modelo, código e dados para reconstrução 3D de objetos e pessoas a partir de uma única imagem
- Oferece grounded reconstruction considerando o contexto espacial real
Limitações e próximos desafios
- A generalização zero-shot para conceitos muito especializados de domínios específicos (como platelet) ainda é limitada
- Com pequena quantidade de dados, é possível adaptar rapidamente via fine-tuning
- Receita de fine-tuning open source disponível
- Frases curtas têm suporte nativo, mas descrições complexas como “top shelf second to last book” exigem combinação com MLLM
- Em vídeos, o custo de processamento cresce linearmente conforme aumenta o número de objetos
- Compartilhar informações de relação entre objetos é um ponto de melhoria futura
Segment Anything Playground
- Plataforma web para experimentar o SAM 3 sem necessidade de conhecimento técnico
- Oferece templates para pixelização de rosto/placa/tela, spotlight, motion trail e ampliação de objetos específicos
- Também pode ser usada para anotação de dados e stress testing
- Também oferece segmentação e rastreamento estáveis em vídeos em primeira pessoa do wearable Aria Gen 2
- Pode ser aproveitado em pesquisas de robótica e percepção baseadas na perspectiva humana
1 comentários
Opiniões no Hacker News
É bom ver que a Meta ainda contribui para o open source e disponibiliza modelos como esse
Sei que há muitas críticas à empresa, mas esse tipo de atitude beneficia todo mundo
Agora parece ter mudado bastante para uma direção mais voltada à comunidade
Outros grandes laboratórios de pesquisa não divulgam modelos desse jeito
Minha primeira impressão ao usar foi que esse modelo é absurdamente bom
A detecção por texto em “zero-shot” está muito à frente da geração anterior e até de VLMs recentes como Gemini e Qwen
Com supervisão humana, parece que ele pode ser usado tranquilamente até como modelo professor
No passado ajustei o YOLO para detectar agarras de escalada, e o SAM3 chega a uns 90% daquele resultado sem treinamento
Ainda assim, ele deixa passar agarras de madeira com baixo contraste ou apoios pequenos para os pés
Agora estamos mudando de uma estrutura em que humanos ajudavam o modelo para uma em que o modelo ajuda os humanos
Dá para ver mais no blog da Roboflow
O gerador de malha 3D também é realmente impressionante
No demo do SAM3D, ele lida bem até com separação de objetos ocluídos, como uma pessoa sentada numa cadeira, e ainda é rápido
Eu só consegui baixar o vídeo, então fiquei na dúvida se é preciso comprar tokens
Meu caso de uso é rastreamento de padrões em placas de circuito, e o modelo ainda é fraco nisso
Ele lida bem com imagens como um cavalo na praia, mas se adapta menos a dados industriais
Acho que pode melhorar com fine-tuning, mas ainda não tentei
Testei o SAM3 para remover o fundo de desenhos feitos por crianças
(apresentação do projeto relacionado)
Mas o BiRefNet v2 ainda funciona com um pouco mais de precisão
O SAM3 é um pouco impreciso ao recortar seguindo as linhas, e algumas partes brancas do papel acabam ficando
Mesmo assim, o SAM3 vai além da simples remoção de fundo e tem capacidade de reconhecer o significado do desenho
Talvez dê até para reconhecer os desenhos das crianças e conectá-los a ações dentro de um jogo
Você acha que ele é o modelo com melhor desempenho no momento? Também tenho curiosidade sobre outras alternativas
Gostei de ver na lista de autores do artigo algo como “Core contributor (Alphabetical, Equal Contribution)”
Essa indicação igualitária de contribuição chamou a atenção
Nos últimos 5 anos, a velocidade de avanço da visão computacional foi lenta
A compreensão de linguagem chegou perto do nível humano graças aos LLMs, mas a visão ainda deixa a desejar
Segmentação de objetos e generalização em imagens científicas continuam difíceis, e mesmo com dados suficientes parece que falta alguma coisa
Talvez sejam necessárias agência em ambientes 3D ou sinais de aprendizado mais ricos
Humanos não julgam apenas pela informação visual; complementam isso com contexto e experiência
Por exemplo, ao ver uma forma escura numa estrada à noite, você usa experiências passadas e informações ao redor para inferir se aquilo é um cavalo ou uma cerca
Esse tipo de inferência contextual ainda falta nos modelos atuais
Minha área é segmentação de volumes 3D em imagens médicas
Usei o SAM2 no formato de slices 2D, mas ele ficou atrás do padrão atual, o nnUNet
Mas acho que a combinação de LLM + VLM pode ser uma nova direção
Na prática, testei este demo e ele funcionou bem
O SAM3 é um modelo excelente
Já dá para usá-lo de forma mais interativa em chat.vlm.run e,
por cima do novo modelo Orion da nossa equipe, ele pode ser combinado com o SAM e outros modelos de visão
Em breve também serão adicionados recursos de segmentação e rastreamento de vídeo
Exemplo do resultado
Acho que a latência média de 4 segundos ainda dificulta o uso em vídeo em tempo real
(vi isso num artigo relacionado no roboflow.com)
Segundo o blog, em uma GPU H200 leva apenas 30ms para processar uma única imagem com mais de 100 objetos