Meta apresenta o Segment Anything Model 2
(ai.meta.com)Introdução ao Meta Segment Anything Model 2 (SAM 2)
Principais recursos
-
Segmentação de objetos em qualquer vídeo e imagem
- O SAM 2 é o primeiro modelo unificado para segmentar objetos em imagens e vídeos
- É possível selecionar objetos em imagens ou frames de vídeo usando cliques, caixas e máscaras como entrada
-
Seleção e ajuste de objetos entre frames de vídeo
- Com o SAM 2, é possível selecionar um ou vários objetos em frames de vídeo
- Também é possível refinar com precisão as previsões do modelo usando prompts adicionais
-
Desempenho robusto de segmentação mesmo em vídeos desconhecidos
- O SAM 2 apresenta forte desempenho zero-shot mesmo com objetos, imagens e vídeos que não viu durante o treinamento
- Pode ser usado em diversas aplicações do mundo real
-
Interação e resultados em tempo real
- O SAM 2 viabiliza aplicações interativas em tempo real por meio de inferência em streaming
-
Desempenho de ponta em segmentação de objetos
- O SAM 2 supera os melhores modelos em segmentação de objetos em vídeos e imagens
Destaques
- Desempenho melhor que o SAM na segmentação de imagens
- Desempenho superior aos modelos anteriores de segmentação de objetos em vídeo, especialmente em rastreamento parcial
- Exige menos tempo de interação do que os métodos anteriores de segmentação interativa de vídeo
Experimente você mesmo
- É possível rastrear um objeto com um único clique em um frame de vídeo e criar efeitos divertidos
- Experimentar a demo
Arquitetura do modelo
- Design do Meta Segment Anything Model 2
- O modelo SAM 2 foi expandido para o domínio de vídeo com a adição de um módulo de memória por sessão
- Esse módulo captura informações sobre os objetos-alvo no vídeo, permitindo rastreá-los em todos os frames mesmo quando ficam temporariamente fora de vista
- Também oferece suporte à correção das previsões de máscara com base em prompts adicionais
- A arquitetura em streaming do SAM 2 processa os frames de vídeo um a um, generalizando-se naturalmente para o domínio de vídeo
Segment Anything Video Dataset
-
Dataset de segmentação de vídeo em larga escala e diversificado
- O SAM 2 foi treinado com um conjunto grande e diverso de vídeos e masklets (máscaras de objetos ao longo do tempo)
- Os dados de treinamento incluem o dataset SA-V, de código aberto
-
Destaques
- Coleta de cerca de 600.000+ masklets em aproximadamente 51.000 vídeos
- Cenários reais geograficamente diversos em 47 países
- Anotações que incluem objetos inteiros, partes e casos desafiadores de oclusão
Divulgação da pesquisa
-
Inovação aberta
- Foram disponibilizados os modelos pré-treinados do Segment Anything 2, o dataset SA-V, a demo e o código para que a comunidade de pesquisa possa desenvolver com base neste trabalho
-
Destaques
- Transparência sobre os dados de treinamento do SAM 2
- Priorização da diversidade geográfica do dataset SA-V para representar o mundo real
- Realização de avaliação de fairness do SAM 2
Possíveis aplicações do modelo
-
Saída escalável
- A saída de segmentação de objetos em vídeo do SAM 2 pode ser usada como entrada para outros sistemas de IA, como modelos modernos de geração de vídeo
-
Entrada escalável
- O SAM 2 pode aceitar outros tipos de prompts de entrada, possibilitando formas criativas de interagir com objetos em vídeo em tempo real ou ao vivo
Explore mais recursos
Resumo do GN⁺
- O SAM 2 é um modelo unificado para segmentação de objetos em imagens e vídeos, oferecendo interação em tempo real e forte desempenho zero-shot
- Foi projetado para uso em diversos cenários do mundo real e inclui dataset e código abertos para a comunidade de pesquisa
- Supera modelos anteriores em rastreamento e segmentação de objetos em vídeo, oferecendo alta precisão com menos tempo de interação
- O SAM 2 pode ser combinado com outros sistemas de IA, como modelos de geração de vídeo, para viabilizar novas experiências
Ainda não há comentários.