SAM 2: Segment Anything para imagens e vídeos

(github.com/facebookresearch)

5 pontos por GN⁺ 2024-07-30 | 2 comentários | Compartilhar no WhatsApp

Segment Anything Model 2 é um modelo para resolver o problema de segmentação visual com prompts em imagens e vídeos
- Trata imagens como vídeos de um único quadro para expandir para vídeo
- Usa uma arquitetura Transformer simples com memória de streaming para processamento de vídeo em tempo real
- Foi criado um motor de dados que melhora o modelo e os dados por meio da interação do usuário para coletar o conjunto de dados SA-V
Oferece desempenho robusto em diversas tarefas e domínios visuais
O conjunto de dados Segment Anything Video (SA-V) também foi lançado
- Composto por 50.583 vídeos diversos e 642.036 máscaras de segmentação espaço-temporal de alta qualidade (Masklet)
- Licença CC by 4.0

2 comentários

xguru 2024-07-31

GN⁺ 2024-07-30

Tenho interesse na melhoria de 6x no mIoU e na velocidade de processamento de imagens
- O ganho de velocidade parece vir principalmente de um codificador mais eficiente
- Pode haver menos vantagem ao fazer várias segmentações na mesma imagem
- É necessário comparar com o SAM original
A equipe do Segment Anything lançou o modelo SAM 2
- É o primeiro modelo unificado para segmentação de objetos em tempo real
- Disponibilizaram código, modelo, dataset, artigo de pesquisa e demo
- Estou curioso para ver o que as pessoas vão criar
Já lidei com o SAM 1 antes
- Resumo do artigo do SAM 2:
  - Foi treinado por 108 horas com 256 GPUs A100
  - O custo de treinamento foi de cerca de $50k, o que é barato
  - O novo dataset SA-V é composto por 50k vídeos
  - Usa um método de bootstrap de anotação em 3 etapas
  - Foi adicionada uma função de atenção com memória
Quero treinar um modelo para classificar frames de vídeo e encontrar frames específicos
- Estou me perguntando se posso usar o SAM-2 como modelo base
Sou muito fã da função de perda do SAM
- Deixo meus agradecimentos
A demo web está muito bem feita
- Quando selecionei cada sapato como um objeto individual, o modelo conseguiu segmentá-los mesmo com sobreposição
O primeiro modelo SAM foi o mais útil para mim
- Estou ansioso para testar o SAM2
A demo de pesquisa não pode ser usada em Illinois e Texas
- Gostaria de saber o motivo
Há preocupação com uso militar
É um resultado impressionante