5 pontos por GN⁺ 2024-07-30 | 2 comentários | Compartilhar no WhatsApp
  • Segment Anything Model 2 é um modelo para resolver o problema de segmentação visual com prompts em imagens e vídeos
    • Trata imagens como vídeos de um único quadro para expandir para vídeo
    • Usa uma arquitetura Transformer simples com memória de streaming para processamento de vídeo em tempo real
    • Foi criado um motor de dados que melhora o modelo e os dados por meio da interação do usuário para coletar o conjunto de dados SA-V
  • Oferece desempenho robusto em diversas tarefas e domínios visuais
  • O conjunto de dados Segment Anything Video (SA-V) também foi lançado
    • Composto por 50.583 vídeos diversos e 642.036 máscaras de segmentação espaço-temporal de alta qualidade (Masklet)
    • Licença CC by 4.0

2 comentários

 
GN⁺ 2024-07-30
Comentários do Hacker News
  • Tenho interesse na melhoria de 6x no mIoU e na velocidade de processamento de imagens

    • O ganho de velocidade parece vir principalmente de um codificador mais eficiente
    • Pode haver menos vantagem ao fazer várias segmentações na mesma imagem
    • É necessário comparar com o SAM original
  • A equipe do Segment Anything lançou o modelo SAM 2

    • É o primeiro modelo unificado para segmentação de objetos em tempo real
    • Disponibilizaram código, modelo, dataset, artigo de pesquisa e demo
    • Estou curioso para ver o que as pessoas vão criar
  • Já lidei com o SAM 1 antes

    • Resumo do artigo do SAM 2:
      • Foi treinado por 108 horas com 256 GPUs A100
      • O custo de treinamento foi de cerca de $50k, o que é barato
      • O novo dataset SA-V é composto por 50k vídeos
      • Usa um método de bootstrap de anotação em 3 etapas
      • Foi adicionada uma função de atenção com memória
  • Quero treinar um modelo para classificar frames de vídeo e encontrar frames específicos

    • Estou me perguntando se posso usar o SAM-2 como modelo base
  • Sou muito fã da função de perda do SAM

    • Deixo meus agradecimentos
  • A demo web está muito bem feita

    • Quando selecionei cada sapato como um objeto individual, o modelo conseguiu segmentá-los mesmo com sobreposição
  • O primeiro modelo SAM foi o mais útil para mim

    • Estou ansioso para testar o SAM2
  • A demo de pesquisa não pode ser usada em Illinois e Texas

    • Gostaria de saber o motivo
  • Há preocupação com uso militar

  • É um resultado impressionante