Meta revela o Segment Anything Model 2

(ai.meta.com)

2 pontos por GN⁺ 2024-08-02 | 1 comentários | Compartilhar no WhatsApp

O Segment Anything Model 2 (SAM 2) da Meta FAIR é um modelo de segmentação unificado para selecionar e segmentar objetos rapidamente em imagens e vídeos
O usuário pode indicar objetos usando cliques, caixas e máscaras como prompts, e refinar a previsão de máscara com prompts adicionais
Em vídeos, um módulo de memória por sessão mantém as informações do objeto de frames anteriores, permitindo continuar o rastreamento ao longo de todo o vídeo mesmo quando o objeto fica temporariamente oculto
O SAM 2 melhora a segmentação de imagens em relação ao SAM original e, na segmentação de objetos em vídeo, destaca especialmente o rastreamento parcial e o tempo de interação
A Meta disponibilizou o modelo pré-treinado, código, demo e o dataset SA-V, que inclui cerca de 51 mil vídeos e mais de 600 mil masklets

Segmentação para imagens e vídeos ao mesmo tempo

O SAM 2 é o primeiro modelo unificado para segmentar objetos em imagens e vídeos
O usuário pode selecionar objetos em uma imagem ou frame de vídeo inserindo cliques, caixas ou máscaras
Em vídeos, é possível indicar um ou vários objetos e refinar a previsão com prompts adicionais em qualquer frame
Ele foi projetado para ter forte desempenho zero-shot mesmo em objetos, imagens e vídeos não vistos durante o treinamento, o que permite uso em várias aplicações reais
Processa vídeos com eficiência por meio de inferência em streaming, dando suporte a aplicações em tempo real e interativas

Desempenho e experiência de uso interativa

O SAM 2 é apresentado como um modelo com desempenho superior aos melhores modelos da área em segmentação de objetos em vídeo e imagem
Principais pontos de desempenho
- Melhora a segmentação de imagens em relação ao SAM anterior
- Supera modelos existentes de segmentação de objetos em vídeo, com destaque para o rastreamento parcial
- Exige menos tempo de interação do que métodos anteriores de segmentação interativa de vídeo
Na demo, um único clique em um frame já permite rastrear interativamente o objeto por todo o vídeo e criar efeitos
A demo está disponível em SAM 2 demo

Arquitetura do modelo para rastreamento em vídeo

É uma arquitetura que expande para vídeos a capacidade de seleção baseada em prompts do SAM
Adiciona um módulo de memória por sessão para armazenar informações sobre os objetos-alvo no vídeo
- Permite rastrear os objetos selecionados ao longo de todos os frames do vídeo
- Usa o contexto de frames anteriores mesmo quando o objeto sai temporariamente de vista
É possível inserir prompts adicionais em qualquer frame para corrigir a previsão de máscara
A arquitetura em streaming processa os frames de vídeo um por um
Quando aplicado a imagens, o módulo de memória fica vazio e o modelo funciona como o SAM

Dataset SA-V

O SAM 2 foi treinado com vídeos em grande escala e diversos, além de masklets
- Masklet significa uma máscara de objeto ao longo do tempo
- Os dados foram gerados aplicando interativamente o SAM 2 em um mecanismo de dados model-in-the-loop
Os dados de treinamento incluem o dataset SA-V, disponibilizado como open source
Principais números do dataset SA-V
- Mais de 600 mil masklets coletados em cerca de 51 mil vídeos
- Cenários reais geograficamente diversos, coletados em 47 países
- Anotações para objetos completos, partes de objetos e situações difíceis de oclusão
Problemas ou dúvidas sobre o dataset SA-V podem ser enviados para support@segment-anything.com
O dataset pode ser explorado em Explore the dataset

Recursos públicos e possibilidades de uso

A Meta disponibilizou o modelo Segment Anything 2 pré-treinado, o dataset SA-V, a demo e o código para que a comunidade de pesquisa possa avançar em trabalhos futuros
Junto com os recursos públicos, a empresa destaca os seguintes pontos
- Transparência sobre os dados de treinamento do SAM 2
- Prioridade para a diversidade geográfica do dataset SA-V como forma de representar o mundo real
- Realização de avaliação de equidade do SAM 2
O modelo e o código podem ser baixados em Download the model
O artigo de pesquisa está disponível em Read the research paper
O SAM 2 pode ser usado sozinho ou como parte de sistemas maiores combinados com outros modelos no futuro
- A saída de segmentação de objetos em vídeo pode ser usada como entrada para outros sistemas de IA, como modelos modernos de geração de vídeo, permitindo funções de edição precisas
- No futuro, ele pode ser expandido para outros tipos de prompts de entrada, apoiando formas criativas de interagir com objetos em tempo real ou em vídeo ao vivo

1 comentários

GN⁺ 2024-08-02

Opiniões no Hacker News

A Meta está indo muito bem. O Google parece estar ficando para trás em pesquisa de IA e em resultados úteis compartilhados com a comunidade.
Tenho certeza de que o Llama e outros projetos vão impulsionar novas criações, empresas e avanços. A forma como eles compartilham código e pesquisa abertamente também acabará voltando como valor para os negócios da Meta.
A diferença entre uma empresa liderada pelo fundador e uma empresa puxada pelo mercado fica evidente aqui. O Google parece se preocupar mais com objetivos de curto prazo, como evitar um trimestre ruim ou evitar grandes despesas de capital em projetos que não mostram retorno imediato, como VR.
No momento em que a Meta encontrar o killer app de VR, outras empresas podem estar tão atrasadas que terão de comprar software da Meta ou quase não conseguirão capturar participação nesse novo mercado. É parecido com a dianteira que a Nvidia abriu em chips de IA: uma área em que ninguém investiu o suficiente.
- O Google ainda está à frente em pesquisa de IA. Isso é quase o oposto de agir no curto prazo, e talvez não pareça assim porque muito do trabalho é pesquisa fundamental, ou ligado a química e física, ou em áreas que não são divulgadas como no Facebook.
  Mas ele está ficando para trás em transformar pesquisa em produto. Até agora, parece fazer apenas o esforço mínimo para levar modelos treinados para produtos.
- Não sei ao certo, mas acho que a diferença talvez seja esta: a Meta pode experimentar várias coisas e encontrar uma aplicação matadora depois.
  Já o Google parece sentir, de forma existencial, que a busca precisa necessariamente ser a aplicação matadora, e tenta encaixar tudo à força nela. Com isso, acaba definindo critérios de sucesso altos demais e ignorando em que ponto a tecnologia realmente está.
- Não sei o que a Meta está fazendo tão bem assim. As integrações de IA no WhatsApp ou no Instagram são quase inúteis e parecem ter sido colocadas ali para enganar o mercado e fazer a Meta parecer uma empresa de IA.
  Considero Zuckerberg um dos CEOs com menos imaginação. A Meta tem pouquíssimos produtos originais, tirando o dispositivo Portal; a maioria são produtos adquiridos. É uma empresa extremamente fraca em inovação.
  Parece que Zuckerberg fez uma campanha de relações públicas para lavar a imagem, mas o Facebook continua sendo uma empresa duvidosa, comandada por uma pessoa duvidosa, e o núcleo podre não mudou. Ainda esta semana recebeu uma multa de bilhões de dólares no Texas.
  A Meta está longe de ser uma “empresa liderada por fundador”. Os fundadores dos apps comprados logo vão embora, e quem passa a tocá-los são figuras com perfil de consultoria de gestão, como Adam Mosseri.
  É triste que as pessoas ainda acreditem na aposta do metaverso que Zuckerberg lançou para fazer a Meta parecer uma empresa inovadora em meio à desaceleração do crescimento de usuários. Ainda não entendo por que aquela fraude do metaverso não foi uma violação da SEC.
- Falam em “diferença entre empresa liderada por fundador e empresa liderada pelo mercado”, mas fico me perguntando se são mesmo tão diferentes assim.
  O Facebook também lança coisas caras com caminho de monetização incerto, como o Llama. O Google também lançou coisas caras com caminho de monetização incerto, como Waymo, Google Glass, Google Fiber, Stadia e as coisas em https://killedbygoogle.com.
  O Facebook mudou radicalmente a direção da empresa inteira por uma visão chamada metaverso e fracassou; o Google mudou radicalmente a direção da empresa inteira por uma visão chamada Google Plus e fracassou.
  O Facebook mudou o nome para Meta, e o Google mudou o nome para Alphabet.
  O Facebook tem uma organização de pesquisa em IA fundada por um professor franco-americano de ciência da computação e vencedor do Prêmio Turing; o Google tem uma organização de pesquisa em IA fundada por um professor britânico-canadense de ciência da computação e vencedor do Prêmio Turing.
  O Facebook lançou uma biblioteca open source de machine learning em Python amplamente usada, com nome em camel case, chamada PyTorch; o Google lançou uma biblioteca open source de machine learning em Python amplamente usada, com nome em camel case, chamada TensorFlow.
  Talvez as duas sigam o mesmo manual, e recentemente as apostas do Facebook simplesmente tenham dado certo por sorte.
- Nem todo fundador é igual. Alguns fundadores odeiam muito ver o preço da ação cair, mesmo quando não precisam de dinheiro imediatamente.
  E os resultados são mistos. Pessoalmente, acho que Zuckerberg estava errado em VR, mas certo em IA.
Discussão anterior: https://news.ycombinator.com/item?id=41104523
- É surpreendente que uma notícia grande como essa suma da primeira página tão rápido. O Hacker News parece otimizado para pessoas que checam o site várias vezes por dia.
Se alguém tivesse dito, apenas 10 anos atrás, que o Facebook se tornaria uma das empresas que inovam de forma mais aberta e que Mark Zuckerberg seria um dos bilionários relativamente mais sensatos, eu teria dado muita risada.
Mas agora a situação mudou. Independentemente de quão bem-sucedidas, na prática, forem as iniciativas de VR e IA, parece que elas já vão deixar algum lugar na história.
- Para ser justo, a Meta tem um histórico bem longo de publicar open source de software interno que acaba virando padrão da indústria. Isso não é nada novo.
  Especialmente em tecnologia de bancos de dados: rocksdb, zstd compression, presto, Cassandra, Hive e Velox foram todos criados pela Meta.
  Esses são apenas os mais populares; há muito mais projetos relacionados a bancos de dados que foram abertos, mas não ficaram tão famosos.
  Há muito do que reclamar na empresa, mas ela sempre foi uma grande contribuinte para o ecossistema open source.
- Gosto do Oculus, mas VR ainda não alcançou universalidade cultural.
Quando vejo coisas assim, sempre lembro da UI de mapa orbital holográfico de The Expanse.
Parece um tipo de papel do futuro, conectado a tudo que imaginamos, e pode se tornar uma ferramenta realmente poderosa para explorar o mundo.
Se isso existisse na época em que eu trabalhava com edição e motion graphics, eu teria desejado muito.
O Roto Brush do After Effects é parecido, mas a qualidade sempre era insuficiente e o tempo de processamento demorava demais.
- O Roto Brush do After Effects é uma ferramenta que salva vidas, mas tem limitações. O SAM é claramente uma ferramenta que muda o jogo.
Dizem que o código foi aberto, mas não encontrei nada além de código de exemplo. O código de treinamento também foi publicado?
- Quando dizem “publicação dos modelos Segment Anything 2 pré-treinados e do código”, o repositório citado parece ser este: https://github.com/facebookresearch/segment-anything-2
Os resultados são impressionantes. Este é um vídeo de teste gravado dentro da Mercer Labs: https://youtu.be/W7kM0ISXkpQ?feature=shared
- Não sei o que estou vendo, nem como isso se relaciona com o SAM2.
O Firefox parece não ser compatível.
Também devemos agradecer aos milhares de trabalhadores africanos que fizeram o trabalho tedioso e repetitivo de datasets.

Meta revela o Segment Anything Model 2

Segmentação para imagens e vídeos ao mesmo tempo

Desempenho e experiência de uso interativa

Arquitetura do modelo para rastreamento em vídeo

Dataset SA-V

Recursos públicos e possibilidades de uso

Leituras relacionadas

1 comentários

Opiniões no Hacker News