9 pontos por xguru 2024-02-20 | 1 comentários | Compartilhar no WhatsApp
  • A Meta apresentou o modelo Video Joint Embedding Predictive Architecture (V-JEPA), um passo importante para avançar a inteligência de máquina com uma compreensão mais realista do mundo
  • O exemplo inicial deste modelo de mundo físico se destaca em detectar e entender interações detalhadas entre objetos
  • Com um compromisso com ciência aberta responsável, o modelo foi disponibilizado com licença Creative Commons NonCommercial para que outros pesquisadores possam explorá-lo mais a fundo

Video JEPA

  • O V-JEPA é um modelo não generativo que aprende prevendo, em um espaço de representação abstrato, partes faltantes ou mascaradas de vídeo
  • O modelo tem flexibilidade para descartar informações não preditivas, o que melhora em 1,5 a 6 vezes a eficiência de treinamento e amostragem
  • O V-JEPA é pré-treinado apenas com dados sem rótulos; os rótulos só são usados quando o modelo é aplicado a tarefas específicas após o pré-treino

Metodologia de mascaramento

  • O V-JEPA não é treinado para entender tipos específicos de ação; em vez disso, aprende sobre como o mundo funciona por meio de aprendizado auto supervisionado em diversos vídeos
  • Em vez de bloquear grandes áreas do vídeo e amostrar patches aleatoriamente em pontos diversos, a estratégia de mascaramento oculta partes do vídeo em espaço e tempo para que o modelo aprenda e entenda a cena

Previsão eficiente

  • Prever no espaço de representação abstrato permite ao modelo focar em informações conceituais de alta dimensão contidas no vídeo, sem se preocupar com detalhes que geralmente não são importantes para tarefas downstream
  • O V-JEPA é o primeiro modelo de vídeo a obter ótimo desempenho em “avaliação congelada”, treinando rapidamente e de forma eficiente camadas especializadas ou redes pequenas para aprender novas habilidades sem mexer novamente no codificador e no preditor do pré-treinamento auto supervisionado

Caminho para futuras pesquisas

  • “V” significa vídeo, mas o modelo V-JEPA atual leva em conta apenas conteúdo visual
  • No próximo passo, está-se considerando uma abordagem mais multimodal, combinando áudio com conteúdo visual
  • O V-JEPA se destaca em distinguir interações finas entre objetos e reconhecer interações detalhadas entre objetos ao longo do tempo

Rumo à AMI

  • Até agora, o trabalho em torno do V-JEPA concentrou-se principalmente em percepção: compreender o conteúdo de vários fluxos de vídeo para obter algum contexto sobre o mundo ao redor
  • O próximo passo será mostrar como usar esses preditores ou modelos de mundo para planejamento ou tomada de decisão sequencial
  • O V-JEPA é um modelo de pesquisa e suas aplicações futuras ainda estão sendo exploradas. Por exemplo, o contexto fornecido pelo V-JEPA pode ser útil para tarefas reais de IA e para construir assistentes de IA contextual para as futuras óculos de realidade aumentada
  • Acreditando no valor da ciência aberta responsável, o modelo V-JEPA foi divulgado com licença CC BY-NC para que outros pesquisadores possam expandir este trabalho

1 comentários

 
kuroneko 2024-02-20

Também com a OpenAI Sora... a IA de vídeo está evoluindo de repente, de uma forma incrível.

Assim como os modelos de linguagem foram evoluindo e em determinado momento surgiu o ChatGPT, acho que seria legal se um momento assim também chegasse para a IA de vídeo.