7 pontos por xguru 2023-12-19 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Conjunto de dados básico e benchmark para apoiar pesquisas em aprendizado com vídeo e percepção multimodal
  • Captura simultaneamente a perspectiva em primeira pessoa "egocêntrica" por meio de câmeras vestíveis dos participantes e múltiplas perspectivas "exocêntricas" de câmeras ao redor dos participantes
  • As duas perspectivas se complementam: a Ego mostra o que o participante vê e ouve, e a Exo revela a cena ao redor e o contexto
    • Usar essas duas perspectivas em conjunto pode oferecer aos modelos de IA uma nova visão sobre habilidades humanas complexas
  • Esforço de dois anos da FAIR (Fundamental Artificial Intelligence Research) da Meta, do Project Aria e de 15 universidades parceiras
    • Capturado com a ajuda de mais de 800 participantes experientes nos Estados Unidos, Japão, Colômbia, Singapura, Índia e Canadá
  • Dados com mais de 1.400 horas de vídeo e anotações para novas tarefas de benchmark foram disponibilizados como open source
  • O Ego-Exo4D foca em atividades humanas especializadas, como esportes, música, culinária, dança e conserto de bicicletas
    • O avanço da capacidade da IA de entender a proficiência humana em vídeos pode viabilizar muitas aplicações
    • Por exemplo, em sistemas de AR, uma pessoa usando óculos inteligentes pode aprender rapidamente uma nova habilidade com a orientação de um treinador virtual de IA
  • O Ego-Exo4D é o maior conjunto de dados público de vídeos em primeira e terceira pessoa sincronizados no tempo
    • Para construir esse conjunto de dados, foram recrutados especialistas de várias áreas, com participação de profissionais do mundo real
    • Além de multivisualização, o Ego-Exo4D também é um conjunto de dados multimodal, e todos os vídeos ego capturados com os óculos Aria da Meta incluem áudio de 7 canais alinhado no tempo, unidade de medição inercial (IMU), duas câmeras monocromáticas grande-angulares e mais

Ainda não há comentários.

Ainda não há comentários.