- Conjunto de dados básico e benchmark para apoiar pesquisas em aprendizado com vídeo e percepção multimodal
- Captura simultaneamente a perspectiva em primeira pessoa "egocêntrica" por meio de câmeras vestíveis dos participantes e múltiplas perspectivas "exocêntricas" de câmeras ao redor dos participantes
- As duas perspectivas se complementam: a Ego mostra o que o participante vê e ouve, e a Exo revela a cena ao redor e o contexto
- Usar essas duas perspectivas em conjunto pode oferecer aos modelos de IA uma nova visão sobre habilidades humanas complexas
- Esforço de dois anos da FAIR (Fundamental Artificial Intelligence Research) da Meta, do Project Aria e de 15 universidades parceiras
- Capturado com a ajuda de mais de 800 participantes experientes nos Estados Unidos, Japão, Colômbia, Singapura, Índia e Canadá
- Dados com mais de 1.400 horas de vídeo e anotações para novas tarefas de benchmark foram disponibilizados como open source
- O Ego-Exo4D foca em atividades humanas especializadas, como esportes, música, culinária, dança e conserto de bicicletas
- O avanço da capacidade da IA de entender a proficiência humana em vídeos pode viabilizar muitas aplicações
- Por exemplo, em sistemas de AR, uma pessoa usando óculos inteligentes pode aprender rapidamente uma nova habilidade com a orientação de um treinador virtual de IA
- O Ego-Exo4D é o maior conjunto de dados público de vídeos em primeira e terceira pessoa sincronizados no tempo
- Para construir esse conjunto de dados, foram recrutados especialistas de várias áreas, com participação de profissionais do mundo real
- Além de multivisualização, o Ego-Exo4D também é um conjunto de dados multimodal, e todos os vídeos ego capturados com os óculos Aria da Meta incluem áudio de 7 canais alinhado no tempo, unidade de medição inercial (IMU), duas câmeras monocromáticas grande-angulares e mais
Ainda não há comentários.