Meta divulga o Ego-Exo4D, um grande conjunto de dados de vídeo em primeira pessoa

xguru · 2023-12-19T10:56:02+09:00

Conjunto de dados básico e benchmark para apoiar pesquisas em aprendizado com vídeo e percepção multimodal Captura simultaneamente a perspectiva em primeira pessoa "egocêntrica" por meio de câmeras vestíveis dos participantes e múltiplas perspectivas "exocêntricas" de câmeras ao redor dos participantes As duas perspectivas se complementam: a Ego mostra o que o participante vê e ouve, e a Exo revela a cena ao redor e o contexto Usar essas duas perspectivas em conjunto pode oferecer aos modelos de IA uma nova visão sobre habilidades humanas complexas Esforço de dois anos da FAIR (Fundamental Artificial Intelligence Research) da Meta, do Project Aria e de 15 universidades parceiras Capturado com a ajuda de mais de 800 participantes experientes nos Estados Unidos, Japão, Colômbia, Singapura, Índia e Canadá Dados com mais de 1.400 horas de vídeo e anotações para novas tarefas de benchmark foram disponibilizados como open source O Ego-Exo4D foca em atividades humanas especializadas, como esportes, música, culinária, dança e conserto de bicicletas O avanço da capacidade da IA de entender a proficiência humana em vídeos pode viabilizar muitas aplicações Por exemplo, em sistemas de AR, uma pessoa usando óculos inteligentes pode aprender rapidamente uma nova habilidade com a orientação de um treinador virtual de IA O Ego-Exo4D é o maior conjunto de dados público de vídeos em primeira e terceira pessoa sincronizados no tempo Para construir esse conjunto de dados, foram recrutados especialistas de várias áreas, com participação de profissionais do mundo real Além de multivisualização, o Ego-Exo4D também é um conjunto de dados multimodal, e todos os vídeos ego capturados com os óculos Aria da Meta incluem áudio de 7 canais alinhado no tempo, unidade de medição inercial (IMU), duas câmeras monocromáticas grande-angulares e mais

(ai.meta.com)

7 pontos por xguru 2023-12-19 | Ainda não há comentários. | Compartilhar no WhatsApp

Conjunto de dados básico e benchmark para apoiar pesquisas em aprendizado com vídeo e percepção multimodal
Captura simultaneamente a perspectiva em primeira pessoa "egocêntrica" por meio de câmeras vestíveis dos participantes e múltiplas perspectivas "exocêntricas" de câmeras ao redor dos participantes
As duas perspectivas se complementam: a Ego mostra o que o participante vê e ouve, e a Exo revela a cena ao redor e o contexto
- Usar essas duas perspectivas em conjunto pode oferecer aos modelos de IA uma nova visão sobre habilidades humanas complexas
Esforço de dois anos da FAIR (Fundamental Artificial Intelligence Research) da Meta, do Project Aria e de 15 universidades parceiras
- Capturado com a ajuda de mais de 800 participantes experientes nos Estados Unidos, Japão, Colômbia, Singapura, Índia e Canadá
Dados com mais de 1.400 horas de vídeo e anotações para novas tarefas de benchmark foram disponibilizados como open source
O Ego-Exo4D foca em atividades humanas especializadas, como esportes, música, culinária, dança e conserto de bicicletas
- O avanço da capacidade da IA de entender a proficiência humana em vídeos pode viabilizar muitas aplicações
- Por exemplo, em sistemas de AR, uma pessoa usando óculos inteligentes pode aprender rapidamente uma nova habilidade com a orientação de um treinador virtual de IA
O Ego-Exo4D é o maior conjunto de dados público de vídeos em primeira e terceira pessoa sincronizados no tempo
- Para construir esse conjunto de dados, foram recrutados especialistas de várias áreas, com participação de profissionais do mundo real
- Além de multivisualização, o Ego-Exo4D também é um conjunto de dados multimodal, e todos os vídeos ego capturados com os óculos Aria da Meta incluem áudio de 7 canais alinhado no tempo, unidade de medição inercial (IMU), duas câmeras monocromáticas grande-angulares e mais

Meta divulga o Ego-Exo4D, um grande conjunto de dados de vídeo em primeira pessoa

Leituras relacionadas

Ainda não há comentários.