ImageBind - o modelo de IA multimodal da Meta
(imagebind.metademolab.com)- Mesmo sem supervisão, vincula de uma só vez dados de 6 modalidades para analisar melhor diferentes tipos de informação
- imagem, vídeo, áudio, texto, profundidade, térmico (Thermal), IMU (unidade de medição inercial)
- é possível gerar imagens com base em som ou realizar tarefas de busca de informação combinando dados de áudio/vídeo/imagem/profundidade
- Excelente desempenho de reconhecimento em Zero-shot / Few-Shot
Ainda não há comentários.