- Para que o desempenho zero-shot de LLMs seja bom, um conjunto de instruções de alta qualidade é essencial, e com VLMs (modelos visão-linguagem) acontece o mesmo
- No entanto, os conjuntos de instruções vision-language atuais são muito limitados em quantidade, diversidade e criatividade
- Apresenta o MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
- Um conjunto de dados composto por 2,2 milhões de instruções únicas obtidas de imagens e vídeos, e 2,8 milhões de pares multimodais de instrução-resposta
- Otter é um VLM de grande porte treinado com o dataset MIMIC-IT
- Suporte a 8 idiomas: inglês, chinês, coreano, japonês, alemão, francês, espanhol e árabe
Ainda não há comentários.