6 pontos por xguru 2023-06-14 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Para que o desempenho zero-shot de LLMs seja bom, um conjunto de instruções de alta qualidade é essencial, e com VLMs (modelos visão-linguagem) acontece o mesmo
  • No entanto, os conjuntos de instruções vision-language atuais são muito limitados em quantidade, diversidade e criatividade
  • Apresenta o MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
  • Um conjunto de dados composto por 2,2 milhões de instruções únicas obtidas de imagens e vídeos, e 2,8 milhões de pares multimodais de instrução-resposta
  • Otter é um VLM de grande porte treinado com o dataset MIMIC-IT
  • Suporte a 8 idiomas: inglês, chinês, coreano, japonês, alemão, francês, espanhol e árabe

Ainda não há comentários.

Ainda não há comentários.