Otter: modelo multimodal com ajuste de instruções em contexto

xguru · 2023-06-14T10:16:01+09:00

Para que o desempenho zero-shot de LLMs seja bom, um conjunto de instruções de alta qualidade é essencial, e com VLMs (modelos visão-linguagem) acontece o mesmo No entanto, os conjuntos de instruções vision-language atuais são muito limitados em quantidade, diversidade e criatividade Apresenta o MIMIC-IT (MultI-Modal In-Context Instruction Tuning) Um conjunto de dados composto por 2,2 milhões de instruções únicas obtidas de imagens e vídeos, e 2,8 milhões de pares multimodais de instrução-resposta Otter é um VLM de grande porte treinado com o dataset MIMIC-IT Suporte a 8 idiomas: inglês, chinês, coreano, japonês, alemão, francês, espanhol e árabe

(github.com/Luodian)

6 pontos por xguru 2023-06-14 | Ainda não há comentários. | Compartilhar no WhatsApp

Para que o desempenho zero-shot de LLMs seja bom, um conjunto de instruções de alta qualidade é essencial, e com VLMs (modelos visão-linguagem) acontece o mesmo
No entanto, os conjuntos de instruções vision-language atuais são muito limitados em quantidade, diversidade e criatividade
Apresenta o MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
Um conjunto de dados composto por 2,2 milhões de instruções únicas obtidas de imagens e vídeos, e 2,8 milhões de pares multimodais de instrução-resposta
Otter é um VLM de grande porte treinado com o dataset MIMIC-IT
Suporte a 8 idiomas: inglês, chinês, coreano, japonês, alemão, francês, espanhol e árabe

Otter: modelo multimodal com ajuste de instruções em contexto

Leituras relacionadas

Ainda não há comentários.