Microsoft Kosmos-1: LLM Multimodal (MLLM)

xguru · 2023-03-02T09:56:41+09:00

Um Multimodal Large Language Model (MLLM) que reconhece formatos gerais, aprende em contexto (few-shot) e segue instruções (zero-shot) Um modelo treinado com texto, imagens e pares de legenda de imagem, apresentando desempenho impressionante nas tarefas abaixo compreensão e geração de linguagem, NLP sem necessidade de OCR (reconhecimento direto em imagens de documentos) diálogo multimodal, legendagem de imagens e respostas visuais a perguntas tarefas de visão, como reconhecimento de imagens com descrição incluída (definição de classificação por instruções em texto) O MLLM pode se beneficiar da transferência entre modalidades (transferência de conhecimento da linguagem para o multimodal e do multimodal para a linguagem)

(arxiv.org)

9 pontos por xguru 2023-03-02 | 1 comentários | Compartilhar no WhatsApp

Um Multimodal Large Language Model (MLLM) que reconhece formatos gerais, aprende em contexto (few-shot) e segue instruções (zero-shot)
Um modelo treinado com texto, imagens e pares de legenda de imagem, apresentando desempenho impressionante nas tarefas abaixo
1. compreensão e geração de linguagem, NLP sem necessidade de OCR (reconhecimento direto em imagens de documentos)
2. diálogo multimodal, legendagem de imagens e respostas visuais a perguntas
3. tarefas de visão, como reconhecimento de imagens com descrição incluída (definição de classificação por instruções em texto)
O MLLM pode se beneficiar da transferência entre modalidades (transferência de conhecimento da linguagem para o multimodal e do multimodal para a linguagem)

1 comentários

xguru 2023-03-02

Repo: https://github.com/microsoft/unilm

Microsoft Kosmos-1: LLM Multimodal (MLLM)

Leituras relacionadas

1 comentários