- Um Multimodal Large Language Model (MLLM) que reconhece formatos gerais, aprende em contexto (few-shot) e segue instruções (zero-shot)
- Um modelo treinado com texto, imagens e pares de legenda de imagem, apresentando desempenho impressionante nas tarefas abaixo
- compreensão e geração de linguagem, NLP sem necessidade de OCR (reconhecimento direto em imagens de documentos)
- diálogo multimodal, legendagem de imagens e respostas visuais a perguntas
- tarefas de visão, como reconhecimento de imagens com descrição incluída (definição de classificação por instruções em texto)
- O MLLM pode se beneficiar da transferência entre modalidades (transferência de conhecimento da linguagem para o multimodal e do multimodal para a linguagem)
1 comentários
Repo: https://github.com/microsoft/unilm