9 pontos por xguru 2023-03-02 | 1 comentários | Compartilhar no WhatsApp
  • Um Multimodal Large Language Model (MLLM) que reconhece formatos gerais, aprende em contexto (few-shot) e segue instruções (zero-shot)
  • Um modelo treinado com texto, imagens e pares de legenda de imagem, apresentando desempenho impressionante nas tarefas abaixo
    1. compreensão e geração de linguagem, NLP sem necessidade de OCR (reconhecimento direto em imagens de documentos)
    2. diálogo multimodal, legendagem de imagens e respostas visuais a perguntas
    3. tarefas de visão, como reconhecimento de imagens com descrição incluída (definição de classificação por instruções em texto)
  • O MLLM pode se beneficiar da transferência entre modalidades (transferência de conhecimento da linguagem para o multimodal e do multimodal para a linguagem)

1 comentários