- O objetivo é desenvolver um sistema multimodal capaz de processar conjuntamente entradas de imagem/texto, como o GPT-4
- Para isso, foi implementado em open source o modelo Flamingo da DeepMind, um LMM (Large Multimodal Model) que processa e faz inferência com imagens/vídeos/texto
- O que está incluído na primeira versão
- Framework em Python para treinar LMMs no estilo Flamingo
- Dataset multimodal de grande escala com imagens/texto intercalados
- Benchmark de avaliação de aprendizado in-context para tarefas de visão e linguagem
- Modelo OpenFlamingo-9B baseado em LLaMA
- Como o dataset de treinamento do Flamingo não é público, o treinamento foi feito usando o dataset Multimodal C4 do LAION-2B e amostras extraídas, reduzidas de 10 milhões para 5 milhões
1 comentários
Flamingo: modelo de linguagem visual para aprendizado com poucos exemplos