11 pontos por xguru 2023-03-31 | 1 comentários | Compartilhar no WhatsApp
  • O objetivo é desenvolver um sistema multimodal capaz de processar conjuntamente entradas de imagem/texto, como o GPT-4
  • Para isso, foi implementado em open source o modelo Flamingo da DeepMind, um LMM (Large Multimodal Model) que processa e faz inferência com imagens/vídeos/texto
  • O que está incluído na primeira versão
    • Framework em Python para treinar LMMs no estilo Flamingo
    • Dataset multimodal de grande escala com imagens/texto intercalados
    • Benchmark de avaliação de aprendizado in-context para tarefas de visão e linguagem
    • Modelo OpenFlamingo-9B baseado em LLaMA
  • Como o dataset de treinamento do Flamingo não é público, o treinamento foi feito usando o dataset Multimodal C4 do LAION-2B e amostras extraídas, reduzidas de 10 milhões para 5 milhões