OpenFlamingo - framework open source para treinar/avaliar modelos multimodais de grande escala (LMMs)

xguru · 2023-03-31T10:15:01+09:00

O objetivo é desenvolver um sistema multimodal capaz de processar conjuntamente entradas de imagem/texto, como o GPT-4 Para isso, foi implementado em open source o modelo Flamingo da DeepMind, um LMM (Large Multimodal Model) que processa e faz inferência com imagens/vídeos/texto O que está incluído na primeira versão Framework em Python para treinar LMMs no estilo Flamingo Dataset multimodal de grande escala com imagens/texto intercalados Benchmark de avaliação de aprendizado in-context para tarefas de visão e linguagem Modelo OpenFlamingo-9B baseado em LLaMA Como o dataset de treinamento do Flamingo não é público, o treinamento foi feito usando o dataset Multimodal C4 do LAION-2B e amostras extraídas, reduzidas de 10 milhões para 5 milhões

(laion.ai)

11 pontos por xguru 2023-03-31 | 1 comentários | Compartilhar no WhatsApp

O objetivo é desenvolver um sistema multimodal capaz de processar conjuntamente entradas de imagem/texto, como o GPT-4
Para isso, foi implementado em open source o modelo Flamingo da DeepMind, um LMM (Large Multimodal Model) que processa e faz inferência com imagens/vídeos/texto
O que está incluído na primeira versão
- Framework em Python para treinar LMMs no estilo Flamingo
- Dataset multimodal de grande escala com imagens/texto intercalados
- Benchmark de avaliação de aprendizado in-context para tarefas de visão e linguagem
- Modelo OpenFlamingo-9B baseado em LLaMA
Como o dataset de treinamento do Flamingo não é público, o treinamento foi feito usando o dataset Multimodal C4 do LAION-2B e amostras extraídas, reduzidas de 10 milhões para 5 milhões

1 comentários

xguru 2023-03-31

Flamingo: modelo de linguagem visual para aprendizado com poucos exemplos

OpenFlamingo - framework open source para treinar/avaliar modelos multimodais de grande escala (LMMs)

Leituras relacionadas

1 comentários