11 pontos por xguru 2023-05-24 | 1 comentários | Compartilhar no WhatsApp
  • Modelo de representação geral que abrange modalidades de visão, áudio e linguagem
  • Apresenta excelentes resultados em tarefas integradas mesmo sem modelos pré-treinados
  • Com um forte Zero-shot Retrieval emergente, é possível alinhar modalidades que não foram pareadas nos dados de treinamento
  • Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

1 comentários

 
dbs0829 2023-05-24

Pelo que vi, superou o estado da arte em muitas tarefas.