6 pontos por xguru 2023-04-22 | Ainda não há comentários. | Compartilhar no WhatsApp
  • "LLaVA : Large Language and Vision Assistant"
  • Modelo multimodal de grande escala que combina um codificador de visão com o Vicuna para compreensão geral de visão e linguagem
  • Busca capacidades no nível do GPT-4 multimodal e precisão SOTA em perguntas e respostas científicas
  • Artigo, código e demo disponíveis

Ainda não há comentários.

Ainda não há comentários.