LLaVA: Ajuste de Instruções Visuais
(llava-vl.github.io)- "LLaVA : Large Language and Vision Assistant"
- Modelo multimodal de grande escala que combina um codificador de visão com o Vicuna para compreensão geral de visão e linguagem
- Busca capacidades no nível do GPT-4 multimodal e precisão SOTA em perguntas e respostas científicas
- Artigo, código e demo disponíveis
Ainda não há comentários.