- Arquitetura de modelo vision-language que divide imagens em alta resolução em várias pequenas regiões para análise, permitindo compreensão e raciocínio detalhados
- Foram lançados dois modelos open source: Llama-3-8b-Dragonfly-v1 (domínio geral) e Llama-3-8b-Dragonfly-Med-v1 (domínio médico)
- O Llama-3-8b-Dragonfly-v1 foi treinado com 5,5 milhões de pares imagem-instrução, e o Llama-3-8b-Dragonfly-Med-v1 foi adicionalmente ajustado com 1,4 milhão de imagens médicas-instrução
- O Dragonfly apresentou excelente desempenho em benchmarks como raciocínio visual de senso comum e geração de legendas de imagens
- O Dragonfly-Med supera modelos existentes como o Med-Gemini na área de compreensão de imagens médicas
Arquitetura do Dragonfly
-
Codificação visual em múltiplas resoluções (Multi-resolution Visual Encoding):
- Processa imagens em baixa, média e alta resolução
- Cada imagem é dividida em várias subimagens conforme a resolução, que são codificadas como tokens visuais
- Os tokens codificados são projetados para o language space e concatenados em uma sequência que é fornecida como entrada ao LLM
- Isso permite processar imagens grandes com eficiência e aumentar a granularidade do processamento de dados visuais
-
Zoom-in Patch Selection:
- Abordagem seletiva para focar em detalhes visuais importantes em imagens de alta resolução
- Usa uma nova estratégia de zoom-in patch selection que seleciona apenas as subimagens de alta resolução mais importantes
- Compara os summary embeddings de subimagens em média/alta resolução para selecionar apenas os patches mais relevantes
- Com isso, remove redundâncias e foca nas áreas de conteúdo principal, aumentando a eficiência geral do modelo e a compreensão de regiões detalhadas
-
Com essas duas estratégias, o modelo consegue se concentrar mais nos detalhes das regiões da imagem e melhorar a capacidade de raciocínio de senso comum.
-
Mesmo sendo otimizado para captar detalhes finos, apresenta bom desempenho zero-shot em benchmarks gerais de compreensão de imagem, como VQA e geração de legendas.
Avaliação de desempenho dos modelos Dragonfly
- Avaliado em 5 benchmarks vision-language: AI2D, ScienceQA, MMMU, MMVet e POPE
- AI2D, ScienceQA: avaliação de raciocínio visual de senso comum no domínio científico
- MMMU, MMVet: avaliação abrangente de capacidades vision-language
- POPE: avaliação de hallucination em nível de objeto
- Apresenta desempenho de alto nível, comparável ao de outros modelos vision-language conhecidos
Desempenho do Dragonfly-Med
- Versão do Dragonfly treinada adicionalmente com 1,4 milhão de imagens médicas-instrução em colaboração com a Stanford Medicine
- Supera o desempenho de modelos existentes como o Med-Gemini em benchmarks de perguntas e respostas visuais, como VQA-RAD, SLAKE e Path-VQA
- Também apresenta desempenho em nível SOTA em benchmarks de geração de legendas para imagens médicas, como IU X-Ray, Peir Gross, ROCO e MIMIC CXR
Planos futuros
- Pretendem explorar uma nova arquitetura e estratégias de codificação visual usando o LLaMA3-8B-Instruct como backbone
- Querem ampliar a aplicação para áreas científicas mais diversas e contribuir para a pesquisa open source em multimodalidade
Ainda não há comentários.