Dragonfly - modelo vision-language de grande escala com zoom em múltiplas resoluções

xguru · 2024-06-10T10:10:02+09:00

Arquitetura de modelo vision-language que divide imagens em alta resolução em várias pequenas regiões para análise, permitindo compreensão e raciocínio detalhados Foram lançados dois modelos open source: Llama-3-8b-Dragonfly-v1 (domínio geral) e Llama-3-8b-Dragonfly-Med-v1 (domínio médico) O Llama-3-8b-Dragonfly-v1 foi treinado com 5,5 milhões de pares imagem-instrução, e o Llama-3-8b-Dragonfly-Med-v1 foi adicionalmente ajustado com 1,4 milhão de imagens médicas-instrução O Dragonfly apresentou excelente desempenho em benchmarks como raciocínio visual de senso comum e geração de legendas de imagens O Dragonfly-Med supera modelos existentes como o Med-Gemini na área de compreensão de imagens médicas Arquitetura do Dragonfly Codificação visual em múltiplas resoluções (Multi-resolution Visual Encoding): Processa imagens em baixa, média e alta resolução Cada imagem é dividida em várias subimagens conforme a resolução, que são codificadas como tokens visuais Os tokens codificados são projetados para o language space e concatenados em uma sequência que é fornecida como entrada ao LLM Isso permite processar imagens grandes com eficiência e aumentar a granularidade do processamento de dados visuais Zoom-in Patch Selection: Abordagem seletiva para focar em detalhes visuais importantes em imagens de alta resolução Usa uma nova estratégia de zoom-in patch selection que seleciona apenas as subimagens de alta resolução mais importantes Compara os summary embeddings de subimagens em média/alta resolução para selecionar apenas os patches mais relevantes Com isso, remove redundâncias e foca nas áreas de conteúdo principal, aumentando a eficiência geral do modelo e a compreensão de regiões detalhadas Com essas duas estratégias, o modelo consegue se concentrar mais nos detalhes das regiões da imagem e melhorar a capacidade de raciocínio de senso comum. Mesmo sendo otimizado para captar detalhes finos, apresenta bom desempenho zero-shot em benchmarks gerais de compreensão de imagem, como VQA e geração de legendas. Avaliação de desempenho dos modelos Dragonfly Avaliado em 5 benchmarks vision-language: AI2D, ScienceQA, MMMU, MMVet e POPE AI2D, ScienceQA: avaliação de raciocínio visual de senso comum no domínio científico MMMU, MMVet: avaliação abrangente de capacidades vision-language POPE: avaliação de hallucination em nível de objeto Apresenta desempenho de alto nível, comparável ao de outros modelos vision-language conhecidos Desempenho do Dragonfly-Med Versão do Dragonfly treinada adicionalmente com 1,4 milhão de imagens médicas-instrução em colaboração com a Stanford Medicine Supera o desempenho de modelos existentes como o Med-Gemini em benchmarks de perguntas e respostas visuais, como VQA-RAD, SLAKE e Path-VQA Também apresenta desempenho em nível SOTA em benchmarks de geração de legendas para imagens médicas, como IU X-Ray, Peir Gross, ROCO e MIMIC CXR Planos futuros Pretendem explorar uma nova arquitetura e estratégias de codificação visual usando o LLaMA3-8B-Instruct como backbone Querem ampliar a aplicação para áreas científicas mais diversas e contribuir para a pesquisa open source em multimodalidade

(together.ai)

4 pontos por xguru 2024-06-10 | Ainda não há comentários. | Compartilhar no WhatsApp

Arquitetura de modelo vision-language que divide imagens em alta resolução em várias pequenas regiões para análise, permitindo compreensão e raciocínio detalhados
Foram lançados dois modelos open source: Llama-3-8b-Dragonfly-v1 (domínio geral) e Llama-3-8b-Dragonfly-Med-v1 (domínio médico)
O Llama-3-8b-Dragonfly-v1 foi treinado com 5,5 milhões de pares imagem-instrução, e o Llama-3-8b-Dragonfly-Med-v1 foi adicionalmente ajustado com 1,4 milhão de imagens médicas-instrução
O Dragonfly apresentou excelente desempenho em benchmarks como raciocínio visual de senso comum e geração de legendas de imagens
O Dragonfly-Med supera modelos existentes como o Med-Gemini na área de compreensão de imagens médicas

Arquitetura do Dragonfly

Codificação visual em múltiplas resoluções (Multi-resolution Visual Encoding):
- Processa imagens em baixa, média e alta resolução
- Cada imagem é dividida em várias subimagens conforme a resolução, que são codificadas como tokens visuais
- Os tokens codificados são projetados para o language space e concatenados em uma sequência que é fornecida como entrada ao LLM
- Isso permite processar imagens grandes com eficiência e aumentar a granularidade do processamento de dados visuais
Zoom-in Patch Selection:
- Abordagem seletiva para focar em detalhes visuais importantes em imagens de alta resolução
- Usa uma nova estratégia de zoom-in patch selection que seleciona apenas as subimagens de alta resolução mais importantes
- Compara os summary embeddings de subimagens em média/alta resolução para selecionar apenas os patches mais relevantes
- Com isso, remove redundâncias e foca nas áreas de conteúdo principal, aumentando a eficiência geral do modelo e a compreensão de regiões detalhadas
Com essas duas estratégias, o modelo consegue se concentrar mais nos detalhes das regiões da imagem e melhorar a capacidade de raciocínio de senso comum.
Mesmo sendo otimizado para captar detalhes finos, apresenta bom desempenho zero-shot em benchmarks gerais de compreensão de imagem, como VQA e geração de legendas.

Avaliação de desempenho dos modelos Dragonfly

Avaliado em 5 benchmarks vision-language: AI2D, ScienceQA, MMMU, MMVet e POPE
- AI2D, ScienceQA: avaliação de raciocínio visual de senso comum no domínio científico
- MMMU, MMVet: avaliação abrangente de capacidades vision-language
- POPE: avaliação de hallucination em nível de objeto
Apresenta desempenho de alto nível, comparável ao de outros modelos vision-language conhecidos

Desempenho do Dragonfly-Med

Versão do Dragonfly treinada adicionalmente com 1,4 milhão de imagens médicas-instrução em colaboração com a Stanford Medicine
Supera o desempenho de modelos existentes como o Med-Gemini em benchmarks de perguntas e respostas visuais, como VQA-RAD, SLAKE e Path-VQA
Também apresenta desempenho em nível SOTA em benchmarks de geração de legendas para imagens médicas, como IU X-Ray, Peir Gross, ROCO e MIMIC CXR

Planos futuros

Pretendem explorar uma nova arquitetura e estratégias de codificação visual usando o LLaMA3-8B-Instruct como backbone
Querem ampliar a aplicação para áreas científicas mais diversas e contribuir para a pesquisa open source em multimodalidade