4 pontos por xguru 2024-06-10 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Arquitetura de modelo vision-language que divide imagens em alta resolução em várias pequenas regiões para análise, permitindo compreensão e raciocínio detalhados
  • Foram lançados dois modelos open source: Llama-3-8b-Dragonfly-v1 (domínio geral) e Llama-3-8b-Dragonfly-Med-v1 (domínio médico)
  • O Llama-3-8b-Dragonfly-v1 foi treinado com 5,5 milhões de pares imagem-instrução, e o Llama-3-8b-Dragonfly-Med-v1 foi adicionalmente ajustado com 1,4 milhão de imagens médicas-instrução
  • O Dragonfly apresentou excelente desempenho em benchmarks como raciocínio visual de senso comum e geração de legendas de imagens
  • O Dragonfly-Med supera modelos existentes como o Med-Gemini na área de compreensão de imagens médicas

Arquitetura do Dragonfly

  • Codificação visual em múltiplas resoluções (Multi-resolution Visual Encoding):

    • Processa imagens em baixa, média e alta resolução
    • Cada imagem é dividida em várias subimagens conforme a resolução, que são codificadas como tokens visuais
    • Os tokens codificados são projetados para o language space e concatenados em uma sequência que é fornecida como entrada ao LLM
    • Isso permite processar imagens grandes com eficiência e aumentar a granularidade do processamento de dados visuais
  • Zoom-in Patch Selection:

    • Abordagem seletiva para focar em detalhes visuais importantes em imagens de alta resolução
    • Usa uma nova estratégia de zoom-in patch selection que seleciona apenas as subimagens de alta resolução mais importantes
    • Compara os summary embeddings de subimagens em média/alta resolução para selecionar apenas os patches mais relevantes
    • Com isso, remove redundâncias e foca nas áreas de conteúdo principal, aumentando a eficiência geral do modelo e a compreensão de regiões detalhadas
  • Com essas duas estratégias, o modelo consegue se concentrar mais nos detalhes das regiões da imagem e melhorar a capacidade de raciocínio de senso comum.

  • Mesmo sendo otimizado para captar detalhes finos, apresenta bom desempenho zero-shot em benchmarks gerais de compreensão de imagem, como VQA e geração de legendas.

Avaliação de desempenho dos modelos Dragonfly

  • Avaliado em 5 benchmarks vision-language: AI2D, ScienceQA, MMMU, MMVet e POPE
    • AI2D, ScienceQA: avaliação de raciocínio visual de senso comum no domínio científico
    • MMMU, MMVet: avaliação abrangente de capacidades vision-language
    • POPE: avaliação de hallucination em nível de objeto
  • Apresenta desempenho de alto nível, comparável ao de outros modelos vision-language conhecidos

Desempenho do Dragonfly-Med

  • Versão do Dragonfly treinada adicionalmente com 1,4 milhão de imagens médicas-instrução em colaboração com a Stanford Medicine
  • Supera o desempenho de modelos existentes como o Med-Gemini em benchmarks de perguntas e respostas visuais, como VQA-RAD, SLAKE e Path-VQA
  • Também apresenta desempenho em nível SOTA em benchmarks de geração de legendas para imagens médicas, como IU X-Ray, Peir Gross, ROCO e MIMIC CXR

Planos futuros

  • Pretendem explorar uma nova arquitetura e estratégias de codificação visual usando o LLaMA3-8B-Instruct como backbone
  • Querem ampliar a aplicação para áreas científicas mais diversas e contribuir para a pesquisa open source em multimodalidade

Ainda não há comentários.

Ainda não há comentários.