2 pontos por GN⁺ 2023-12-24 | Ainda não há comentários. | Compartilhar no WhatsApp

Visão geral do modelo Ferret

  • O modelo Ferret permite referência e localização precisa com vocabulário detalhado e aberto por meio de um amostrador visual com representação híbrida de regiões e percepção espacial.
  • O conjunto de dados GRIT (~1,1M) é um dataset de ajuste por instruções em larga escala, hierárquico e robusto.
  • O Ferret-Bench é um benchmark de avaliação multimodal que exige simultaneamente referência/localização, semântica, conhecimento e raciocínio.

Lançamento do modelo Ferret

  • [12/14] Lançados checkpoints 7B e 13B.
  • [10/30] Lançados o modelo FERRET e o código do Ferret-Bench.
  • Os dados e o código são apenas para fins de pesquisa e seguem os acordos de licença de LLaMA, Vicuna e GPT-4.
  • O dataset está sob CC BY NC 4.0 (somente uso não comercial), e modelos treinados com esse dataset não podem ser usados fora de fins de pesquisa.

Instalação e uso

  • Clone o repositório do FERRET, entre na pasta correspondente e instale os pacotes necessários.
  • A instalação de pacotes adicionais é necessária para casos específicos de treinamento.

Treinamento

  • O FERRET foi treinado em 8 GPUs A100 (cada uma com 80GB de memória).
  • Ao treinar com menos GPUs, é necessário reduzir per_device_train_batch_size e aumentar gradient_accumulation_steps.
  • É necessário preparar o checkpoint do Vicuna e o projetor do LLaVA.
  • Script de treinamento fornecido.

Avaliação

  • Consulte a documentação para mais detalhes.

Checkpoints

  • Extração do delta entre o modelo pré-treinado e o Vicuna.
  • Após baixar os pesos do Vicuna, baixe e aplique o deslocamento de pesos preparado.

Demo

  • Após treinar o FERRET, execute a demo localmente usando o checkpoint.
  • Uso da interface web do Gradio.
  • Execute em sequência o controlador, o servidor web do Gradio e o worker do modelo.

Citação

  • Se você considerar o Ferret útil, cite com o BibTeX a seguir.

Agradecimentos

  • LLaVA: base de código principal.
  • Vicuna: base de código do LLM.

Opinião do GN⁺

  • Tecnologia inovadora: o modelo Ferret apresenta uma tecnologia inovadora que permite referência e localização detalhadas usando vocabulário variado.
  • Importância para a pesquisa: este modelo e dataset são recursos importantes que podem impulsionar a pesquisa em tarefas de referência e localização na área de inteligência artificial.
  • Diversas possibilidades de aplicação: essa tecnologia pode ser usada em várias aplicações que combinam imagem e texto, elevando o entendimento visual e a interação da inteligência artificial a outro nível.

Ainda não há comentários.

Ainda não há comentários.