Visão geral do modelo Ferret
- O modelo Ferret permite referência e localização precisa com vocabulário detalhado e aberto por meio de um amostrador visual com representação híbrida de regiões e percepção espacial.
- O conjunto de dados GRIT (~1,1M) é um dataset de ajuste por instruções em larga escala, hierárquico e robusto.
- O Ferret-Bench é um benchmark de avaliação multimodal que exige simultaneamente referência/localização, semântica, conhecimento e raciocínio.
Lançamento do modelo Ferret
- [12/14] Lançados checkpoints 7B e 13B.
- [10/30] Lançados o modelo FERRET e o código do Ferret-Bench.
- Os dados e o código são apenas para fins de pesquisa e seguem os acordos de licença de LLaMA, Vicuna e GPT-4.
- O dataset está sob CC BY NC 4.0 (somente uso não comercial), e modelos treinados com esse dataset não podem ser usados fora de fins de pesquisa.
Instalação e uso
- Clone o repositório do FERRET, entre na pasta correspondente e instale os pacotes necessários.
- A instalação de pacotes adicionais é necessária para casos específicos de treinamento.
Treinamento
- O FERRET foi treinado em 8 GPUs A100 (cada uma com 80GB de memória).
- Ao treinar com menos GPUs, é necessário reduzir
per_device_train_batch_size e aumentar gradient_accumulation_steps.
- É necessário preparar o checkpoint do Vicuna e o projetor do LLaVA.
- Script de treinamento fornecido.
Avaliação
- Consulte a documentação para mais detalhes.
Checkpoints
- Extração do
delta entre o modelo pré-treinado e o Vicuna.
- Após baixar os pesos do Vicuna, baixe e aplique o deslocamento de pesos preparado.
Demo
- Após treinar o FERRET, execute a demo localmente usando o checkpoint.
- Uso da interface web do Gradio.
- Execute em sequência o controlador, o servidor web do Gradio e o worker do modelo.
Citação
- Se você considerar o Ferret útil, cite com o BibTeX a seguir.
Agradecimentos
- LLaVA: base de código principal.
- Vicuna: base de código do LLM.
Opinião do GN⁺
- Tecnologia inovadora: o modelo Ferret apresenta uma tecnologia inovadora que permite referência e localização detalhadas usando vocabulário variado.
- Importância para a pesquisa: este modelo e dataset são recursos importantes que podem impulsionar a pesquisa em tarefas de referência e localização na área de inteligência artificial.
- Diversas possibilidades de aplicação: essa tecnologia pode ser usada em várias aplicações que combinam imagem e texto, elevando o entendimento visual e a interação da inteligência artificial a outro nível.
Ainda não há comentários.