MiniGPT-4: melhoria na compreensão visão-linguagem com LLMs avançados

xguru · 2023-04-18T11:21:01+09:00

Oferece novos recursos de visão-linguagem semelhantes aos demonstrados no GPT-4 Descreve imagens em detalhes, ensina como cozinhar a partir de fotos de comida, encontra problemas, cria textos publicitários e escreve histórias e poemas inspirados em imagens Mostra desempenho excepcional conectando apenas o BLIP-2 e o Vicuna com uma única camada de projeção Foi treinado em 2 etapas 5 milhões de pares imagem-texto foram treinados por 10 horas com 4 A100. Só esta etapa já faz o Vicuna entender imagens, mas a capacidade de geração é bastante afetada Para resolver o problema e melhorar a usabilidade, foi proposto um novo método para gerar pares imagem-texto de alta qualidade usando em conjunto o próprio modelo e o ChatGPT Com base nisso, foi gerado um conjunto de dados de alta qualidade em pequena escala (3.500 pares no total) Na segunda etapa de fine-tuning, esse pequeno conjunto de dados foi treinado com templates conversacionais para melhorar a confiabilidade da geração e a usabilidade geral Surpreendentemente, esta etapa tem alta eficiência computacional e leva apenas 7 minutos com uma única A100

(minigpt-4.github.io)

15 pontos por xguru 2023-04-18 | Ainda não há comentários. | Compartilhar no WhatsApp

Oferece novos recursos de visão-linguagem semelhantes aos demonstrados no GPT-4
- Descreve imagens em detalhes, ensina como cozinhar a partir de fotos de comida, encontra problemas, cria textos publicitários e escreve histórias e poemas inspirados em imagens
Mostra desempenho excepcional conectando apenas o BLIP-2 e o Vicuna com uma única camada de projeção
Foi treinado em 2 etapas
- 5 milhões de pares imagem-texto foram treinados por 10 horas com 4 A100. Só esta etapa já faz o Vicuna entender imagens, mas a capacidade de geração é bastante afetada
- Para resolver o problema e melhorar a usabilidade, foi proposto um novo método para gerar pares imagem-texto de alta qualidade usando em conjunto o próprio modelo e o ChatGPT
- Com base nisso, foi gerado um conjunto de dados de alta qualidade em pequena escala (3.500 pares no total)
- Na segunda etapa de fine-tuning, esse pequeno conjunto de dados foi treinado com templates conversacionais para melhorar a confiabilidade da geração e a usabilidade geral
- Surpreendentemente, esta etapa tem alta eficiência computacional e leva apenas 7 minutos com uma única A100

MiniGPT-4: melhoria na compreensão visão-linguagem com LLMs avançados

Leituras relacionadas

Ainda não há comentários.