15 pontos por xguru 2023-04-18 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Oferece novos recursos de visão-linguagem semelhantes aos demonstrados no GPT-4
    • Descreve imagens em detalhes, ensina como cozinhar a partir de fotos de comida, encontra problemas, cria textos publicitários e escreve histórias e poemas inspirados em imagens
  • Mostra desempenho excepcional conectando apenas o BLIP-2 e o Vicuna com uma única camada de projeção
  • Foi treinado em 2 etapas
    • 5 milhões de pares imagem-texto foram treinados por 10 horas com 4 A100. Só esta etapa já faz o Vicuna entender imagens, mas a capacidade de geração é bastante afetada
    • Para resolver o problema e melhorar a usabilidade, foi proposto um novo método para gerar pares imagem-texto de alta qualidade usando em conjunto o próprio modelo e o ChatGPT
    • Com base nisso, foi gerado um conjunto de dados de alta qualidade em pequena escala (3.500 pares no total)
    • Na segunda etapa de fine-tuning, esse pequeno conjunto de dados foi treinado com templates conversacionais para melhorar a confiabilidade da geração e a usabilidade geral
    • Surpreendentemente, esta etapa tem alta eficiência computacional e leva apenas 7 minutos com uma única A100

Ainda não há comentários.

Ainda não há comentários.