10 pontos por GN⁺ 2024-05-29 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Llama3-V é o primeiro modelo multimodal baseado no Llama3
  • O Llama3-V foi treinado com um custo inferior a US$ 500
  • Nos benchmarks, mostrou uma melhora de 10-20% em relação ao Llava e apresentou desempenho semelhante na maioria das métricas mesmo quando comparado a modelos fechados 100 vezes maiores

Arquitetura do modelo

  • SigLIP: modelo de embedding de imagem, semelhante ao CLIP, mas que usa perda sigmoide.
  • Alinhamento de embeddings de texto: fixa o SigLIP e usa um módulo de projeção para alinhar os embeddings de imagem aos embeddings de texto.
  • Adição de tokens de imagem: adiciona os embeddings de imagem antes dos tokens de texto e os envia ao Llama3.

Otimização de inferência

  • Caching: pré-calcula os embeddings de imagem do modelo SigLIP para aumentar a utilização da GPU e economizar tempo de treino/inferência.
  • Otimização com MPS/MLX: otimiza o modelo SigLIP com MPS para processar 32 imagens por segundo.

Processo de treinamento

  • Pré-cálculo de embeddings: pré-calcula embeddings de imagem usando o SigLIP.
  • Treinamento da camada de projeção: alinha embeddings de imagem e texto em um espaço de embedding multimodal por meio da camada de projeção.
  • Aprendizado supervisionado: após o pré-treinamento, melhora o desempenho do modelo por meio de aprendizado supervisionado.

Resumo

  • Adiciona um codificador de visão ao Llama3 8B.
  • Melhora de 10-20% em relação ao Llava.
  • Desempenho semelhante ao de modelos 100 vezes maiores, como GPT4v, Gemini Ultra e Claude Opus.
  • Oferece um pipeline eficiente de treinamento e aprendizado supervisionado com custo inferior a US$ 500.

Opinião do GN⁺

  • Ponto interessante: o Llama3-V chama atenção por entregar um modelo multimodal de alto desempenho com baixo custo.
  • Visão crítica: fica a dúvida sobre o quanto é sustentável manter o desempenho enquanto se reduzem tamanho e custo do modelo.
  • Tecnologias relacionadas: modelos com funcionalidades semelhantes incluem CLIP e DALL-E.
  • Considerações para adoção: ao adotar uma nova tecnologia, é preciso considerar a precisão do modelo e sua eficiência de custo.
  • Prós e contras da escolha técnica: é possível obter alto desempenho com baixo custo, mas também é preciso considerar a escalabilidade do modelo e os custos de manutenção.

Ainda não há comentários.

Ainda não há comentários.