Llama 3-V - alcançando desempenho equivalente ao GPT4-V com um modelo 100 vezes menor e US$ 500

(aksh-garg.medium.com)

10 pontos por GN⁺ 2024-05-29 | Ainda não há comentários. | Compartilhar no WhatsApp

Llama3-V é o primeiro modelo multimodal baseado no Llama3
O Llama3-V foi treinado com um custo inferior a US$ 500
Nos benchmarks, mostrou uma melhora de 10-20% em relação ao Llava e apresentou desempenho semelhante na maioria das métricas mesmo quando comparado a modelos fechados 100 vezes maiores

SigLIP: modelo de embedding de imagem, semelhante ao CLIP, mas que usa perda sigmoide.
Alinhamento de embeddings de texto: fixa o SigLIP e usa um módulo de projeção para alinhar os embeddings de imagem aos embeddings de texto.
Adição de tokens de imagem: adiciona os embeddings de imagem antes dos tokens de texto e os envia ao Llama3.

Caching: pré-calcula os embeddings de imagem do modelo SigLIP para aumentar a utilização da GPU e economizar tempo de treino/inferência.
Otimização com MPS/MLX: otimiza o modelo SigLIP com MPS para processar 32 imagens por segundo.

Pré-cálculo de embeddings: pré-calcula embeddings de imagem usando o SigLIP.
Treinamento da camada de projeção: alinha embeddings de imagem e texto em um espaço de embedding multimodal por meio da camada de projeção.
Aprendizado supervisionado: após o pré-treinamento, melhora o desempenho do modelo por meio de aprendizado supervisionado.

Adiciona um codificador de visão ao Llama3 8B.
Melhora de 10-20% em relação ao Llava.
Desempenho semelhante ao de modelos 100 vezes maiores, como GPT4v, Gemini Ultra e Claude Opus.
Oferece um pipeline eficiente de treinamento e aprendizado supervisionado com custo inferior a US$ 500.

Opinião do GN⁺

Ponto interessante: o Llama3-V chama atenção por entregar um modelo multimodal de alto desempenho com baixo custo.
Visão crítica: fica a dúvida sobre o quanto é sustentável manter o desempenho enquanto se reduzem tamanho e custo do modelo.
Tecnologias relacionadas: modelos com funcionalidades semelhantes incluem CLIP e DALL-E.
Considerações para adoção: ao adotar uma nova tecnologia, é preciso considerar a precisão do modelo e sua eficiência de custo.
Prós e contras da escolha técnica: é possível obter alto desempenho com baixo custo, mas também é preciso considerar a escalabilidade do modelo e os custos de manutenção.