- Llama3-V é o primeiro modelo multimodal baseado no Llama3
- O Llama3-V foi treinado com um custo inferior a US$ 500
- Nos benchmarks, mostrou uma melhora de 10-20% em relação ao Llava e apresentou desempenho semelhante na maioria das métricas mesmo quando comparado a modelos fechados 100 vezes maiores
Arquitetura do modelo
- SigLIP: modelo de embedding de imagem, semelhante ao CLIP, mas que usa perda sigmoide.
- Alinhamento de embeddings de texto: fixa o SigLIP e usa um módulo de projeção para alinhar os embeddings de imagem aos embeddings de texto.
- Adição de tokens de imagem: adiciona os embeddings de imagem antes dos tokens de texto e os envia ao Llama3.
Otimização de inferência
- Caching: pré-calcula os embeddings de imagem do modelo SigLIP para aumentar a utilização da GPU e economizar tempo de treino/inferência.
- Otimização com MPS/MLX: otimiza o modelo SigLIP com MPS para processar 32 imagens por segundo.
Processo de treinamento
- Pré-cálculo de embeddings: pré-calcula embeddings de imagem usando o SigLIP.
- Treinamento da camada de projeção: alinha embeddings de imagem e texto em um espaço de embedding multimodal por meio da camada de projeção.
- Aprendizado supervisionado: após o pré-treinamento, melhora o desempenho do modelo por meio de aprendizado supervisionado.
Resumo
- Adiciona um codificador de visão ao Llama3 8B.
- Melhora de 10-20% em relação ao Llava.
- Desempenho semelhante ao de modelos 100 vezes maiores, como GPT4v, Gemini Ultra e Claude Opus.
- Oferece um pipeline eficiente de treinamento e aprendizado supervisionado com custo inferior a US$ 500.
Opinião do GN⁺
- Ponto interessante: o Llama3-V chama atenção por entregar um modelo multimodal de alto desempenho com baixo custo.
- Visão crítica: fica a dúvida sobre o quanto é sustentável manter o desempenho enquanto se reduzem tamanho e custo do modelo.
- Tecnologias relacionadas: modelos com funcionalidades semelhantes incluem CLIP e DALL-E.
- Considerações para adoção: ao adotar uma nova tecnologia, é preciso considerar a precisão do modelo e sua eficiência de custo.
- Prós e contras da escolha técnica: é possível obter alto desempenho com baixo custo, mas também é preciso considerar a escalabilidade do modelo e os custos de manutenção.
Ainda não há comentários.