Chameleon: o novo LLM multimodal da Meta

(arxiv.org)

4 pontos por GN⁺ 2024-05-23 | 2 comentários | Compartilhar no WhatsApp

Chameleon é uma família de modelos multimodais mistos baseada em tokens de fusão precoce, capaz de compreender e gerar imagens e texto em ordem arbitrária
Essa família de modelos inclui uma abordagem de treinamento estável, uma receita de alinhamento e parâmetros arquiteturais para uma configuração multimodal mista baseada em tokens de fusão precoce
Desde o início, adotou uma abordagem de treinamento estável, e a receita de alinhamento e os parâmetros arquiteturais foram projetados para se adequar à configuração multimodal mista baseada em tokens de fusão precoce
Foi avaliado em tarefas abrangentes como resposta visual a perguntas, geração de legendas de imagens, geração de texto, geração de imagens e geração multimodal mista de longo contexto
- Mostra desempenho de ponta na tarefa de geração de legendas de imagens
- Em tarefas somente de texto, supera o Llama-2 e apresenta desempenho competitivo com modelos como Mixtral 8x7B e Gemini-Pro
- Possui excelente capacidade de geração de imagens e pode executar diversas tarefas em um único modelo
- Na avaliação de geração multimodal mista em formato longo, quando o prompt ou a saída inclui uma sequência mista de imagens e texto, iguala ou supera o desempenho de modelos muito maiores, como Gemini Pro e GPT-4V
O Chameleon representa um avanço importante na modelagem integrada de documentos totalmente multimodais
Isso estabelece um novo referencial para modelos multimodais unificados com capacidades abrangentes em diversas tarefas

Opinião do GN⁺

Modelos multimodais conseguem processar diferentes formas de entrada ao mesmo tempo, o que os torna muito úteis em aplicações reais. Por exemplo, oferecem grandes vantagens em sistemas de resposta visual a perguntas ou na geração de legendas de imagens.
O Chameleon mostra desempenho competitivo em comparação com Llama-2, Mixtral 8x7B e Gemini-Pro. Isso comprova sua flexibilidade e desempenho em várias tarefas.
Ao adotar uma nova tecnologia, é preciso considerar fatores como estabilidade do modelo, custo de treinamento e requisitos de dados. No caso do Chameleon, a abordagem de fusão precoce é estável, mas a aplicação prática ainda pode exigir dados suficientes e recursos computacionais significativos.
O desempenho em geração multimodal mista de longo prazo é muito interessante. Isso abre grandes possibilidades para a criação de documentos complexos e conteúdos multimídia.
No setor, existem vários modelos multimodais, como o GPT-4 da OpenAI e o BERT do Google. É importante comparar as características, vantagens e limitações de cada modelo para escolher a opção mais adequada.

2 comentários

fastkoder 2024-06-19

Checkpoints do modelo: https://ai.meta.com/resources/models-and-libraries/…
Blog: https://ai.meta.com/blog/meta-fair-research-new-releases/
Repositório no Github: https://github.com/facebookresearch/chameleon
Lançado há 8 horas!

GN⁺ 2024-05-23

Comentários do Hacker News

Resumo da coletânea de comentários do Hacker News

Pesquisa fundamental e o problema do softmax
- A pesquisa fundamental é muito interessante. Em especial, foi impressionante a análise sobre a dificuldade de usar softmax em diferentes espaços de tokenização.
- O problema fica mais evidente no modelo de 34b. Isso serve como lembrete de que o treinamento de modelos em larga escala gera novos problemas.
Multimodalidade e Mirasol3B
- Em comparação com o Mirasol3B, não há suporte a áudio. O Mirasol3B do Google tornou a demo possível ao converter áudio em imagem.
- A Meta também está avançando na direção da multimodalidade. É bem provável que o novo modo de voz do GPT use a mesma arquitetura.
- Quando novas modalidades são adicionadas, o desempenho do modelo melhora com o mesmo tamanho de parâmetros.
Tempo e custo de treinamento
- O tempo de treinamento foi de 4282407 horas e, usando uma GPU de 200W, isso representa cerca de 1 GWh de consumo elétrico. O custo fica em torno de US$ 100.000.
- Em uma única GPU, seriam necessários 500 anos de treinamento e US$ 100.000 em custo de energia. Na prática, seria possível treinar por 2 meses com 3000 GPUs.
Desempenho do modelo Chameleon
- O modelo Chameleon iguala ou supera o desempenho de modelos maiores, como Gemini Pro e GPT-4V. Também apresenta ótimo desempenho na avaliação de geração multimodal mista.
- Representa um avanço importante na modelagem unificada de documentos multimodais.
Velocidade do avanço tecnológico
- O avanço tecnológico é muito rápido. Há muitos pontos interessantes e é fácil de entender.
- No entanto, isso pode causar fadiga, e como muito dinheiro está sendo investido, grande parte pode parecer fraude. Vale a pena se aprofundar em um tema e ler os artigos relacionados.
Adoção de modelos multimodais
- Recentemente, os modelos multimodais foram amplamente adotados, mas ainda usam encoders ou decoders separados para cada modalidade.
- Por exemplo, o Gemini Pro usa tokens de imagem, e o GPT-4V é parecido. Dois tokenizadores diferentes são pré-treinados.
Modelo unificado e competição entre modalidades
- O modelo unificado é interessante, mas a descoberta da "competição entre modalidades" sugere que, no curto prazo, pode ser melhor treinar modelos especializados para cada modalidade.
Plano de código aberto da Meta
- Há curiosidade sobre se a Meta pretende liberar esses modelos como open source.
- Perguntas sobre se o modelo poderá ser baixado.

Chameleon: o novo LLM multimodal da Meta

Opinião do GN⁺

Leituras relacionadas

2 comentários

Comentários do Hacker News

Resumo da coletânea de comentários do Hacker News