DBRX - o novo LLM aberto de ponta (SOTA)

(databricks.com)

16 pontos por GN⁺ 2024-03-28 | 1 comentários | Compartilhar no WhatsApp

A Databricks apresentou o DBRX, um novo LLM aberto e de uso geral
Ele estabelece um novo nível máximo entre os LLMs abertos em benchmarks padrão e leva para a comunidade aberta e para as empresas capacidades que antes ficavam restritas a APIs de modelos fechados
- Supera o GPT-3.5 e consegue competir com o Gemini 1.0 Pro
- Em código, também supera modelos especializados como o CodeLLaMA-70B
O DBRX mostra melhorias significativas em desempenho de treinamento e inferência
- Usa uma arquitetura Mixture of Experts (MoE) mais granular para aumentar a eficiência
- A velocidade de inferência é até 2x maior que a do LLaMA2-70B, e seu tamanho é cerca de 40% menor que o do Grok-1

Estrutura do DBRX

O DBRX é um grande modelo de linguagem (LLM) baseado em transformer e voltado apenas para decodificação, treinado com previsão do próximo token
Dos 132B de parâmetros totais, 36B ficam ativos, e o modelo foi pré-treinado com 12T tokens de dados de texto e código
O DBRX é mais granular que outros modelos MoE abertos, o que parece melhorar a qualidade do modelo

Qualidade em benchmarks

O DBRX Instruct é um modelo líder em benchmarks compostos, de programação e matemática, além do MMLU
O DBRX Instruct supera todos os modelos ajustados para chat ou instruções em benchmarks padrão

Comparação com modelos fechados

O DBRX Instruct supera o GPT-3.5 e é competitivo com o Gemini 1.0 Pro e o Mistral Medium
O DBRX Instruct supera o GPT-3.5 em conhecimento geral, raciocínio de senso comum, programação e raciocínio matemático

Qualidade em tarefas de contexto longo e RAG

O DBRX Instruct foi treinado com uma janela de contexto de até 32K tokens.
O DBRX Instruct foi comparado às versões mais recentes das APIs GPT-3.5 Turbo e GPT-4 Turbo em benchmarks de contexto longo.
O DBRX Instruct apresenta desempenho melhor que o GPT-3.5 Turbo em todos os comprimentos de contexto e em todas as partes da sequência.

Eficiência de treinamento

A arquitetura MoE do DBRX e todo o pipeline de treinamento validam sua eficiência de treinamento.
A arquitetura MoE do DBRX alcança alta qualidade reduzindo os FLOPs necessários para o treinamento.

Eficiência de inferência

O DBRX apresenta alta taxa de throughput de inferência em uma infraestrutura otimizada usando NVIDIA TensorRT-LLM.
Modelos MoE normalmente têm inferência mais rápida em relação ao número total de parâmetros.

Como o DBRX foi construído

O DBRX foi treinado com NVIDIA H100 e construído usando as ferramentas da Databricks.
O DBRX foi desenvolvido como continuação dos projetos MPT e Dolly da Databricks, com milhares de LLMs treinados em conjunto com clientes.

Começando com o DBRX na Databricks

É possível usar o DBRX facilmente por meio da Databricks Mosaic AI Foundation Model API.
O DBRX pode ser baixado no Databricks Marketplace e implantado em model serving.

Conclusão

A Databricks acredita que toda empresa deve poder controlar seus próprios dados e seu próprio destino no mundo da GenAI.
O DBRX é um elemento central da próxima geração de produtos de GenAI da Databricks.

Contribuição

O desenvolvimento do DBRX foi liderado pela equipe Mosaic e concluído com colaboração de várias áreas da Databricks.

Opinião do GN⁺

O DBRX é um novo modelo de linguagem open source capaz de competir com os modelos GPT existentes, e a expectativa é que apresente desempenho especialmente forte em geração de código e tarefas de programação.
Ao usar a arquitetura MoE, o DBRX parece ter melhorado bastante a eficiência em velocidade de inferência e tamanho do modelo. Isso pode permitir o uso de modelos de alto desempenho mesmo em ambientes com recursos limitados.
A abordagem open source do DBRX oferece a pesquisadores e desenvolvedores a oportunidade de experimentar e melhorar o modelo livremente. Isso pode representar uma grande contribuição para a comunidade de IA.
A API e as ferramentas de integração oferecidas pelo DBRX ajudam empresas a desenvolver e implantar seus próprios modelos de linguagem com mais facilidade. Isso pode ajudar empresas a fortalecer sua competitividade com o uso de IA.
O lançamento do DBRX pode se tornar um marco importante no avanço dos modelos de linguagem open source, e será interessante acompanhar como esse modelo evolui e passa a ser aplicado em diferentes áreas.

1 comentários

GN⁺ 2024-03-28

Comentários do Hacker News

Modelos que valem atenção no momento:
- Miqu 70B: para conversa geral
- Deepseed 33B: para programação
- Yi 34B: para conversas com contexto acima de 32K
- Também existem versões com fine-tuning desses modelos
- Há outros modelos na faixa de 34B-70B, mas os modelos Qwen não impressionam
- Llama 70B, Mixtral e Grok aparecem no gráfico, mas é difícil considerá-los tecnologia de ponta (SOTA) hoje; ainda assim, o Mixtral se destaca na velocidade com batch size 1
Card do modelo e requisitos de recursos:
- O modelo precisa de cerca de 264GB de RAM
- Curiosidade sobre quando haverá uma mudança de acompanhar o total de (GPU RAM + CPU RAM) e métricas de avaliação, em vez da contagem de parâmetros
- Por exemplo, um modelo de 7B parâmetros usando float32 provavelmente terá desempenho melhor do que o mesmo modelo com float4
- Há casos de quantização de bons modelos recentes para caber em uma única GPU, mas um modelo quantizado é diferente do original, então as métricas precisam ser executadas novamente
Convergência dos grandes modelos de linguagem (LLM):
- Há evidências de que todos os modelos LLM convergem para um certo ponto quando treinados com os mesmos dados
- Alegações sobre desempenho em tarefas são apenas isso, alegações; a próxima iteração do Llama ou do Mixtral deve convergir
- Os LLMs parecem evoluir como Linux/Windows ou iOS/Android, sem grandes diferenças no modelo de base
Expectativa com quantização mista e offloading de MoE:
- Com Mixed Quantization with MQQ e MoE Offloading, foi possível rodar o Mistral 8x7B em uma rtx3080 com 10GB de VRAM
- Esse método também pode ser aplicado ao DBRX e pode reduzir bastante a exigência de VRAM
Ganhos de negócio para a Databricks:
- Curiosidade sobre quais vantagens de negócio a Databricks obtém ao investir milhões de dólares em um LLM aberto
Comparação de gráficos e avaliação:
- Colocar a pontuação Human Eval do LLaMa2 no gráfico e não compará-la com o Code Llama Instruct 70b é um crime de gráfico
- O DBRX não supera por muito os 67.8 do Code Llama Instruct, mas ainda assim é excelente
Planos de compra de nova GPU e exigência de VRAM:
- Pergunta sobre se uma GPU com 16GB de VRAM consegue rodar bem um modelo de 70GB, e se roda de forma visivelmente melhor do que uma GPU com 12GB de VRAM
- O Ollama roda bem localmente, e o mixtral (7B, 3.4GB) funciona bem em uma 1080ti, mas a versão de 24.6GB é um pouco lenta e tem um tempo de inicialização perceptível
Insatisfação com a aprovação do modelo base:
- A aprovação para o modelo base parece pouco aberta
- Enquanto muita gente está esperando a chance de baixar, o modelo instruct é aprovado imediatamente
- O modelo base é mais interessante para fine-tuning
Melhorias na eficiência de treinamento:
- O pipeline de pré-treinamento de LLMs ficou quase 4 vezes mais eficiente em termos computacionais nos últimos 10 meses
- Como o custo de treinamento é muito alto, essas melhorias são bem-vindas, e espera-se que sigam a Lei de Moore
Possível contaminação das avaliações de programação:
- As avaliações de programação podem estar contaminadas pelos dados de treinamento
- Pergunta sobre um método padrão para evitar essa inflação de pontuação

DBRX - o novo LLM aberto de ponta (SOTA)

Estrutura do DBRX

Qualidade em benchmarks

Comparação com modelos fechados

Qualidade em tarefas de contexto longo e RAG

Eficiência de treinamento

Eficiência de inferência

Como o DBRX foi construído

Começando com o DBRX na Databricks

Conclusão

Contribuição

Opinião do GN⁺

Leituras relacionadas

1 comentários

Comentários do Hacker News