- A Databricks apresentou o DBRX, um novo LLM aberto e de uso geral
- Ele estabelece um novo nível máximo entre os LLMs abertos em benchmarks padrão e leva para a comunidade aberta e para as empresas capacidades que antes ficavam restritas a APIs de modelos fechados
- Supera o GPT-3.5 e consegue competir com o Gemini 1.0 Pro
- Em código, também supera modelos especializados como o CodeLLaMA-70B
- O DBRX mostra melhorias significativas em desempenho de treinamento e inferência
- Usa uma arquitetura Mixture of Experts (MoE) mais granular para aumentar a eficiência
- A velocidade de inferência é até 2x maior que a do LLaMA2-70B, e seu tamanho é cerca de 40% menor que o do Grok-1
Estrutura do DBRX
- O DBRX é um grande modelo de linguagem (LLM) baseado em transformer e voltado apenas para decodificação, treinado com previsão do próximo token
- Dos 132B de parâmetros totais, 36B ficam ativos, e o modelo foi pré-treinado com 12T tokens de dados de texto e código
- O DBRX é mais granular que outros modelos MoE abertos, o que parece melhorar a qualidade do modelo
Qualidade em benchmarks
- O DBRX Instruct é um modelo líder em benchmarks compostos, de programação e matemática, além do MMLU
- O DBRX Instruct supera todos os modelos ajustados para chat ou instruções em benchmarks padrão
Comparação com modelos fechados
- O DBRX Instruct supera o GPT-3.5 e é competitivo com o Gemini 1.0 Pro e o Mistral Medium
- O DBRX Instruct supera o GPT-3.5 em conhecimento geral, raciocínio de senso comum, programação e raciocínio matemático
Qualidade em tarefas de contexto longo e RAG
- O DBRX Instruct foi treinado com uma janela de contexto de até 32K tokens.
- O DBRX Instruct foi comparado às versões mais recentes das APIs GPT-3.5 Turbo e GPT-4 Turbo em benchmarks de contexto longo.
- O DBRX Instruct apresenta desempenho melhor que o GPT-3.5 Turbo em todos os comprimentos de contexto e em todas as partes da sequência.
Eficiência de treinamento
- A arquitetura MoE do DBRX e todo o pipeline de treinamento validam sua eficiência de treinamento.
- A arquitetura MoE do DBRX alcança alta qualidade reduzindo os FLOPs necessários para o treinamento.
Eficiência de inferência
- O DBRX apresenta alta taxa de throughput de inferência em uma infraestrutura otimizada usando NVIDIA TensorRT-LLM.
- Modelos MoE normalmente têm inferência mais rápida em relação ao número total de parâmetros.
Como o DBRX foi construído
- O DBRX foi treinado com NVIDIA H100 e construído usando as ferramentas da Databricks.
- O DBRX foi desenvolvido como continuação dos projetos MPT e Dolly da Databricks, com milhares de LLMs treinados em conjunto com clientes.
Começando com o DBRX na Databricks
- É possível usar o DBRX facilmente por meio da Databricks Mosaic AI Foundation Model API.
- O DBRX pode ser baixado no Databricks Marketplace e implantado em model serving.
Conclusão
- A Databricks acredita que toda empresa deve poder controlar seus próprios dados e seu próprio destino no mundo da GenAI.
- O DBRX é um elemento central da próxima geração de produtos de GenAI da Databricks.
Contribuição
- O desenvolvimento do DBRX foi liderado pela equipe Mosaic e concluído com colaboração de várias áreas da Databricks.
Opinião do GN⁺
- O DBRX é um novo modelo de linguagem open source capaz de competir com os modelos GPT existentes, e a expectativa é que apresente desempenho especialmente forte em geração de código e tarefas de programação.
- Ao usar a arquitetura MoE, o DBRX parece ter melhorado bastante a eficiência em velocidade de inferência e tamanho do modelo. Isso pode permitir o uso de modelos de alto desempenho mesmo em ambientes com recursos limitados.
- A abordagem open source do DBRX oferece a pesquisadores e desenvolvedores a oportunidade de experimentar e melhorar o modelo livremente. Isso pode representar uma grande contribuição para a comunidade de IA.
- A API e as ferramentas de integração oferecidas pelo DBRX ajudam empresas a desenvolver e implantar seus próprios modelos de linguagem com mais facilidade. Isso pode ajudar empresas a fortalecer sua competitividade com o uso de IA.
- O lançamento do DBRX pode se tornar um marco importante no avanço dos modelos de linguagem open source, e será interessante acompanhar como esse modelo evolui e passa a ser aplicado em diferentes áreas.
1 comentários
Comentários do Hacker News
Modelos que valem atenção no momento:
Card do modelo e requisitos de recursos:
Convergência dos grandes modelos de linguagem (LLM):
Expectativa com quantização mista e offloading de MoE:
Ganhos de negócio para a Databricks:
Comparação de gráficos e avaliação:
Planos de compra de nova GPU e exigência de VRAM:
Insatisfação com a aprovação do modelo base:
Melhorias na eficiência de treinamento:
Possível contaminação das avaliações de programação: