16 pontos por GN⁺ 2024-03-28 | 1 comentários | Compartilhar no WhatsApp
  • A Databricks apresentou o DBRX, um novo LLM aberto e de uso geral
  • Ele estabelece um novo nível máximo entre os LLMs abertos em benchmarks padrão e leva para a comunidade aberta e para as empresas capacidades que antes ficavam restritas a APIs de modelos fechados
    • Supera o GPT-3.5 e consegue competir com o Gemini 1.0 Pro
    • Em código, também supera modelos especializados como o CodeLLaMA-70B
  • O DBRX mostra melhorias significativas em desempenho de treinamento e inferência
    • Usa uma arquitetura Mixture of Experts (MoE) mais granular para aumentar a eficiência
    • A velocidade de inferência é até 2x maior que a do LLaMA2-70B, e seu tamanho é cerca de 40% menor que o do Grok-1

Estrutura do DBRX

  • O DBRX é um grande modelo de linguagem (LLM) baseado em transformer e voltado apenas para decodificação, treinado com previsão do próximo token
  • Dos 132B de parâmetros totais, 36B ficam ativos, e o modelo foi pré-treinado com 12T tokens de dados de texto e código
  • O DBRX é mais granular que outros modelos MoE abertos, o que parece melhorar a qualidade do modelo

Qualidade em benchmarks

  • O DBRX Instruct é um modelo líder em benchmarks compostos, de programação e matemática, além do MMLU
  • O DBRX Instruct supera todos os modelos ajustados para chat ou instruções em benchmarks padrão

Comparação com modelos fechados

  • O DBRX Instruct supera o GPT-3.5 e é competitivo com o Gemini 1.0 Pro e o Mistral Medium
  • O DBRX Instruct supera o GPT-3.5 em conhecimento geral, raciocínio de senso comum, programação e raciocínio matemático

Qualidade em tarefas de contexto longo e RAG

  • O DBRX Instruct foi treinado com uma janela de contexto de até 32K tokens.
  • O DBRX Instruct foi comparado às versões mais recentes das APIs GPT-3.5 Turbo e GPT-4 Turbo em benchmarks de contexto longo.
  • O DBRX Instruct apresenta desempenho melhor que o GPT-3.5 Turbo em todos os comprimentos de contexto e em todas as partes da sequência.

Eficiência de treinamento

  • A arquitetura MoE do DBRX e todo o pipeline de treinamento validam sua eficiência de treinamento.
  • A arquitetura MoE do DBRX alcança alta qualidade reduzindo os FLOPs necessários para o treinamento.

Eficiência de inferência

  • O DBRX apresenta alta taxa de throughput de inferência em uma infraestrutura otimizada usando NVIDIA TensorRT-LLM.
  • Modelos MoE normalmente têm inferência mais rápida em relação ao número total de parâmetros.

Como o DBRX foi construído

  • O DBRX foi treinado com NVIDIA H100 e construído usando as ferramentas da Databricks.
  • O DBRX foi desenvolvido como continuação dos projetos MPT e Dolly da Databricks, com milhares de LLMs treinados em conjunto com clientes.

Começando com o DBRX na Databricks

  • É possível usar o DBRX facilmente por meio da Databricks Mosaic AI Foundation Model API.
  • O DBRX pode ser baixado no Databricks Marketplace e implantado em model serving.

Conclusão

  • A Databricks acredita que toda empresa deve poder controlar seus próprios dados e seu próprio destino no mundo da GenAI.
  • O DBRX é um elemento central da próxima geração de produtos de GenAI da Databricks.

Contribuição

  • O desenvolvimento do DBRX foi liderado pela equipe Mosaic e concluído com colaboração de várias áreas da Databricks.

Opinião do GN⁺

  • O DBRX é um novo modelo de linguagem open source capaz de competir com os modelos GPT existentes, e a expectativa é que apresente desempenho especialmente forte em geração de código e tarefas de programação.
  • Ao usar a arquitetura MoE, o DBRX parece ter melhorado bastante a eficiência em velocidade de inferência e tamanho do modelo. Isso pode permitir o uso de modelos de alto desempenho mesmo em ambientes com recursos limitados.
  • A abordagem open source do DBRX oferece a pesquisadores e desenvolvedores a oportunidade de experimentar e melhorar o modelo livremente. Isso pode representar uma grande contribuição para a comunidade de IA.
  • A API e as ferramentas de integração oferecidas pelo DBRX ajudam empresas a desenvolver e implantar seus próprios modelos de linguagem com mais facilidade. Isso pode ajudar empresas a fortalecer sua competitividade com o uso de IA.
  • O lançamento do DBRX pode se tornar um marco importante no avanço dos modelos de linguagem open source, e será interessante acompanhar como esse modelo evolui e passa a ser aplicado em diferentes áreas.

1 comentários

 
GN⁺ 2024-03-28
Comentários do Hacker News
  • Modelos que valem atenção no momento:

    • Miqu 70B: para conversa geral
    • Deepseed 33B: para programação
    • Yi 34B: para conversas com contexto acima de 32K
    • Também existem versões com fine-tuning desses modelos
    • Há outros modelos na faixa de 34B-70B, mas os modelos Qwen não impressionam
    • Llama 70B, Mixtral e Grok aparecem no gráfico, mas é difícil considerá-los tecnologia de ponta (SOTA) hoje; ainda assim, o Mixtral se destaca na velocidade com batch size 1
  • Card do modelo e requisitos de recursos:

    • O modelo precisa de cerca de 264GB de RAM
    • Curiosidade sobre quando haverá uma mudança de acompanhar o total de (GPU RAM + CPU RAM) e métricas de avaliação, em vez da contagem de parâmetros
    • Por exemplo, um modelo de 7B parâmetros usando float32 provavelmente terá desempenho melhor do que o mesmo modelo com float4
    • Há casos de quantização de bons modelos recentes para caber em uma única GPU, mas um modelo quantizado é diferente do original, então as métricas precisam ser executadas novamente
  • Convergência dos grandes modelos de linguagem (LLM):

    • Há evidências de que todos os modelos LLM convergem para um certo ponto quando treinados com os mesmos dados
    • Alegações sobre desempenho em tarefas são apenas isso, alegações; a próxima iteração do Llama ou do Mixtral deve convergir
    • Os LLMs parecem evoluir como Linux/Windows ou iOS/Android, sem grandes diferenças no modelo de base
  • Expectativa com quantização mista e offloading de MoE:

    • Com Mixed Quantization with MQQ e MoE Offloading, foi possível rodar o Mistral 8x7B em uma rtx3080 com 10GB de VRAM
    • Esse método também pode ser aplicado ao DBRX e pode reduzir bastante a exigência de VRAM
  • Ganhos de negócio para a Databricks:

    • Curiosidade sobre quais vantagens de negócio a Databricks obtém ao investir milhões de dólares em um LLM aberto
  • Comparação de gráficos e avaliação:

    • Colocar a pontuação Human Eval do LLaMa2 no gráfico e não compará-la com o Code Llama Instruct 70b é um crime de gráfico
    • O DBRX não supera por muito os 67.8 do Code Llama Instruct, mas ainda assim é excelente
  • Planos de compra de nova GPU e exigência de VRAM:

    • Pergunta sobre se uma GPU com 16GB de VRAM consegue rodar bem um modelo de 70GB, e se roda de forma visivelmente melhor do que uma GPU com 12GB de VRAM
    • O Ollama roda bem localmente, e o mixtral (7B, 3.4GB) funciona bem em uma 1080ti, mas a versão de 24.6GB é um pouco lenta e tem um tempo de inicialização perceptível
  • Insatisfação com a aprovação do modelo base:

    • A aprovação para o modelo base parece pouco aberta
    • Enquanto muita gente está esperando a chance de baixar, o modelo instruct é aprovado imediatamente
    • O modelo base é mais interessante para fine-tuning
  • Melhorias na eficiência de treinamento:

    • O pipeline de pré-treinamento de LLMs ficou quase 4 vezes mais eficiente em termos computacionais nos últimos 10 meses
    • Como o custo de treinamento é muito alto, essas melhorias são bem-vindas, e espera-se que sigam a Lei de Moore
  • Possível contaminação das avaliações de programação:

    • As avaliações de programação podem estar contaminadas pelos dados de treinamento
    • Pergunta sobre um método padrão para evitar essa inflação de pontuação