17 pontos por GN⁺ 2024-02-29 | 2 comentários | Compartilhar no WhatsApp

A era dos modelos de linguagem de grande porte de 1 bit: todos os grandes modelos de linguagem estão em 1,58 bit

  • Uma pesquisa recente, BitNet, está abrindo uma nova era dos modelos de linguagem de grande porte (LLMs) de 1 bit.
  • Este estudo apresenta o BitNet b1.58, uma variante de LLM de 1 bit em que cada parâmetro individual (ou peso) é ternário em {-1, 0, 1}.
  • O BitNet b1.58 iguala os LLMs Transformer de precisão total (por exemplo, FP16 ou BF16) com o mesmo tamanho de modelo e os mesmos tokens de treinamento em termos de complexidade e desempenho final nas tarefas, ao mesmo tempo em que é muito mais eficiente em custo em latência, memória, taxa de transferência e consumo de energia.
  • Indo mais a fundo, os LLMs de 1,58 bit definem novas leis de escalonamento e receitas para treinar uma nova geração de LLMs de alto desempenho e com eficiência de custo.
  • Além disso, eles abrem caminho para um novo paradigma computacional e para o projeto de hardware específico otimizado para LLMs de 1 bit.

Opinião do GN⁺

  • Os LLMs de 1 bit têm o potencial de permitir operações muito mais eficientes do que os grandes modelos de linguagem existentes, reduzindo significativamente o consumo de energia e os custos em pesquisa e aplicações de inteligência artificial.
  • Para que essa tecnologia seja de fato amplamente adotada, questões de compatibilidade e integração com a infraestrutura existente de hardware e software serão considerações importantes.
  • Os benefícios que podem ser obtidos com LLMs de 1 bit se tornarão ainda mais importantes à medida que o tamanho e a complexidade dos modelos aumentarem, o que será especialmente atraente para desenvolvedores que desejam usar tecnologias de IA em ambientes com recursos limitados.
  • Atualmente, já existem hardwares dedicados a IA, como o TPU do Google, mas o projeto de hardware especializado para LLMs de 1 bit pode criar novas oportunidades de mercado.
  • Os benefícios práticos que podem surgir da adoção dessa tecnologia incluem reduzir o consumo de energia e os custos mantendo a precisão e a velocidade de resposta do modelo, mas na aplicação real será necessário considerar diferenças de desempenho em relação aos modelos existentes, problemas de compatibilidade e novos requisitos de hardware.

2 comentários

 
kuroneko 2024-02-29

Isso é muito fascinante. Não acredito que também foi possível usando apenas {-1, 0, 1}, em vez de ponto flutuante...
Fico ansioso para ver como isso vai evoluir.

 
xguru 2024-02-29

Opiniões no Hacker News

  • Duas descobertas impressionantes sobre os resultados da pesquisa:

    • É possível substituir os valores dos parâmetros dos grandes modelos de linguagem (LLMs) existentes por valores ternários (-1, 0, 1) em vez de números reais.
    • Na multiplicação de matrizes, é possível substituir as multiplicações elemento a elemento de cada produto escalar por somas elemento a elemento, com o sinal variando conforme o valor.
    • Usar esse método no hardware atual melhora bastante a eficiência computacional e de memória, sem perda de desempenho.
    • Implementar esse método no hardware pode trazer ganhos de eficiência ainda maiores.
  • Desempenho e eficiência do BitNet b1.58:

    • O BitNet b1.58 apresenta desempenho equivalente ao modelo de referência em precisão total a partir do tamanho 3B.
    • Ele possibilita novas leis de escala para desempenho de modelos e custo de inferência.
    • O BitNet b1.58 de 13B é mais eficiente que um LLM FP16 de 3B em latência, uso de memória e consumo de energia.
    • O BitNet b1.58 de 30B é mais eficiente que um LLM FP16 de 7B, e o BitNet b1.58 de 70B é mais eficiente que um LLM FP16 de 13B.
    • Este artigo representa um avanço importante na eficiência de LLMs, com ganhos sem degradação de desempenho.
  • Questionamentos sobre a possibilidade de converter modelos existentes para o novo método e piadas sobre o preço das ações da NVIDIA.

  • Reflexões sobre a necessidade de repensar o papel dos transistores em aplicações de IA:

    • Em IA, a redução de entropia não é um problema tão grande, então seria preciso aproveitar melhor a faixa de tensão disponível.
    • Sugere-se repensar o papel dos transistores e considerar que portas NAND talvez não sejam o bloco fundamental.
  • Relação com um post de blog sobre representação em ponto flutuante e questionamentos sobre novas formas de representação:

    • Explica-se que a distinção entre +0.0 e -0.0 no padrão de ponto flutuante é útil.
    • Em conexão com os valores {-1, 0, 1} usados no artigo sobre LLM, questiona-se se uma representação de 2 bits {-1, -0, 0, 1} poderia oferecer benefícios adicionais.
    • Há curiosidade sobre os valores de quantização de 2 bits propostos em outros artigos sobre quantização de LLMs.
  • Dúvidas sobre a aplicabilidade real dos resultados e reconhecimento de sua importância após verificar os autores da Microsoft Research e da UCAS:

    • Os resultados pareciam bons demais para ser verdade, mas ao verificar os autores ficou claro que eram reais.
    • Espera-se que isso reduza os custos de oferecer LLMs de alto desempenho não só em aplicações de edge computing, mas também na nuvem.
    • Há reflexões sobre o impacto econômico de longo prazo e especulações sobre o surgimento de novos concorrentes.
  • Explicação sobre “bit” e “trit” e discussão sobre o potencial teórico da computação ternária:

    • Usa-se o termo “trit” em vez de “bit”, com uma explicação teórica sobre a promessa da computação ternária.
    • Há menção a pesquisas soviéticas sobre computação ternária e à base e como ideal teórico.
  • Plano da GigaML para treinar um novo modelo e proposta de colaboração:

    • A GigaML anunciou que pretende treinar um novo modelo compatível com llama.cpp.
    • Pretende treinar um modelo pequeno (3-4B, 1 bit, open source) com o dataset mais recente stack-v2 e está procurando colaboradores.
  • Visão cética sobre os resultados e ênfase na necessidade de reprodução:

    • Há uma postura crítica em relação a essas melhorias e menção a experiências anteriores com tentativas extremas de quantização.
  • Admiração com o grande avanço na área de LLMs e com a possibilidade de rodar um modelo 120B em uma única placa:

    • Há admiração pelo potencial de rodar um modelo 120B em uma única placa com 24GB de VRAM, mantendo o mesmo desempenho e complexidade de modelos FP16.