A era dos LLMs de 1 bit: parâmetros ternários para computação com eficiência de custo

(arxiv.org)

17 pontos por GN⁺ 2024-02-29 | 2 comentários | Compartilhar no WhatsApp

A era dos modelos de linguagem de grande porte de 1 bit: todos os grandes modelos de linguagem estão em 1,58 bit

Uma pesquisa recente, BitNet, está abrindo uma nova era dos modelos de linguagem de grande porte (LLMs) de 1 bit.
Este estudo apresenta o BitNet b1.58, uma variante de LLM de 1 bit em que cada parâmetro individual (ou peso) é ternário em {-1, 0, 1}.
O BitNet b1.58 iguala os LLMs Transformer de precisão total (por exemplo, FP16 ou BF16) com o mesmo tamanho de modelo e os mesmos tokens de treinamento em termos de complexidade e desempenho final nas tarefas, ao mesmo tempo em que é muito mais eficiente em custo em latência, memória, taxa de transferência e consumo de energia.
Indo mais a fundo, os LLMs de 1,58 bit definem novas leis de escalonamento e receitas para treinar uma nova geração de LLMs de alto desempenho e com eficiência de custo.
Além disso, eles abrem caminho para um novo paradigma computacional e para o projeto de hardware específico otimizado para LLMs de 1 bit.

Opinião do GN⁺

Os LLMs de 1 bit têm o potencial de permitir operações muito mais eficientes do que os grandes modelos de linguagem existentes, reduzindo significativamente o consumo de energia e os custos em pesquisa e aplicações de inteligência artificial.
Para que essa tecnologia seja de fato amplamente adotada, questões de compatibilidade e integração com a infraestrutura existente de hardware e software serão considerações importantes.
Os benefícios que podem ser obtidos com LLMs de 1 bit se tornarão ainda mais importantes à medida que o tamanho e a complexidade dos modelos aumentarem, o que será especialmente atraente para desenvolvedores que desejam usar tecnologias de IA em ambientes com recursos limitados.
Atualmente, já existem hardwares dedicados a IA, como o TPU do Google, mas o projeto de hardware especializado para LLMs de 1 bit pode criar novas oportunidades de mercado.
Os benefícios práticos que podem surgir da adoção dessa tecnologia incluem reduzir o consumo de energia e os custos mantendo a precisão e a velocidade de resposta do modelo, mas na aplicação real será necessário considerar diferenças de desempenho em relação aos modelos existentes, problemas de compatibilidade e novos requisitos de hardware.

2 comentários

kuroneko 2024-02-29

Isso é muito fascinante. Não acredito que também foi possível usando apenas {-1, 0, 1}, em vez de ponto flutuante...
Fico ansioso para ver como isso vai evoluir.

xguru 2024-02-29

Opiniões no Hacker News

Duas descobertas impressionantes sobre os resultados da pesquisa:
- É possível substituir os valores dos parâmetros dos grandes modelos de linguagem (LLMs) existentes por valores ternários (-1, 0, 1) em vez de números reais.
- Na multiplicação de matrizes, é possível substituir as multiplicações elemento a elemento de cada produto escalar por somas elemento a elemento, com o sinal variando conforme o valor.
- Usar esse método no hardware atual melhora bastante a eficiência computacional e de memória, sem perda de desempenho.
- Implementar esse método no hardware pode trazer ganhos de eficiência ainda maiores.
Desempenho e eficiência do BitNet b1.58:
- O BitNet b1.58 apresenta desempenho equivalente ao modelo de referência em precisão total a partir do tamanho 3B.
- Ele possibilita novas leis de escala para desempenho de modelos e custo de inferência.
- O BitNet b1.58 de 13B é mais eficiente que um LLM FP16 de 3B em latência, uso de memória e consumo de energia.
- O BitNet b1.58 de 30B é mais eficiente que um LLM FP16 de 7B, e o BitNet b1.58 de 70B é mais eficiente que um LLM FP16 de 13B.
- Este artigo representa um avanço importante na eficiência de LLMs, com ganhos sem degradação de desempenho.
Questionamentos sobre a possibilidade de converter modelos existentes para o novo método e piadas sobre o preço das ações da NVIDIA.
Reflexões sobre a necessidade de repensar o papel dos transistores em aplicações de IA:
- Em IA, a redução de entropia não é um problema tão grande, então seria preciso aproveitar melhor a faixa de tensão disponível.
- Sugere-se repensar o papel dos transistores e considerar que portas NAND talvez não sejam o bloco fundamental.
Relação com um post de blog sobre representação em ponto flutuante e questionamentos sobre novas formas de representação:
- Explica-se que a distinção entre +0.0 e -0.0 no padrão de ponto flutuante é útil.
- Em conexão com os valores {-1, 0, 1} usados no artigo sobre LLM, questiona-se se uma representação de 2 bits {-1, -0, 0, 1} poderia oferecer benefícios adicionais.
- Há curiosidade sobre os valores de quantização de 2 bits propostos em outros artigos sobre quantização de LLMs.
Dúvidas sobre a aplicabilidade real dos resultados e reconhecimento de sua importância após verificar os autores da Microsoft Research e da UCAS:
- Os resultados pareciam bons demais para ser verdade, mas ao verificar os autores ficou claro que eram reais.
- Espera-se que isso reduza os custos de oferecer LLMs de alto desempenho não só em aplicações de edge computing, mas também na nuvem.
- Há reflexões sobre o impacto econômico de longo prazo e especulações sobre o surgimento de novos concorrentes.
Explicação sobre “bit” e “trit” e discussão sobre o potencial teórico da computação ternária:
- Usa-se o termo “trit” em vez de “bit”, com uma explicação teórica sobre a promessa da computação ternária.
- Há menção a pesquisas soviéticas sobre computação ternária e à base e como ideal teórico.
Plano da GigaML para treinar um novo modelo e proposta de colaboração:
- A GigaML anunciou que pretende treinar um novo modelo compatível com llama.cpp.
- Pretende treinar um modelo pequeno (3-4B, 1 bit, open source) com o dataset mais recente stack-v2 e está procurando colaboradores.
Visão cética sobre os resultados e ênfase na necessidade de reprodução:
- Há uma postura crítica em relação a essas melhorias e menção a experiências anteriores com tentativas extremas de quantização.
Admiração com o grande avanço na área de LLMs e com a possibilidade de rodar um modelo 120B em uma única placa:
- Há admiração pelo potencial de rodar um modelo 120B em uma única placa com 24GB de VRAM, mantendo o mesmo desempenho e complexidade de modelos FP16.