A era dos modelos de linguagem de grande porte de 1 bit: todos os grandes modelos de linguagem estão em 1,58 bit
- Uma pesquisa recente, BitNet, está abrindo uma nova era dos modelos de linguagem de grande porte (LLMs) de 1 bit.
- Este estudo apresenta o BitNet b1.58, uma variante de LLM de 1 bit em que cada parâmetro individual (ou peso) é ternário em {-1, 0, 1}.
- O BitNet b1.58 iguala os LLMs Transformer de precisão total (por exemplo, FP16 ou BF16) com o mesmo tamanho de modelo e os mesmos tokens de treinamento em termos de complexidade e desempenho final nas tarefas, ao mesmo tempo em que é muito mais eficiente em custo em latência, memória, taxa de transferência e consumo de energia.
- Indo mais a fundo, os LLMs de 1,58 bit definem novas leis de escalonamento e receitas para treinar uma nova geração de LLMs de alto desempenho e com eficiência de custo.
- Além disso, eles abrem caminho para um novo paradigma computacional e para o projeto de hardware específico otimizado para LLMs de 1 bit.
Opinião do GN⁺
- Os LLMs de 1 bit têm o potencial de permitir operações muito mais eficientes do que os grandes modelos de linguagem existentes, reduzindo significativamente o consumo de energia e os custos em pesquisa e aplicações de inteligência artificial.
- Para que essa tecnologia seja de fato amplamente adotada, questões de compatibilidade e integração com a infraestrutura existente de hardware e software serão considerações importantes.
- Os benefícios que podem ser obtidos com LLMs de 1 bit se tornarão ainda mais importantes à medida que o tamanho e a complexidade dos modelos aumentarem, o que será especialmente atraente para desenvolvedores que desejam usar tecnologias de IA em ambientes com recursos limitados.
- Atualmente, já existem hardwares dedicados a IA, como o TPU do Google, mas o projeto de hardware especializado para LLMs de 1 bit pode criar novas oportunidades de mercado.
- Os benefícios práticos que podem surgir da adoção dessa tecnologia incluem reduzir o consumo de energia e os custos mantendo a precisão e a velocidade de resposta do modelo, mas na aplicação real será necessário considerar diferenças de desempenho em relação aos modelos existentes, problemas de compatibilidade e novos requisitos de hardware.
2 comentários
Isso é muito fascinante. Não acredito que também foi possível usando apenas {-1, 0, 1}, em vez de ponto flutuante...
Fico ansioso para ver como isso vai evoluir.
Opiniões no Hacker News
Duas descobertas impressionantes sobre os resultados da pesquisa:
Desempenho e eficiência do BitNet b1.58:
Questionamentos sobre a possibilidade de converter modelos existentes para o novo método e piadas sobre o preço das ações da NVIDIA.
Reflexões sobre a necessidade de repensar o papel dos transistores em aplicações de IA:
Relação com um post de blog sobre representação em ponto flutuante e questionamentos sobre novas formas de representação:
Dúvidas sobre a aplicabilidade real dos resultados e reconhecimento de sua importância após verificar os autores da Microsoft Research e da UCAS:
Explicação sobre “bit” e “trit” e discussão sobre o potencial teórico da computação ternária:
Plano da GigaML para treinar um novo modelo e proposta de colaboração:
Visão cética sobre os resultados e ênfase na necessidade de reprodução:
Admiração com o grande avanço na área de LLMs e com a possibilidade de rodar um modelo 120B em uma única placa: