Microsoft desenvolve BitNet, modelo de IA ultraeficiente que pode rodar em CPUs

(techcrunch.com)

13 pontos por GN⁺ 2025-04-18 | 4 comentários | Compartilhar no WhatsApp

Pesquisadores da Microsoft desenvolveram o BitNet b1.58 2B4T, um modelo de IA ultraeficiente
Com quantização de 1 bit, ele atinge alta velocidade e baixo uso de memória, podendo rodar até em CPU, e foi lançado sob licença MIT
Também pode rodar em CPUs como o Apple M2 e funciona sem GPU
Com 2 bilhões de parâmetros, o BitNet b1.58 2B4T supera modelos da Meta, Google e Alibaba em desempenho
No entanto, é necessário usar o framework bitnet.cpp da Microsoft, e ainda há problemas de compatibilidade com GPUs

BitNet b1.58 2B4T, o modelo de IA ultraleve de 1 bit da Microsoft

O conceito do modelo ultraleve BitNet

BitNet é um modelo de IA que aplica quantização de 1 bit, usando apenas três valores, -1, 0 e 1, para representar os parâmetros
Modelos quantizados tradicionais normalmente usam 8 bits ou 4 bits, mas o BitNet usa apenas 1 bit e oferece eficiência de memória esmagadora
Essa abordagem traz grandes vantagens em hardware de baixa especificação, especialmente em ambientes de CPU sem GPU

Características do BitNet b1.58 2B4T

Número de parâmetros: 2 bilhões
Dados de treinamento: 4 trilhões de tokens (equivalente a cerca de 33 milhões de livros)
Disponibilizado como código aberto sob licença MIT
Pode funcionar até mesmo em CPUs de uso geral, como o Apple M2

Comparação de desempenho e resultados de benchmark

O BitNet b1.58 2B4T apresentou desempenho superior em alguns benchmarks em relação aos seguintes modelos:
- Meta Llama 3.2 1B
- Google Gemma 3 1B
- Alibaba Qwen 2.5 1.5B
Principais benchmarks utilizados:
- GSM8K: avaliação de problemas de matemática de nível fundamental
- PIQA: avaliação da capacidade de raciocínio de senso comum físico
Em alguns testes, foi até 2 vezes mais rápido, com uso de memória significativamente menor

Limitações e problemas de compatibilidade

O desempenho do BitNet depende do framework proprietário da Microsoft, bitnet.cpp
Atualmente, o bitnet.cpp suporta apenas CPUs específicas e não oferece suporte a GPU
Por isso, a falta de compatibilidade com ambientes de GPU, padrão na infraestrutura de IA, é apontada como uma desvantagem

4 comentários

cartwheel8815 2025-04-21

BitNet é um modelo de IA com quantização de 1 bit, que representa os parâmetros usando apenas três valores: -1, 0 e 1

São 3 valores, mas 1 bit? Achei estranho e fui dar uma olhada em alguns comentários no HN,

https://compilade.net/blog/ternary-packing

Como ele lida com 5 dígitos ternários para representar 3 valores, em vez de 8 bits que representam 2 valores por byte, estritamente falando não é um modelo de 1 bit, mas sim um modelo de log(3) / log(2) = 1.5849... bits. Pelo visto é isso mesmo, já que o nome do modelo inclui b1.58.

cartwheel8815 2025-04-21

Parece que é preciso corrigir a 4ª linha de 2억 개의 파라미터를 para 20억 개의 파라미터를.

GN⁺ 2025-04-18

Comentários do Hacker News

O BitNet da Microsoft é mais eficiente em custo em termos de latência, memória, throughput e consumo de energia, mesmo usando o mesmo tamanho de modelo e a mesma quantidade de tokens de treinamento que LLMs Transformer com precisão como FP16 ou BF16
- Mais informações podem ser encontradas no link do GitHub e no artigo no arXiv
O "número de parâmetros" de um modelo de IA é como os "GHz" de um modelo de IA
- Todos os modelos comparados têm entre 1 e 2 bilhões de parâmetros, mas o tamanho real pode variar em mais de 10 vezes
A maioria dos LLMs gratuitos pode ser executada em CPU
- A alegação é que este modelo roda em CPU de forma útil e rápida
- Como não se sabe a velocidade de execução em GPU, não dá para ter certeza da precisão dessa alegação
O modelo BitNet b1.58 2B4T é mais rápido e usa menos memória do que outros modelos do mesmo porte
- O tamanho do modelo é superior a 1 GB, e há muitos modelos de 1 a 2 GB que também funcionam bem em CPUs modernas
A NVidia está correndo para reforçar um bloqueio em nível de software por meio do CUDA
- Caso contrário, suas ações podem seguir o mesmo caminho da Zoom
Chamam de "1-bit", mas na prática ele usa {-1, 0, 1}
- Isso pode causar confusão
Fico curioso se existe alguma biblioteca capaz de destilar modelos maiores para BitNet
Está disponível publicamente sob licença MIT e pode rodar em CPUs, incluindo o M2 da Apple
- O M2 já roda com facilidade modelos LLama e Mistral de 7 GB ou 13 GB
Como a série M e os MacBooks estão tão difundidos, talvez a gente esqueça o quão fraca pode ser uma CPU média (i3 ou i5)
A guerra de preços vai continuar indo para o fundo do poço
É uma tecnologia com mais de um ano, e nem todo mundo migrou para ela
- Se você olhar os motivos, verá que essa tecnologia realmente afeta as métricas, e algumas são mais impactadas do que outras
- Não é uma solução milagrosa para tudo

cartwheel8815 2025-04-21

Na 4ª linha, todos os modelos comparados têm 100–200 milhões de -> todos os modelos comparados têm 1–2 bilhões de
A tradução de billion em IA está estranha aqui.

Microsoft desenvolve BitNet, modelo de IA ultraeficiente que pode rodar em CPUs

BitNet b1.58 2B4T, o modelo de IA ultraleve de 1 bit da Microsoft

O conceito do modelo ultraleve BitNet

Características do BitNet b1.58 2B4T

Comparação de desempenho e resultados de benchmark

Limitações e problemas de compatibilidade

Leituras relacionadas

4 comentários

Comentários do Hacker News