13 pontos por GN⁺ 2025-04-18 | 4 comentários | Compartilhar no WhatsApp
  • Pesquisadores da Microsoft desenvolveram o BitNet b1.58 2B4T, um modelo de IA ultraeficiente
  • Com quantização de 1 bit, ele atinge alta velocidade e baixo uso de memória, podendo rodar até em CPU, e foi lançado sob licença MIT
  • Também pode rodar em CPUs como o Apple M2 e funciona sem GPU
  • Com 2 bilhões de parâmetros, o BitNet b1.58 2B4T supera modelos da Meta, Google e Alibaba em desempenho
  • No entanto, é necessário usar o framework bitnet.cpp da Microsoft, e ainda há problemas de compatibilidade com GPUs

BitNet b1.58 2B4T, o modelo de IA ultraleve de 1 bit da Microsoft

O conceito do modelo ultraleve BitNet

  • BitNet é um modelo de IA que aplica quantização de 1 bit, usando apenas três valores, -1, 0 e 1, para representar os parâmetros
  • Modelos quantizados tradicionais normalmente usam 8 bits ou 4 bits, mas o BitNet usa apenas 1 bit e oferece eficiência de memória esmagadora
  • Essa abordagem traz grandes vantagens em hardware de baixa especificação, especialmente em ambientes de CPU sem GPU

Características do BitNet b1.58 2B4T

  • Número de parâmetros: 2 bilhões
  • Dados de treinamento: 4 trilhões de tokens (equivalente a cerca de 33 milhões de livros)
  • Disponibilizado como código aberto sob licença MIT
  • Pode funcionar até mesmo em CPUs de uso geral, como o Apple M2

Comparação de desempenho e resultados de benchmark

  • O BitNet b1.58 2B4T apresentou desempenho superior em alguns benchmarks em relação aos seguintes modelos:
    • Meta Llama 3.2 1B
    • Google Gemma 3 1B
    • Alibaba Qwen 2.5 1.5B
  • Principais benchmarks utilizados:
    • GSM8K: avaliação de problemas de matemática de nível fundamental
    • PIQA: avaliação da capacidade de raciocínio de senso comum físico
  • Em alguns testes, foi até 2 vezes mais rápido, com uso de memória significativamente menor

Limitações e problemas de compatibilidade

  • O desempenho do BitNet depende do framework proprietário da Microsoft, bitnet.cpp
  • Atualmente, o bitnet.cpp suporta apenas CPUs específicas e não oferece suporte a GPU
  • Por isso, a falta de compatibilidade com ambientes de GPU, padrão na infraestrutura de IA, é apontada como uma desvantagem

4 comentários

 
cartwheel8815 2025-04-21

> BitNet é um modelo de IA com quantização de 1 bit, que representa os parâmetros usando apenas três valores: -1, 0 e 1

São 3 valores, mas 1 bit? Achei estranho e fui dar uma olhada em alguns comentários no HN,

> https://compilade.net/blog/ternary-packing

Como ele lida com 5 dígitos ternários para representar 3 valores, em vez de 8 bits que representam 2 valores por byte, estritamente falando não é um modelo de 1 bit, mas sim um modelo de log(3) / log(2) = 1.5849... bits. Pelo visto é isso mesmo, já que o nome do modelo inclui b1.58.

 
cartwheel8815 2025-04-21

Parece que é preciso corrigir a 4ª linha de 2억 개의 파라미터를 para 20억 개의 파라미터를.

 
GN⁺ 2025-04-18
Comentários do Hacker News
  • O BitNet da Microsoft é mais eficiente em custo em termos de latência, memória, throughput e consumo de energia, mesmo usando o mesmo tamanho de modelo e a mesma quantidade de tokens de treinamento que LLMs Transformer com precisão como FP16 ou BF16
    • Mais informações podem ser encontradas no link do GitHub e no artigo no arXiv
  • O "número de parâmetros" de um modelo de IA é como os "GHz" de um modelo de IA
    • Todos os modelos comparados têm entre 1 e 2 bilhões de parâmetros, mas o tamanho real pode variar em mais de 10 vezes
  • A maioria dos LLMs gratuitos pode ser executada em CPU
    • A alegação é que este modelo roda em CPU de forma útil e rápida
    • Como não se sabe a velocidade de execução em GPU, não dá para ter certeza da precisão dessa alegação
  • O modelo BitNet b1.58 2B4T é mais rápido e usa menos memória do que outros modelos do mesmo porte
    • O tamanho do modelo é superior a 1 GB, e há muitos modelos de 1 a 2 GB que também funcionam bem em CPUs modernas
  • A NVidia está correndo para reforçar um bloqueio em nível de software por meio do CUDA
    • Caso contrário, suas ações podem seguir o mesmo caminho da Zoom
  • Chamam de "1-bit", mas na prática ele usa {-1, 0, 1}
    • Isso pode causar confusão
  • Fico curioso se existe alguma biblioteca capaz de destilar modelos maiores para BitNet
  • Está disponível publicamente sob licença MIT e pode rodar em CPUs, incluindo o M2 da Apple
    • O M2 já roda com facilidade modelos LLama e Mistral de 7 GB ou 13 GB
  • Como a série M e os MacBooks estão tão difundidos, talvez a gente esqueça o quão fraca pode ser uma CPU média (i3 ou i5)
  • A guerra de preços vai continuar indo para o fundo do poço
  • É uma tecnologia com mais de um ano, e nem todo mundo migrou para ela
    • Se você olhar os motivos, verá que essa tecnologia realmente afeta as métricas, e algumas são mais impactadas do que outras
    • Não é uma solução milagrosa para tudo
 
cartwheel8815 2025-04-21

Na 4ª linha, todos os modelos comparados têm 100–200 milhões de -> todos os modelos comparados têm 1–2 bilhões de
A tradução de billion em IA está estranha aqui.