1-bit Bonsai - o primeiro LLM de 1 bit comercialmente viável

(prismml.com)

14 pontos por GN⁺ 29 일 전 | 2 comentários | Compartilhar no WhatsApp

A PrismML, startup de IA originada de pesquisas do Caltech, apresentou o modelo 1-bit Bonsai 8B, tornando viável a inferência prática de IA em smartphones e dispositivos de edge com um tamanho de 1,15 GB, cerca de 14 vezes menor que modelos equivalentes de 16 bits
Com um verdadeiro design de 1 bit de ponta a ponta, em que toda a rede (embeddings, attention, MLP e LM head) é composta por 1 bit sem exceções, o modelo supera os problemas de degradação de qualidade em seguimento de instruções, raciocínio em múltiplas etapas e uso de ferramentas que afetavam modelos anteriores de baixa precisão
Pelo indicador de densidade de inteligência (Intelligence Density), ele alcança 1,06/GB, cerca de 10,6 vezes à frente do concorrente mais próximo na mesma classe de parâmetros (Qwen3 8B, 0,10/GB)
Roda a 131 tok/s em um M4 Pro Mac, 368 tok/s em uma RTX 4090 e cerca de 44 tok/s em um iPhone 17 Pro Max, com eficiência energética aproximadamente 4 a 5 vezes melhor que a de modelos de 16 bits
Caso hardware dedicado a 1 bit seja projetado, abre-se a possibilidade de ganhos adicionais de desempenho e eficiência em múltiplos de um dígito, ampliando novas categorias de implantação como IA on-device, robótica e enterprise de segurança

Contexto da PrismML e do surgimento do 1-bit Bonsai

Nos últimos 10 anos, o avanço da IA seguiu a direção de tornar os modelos maiores (mais parâmetros, GPUs, energia, memória e custo)
Como resultado, surgiu uma limitação estrutural em que a inteligência mais avançada fica presa dentro de grandes clusters e infraestrutura dedicada
Na prática, os ambientes que precisam de IA não se limitam a datacenters, mas incluem smartphones, notebooks, veículos, robôs, enterprise de segurança e dispositivos de edge
A PrismML nasceu de uma equipe de pesquisa do Caltech e foi fundada com apoio da Khosla Ventures, Cerberus e Google
A densidade de inteligência (Intelligence Density) — a quantidade de inteligência que um modelo pode oferecer por unidade de tamanho (GB) — foi definida como métrica central de otimização

Verdadeiro design de modelo de 1 bit

O 1-bit Bonsai 8B implementa embeddings, camadas de attention, camadas MLP e LM head inteiramente em 1 bit e mantém uma arquitetura completamente de 1 bit em todos os 8,2 bilhões de parâmetros, sem escape hatch de alta precisão
Modelos anteriores de baixa precisão sofriam grandes perdas de desempenho em seguimento de instruções, raciocínio em múltiplas etapas e confiabilidade no uso de ferramentas, o que dificultava seu uso como base de produtos reais
O Bonsai prova que um modelo de 1 bit pode ser um sistema completo em nível de produção, e não apenas um compromisso estreito

Medição de densidade de inteligência (Intelligence Density)

A densidade de inteligência é definida como o valor negativo do log da taxa média de erro ao longo dos benchmarks, dividido pelo tamanho do modelo
Essa métrica reflete um nível de inteligência mais realista do que uma média simples de benchmarks: ela atribui mais valor a melhorias adicionais quando a precisão já é alta
1-bit Bonsai 8B: 1,06/GB, Qwen3 8B: 0,10/GB — não é apenas uma vantagem incremental, mas um resultado em outra ordem de grandeza
Mesmo na média bruta de benchmarks, o 1-bit Bonsai 8B mantém desempenho competitivo frente aos principais modelos da classe 8B, enquanto o footprint de memória é de 1,15 GB, cerca de 12 a 14 vezes menor que o de equivalentes

Tamanho e velocidade

Com 1,15 GB, pode rodar em um iPhone 17 Pro — modelos 8B de 16 bits existentes não cabem em nenhum iPhone
Velocidade de inferência por dispositivo:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: cerca de 44 tok/s
Em uma simulação de resumo e roteamento de 50 tickets, o 1-bit Bonsai 8B processou todos os 50, enquanto um modelo 8B de 16 bits nas mesmas condições processou apenas 6
Em cargas de trabalho de agentes de longa duração, maior throughput e menor uso de memória ampliam a quantidade real de trabalho que o agente consegue processar

Eficiência energética

O 1-bit Bonsai 8B alcança eficiência energética cerca de 4 a 5 vezes melhor do que modelos full-precision de 16 bits
- M4 Pro: 0,074 mWh/tok
- iPhone 17 Pro Max: 0,068 mWh/tok
Para que a IA se estabeleça como infraestrutura fundamental, será indispensável um salto substancial em eficiência energética

Potencial de hardware dedicado a 1 bit

Os ganhos atuais de desempenho decorrem principalmente do footprint de memória reduzido dos modelos de 1 bit, e ainda não se atingiu o aproveitamento completo da estrutura de pesos de 1 bit durante a inferência
Em camadas lineares como MLP, pesos de 1 bit permitem substituir operações de multiplicação por somas
Se for projetado hardware dedicado à inferência em 1 bit, será possível melhorar ainda mais desempenho e eficiência energética em múltiplos adicionais de um dígito

Modelos Bonsai 4B e 1.7B

Também foram lançados dois modelos menores: 1-bit Bonsai 4B e 1-bit Bonsai 1.7B
No gráfico de dispersão de inteligência versus tamanho comparando 20 modelos instruct principais (de 1,2 GB a 16,4 GB), toda a família Bonsai desloca fortemente a fronteira de Pareto existente para a esquerda
A fronteira de Pareto anterior era composta por Qwen3 0.6B, 1.7B, 4B, 8B e Ministral3 3B, mas a família Bonsai define uma nova fronteira

O que a inteligência compactada torna possível

Quando um modelo se torna pequeno, rápido e eficiente o suficiente para rodar on-device, o espaço de design de produtos de IA muda imediatamente:
- Maior responsividade: inferência on-device sem latência de rede
- Mais privacidade: dados sensíveis não saem do dispositivo
- Maior confiabilidade: menor dependência de conexão contínua com a nuvem
- Viabilidade econômica: uso de IA mesmo em ambientes onde a implantação no lado do servidor era inviável por custo
Categorias que passam a se abrir: agentes persistentes on-device, robótica em tempo real, copilotos corporativos de segurança, inteligência offline e produtos AI-native para ambientes com restrições de largura de banda, energia ou conformidade

Suporte de plataforma e forma de disponibilização

O 1-bit Bonsai 8B oferece execução nativa em dispositivos Apple (Mac, iPhone, iPad) via MLX e em GPUs NVIDIA via llama.cpp CUDA
Os pesos do modelo estão disponíveis atualmente sob licença Apache 2.0
Todos os detalhes técnicos do processo de treinamento, avaliação e benchmarking são fornecidos no whitepaper oficial

2 comentários

runableapp 29 일 전

Ótima informação.

GN⁺ 29 일 전

Comentários do Hacker News

Enfatiza que o framing de 1,125 bit (pesos de 1 bit + escala compartilhada de 16 bits por grupo de 128) é um número tecnicamente honesto
É preciso distinguir se “comercialmente viável” se refere ao custo de inferência ou se é algo possível com base em fine-tuning
Se for um modelo treinado desde o início com a meta de 1 bit, como nos artigos do BitNet da Microsoft, então ele é algo completamente diferente de um modelo meramente quantizado
Em especial, a eficiência de inferência em hardware de uso geral parece muito mais atraente do que a quantização INT4
Ainda assim, os benchmarks foram comparados com modelos grandes quantizados, o que acaba obscurecendo um pouco a essência da alegação
Gostaria de ver se o desempenho se mantém em tarefas que exigem raciocínio em múltiplas etapas
É interessante ver que a estrutura de 1 bit + escala FP16 (1 para cada 128 bits) funciona tão bem
Tentei gerar testes de página web via Cursor, e a capacidade de usar ferramentas foi bastante impressionante
Na simulação de Monte Carlo de π, a lógica estava correta, mas ele falhou ao gerar a interface, exigindo alguns ajustes manuais
O resultado do desenho do pelicano foi bem abstrato
Como não havia demo oficial, deixaram aberta uma instância local do llama.cpp
- Graças ao link, testei por conta própria e a velocidade de resposta é muito alta
  Tentei vários pedidos, como script em R e geração de fórmulas LaTeX, e em especial a fórmula de Euler foi gerada perfeitamente
  Mesmo sendo um modelo pequeno de 1 bit, a densidade de conhecimento é alta e ele reage rápido
- Como formado em história da arte, aprovo totalmente a ideia de um “pelicano andando de bicicleta”
- Como o link do ngrok caiu por excesso de tráfego, compartilharam uma versão no Google Colab
- Fiquei curioso se é necessário o fork do llama.cpp do Prism
- A sensação é parecida com o ChatGPT inicial: acerta a maior parte do tempo, mas às vezes fala bobagem
  Se adicionarem uma “etapa de pensamento” ou reforço baseado em busca, parece que ficará bem mais útil
Rodei um benchmark de depuração SQL que eu mesmo fiz e achei bastante impressionante
Passou em 8 de 25, falhou em 0 e deu erro em 17, ficando entre o Qwen3.5-4B e o Nanbeige4.1-3B
Todo o teste terminou em 200 segundos e, em termos de velocidade, foi muito mais eficiente que o Granite 7B 4bit
Os resultados podem ser vistos no site do benchmark SQL
- Eu também usei o runpod do @freakynit
  Pessoalmente, fiz um teste criando um app Pomodoro; o acabamento foi fraco, mas em áreas específicas ele foi bem útil
  A capacidade de escrita também é melhor do que eu esperava, e é curioso que use pouco em-dash
  Ele é fraco para escrever HTML, mas combinar um modelo de 1 bit com Ngram-embedding parece abrir muitas possibilidades novas
  Também compartilhei um código de protótipo feito por mim
Também dá para rodar no iPhone com o app Locally AI atualizado recentemente
Para um tamanho de 1,2 GB, o desempenho é surpreendente
O resultado em SVG do pelicano tinha bons comentários, mas o desenho não ficou bom
- Descobri que modelos pequenos são muito fracos em conversão de fuso horário
  Perguntei “9:30am no horário padrão de Taiwan equivale a que horas no horário do Pacífico dos EUA?”, e nenhum modelo acertou a resposta
- Fiquei curioso se pediram uma bicicleta para o pelicano ou se o modelo a adicionou criativamente
Rodaram o modelo de 8 GiB publicamente por 5 horas em uma RTX 3090
Compartilharam o link do servidor e o comando de execução
5 requisições paralelas, limite de cerca de 13K tokens e uso de 4 GiB de VRAM
Mostrou desempenho muito rápido, com saída a 190t/s
- A recomendação foi manter o cache KV sem perda de precisão
- Conversar com o modelo é realmente divertido
  No exemplo de conversa, ao perguntar se deveria ir andando ou dirigindo até o lava-rápido, ele deu uma resposta criativa
- Houve uma atualização dizendo que o servidor foi encerrado porque a spot instance terminou
- Comentaram estar impressionados com a velocidade
- Também compartilharam um resultado no Pastebin, mencionando que modelos fracos não conseguem produzir esse tipo de resultado
Como não havia GPU, rodaram na CPU, e até em um notebook antigo a velocidade subiu de 0,6t/s para 12t/s após adicionar AVX2
A impressão foi de um desempenho bem decente
- Houve feedback de que mesmo com build AVX2 continuava lento ou só gerava saída sem sentido
  A causa foi ter pulado a etapa git checkout prism; depois de corrigir isso, passou a funcionar normalmente
- Brincaram que a expressão “not shabby” é um subdimensionamento
Acho que o futuro dos modelos grandes vai seguir bits em vez de float
A maioria dos valores float se concentra em uma faixa estreita e é ineficiente; no fim, tudo é implementado com operações de bits
O problema é que as GPUs e a base teórica estão ajustadas para operações em ponto flutuante
- Inferência com baixa largura de bits é fácil, mas o treinamento é difícil e instável
  O formato float continua sendo usado simplesmente porque combina melhor com a stack de GPU
- Este artigo realiza até o treinamento com base binária
  Ele introduz o conceito de “Boolean variation”, definindo a derivada em forma binária e executando backpropagation diretamente
A semelhança com redes neurais de spikes é interessante
Elas se comunicam com 1 bit, na forma de haver ou não spike, e usam potencial de membrana analógico
Controlei locomoção quadrúpede com 5 mil neurônios de Izhikevich, e foi mais eficiente que PPO
A eficiência de 1 bit é um conceito que vai além dos LLMs
Fiquei curioso se uma razão “-log error / model size” próxima de 1 significa uma taxa de erro na casa de 40%
Acrescentaram o cálculo matemático de que error/model size = 1/e
O Bonsai oferece um modelo de 8B em 1,15 GB, então fico curioso sobre o tamanho de modelos de 27B ou 35B
Se a escalabilidade se mantiver, parece que até um modelo de 100B caberia em 64 GB de RAM
- Mas o custo de treinamento continua sendo o problema
  Provavelmente deve ser tão caro quanto um modelo de precisão total; se não fosse, isso já teria sido mencionado

1-bit Bonsai - o primeiro LLM de 1 bit comercialmente viável

Contexto da PrismML e do surgimento do 1-bit Bonsai

Verdadeiro design de modelo de 1 bit

Medição de densidade de inteligência (Intelligence Density)

Tamanho e velocidade

Eficiência energética

Potencial de hardware dedicado a 1 bit

Modelos Bonsai 4B e 1.7B

O que a inteligência compactada torna possível

Suporte de plataforma e forma de disponibilização

Leituras relacionadas

2 comentários

Comentários do Hacker News