- A PrismML, startup de IA originada de pesquisas do Caltech, apresentou o modelo 1-bit Bonsai 8B, tornando viável a inferência prática de IA em smartphones e dispositivos de edge com um tamanho de 1,15 GB, cerca de 14 vezes menor que modelos equivalentes de 16 bits
- Com um verdadeiro design de 1 bit de ponta a ponta, em que toda a rede (embeddings, attention, MLP e LM head) é composta por 1 bit sem exceções, o modelo supera os problemas de degradação de qualidade em seguimento de instruções, raciocínio em múltiplas etapas e uso de ferramentas que afetavam modelos anteriores de baixa precisão
- Pelo indicador de densidade de inteligência (Intelligence Density), ele alcança 1,06/GB, cerca de 10,6 vezes à frente do concorrente mais próximo na mesma classe de parâmetros (Qwen3 8B, 0,10/GB)
- Roda a 131 tok/s em um M4 Pro Mac, 368 tok/s em uma RTX 4090 e cerca de 44 tok/s em um iPhone 17 Pro Max, com eficiência energética aproximadamente 4 a 5 vezes melhor que a de modelos de 16 bits
- Caso hardware dedicado a 1 bit seja projetado, abre-se a possibilidade de ganhos adicionais de desempenho e eficiência em múltiplos de um dígito, ampliando novas categorias de implantação como IA on-device, robótica e enterprise de segurança
Contexto da PrismML e do surgimento do 1-bit Bonsai
- Nos últimos 10 anos, o avanço da IA seguiu a direção de tornar os modelos maiores (mais parâmetros, GPUs, energia, memória e custo)
- Como resultado, surgiu uma limitação estrutural em que a inteligência mais avançada fica presa dentro de grandes clusters e infraestrutura dedicada
- Na prática, os ambientes que precisam de IA não se limitam a datacenters, mas incluem smartphones, notebooks, veículos, robôs, enterprise de segurança e dispositivos de edge
- A PrismML nasceu de uma equipe de pesquisa do Caltech e foi fundada com apoio da Khosla Ventures, Cerberus e Google
- A densidade de inteligência (Intelligence Density) — a quantidade de inteligência que um modelo pode oferecer por unidade de tamanho (GB) — foi definida como métrica central de otimização
Verdadeiro design de modelo de 1 bit
- O 1-bit Bonsai 8B implementa embeddings, camadas de attention, camadas MLP e LM head inteiramente em 1 bit e mantém uma arquitetura completamente de 1 bit em todos os 8,2 bilhões de parâmetros, sem escape hatch de alta precisão
- Modelos anteriores de baixa precisão sofriam grandes perdas de desempenho em seguimento de instruções, raciocínio em múltiplas etapas e confiabilidade no uso de ferramentas, o que dificultava seu uso como base de produtos reais
- O Bonsai prova que um modelo de 1 bit pode ser um sistema completo em nível de produção, e não apenas um compromisso estreito
Medição de densidade de inteligência (Intelligence Density)
- A densidade de inteligência é definida como o valor negativo do log da taxa média de erro ao longo dos benchmarks, dividido pelo tamanho do modelo
- Essa métrica reflete um nível de inteligência mais realista do que uma média simples de benchmarks: ela atribui mais valor a melhorias adicionais quando a precisão já é alta
- 1-bit Bonsai 8B: 1,06/GB, Qwen3 8B: 0,10/GB — não é apenas uma vantagem incremental, mas um resultado em outra ordem de grandeza
- Mesmo na média bruta de benchmarks, o 1-bit Bonsai 8B mantém desempenho competitivo frente aos principais modelos da classe 8B, enquanto o footprint de memória é de 1,15 GB, cerca de 12 a 14 vezes menor que o de equivalentes
Tamanho e velocidade
- Com 1,15 GB, pode rodar em um iPhone 17 Pro — modelos 8B de 16 bits existentes não cabem em nenhum iPhone
- Velocidade de inferência por dispositivo:
- M4 Pro Mac: 131 tok/s
- RTX 4090: 368 tok/s
- iPhone 17 Pro Max: cerca de 44 tok/s
- Em uma simulação de resumo e roteamento de 50 tickets, o 1-bit Bonsai 8B processou todos os 50, enquanto um modelo 8B de 16 bits nas mesmas condições processou apenas 6
- Em cargas de trabalho de agentes de longa duração, maior throughput e menor uso de memória ampliam a quantidade real de trabalho que o agente consegue processar
Eficiência energética
- O 1-bit Bonsai 8B alcança eficiência energética cerca de 4 a 5 vezes melhor do que modelos full-precision de 16 bits
- M4 Pro: 0,074 mWh/tok
- iPhone 17 Pro Max: 0,068 mWh/tok
- Para que a IA se estabeleça como infraestrutura fundamental, será indispensável um salto substancial em eficiência energética
Potencial de hardware dedicado a 1 bit
- Os ganhos atuais de desempenho decorrem principalmente do footprint de memória reduzido dos modelos de 1 bit, e ainda não se atingiu o aproveitamento completo da estrutura de pesos de 1 bit durante a inferência
- Em camadas lineares como MLP, pesos de 1 bit permitem substituir operações de multiplicação por somas
- Se for projetado hardware dedicado à inferência em 1 bit, será possível melhorar ainda mais desempenho e eficiência energética em múltiplos adicionais de um dígito
Modelos Bonsai 4B e 1.7B
- Também foram lançados dois modelos menores: 1-bit Bonsai 4B e 1-bit Bonsai 1.7B
- No gráfico de dispersão de inteligência versus tamanho comparando 20 modelos instruct principais (de 1,2 GB a 16,4 GB), toda a família Bonsai desloca fortemente a fronteira de Pareto existente para a esquerda
- A fronteira de Pareto anterior era composta por Qwen3 0.6B, 1.7B, 4B, 8B e Ministral3 3B, mas a família Bonsai define uma nova fronteira
O que a inteligência compactada torna possível
- Quando um modelo se torna pequeno, rápido e eficiente o suficiente para rodar on-device, o espaço de design de produtos de IA muda imediatamente:
- Maior responsividade: inferência on-device sem latência de rede
- Mais privacidade: dados sensíveis não saem do dispositivo
- Maior confiabilidade: menor dependência de conexão contínua com a nuvem
- Viabilidade econômica: uso de IA mesmo em ambientes onde a implantação no lado do servidor era inviável por custo
- Categorias que passam a se abrir: agentes persistentes on-device, robótica em tempo real, copilotos corporativos de segurança, inteligência offline e produtos AI-native para ambientes com restrições de largura de banda, energia ou conformidade
Suporte de plataforma e forma de disponibilização
- O 1-bit Bonsai 8B oferece execução nativa em dispositivos Apple (Mac, iPhone, iPad) via MLX e em GPUs NVIDIA via llama.cpp CUDA
- Os pesos do modelo estão disponíveis atualmente sob licença Apache 2.0
- Todos os detalhes técnicos do processo de treinamento, avaliação e benchmarking são fornecidos no whitepaper oficial
2 comentários
Ótima informação.
Comentários do Hacker News
Enfatiza que o framing de 1,125 bit (pesos de 1 bit + escala compartilhada de 16 bits por grupo de 128) é um número tecnicamente honesto
É preciso distinguir se “comercialmente viável” se refere ao custo de inferência ou se é algo possível com base em fine-tuning
Se for um modelo treinado desde o início com a meta de 1 bit, como nos artigos do BitNet da Microsoft, então ele é algo completamente diferente de um modelo meramente quantizado
Em especial, a eficiência de inferência em hardware de uso geral parece muito mais atraente do que a quantização INT4
Ainda assim, os benchmarks foram comparados com modelos grandes quantizados, o que acaba obscurecendo um pouco a essência da alegação
Gostaria de ver se o desempenho se mantém em tarefas que exigem raciocínio em múltiplas etapas
É interessante ver que a estrutura de 1 bit + escala FP16 (1 para cada 128 bits) funciona tão bem
Tentei gerar testes de página web via Cursor, e a capacidade de usar ferramentas foi bastante impressionante
Na simulação de Monte Carlo de π, a lógica estava correta, mas ele falhou ao gerar a interface, exigindo alguns ajustes manuais
O resultado do desenho do pelicano foi bem abstrato
Como não havia demo oficial, deixaram aberta uma instância local do llama.cpp
Tentei vários pedidos, como script em R e geração de fórmulas LaTeX, e em especial a fórmula de Euler foi gerada perfeitamente
Mesmo sendo um modelo pequeno de 1 bit, a densidade de conhecimento é alta e ele reage rápido
Se adicionarem uma “etapa de pensamento” ou reforço baseado em busca, parece que ficará bem mais útil
Rodei um benchmark de depuração SQL que eu mesmo fiz e achei bastante impressionante
Passou em 8 de 25, falhou em 0 e deu erro em 17, ficando entre o Qwen3.5-4B e o Nanbeige4.1-3B
Todo o teste terminou em 200 segundos e, em termos de velocidade, foi muito mais eficiente que o Granite 7B 4bit
Os resultados podem ser vistos no site do benchmark SQL
Pessoalmente, fiz um teste criando um app Pomodoro; o acabamento foi fraco, mas em áreas específicas ele foi bem útil
A capacidade de escrita também é melhor do que eu esperava, e é curioso que use pouco em-dash
Ele é fraco para escrever HTML, mas combinar um modelo de 1 bit com Ngram-embedding parece abrir muitas possibilidades novas
Também compartilhei um código de protótipo feito por mim
Também dá para rodar no iPhone com o app Locally AI atualizado recentemente
Para um tamanho de 1,2 GB, o desempenho é surpreendente
O resultado em SVG do pelicano tinha bons comentários, mas o desenho não ficou bom
Perguntei “9:30am no horário padrão de Taiwan equivale a que horas no horário do Pacífico dos EUA?”, e nenhum modelo acertou a resposta
Rodaram o modelo de 8 GiB publicamente por 5 horas em uma RTX 3090
Compartilharam o link do servidor e o comando de execução
5 requisições paralelas, limite de cerca de 13K tokens e uso de 4 GiB de VRAM
Mostrou desempenho muito rápido, com saída a 190t/s
No exemplo de conversa, ao perguntar se deveria ir andando ou dirigindo até o lava-rápido, ele deu uma resposta criativa
Como não havia GPU, rodaram na CPU, e até em um notebook antigo a velocidade subiu de 0,6t/s para 12t/s após adicionar AVX2
A impressão foi de um desempenho bem decente
A causa foi ter pulado a etapa
git checkout prism; depois de corrigir isso, passou a funcionar normalmenteAcho que o futuro dos modelos grandes vai seguir bits em vez de float
A maioria dos valores float se concentra em uma faixa estreita e é ineficiente; no fim, tudo é implementado com operações de bits
O problema é que as GPUs e a base teórica estão ajustadas para operações em ponto flutuante
O formato float continua sendo usado simplesmente porque combina melhor com a stack de GPU
Ele introduz o conceito de “Boolean variation”, definindo a derivada em forma binária e executando backpropagation diretamente
A semelhança com redes neurais de spikes é interessante
Elas se comunicam com 1 bit, na forma de haver ou não spike, e usam potencial de membrana analógico
Controlei locomoção quadrúpede com 5 mil neurônios de Izhikevich, e foi mais eficiente que PPO
A eficiência de 1 bit é um conceito que vai além dos LLMs
Fiquei curioso se uma razão “-log error / model size” próxima de 1 significa uma taxa de erro na casa de 40%
Acrescentaram o cálculo matemático de que error/model size = 1/e
O Bonsai oferece um modelo de 8B em 1,15 GB, então fico curioso sobre o tamanho de modelos de 27B ou 35B
Se a escalabilidade se mantiver, parece que até um modelo de 100B caberia em 64 GB de RAM
Provavelmente deve ser tão caro quanto um modelo de precisão total; se não fosse, isso já teria sido mencionado