14 pontos por GN⁺ 29 일 전 | 2 comentários | Compartilhar no WhatsApp
  • A PrismML, startup de IA originada de pesquisas do Caltech, apresentou o modelo 1-bit Bonsai 8B, tornando viável a inferência prática de IA em smartphones e dispositivos de edge com um tamanho de 1,15 GB, cerca de 14 vezes menor que modelos equivalentes de 16 bits
  • Com um verdadeiro design de 1 bit de ponta a ponta, em que toda a rede (embeddings, attention, MLP e LM head) é composta por 1 bit sem exceções, o modelo supera os problemas de degradação de qualidade em seguimento de instruções, raciocínio em múltiplas etapas e uso de ferramentas que afetavam modelos anteriores de baixa precisão
  • Pelo indicador de densidade de inteligência (Intelligence Density), ele alcança 1,06/GB, cerca de 10,6 vezes à frente do concorrente mais próximo na mesma classe de parâmetros (Qwen3 8B, 0,10/GB)
  • Roda a 131 tok/s em um M4 Pro Mac, 368 tok/s em uma RTX 4090 e cerca de 44 tok/s em um iPhone 17 Pro Max, com eficiência energética aproximadamente 4 a 5 vezes melhor que a de modelos de 16 bits
  • Caso hardware dedicado a 1 bit seja projetado, abre-se a possibilidade de ganhos adicionais de desempenho e eficiência em múltiplos de um dígito, ampliando novas categorias de implantação como IA on-device, robótica e enterprise de segurança

Contexto da PrismML e do surgimento do 1-bit Bonsai

  • Nos últimos 10 anos, o avanço da IA seguiu a direção de tornar os modelos maiores (mais parâmetros, GPUs, energia, memória e custo)
  • Como resultado, surgiu uma limitação estrutural em que a inteligência mais avançada fica presa dentro de grandes clusters e infraestrutura dedicada
  • Na prática, os ambientes que precisam de IA não se limitam a datacenters, mas incluem smartphones, notebooks, veículos, robôs, enterprise de segurança e dispositivos de edge
  • A PrismML nasceu de uma equipe de pesquisa do Caltech e foi fundada com apoio da Khosla Ventures, Cerberus e Google
  • A densidade de inteligência (Intelligence Density) — a quantidade de inteligência que um modelo pode oferecer por unidade de tamanho (GB) — foi definida como métrica central de otimização

Verdadeiro design de modelo de 1 bit

  • O 1-bit Bonsai 8B implementa embeddings, camadas de attention, camadas MLP e LM head inteiramente em 1 bit e mantém uma arquitetura completamente de 1 bit em todos os 8,2 bilhões de parâmetros, sem escape hatch de alta precisão
  • Modelos anteriores de baixa precisão sofriam grandes perdas de desempenho em seguimento de instruções, raciocínio em múltiplas etapas e confiabilidade no uso de ferramentas, o que dificultava seu uso como base de produtos reais
  • O Bonsai prova que um modelo de 1 bit pode ser um sistema completo em nível de produção, e não apenas um compromisso estreito

Medição de densidade de inteligência (Intelligence Density)

  • A densidade de inteligência é definida como o valor negativo do log da taxa média de erro ao longo dos benchmarks, dividido pelo tamanho do modelo
  • Essa métrica reflete um nível de inteligência mais realista do que uma média simples de benchmarks: ela atribui mais valor a melhorias adicionais quando a precisão já é alta
  • 1-bit Bonsai 8B: 1,06/GB, Qwen3 8B: 0,10/GB — não é apenas uma vantagem incremental, mas um resultado em outra ordem de grandeza
  • Mesmo na média bruta de benchmarks, o 1-bit Bonsai 8B mantém desempenho competitivo frente aos principais modelos da classe 8B, enquanto o footprint de memória é de 1,15 GB, cerca de 12 a 14 vezes menor que o de equivalentes

Tamanho e velocidade

  • Com 1,15 GB, pode rodar em um iPhone 17 Pro — modelos 8B de 16 bits existentes não cabem em nenhum iPhone
  • Velocidade de inferência por dispositivo:
    • M4 Pro Mac: 131 tok/s
    • RTX 4090: 368 tok/s
    • iPhone 17 Pro Max: cerca de 44 tok/s
  • Em uma simulação de resumo e roteamento de 50 tickets, o 1-bit Bonsai 8B processou todos os 50, enquanto um modelo 8B de 16 bits nas mesmas condições processou apenas 6
  • Em cargas de trabalho de agentes de longa duração, maior throughput e menor uso de memória ampliam a quantidade real de trabalho que o agente consegue processar

Eficiência energética

  • O 1-bit Bonsai 8B alcança eficiência energética cerca de 4 a 5 vezes melhor do que modelos full-precision de 16 bits
    • M4 Pro: 0,074 mWh/tok
    • iPhone 17 Pro Max: 0,068 mWh/tok
  • Para que a IA se estabeleça como infraestrutura fundamental, será indispensável um salto substancial em eficiência energética

Potencial de hardware dedicado a 1 bit

  • Os ganhos atuais de desempenho decorrem principalmente do footprint de memória reduzido dos modelos de 1 bit, e ainda não se atingiu o aproveitamento completo da estrutura de pesos de 1 bit durante a inferência
  • Em camadas lineares como MLP, pesos de 1 bit permitem substituir operações de multiplicação por somas
  • Se for projetado hardware dedicado à inferência em 1 bit, será possível melhorar ainda mais desempenho e eficiência energética em múltiplos adicionais de um dígito

Modelos Bonsai 4B e 1.7B

  • Também foram lançados dois modelos menores: 1-bit Bonsai 4B e 1-bit Bonsai 1.7B
  • No gráfico de dispersão de inteligência versus tamanho comparando 20 modelos instruct principais (de 1,2 GB a 16,4 GB), toda a família Bonsai desloca fortemente a fronteira de Pareto existente para a esquerda
  • A fronteira de Pareto anterior era composta por Qwen3 0.6B, 1.7B, 4B, 8B e Ministral3 3B, mas a família Bonsai define uma nova fronteira

O que a inteligência compactada torna possível

  • Quando um modelo se torna pequeno, rápido e eficiente o suficiente para rodar on-device, o espaço de design de produtos de IA muda imediatamente:
    • Maior responsividade: inferência on-device sem latência de rede
    • Mais privacidade: dados sensíveis não saem do dispositivo
    • Maior confiabilidade: menor dependência de conexão contínua com a nuvem
    • Viabilidade econômica: uso de IA mesmo em ambientes onde a implantação no lado do servidor era inviável por custo
  • Categorias que passam a se abrir: agentes persistentes on-device, robótica em tempo real, copilotos corporativos de segurança, inteligência offline e produtos AI-native para ambientes com restrições de largura de banda, energia ou conformidade

Suporte de plataforma e forma de disponibilização

  • O 1-bit Bonsai 8B oferece execução nativa em dispositivos Apple (Mac, iPhone, iPad) via MLX e em GPUs NVIDIA via llama.cpp CUDA
  • Os pesos do modelo estão disponíveis atualmente sob licença Apache 2.0
  • Todos os detalhes técnicos do processo de treinamento, avaliação e benchmarking são fornecidos no whitepaper oficial

2 comentários

 
runableapp 29 일 전

Ótima informação.

 
GN⁺ 29 일 전
Comentários do Hacker News
  • Enfatiza que o framing de 1,125 bit (pesos de 1 bit + escala compartilhada de 16 bits por grupo de 128) é um número tecnicamente honesto
    É preciso distinguir se “comercialmente viável” se refere ao custo de inferência ou se é algo possível com base em fine-tuning
    Se for um modelo treinado desde o início com a meta de 1 bit, como nos artigos do BitNet da Microsoft, então ele é algo completamente diferente de um modelo meramente quantizado
    Em especial, a eficiência de inferência em hardware de uso geral parece muito mais atraente do que a quantização INT4
    Ainda assim, os benchmarks foram comparados com modelos grandes quantizados, o que acaba obscurecendo um pouco a essência da alegação
    Gostaria de ver se o desempenho se mantém em tarefas que exigem raciocínio em múltiplas etapas

  • É interessante ver que a estrutura de 1 bit + escala FP16 (1 para cada 128 bits) funciona tão bem
    Tentei gerar testes de página web via Cursor, e a capacidade de usar ferramentas foi bastante impressionante
    Na simulação de Monte Carlo de π, a lógica estava correta, mas ele falhou ao gerar a interface, exigindo alguns ajustes manuais
    O resultado do desenho do pelicano foi bem abstrato
    Como não havia demo oficial, deixaram aberta uma instância local do llama.cpp

    • Graças ao link, testei por conta própria e a velocidade de resposta é muito alta
      Tentei vários pedidos, como script em R e geração de fórmulas LaTeX, e em especial a fórmula de Euler foi gerada perfeitamente
      Mesmo sendo um modelo pequeno de 1 bit, a densidade de conhecimento é alta e ele reage rápido
    • Como formado em história da arte, aprovo totalmente a ideia de um “pelicano andando de bicicleta”
    • Como o link do ngrok caiu por excesso de tráfego, compartilharam uma versão no Google Colab
    • Fiquei curioso se é necessário o fork do llama.cpp do Prism
    • A sensação é parecida com o ChatGPT inicial: acerta a maior parte do tempo, mas às vezes fala bobagem
      Se adicionarem uma “etapa de pensamento” ou reforço baseado em busca, parece que ficará bem mais útil
  • Rodei um benchmark de depuração SQL que eu mesmo fiz e achei bastante impressionante
    Passou em 8 de 25, falhou em 0 e deu erro em 17, ficando entre o Qwen3.5-4B e o Nanbeige4.1-3B
    Todo o teste terminou em 200 segundos e, em termos de velocidade, foi muito mais eficiente que o Granite 7B 4bit
    Os resultados podem ser vistos no site do benchmark SQL

    • Eu também usei o runpod do @freakynit
      Pessoalmente, fiz um teste criando um app Pomodoro; o acabamento foi fraco, mas em áreas específicas ele foi bem útil
      A capacidade de escrita também é melhor do que eu esperava, e é curioso que use pouco em-dash
      Ele é fraco para escrever HTML, mas combinar um modelo de 1 bit com Ngram-embedding parece abrir muitas possibilidades novas
      Também compartilhei um código de protótipo feito por mim
  • Também dá para rodar no iPhone com o app Locally AI atualizado recentemente
    Para um tamanho de 1,2 GB, o desempenho é surpreendente
    O resultado em SVG do pelicano tinha bons comentários, mas o desenho não ficou bom

    • Descobri que modelos pequenos são muito fracos em conversão de fuso horário
      Perguntei “9:30am no horário padrão de Taiwan equivale a que horas no horário do Pacífico dos EUA?”, e nenhum modelo acertou a resposta
    • Fiquei curioso se pediram uma bicicleta para o pelicano ou se o modelo a adicionou criativamente
  • Rodaram o modelo de 8 GiB publicamente por 5 horas em uma RTX 3090
    Compartilharam o link do servidor e o comando de execução
    5 requisições paralelas, limite de cerca de 13K tokens e uso de 4 GiB de VRAM
    Mostrou desempenho muito rápido, com saída a 190t/s

    • A recomendação foi manter o cache KV sem perda de precisão
    • Conversar com o modelo é realmente divertido
      No exemplo de conversa, ao perguntar se deveria ir andando ou dirigindo até o lava-rápido, ele deu uma resposta criativa
    • Houve uma atualização dizendo que o servidor foi encerrado porque a spot instance terminou
    • Comentaram estar impressionados com a velocidade
    • Também compartilharam um resultado no Pastebin, mencionando que modelos fracos não conseguem produzir esse tipo de resultado
  • Como não havia GPU, rodaram na CPU, e até em um notebook antigo a velocidade subiu de 0,6t/s para 12t/s após adicionar AVX2
    A impressão foi de um desempenho bem decente

    • Houve feedback de que mesmo com build AVX2 continuava lento ou só gerava saída sem sentido
      A causa foi ter pulado a etapa git checkout prism; depois de corrigir isso, passou a funcionar normalmente
    • Brincaram que a expressão “not shabby” é um subdimensionamento
  • Acho que o futuro dos modelos grandes vai seguir bits em vez de float
    A maioria dos valores float se concentra em uma faixa estreita e é ineficiente; no fim, tudo é implementado com operações de bits
    O problema é que as GPUs e a base teórica estão ajustadas para operações em ponto flutuante

    • Inferência com baixa largura de bits é fácil, mas o treinamento é difícil e instável
      O formato float continua sendo usado simplesmente porque combina melhor com a stack de GPU
    • Este artigo realiza até o treinamento com base binária
      Ele introduz o conceito de “Boolean variation”, definindo a derivada em forma binária e executando backpropagation diretamente
  • A semelhança com redes neurais de spikes é interessante
    Elas se comunicam com 1 bit, na forma de haver ou não spike, e usam potencial de membrana analógico
    Controlei locomoção quadrúpede com 5 mil neurônios de Izhikevich, e foi mais eficiente que PPO
    A eficiência de 1 bit é um conceito que vai além dos LLMs

  • Fiquei curioso se uma razão “-log error / model size” próxima de 1 significa uma taxa de erro na casa de 40%
    Acrescentaram o cálculo matemático de que error/model size = 1/e

  • O Bonsai oferece um modelo de 8B em 1,15 GB, então fico curioso sobre o tamanho de modelos de 27B ou 35B
    Se a escalabilidade se mantiver, parece que até um modelo de 100B caberia em 64 GB de RAM

    • Mas o custo de treinamento continua sendo o problema
      Provavelmente deve ser tão caro quanto um modelo de precisão total; se não fosse, isso já teria sido mencionado