23 pontos por GN⁺ 2026-02-23 | 5 comentários | Compartilhar no WhatsApp
  • Taalas é uma startup que gravou diretamente o modelo Llama 3.1 8B em um chip ASIC, alcançando velocidade de inferência de 17.000 tokens por segundo
  • Afirma ser 10 vezes mais barata, consumir 10 vezes menos energia e ter inferência 10 vezes mais rápida do que sistemas baseados em GPU
  • Com uma estrutura que grava diretamente os pesos do modelo em transistores de silício, elimina o gargalo de memória das GPUs
  • Sem DRAM/HBM externa, processa o cache KV e adaptadores LoRA apenas com SRAM interna ao chip
  • Na fabricação de chips por modelo, personaliza apenas as duas camadas superiores, concluindo um chip para Llama 3.1 em apenas 2 meses

Visão geral do chip da Taalas

  • A Taalas é uma empresa fundada há 2,5 anos, e este chip é seu primeiro produto
  • O chip é um ASIC de função fixa, capaz de armazenar apenas um modelo e que não pode ser regravado
    • Tem uma estrutura dedicada a um único modelo, como um CD-ROM ou cartucho de videogame

A ineficiência da inferência de LLM baseada em GPU

  • Um LLM é composto por várias camadas (layers); por exemplo, o Llama 3.1 8B tem 32 camadas
  • A GPU repete o processo de carregar da VRAM a matriz de pesos de cada camada, executar o cálculo e salvar o resultado novamente
    • Esse processo precisa ser repetido 32 vezes para gerar cada token
  • Esse vai e vem de memória causa latência e consumo de energia, sendo chamado de gargalo de largura de banda de memória ou gargalo de Von Neumann

A abordagem ‘hardwired’ da Taalas

  • A Taalas grava sequencialmente em silício as 32 camadas do Llama 3.1
    • Os pesos do modelo são implementados como transistores físicos
  • Quando o vetor de entrada chega, ele passa pelos transistores de cada camada e é processado continuamente na forma de sinais elétricos
    • Sem armazenar resultados intermediários na VRAM, eles são enviados diretamente para a próxima camada por meio da fiação (pipeline registers)
  • A empresa afirma ter desenvolvido uma estrutura de ‘magic multiplier’ que realiza armazenamento de dados de 4 bits e multiplicação com um único transistor

Estrutura de memória

  • DRAM/HBM externa não é usada; em vez disso, há uma pequena quantidade de SRAM no próprio chip
    • Isso ocorre porque é difícil fabricar DRAM e portas lógicas de forma mista
  • Essa SRAM on-chip é usada para armazenar o cache KV (memória temporária durante a conversa) e adaptadores LoRA

Como os chips são fabricados para cada modelo

  • Em geral, fabricar um chip novo para cada modelo é caro
  • A Taalas projeta uma estrutura básica de chip comum e modifica apenas as duas camadas superiores (máscaras) para adequá-la a um modelo específico
    • É um método muito mais rápido do que criar um chip totalmente novo
  • O desenvolvimento do chip para Llama 3.1 8B levou cerca de 2 meses
    • Pelos padrões da indústria de IA isso é lento, mas é extremamente rápido no contexto de fabricação de chips customizados

Expectativas para o futuro

  • Para usuários que executam modelos locais sem GPU, espera-se a produção em massa desse tipo de hardware

5 comentários

 
GN⁺ 2026-02-23
Opiniões no Hacker News
  • 8B de coeficientes (coefficients) estão empacotados em 53B de transistores. São usados cerca de 6,5 transistores por coeficiente
    Parece que foi usada quantização em bloco (block quantization). Por exemplo, se for um bloco com 4 coeficientes de 3 bits, só seriam necessários 330 blocos diferentes
    A matriz do Llama 3.1 é 4096x4096, ou seja, composta por 16 milhões de coeficientes, e isso poderia ser comprimido em 330 blocos
    Assumindo um orçamento de cerca de 250 mil transistores por bloco, dá algo como 5 transistores por coeficiente. Parece perfeitamente viável até no nível de FP4

    • Espero que o PyTorch ganhe algo como model.toVHDL()
  • O fato de as pessoas estarem surpresas com a possibilidade disso me surpreende ainda mais
    O motivo de as GPUs terem surgido foi, no fim das contas, mover operações de software para hardware. Como os LLMs têm a mesma estrutura matemática, isso me parece uma evolução natural nessa direção

    • As pessoas provavelmente se surpreendem por causa do momento do ROI. A grande questão é quando vai passar a ser lucrativo fazer tape-out de chips dedicados a modelos. A arquitetura MoE deve trazer novos desafios nesse processo
    • Isso não é uma comparação entre CPU e GPU, mas entre CPU/GPU e ASIC. ASICs levam vantagem em velocidade, energia e custo, mas são difíceis de projetar e não podem ser reprogramados. Para funções sensíveis a desempenho, como LLMs, ASICs são adequados
    • A abordagem de gravar os pesos diretamente nas portas é certamente nova. A expressão “Weights to gates” combina bem
    • Mas o problema é a falta de flexibilidade. Quando a demanda dos datacenters muda ou surgem novos modelos, fica difícil reagir. Ainda assim, em áreas como drones e defesa, onde eficiência energética e velocidade são cruciais, isso é realista
    • Acho que a Nvidia certamente está experimentando algo assim. Ainda é cedo comercialmente, mas a tendência rumo a hardware de IA focado em eficiência é clara
  • Mais do que o form factor, a verdadeira inovação é a latência (latency)
    Na inferência em nuvem, só o overhead de rede já fica entre 50 e 200 ms, enquanto um ASIC dedicado ligado por PCIe pode emitir o primeiro token em microssegundos
    Para geração de vídeo em tempo real ou agentes que exigem respostas abaixo de 100 ms, isso é decisivo. O custo pode ser mais alto que o de uma GPU, mas isso viabiliza novas aplicações em tempo real

    • Além da latência, confiabilidade de largura de banda e controle também importam. Computação centralizada e local sempre disputaram espaço. Empresas querem controle; usuários querem autonomia. No fim, o mercado sempre manterá a demanda por “quero controlar totalmente meu próprio computador”
    • Fico curioso sobre onde os serviços de IA realmente são servidos. Por exemplo, ao usar o Claude em Londres, é difícil saber para onde a requisição vai. Seria ideal se existisse uma rede de borda para LLMs, e talvez ASICs possam tornar isso possível
  • É interessante imaginar um futuro em que modelos como o Gemma 5 Mini rodem diretamente em hardware local
    Talvez surjam “núcleos de IA” para modelos específicos, como acontece com encoders H.264 ou AV1
    Graças às Structured ASIC platform, talvez o custo também possa cair, reabrindo a era dos ASICs estruturais

    • Parece haver dois motivos para as big techs não demonstrarem tanto interesse nisso. Primeiro, o ritmo de avanço da IA é tão rápido que, quando o chip entrar em produção em massa, ele já pode estar ultrapassado. Segundo, o modelo de assinatura em nuvem e a estrutura de negócios centrada em coleta de dados não combinam com chips offline
    • Acho que a Apple deveria ter começado isso ontem. O futuro que eu realmente quero é IA totalmente local rodando no meu celular ou MacBook. IA baseada em nuvem parece um resquício da era AOL
    • ASICs programáveis como os da Cerebras ou Groq já entregam múltiplas vezes a velocidade de GPUs, e mesmo assim a reação do mercado é morna
  • Isso faz imaginar algo como CD-ROMs ou cartuchos de videogame, mas com um chip que carrega um único modelo. Você trocaria o modelo encaixando outro no computador

    • Esse slot na prática provavelmente seria USB-C. Dá para imaginar usar um ASIC de inferência em formato de power bank
    • Eu queria um dispositivo de modelo local debaixo da mesa, como as antigas eGPUs. Totalmente offline, com privacidade pessoal total
    • Esse tipo de hardware incentivaria modelos open weight e também reforçaria a privacidade. Talvez até fosse possível um MoE em hardware, com robôs trocando cartuchos de modelo conforme a tarefa
    • Cartuchos dedicados a modelos provavelmente teriam eficiência de desempenho/energia muito melhor. Ainda assim, é duvidoso que fechem a conta economicamente para o mercado consumidor
    • O consumo de energia é a variável. Para uso doméstico, 170 tokens por segundo a 2,5 W seria incrível. Um avanço assim talvez um dia leve a um cérebro positrônico(https://en.wikipedia.org/wiki/Positronic_brain)
  • Se fosse possível imprimir ASICs de forma barata, a forma de usar modelos mudaria completamente
    Os modelos seriam vendidos como dispositivos USB, e um modelo denso com menos de 20 bilhões de parâmetros já bastaria como assistente pessoal
    Isso parece uma reencenação da placa de vídeo. Agora que há muitos modelos open weight, um grande mercado pode surgir mesmo com baixo custo de compra e operação

  • Fico curioso sobre como isso funcionaria com arquitetura MoE
    Em LLMs densos, manter todos os pesos próximos é vantajoso, mas em MoE o foco é acesso à memória, o que cria um desequilíbrio entre MAC e memória. No fim, há grande chance de voltar para uma abordagem com chiplets

    • O TPUv4 do Google usa Optical Circuit Switch para formar uma estrutura de toro 3D e fazer recabeamento dinâmico de acordo com os padrões de comunicação de MoE. Ele conecta 4.096 chips em um único pod e usa SparseCore para lidar com acesso não contíguo à memória. Isso é assunto de escala de datacenter, mas é interessante como exemplo de escalabilidade
    • Se cada modelo Expert fosse gravado no silício, a velocidade seria enorme. No fim, a maior limitação é o custo de impressão do ASIC
  • Parece que algum dia placas de expansão PCIe dedicadas a IA vão virar padrão
    Como acontecia com placas de vídeo ou de som, quando surgir um modelo novo você troca a placa e atualiza a “inteligência” do PC

    • Acho que essa direção é uma evolução quase inevitável. Governos ou grandes empresas vão demandar isso primeiro, e depois vai se espalhar para o mercado consumidor.
      A computação sempre repetiu o ciclo local vs servidor, mas a demanda por on-premise nunca vai desaparecer
  • No fim, parece que veremos placas-mãe com slots para chips de IA ou periféricos de IA conectados a portas de alta velocidade

  • Fico pensando se fabricantes como a Apple conseguiriam embutir diretamente esse tipo de chip dentro de 3 anos. Espero um desempenho local ultrarrápido no nível dos modelos atuais

    • Será que daria para atualizar o modelo por diff em memória modular? Fico curioso sobre quanto isso degradaria o desempenho
    • Mas talvez não faça sentido rodar um modelo ultrapassado por 3 anos. O ritmo de evolução é rápido demais
 
dolsangodkimchi 2026-03-04

Isso me faz lembrar a diferença entre fazer cálculo diferencial e integral digitalmente e fazê-lo de forma analógica.

 
chcv0313 2026-03-04

Seria bom se isso fosse usado para criar um modelo de embedding de texto, e não um modelo LLM.

 
bungker 2026-03-04

É mesmo, uma vez feito, dá para continuar usando.

 
parkindani 2026-02-23

Se o design de novos chips e a velocidade de desenvolvimento forem acelerados graças à IA, talvez esse seja mesmo o futuro. Também me faz lembrar de cerca de 25 anos atrás, quando o desempenho de hardware aumentava de forma competitiva.