- Taalas é uma startup que gravou diretamente o modelo Llama 3.1 8B em um chip ASIC, alcançando velocidade de inferência de 17.000 tokens por segundo
- Afirma ser 10 vezes mais barata, consumir 10 vezes menos energia e ter inferência 10 vezes mais rápida do que sistemas baseados em GPU
- Com uma estrutura que grava diretamente os pesos do modelo em transistores de silício, elimina o gargalo de memória das GPUs
- Sem DRAM/HBM externa, processa o cache KV e adaptadores LoRA apenas com SRAM interna ao chip
- Na fabricação de chips por modelo, personaliza apenas as duas camadas superiores, concluindo um chip para Llama 3.1 em apenas 2 meses
Visão geral do chip da Taalas
- A Taalas é uma empresa fundada há 2,5 anos, e este chip é seu primeiro produto
- O chip é um ASIC de função fixa, capaz de armazenar apenas um modelo e que não pode ser regravado
- Tem uma estrutura dedicada a um único modelo, como um CD-ROM ou cartucho de videogame
A ineficiência da inferência de LLM baseada em GPU
- Um LLM é composto por várias camadas (layers); por exemplo, o Llama 3.1 8B tem 32 camadas
- A GPU repete o processo de carregar da VRAM a matriz de pesos de cada camada, executar o cálculo e salvar o resultado novamente
- Esse processo precisa ser repetido 32 vezes para gerar cada token
- Esse vai e vem de memória causa latência e consumo de energia, sendo chamado de gargalo de largura de banda de memória ou gargalo de Von Neumann
A abordagem ‘hardwired’ da Taalas
- A Taalas grava sequencialmente em silício as 32 camadas do Llama 3.1
- Os pesos do modelo são implementados como transistores físicos
- Quando o vetor de entrada chega, ele passa pelos transistores de cada camada e é processado continuamente na forma de sinais elétricos
- Sem armazenar resultados intermediários na VRAM, eles são enviados diretamente para a próxima camada por meio da fiação (pipeline registers)
- A empresa afirma ter desenvolvido uma estrutura de ‘magic multiplier’ que realiza armazenamento de dados de 4 bits e multiplicação com um único transistor
Estrutura de memória
- DRAM/HBM externa não é usada; em vez disso, há uma pequena quantidade de SRAM no próprio chip
- Isso ocorre porque é difícil fabricar DRAM e portas lógicas de forma mista
- Essa SRAM on-chip é usada para armazenar o cache KV (memória temporária durante a conversa) e adaptadores LoRA
Como os chips são fabricados para cada modelo
- Em geral, fabricar um chip novo para cada modelo é caro
- A Taalas projeta uma estrutura básica de chip comum e modifica apenas as duas camadas superiores (máscaras) para adequá-la a um modelo específico
- É um método muito mais rápido do que criar um chip totalmente novo
- O desenvolvimento do chip para Llama 3.1 8B levou cerca de 2 meses
- Pelos padrões da indústria de IA isso é lento, mas é extremamente rápido no contexto de fabricação de chips customizados
Expectativas para o futuro
- Para usuários que executam modelos locais sem GPU, espera-se a produção em massa desse tipo de hardware
5 comentários
Opiniões no Hacker News
8B de coeficientes (coefficients) estão empacotados em 53B de transistores. São usados cerca de 6,5 transistores por coeficiente
Parece que foi usada quantização em bloco (block quantization). Por exemplo, se for um bloco com 4 coeficientes de 3 bits, só seriam necessários 330 blocos diferentes
A matriz do Llama 3.1 é 4096x4096, ou seja, composta por 16 milhões de coeficientes, e isso poderia ser comprimido em 330 blocos
Assumindo um orçamento de cerca de 250 mil transistores por bloco, dá algo como 5 transistores por coeficiente. Parece perfeitamente viável até no nível de FP4
model.toVHDL()O fato de as pessoas estarem surpresas com a possibilidade disso me surpreende ainda mais
O motivo de as GPUs terem surgido foi, no fim das contas, mover operações de software para hardware. Como os LLMs têm a mesma estrutura matemática, isso me parece uma evolução natural nessa direção
Mais do que o form factor, a verdadeira inovação é a latência (latency)
Na inferência em nuvem, só o overhead de rede já fica entre 50 e 200 ms, enquanto um ASIC dedicado ligado por PCIe pode emitir o primeiro token em microssegundos
Para geração de vídeo em tempo real ou agentes que exigem respostas abaixo de 100 ms, isso é decisivo. O custo pode ser mais alto que o de uma GPU, mas isso viabiliza novas aplicações em tempo real
É interessante imaginar um futuro em que modelos como o Gemma 5 Mini rodem diretamente em hardware local
Talvez surjam “núcleos de IA” para modelos específicos, como acontece com encoders H.264 ou AV1
Graças às Structured ASIC platform, talvez o custo também possa cair, reabrindo a era dos ASICs estruturais
Isso faz imaginar algo como CD-ROMs ou cartuchos de videogame, mas com um chip que carrega um único modelo. Você trocaria o modelo encaixando outro no computador
Se fosse possível imprimir ASICs de forma barata, a forma de usar modelos mudaria completamente
Os modelos seriam vendidos como dispositivos USB, e um modelo denso com menos de 20 bilhões de parâmetros já bastaria como assistente pessoal
Isso parece uma reencenação da placa de vídeo. Agora que há muitos modelos open weight, um grande mercado pode surgir mesmo com baixo custo de compra e operação
Fico curioso sobre como isso funcionaria com arquitetura MoE
Em LLMs densos, manter todos os pesos próximos é vantajoso, mas em MoE o foco é acesso à memória, o que cria um desequilíbrio entre MAC e memória. No fim, há grande chance de voltar para uma abordagem com chiplets
Parece que algum dia placas de expansão PCIe dedicadas a IA vão virar padrão
Como acontecia com placas de vídeo ou de som, quando surgir um modelo novo você troca a placa e atualiza a “inteligência” do PC
A computação sempre repetiu o ciclo local vs servidor, mas a demanda por on-premise nunca vai desaparecer
No fim, parece que veremos placas-mãe com slots para chips de IA ou periféricos de IA conectados a portas de alta velocidade
Fico pensando se fabricantes como a Apple conseguiriam embutir diretamente esse tipo de chip dentro de 3 anos. Espero um desempenho local ultrarrápido no nível dos modelos atuais
Isso me faz lembrar a diferença entre fazer cálculo diferencial e integral digitalmente e fazê-lo de forma analógica.
Seria bom se isso fosse usado para criar um modelo de embedding de texto, e não um modelo LLM.
É mesmo, uma vez feito, dá para continuar usando.
Se o design de novos chips e a velocidade de desenvolvimento forem acelerados graças à IA, talvez esse seja mesmo o futuro. Também me faz lembrar de cerca de 25 anos atrás, quando o desempenho de hardware aumentava de forma competitiva.