O caminho para a universalização da AI (17K tokens por segundo)

(taalas.com)

5 pontos por GN⁺ 2026-02-21 | 2 comentários | Compartilhar no WhatsApp

A Taalas desenvolveu uma plataforma que converte modelos de AI em chips de silício sob medida, levando apenas dois meses para implementar um modelo em hardware
Seu primeiro produto, o modelo hardwired Llama 3.1 8B, processa 17K tokens por segundo, sendo 10 vezes mais rápido, 20 vezes mais barato e consumindo um décimo da energia em relação às abordagens existentes
Ele possibilita inferência de baixo consumo, baixo custo e alta velocidade, eliminando a complexidade dos sistemas tradicionais baseados em GPU com uma nova arquitetura de chip que integra memória e computação
Com essa abordagem, a Taalas acelera a operação em tempo real e a popularização da AI, permitindo que desenvolvedores experimentem novas aplicações em um ambiente de latência ultrabaixa e custo ultrarreduzido

Limites atuais da AI e o que ela precisa

A AI já supera humanos em áreas específicas, mas latência (latency) e custo (cost) são apontados como as maiores restrições para seu uso em massa
- A interação com modelos de linguagem é mais lenta do que a velocidade do pensamento humano, e ferramentas de apoio à programação fazem os usuários esperar minutos por uma resposta
- AIs automatizadas no estilo agente exigem respostas em milissegundos, mas os sistemas atuais ainda não atendem a esse requisito
A implantação de modelos de última geração exige infraestrutura no nível de supercomputadores de grande porte, com centenas de kW de energia e estruturas complexas de resfriamento, empacotamento e memória
- Essa estrutura se expande para data centers em escala urbana e redes de satélite, causando uma explosão nos custos operacionais
A Taalas enfatiza que, assim como houve a transição do ENIAC para o transistor, a AI também precisa evoluir para uma estrutura eficiente e de baixo custo

A filosofia tecnológica da Taalas

Em apenas dois anos e meio desde a fundação, a Taalas concluiu uma plataforma que converte modelos de AI em silício personalizado
- Após receber um novo modelo, é possível transformá-lo em hardware em até 2 meses
- O resultado, os Hardcore Models, oferece melhorias de cerca de 10x em velocidade, custo e eficiência energética em comparação com abordagens tradicionais baseadas em software
A empresa apresenta três princípios centrais
1. Especialização total (Total specialization)
  - Produz silício otimizado para cada modelo de AI, alcançando eficiência extrema
2. Integração entre armazenamento e computação (Merging storage and computation)
  - Elimina gargalos causados pela separação entre DRAM e chips de computação e implementa uma estrutura integrada em um único chip com densidade no nível da DRAM
3. Simplificação radical (Radical simplification)
  - Remove tecnologias complexas como HBM, empilhamento 3D e resfriamento líquido para reduzir o custo do sistema a um dígito do valor atual

Primeiro produto: modelo hardwired Llama 3.1 8B

Apresentado como a plataforma de inferência mais rápida, barata e eficiente em energia do mundo
- Ao implementar diretamente o modelo Llama 3.1 8B em silício, ele alcança 17K tokens por segundo, com velocidade 10x maior, custo de fabricação 20x menor e consumo de energia 10x inferior
Baseado em um modelo open source, garantindo praticidade e facilidade de desenvolvimento
- Suporta ajuste do tamanho da janela de contexto e fine-tuning com base em LoRA
O chip de primeira geração usa quantização mista de 3 bits e 6 bits, o que ainda gera alguma perda de qualidade em relação a GPUs
- O silício de segunda geração (HC2) adota o formato padrão de ponto flutuante de 4 bits, melhorando qualidade e eficiência

Roteiro futuro de modelos

O segundo modelo será um LLM de raciocínio de porte intermediário, que deve ser concluído no laboratório na primavera e depois integrado ao serviço de inferência
O terceiro modelo será um LLM de classe frontier baseado na plataforma HC2, oferecendo maior densidade e velocidade, com implantação prevista para o inverno

Acesso para desenvolvedores e estrutura da equipe

O modelo Llama, atualmente disponível em beta, é oferecido de forma que os usuários possam experimentar um ambiente de latência ultrabaixa e custo ultrarreduzido
- Disponível por meio do demo chatjimmy.ai e do serviço de API
A Taalas concluiu seu primeiro produto com uma equipe de 24 pessoas e custo de 30 milhões de dólares, apresentado como resultado de metas precisas e execução focada
A equipe é formada por um pequeno grupo de especialistas que colaboram há mais de 20 anos e valorizam qualidade, precisão e artesanato técnico

Conclusão: AI em tempo real e para todos

A tecnologia da Taalas oferece um salto de patamar em desempenho, eficiência energética e custo
Ela propõe uma nova filosofia de arquitetura de sistemas de AI diferente da estrutura tradicional centrada em GPUs
Ao eliminar as barreiras de latência e custo, oferece aos desenvolvedores um ambiente em que a AI pode ser usada em tempo real
No futuro, deve evoluir para modelos ainda mais poderosos, avançando na direção de uma acessibilidade universal da AI

2 comentários

colus001 2026-02-21

Não sei quanto significado isso realmente tem. Como o mercado gosta de hype, o financiamento deve ir bem, mas como estão despejando novos modelos em uma corrida desenfreada, em dois meses isso já parece coisa de um passado distante.

GN⁺ 2026-02-21

Comentários do Hacker News

Este chip não é de uso geral, mas um projeto especializado em inferência de alta velocidade e baixa latência
Com base em 8B dense 3bit quant (Llama 3.1), processa 15k tokens por segundo, usa um die de 880mm² em processo de 6nm, 53 bilhões de transistores, consome cerca de 200W, custa 20 vezes menos para produzir e reduz a energia por token em 10 vezes
Os fundadores vieram de AMD e Nvidia, têm 25 anos de experiência e já levantaram US$ 200 milhões em investimento de VC
Se calcularmos cerca de US$ 0,2 por mm², isso dá algo em torno de US$ 20 por 1 bilhão de parâmetros, embora dies grandes tenham rendimento menor
Para mais detalhes, veja a entrevista com o fundador
É adequado para aplicações de latência ultrabaixa com menos de 10k tokens, e há boa chance de atrair capital de VC quando for lançado na primavera
- As contas matemáticas são úteis. 16k tokens por segundo é uma velocidade impressionante, e isso pode ser visto como uma nova categoria de produto
  O Nvidia H200 faz algo em torno de 12k tok/s, mas em batch, então a latência até o primeiro token é muito maior
  O Taalas responde em milissegundos, então é adequado para geração de voz e vídeo em tempo real
  Ainda assim, produzir o chip em 2 meses parece otimista demais. Mesmo assim, espera-se que a versão v3 já esteja em nível de lidar com requisições reais de API
- Brincadeira de que, se o die custar US$ 20, talvez pudessem vendê-lo como um cartucho de Game Boy para cada modelo
- Fica a dúvida se usar um Recursive Language Model(link do artigo) poderia compensar os limites de contexto
  Ele consome muitos tokens, mas se tokens forem baratos, isso talvez favoreça ganhos de precisão
- 880mm² é maior que um M1 Ultra e até maior que um H100
  Quando o die cresce, o rendimento cai, então fica a dúvida se alguns erros de bit talvez nem sejam um problema tão grande
- É interessante pensar como robôs inteligentes podem evoluir com esse tipo de chip
Os comentários falam da precisão do modelo, mas parecem não entender que isso é um modelo Llama 3.1 8B
O ponto central não é o modelo, mas o desempenho de hardware sob medida
Se colocarem um modelo mais recente como o GLM-5, isso pode ficar realmente incrível
A resposta sai praticamente “assim que você aperta Enter”
Mas o fato de precisar trocar todo o hardware ao trocar o modelo pode afetar a viabilidade comercial
- As informações de preço estão nesta imagem
  Ainda parece uma política exploratória para medir a reação do mercado
  Em vez de flexibilidade, optaram por maximizar a velocidade, mas dizem que há suporte para fine-tuning baseado em LoRA
  Deve ser muito útil para coisas como etiquetagem simples de dados ou processamento massivamente paralelo
- Pessoalmente, acho que a Cerebras está muito mais à frente. Comparar tok/s é inadequado
Testei a demo do ChatJimmy e fiquei surpreso com a rapidez com que a resposta apareceu
chatjimmy.ai
- Pedi para projetar um submarino para gatos e a resposta veio instantaneamente
  O conteúdo também foi surpreendentemente específico e útil
- Com essa velocidade, daria para fazer geração iterativa automática de código até passar nos testes
  Parece que isso pode abrir um jeito totalmente novo de desenvolver
- Se eu fosse investidor, talvez investisse no ChatJimmy em vez da OpenAI
- Mas o recurso de anexar arquivos não funcionou, e a compreensão de contexto pareceu um pouco desalinhada
- Teve quem se impressionou dizendo que verificou pessoalmente os 16.000 tokens por segundo
Muita gente está cética, mas há demanda suficiente até para modelos não frontier
Basta olhar o gráfico de atividade do Llama 3.1, que mostra crescimento semanal de 22%
Se a latência cair, dá para usar LLM até no nível de carregamento de uma página web
- Também pode haver mercado para modelos frontier. Por exemplo, se a Anthropic gravasse o Opus 4.6 em um chip, poderia reduzir o custo de inferência
- Modelos antigos ainda são fortes em trabalho criativo. Os mais recentes foram ajustados para código e raciocínio, e perderam criatividade
- É ideal para tarefas como extração estruturada de conteúdo ou conversão para Markdown
  Esse chip transforma LLM em uma interface em tempo real
- Também serve para áreas como robótica, que exigem baixa latência e caminhos de tarefa estreitos
Brincaram que nunca tinham visto respostas erradas tão rapidamente, mas a tecnologia parece muito promissora
O modelo 8B é pequeno, mas no longo prazo isso pode virar um mercado grande
- Houve quem dissesse que ele não conseguiu responder à pergunta, mas não conseguiu de um jeito inacreditavelmente rápido
  Por enquanto é pouco útil, mas transmite uma sensação totalmente nova de tecnologia
- Se sair uma versão para Qwen 2.5, eu compraria na hora
  Para trabalho real, nem sempre é preciso um modelo frontier
- Modelos 7~9B já são bons o bastante. O importante é consultar vários modelos em paralelo para elevar a precisão baseada em consenso
  Acima de 80B, a diferença passa a ser pequena
- Teve reação bem-humorada apontando erros de ortografia
Fiquei imaginando se daria para colocar uma placa dessas em um PC pessoal e substituir o Claude Code
Com 17k tokens por segundo, seria possível rodar vários pipelines de agentes ao mesmo tempo
Cada agente poderia ficar responsável por editar e validar código, permitindo iterações rápidas de melhoria
Mesmo sem o melhor modelo, fica a dúvida se repetir várias vezes um modelo intermediário pode levar a resultados melhores
- Mais do que o próprio modelo, são as ferramentas e o harness que determinam a qualidade do resultado
  Se uma saída rápida de tokens vier combinada com boas ferramentas, a distância para modelos frontier pode diminuir
- Mas um modelo não consegue se aprimorar sozinho com base na própria saída. É preciso aprendizado ancorado na realidade
Segundo informações corrigidas, na prática trata-se de uma estrutura de chip único com o modelo gravado no silício
Parece ser um Llama 8B q3 gravado com contexto de 1k, e são necessários 10 chips (total de 2,4kW)
Como não dá para trocar o modelo, isso só serve para tarefas estáveis de longo prazo
- É ideal para problemas curtos, como etiquetagem de dados, com menos de 100 tokens
- Também talvez seja possível desenhar modelos voltados mais para RAG ou busca no estilo agente
- Como hoje o ciclo de troca de modelo é rápido, uma produção de chip que leva mais de 6 meses parece pouco realista
- Pode ser aplicado a tarefas de NLP em geral
- Também pode servir bem como chip para NPCs em videogames
17k tokens por segundo não mudam só a eficiência de deploy, mas representam uma velocidade capaz de mudar o próprio modo de avaliação
Benchmarks estáticos como o MMLU foram pensados para velocidade humana; com esse throughput, passa a ser possível fazer dezenas de milhares de testes interativos
Isso mostra que, quanto maior a velocidade, mais inadequadas ficam as formas tradicionais de avaliação
Testei o chatbot, e foi chocante ver uma resposta longa sair imediatamente a 15k tok/s
Queria ter uma versão frontier disso para programação local
- Ver um texto que levaria 2 minutos para ler ser gerado em menos de 1 segundo foi uma cena absurda
- Isso faz lembrar a piada de que talvez não encontremos civilizações alienígenas porque elas operam em outra escala de tempo
- Se essa velocidade for aplicada a loops de raciocínio ou harnesses de geração de código, pode surgir uma revolução em IA
Há reações negativas, mas existem muitas aplicações que realmente precisam de modelos de baixa latência
Por exemplo, transformar busca em linguagem livre em consulta estruturada era inviável por causa da latência dos modelos atuais
Chips assim podem tornar possível um nível de resposta de IA que o usuário percebe como imediato