- A Taalas desenvolveu uma plataforma que converte modelos de AI em chips de silício sob medida, levando apenas dois meses para implementar um modelo em hardware
- Seu primeiro produto, o modelo hardwired Llama 3.1 8B, processa 17K tokens por segundo, sendo 10 vezes mais rápido, 20 vezes mais barato e consumindo um décimo da energia em relação às abordagens existentes
- Ele possibilita inferência de baixo consumo, baixo custo e alta velocidade, eliminando a complexidade dos sistemas tradicionais baseados em GPU com uma nova arquitetura de chip que integra memória e computação
- Com essa abordagem, a Taalas acelera a operação em tempo real e a popularização da AI, permitindo que desenvolvedores experimentem novas aplicações em um ambiente de latência ultrabaixa e custo ultrarreduzido
Limites atuais da AI e o que ela precisa
- A AI já supera humanos em áreas específicas, mas latência (latency) e custo (cost) são apontados como as maiores restrições para seu uso em massa
- A interação com modelos de linguagem é mais lenta do que a velocidade do pensamento humano, e ferramentas de apoio à programação fazem os usuários esperar minutos por uma resposta
- AIs automatizadas no estilo agente exigem respostas em milissegundos, mas os sistemas atuais ainda não atendem a esse requisito
- A implantação de modelos de última geração exige infraestrutura no nível de supercomputadores de grande porte, com centenas de kW de energia e estruturas complexas de resfriamento, empacotamento e memória
- Essa estrutura se expande para data centers em escala urbana e redes de satélite, causando uma explosão nos custos operacionais
- A Taalas enfatiza que, assim como houve a transição do ENIAC para o transistor, a AI também precisa evoluir para uma estrutura eficiente e de baixo custo
A filosofia tecnológica da Taalas
- Em apenas dois anos e meio desde a fundação, a Taalas concluiu uma plataforma que converte modelos de AI em silício personalizado
- Após receber um novo modelo, é possível transformá-lo em hardware em até 2 meses
- O resultado, os Hardcore Models, oferece melhorias de cerca de 10x em velocidade, custo e eficiência energética em comparação com abordagens tradicionais baseadas em software
- A empresa apresenta três princípios centrais
- Especialização total (Total specialization)
- Produz silício otimizado para cada modelo de AI, alcançando eficiência extrema
- Integração entre armazenamento e computação (Merging storage and computation)
- Elimina gargalos causados pela separação entre DRAM e chips de computação e implementa uma estrutura integrada em um único chip com densidade no nível da DRAM
- Simplificação radical (Radical simplification)
- Remove tecnologias complexas como HBM, empilhamento 3D e resfriamento líquido para reduzir o custo do sistema a um dígito do valor atual
Primeiro produto: modelo hardwired Llama 3.1 8B
- Apresentado como a plataforma de inferência mais rápida, barata e eficiente em energia do mundo
- Ao implementar diretamente o modelo Llama 3.1 8B em silício, ele alcança 17K tokens por segundo, com velocidade 10x maior, custo de fabricação 20x menor e consumo de energia 10x inferior
- Baseado em um modelo open source, garantindo praticidade e facilidade de desenvolvimento
- Suporta ajuste do tamanho da janela de contexto e fine-tuning com base em LoRA
- O chip de primeira geração usa quantização mista de 3 bits e 6 bits, o que ainda gera alguma perda de qualidade em relação a GPUs
- O silício de segunda geração (HC2) adota o formato padrão de ponto flutuante de 4 bits, melhorando qualidade e eficiência
Roteiro futuro de modelos
- O segundo modelo será um LLM de raciocínio de porte intermediário, que deve ser concluído no laboratório na primavera e depois integrado ao serviço de inferência
- O terceiro modelo será um LLM de classe frontier baseado na plataforma HC2, oferecendo maior densidade e velocidade, com implantação prevista para o inverno
Acesso para desenvolvedores e estrutura da equipe
- O modelo Llama, atualmente disponível em beta, é oferecido de forma que os usuários possam experimentar um ambiente de latência ultrabaixa e custo ultrarreduzido
- A Taalas concluiu seu primeiro produto com uma equipe de 24 pessoas e custo de 30 milhões de dólares, apresentado como resultado de metas precisas e execução focada
- A equipe é formada por um pequeno grupo de especialistas que colaboram há mais de 20 anos e valorizam qualidade, precisão e artesanato técnico
Conclusão: AI em tempo real e para todos
- A tecnologia da Taalas oferece um salto de patamar em desempenho, eficiência energética e custo
- Ela propõe uma nova filosofia de arquitetura de sistemas de AI diferente da estrutura tradicional centrada em GPUs
- Ao eliminar as barreiras de latência e custo, oferece aos desenvolvedores um ambiente em que a AI pode ser usada em tempo real
- No futuro, deve evoluir para modelos ainda mais poderosos, avançando na direção de uma acessibilidade universal da AI
2 comentários
Não sei quanto significado isso realmente tem. Como o mercado gosta de hype, o financiamento deve ir bem, mas como estão despejando novos modelos em uma corrida desenfreada, em dois meses isso já parece coisa de um passado distante.
Comentários do Hacker News
Este chip não é de uso geral, mas um projeto especializado em inferência de alta velocidade e baixa latência
Com base em 8B dense 3bit quant (Llama 3.1), processa 15k tokens por segundo, usa um die de 880mm² em processo de 6nm, 53 bilhões de transistores, consome cerca de 200W, custa 20 vezes menos para produzir e reduz a energia por token em 10 vezes
Os fundadores vieram de AMD e Nvidia, têm 25 anos de experiência e já levantaram US$ 200 milhões em investimento de VC
Se calcularmos cerca de US$ 0,2 por mm², isso dá algo em torno de US$ 20 por 1 bilhão de parâmetros, embora dies grandes tenham rendimento menor
Para mais detalhes, veja a entrevista com o fundador
É adequado para aplicações de latência ultrabaixa com menos de 10k tokens, e há boa chance de atrair capital de VC quando for lançado na primavera
O Nvidia H200 faz algo em torno de 12k tok/s, mas em batch, então a latência até o primeiro token é muito maior
O Taalas responde em milissegundos, então é adequado para geração de voz e vídeo em tempo real
Ainda assim, produzir o chip em 2 meses parece otimista demais. Mesmo assim, espera-se que a versão v3 já esteja em nível de lidar com requisições reais de API
Ele consome muitos tokens, mas se tokens forem baratos, isso talvez favoreça ganhos de precisão
Quando o die cresce, o rendimento cai, então fica a dúvida se alguns erros de bit talvez nem sejam um problema tão grande
Os comentários falam da precisão do modelo, mas parecem não entender que isso é um modelo Llama 3.1 8B
O ponto central não é o modelo, mas o desempenho de hardware sob medida
Se colocarem um modelo mais recente como o GLM-5, isso pode ficar realmente incrível
A resposta sai praticamente “assim que você aperta Enter”
Mas o fato de precisar trocar todo o hardware ao trocar o modelo pode afetar a viabilidade comercial
Ainda parece uma política exploratória para medir a reação do mercado
Em vez de flexibilidade, optaram por maximizar a velocidade, mas dizem que há suporte para fine-tuning baseado em LoRA
Deve ser muito útil para coisas como etiquetagem simples de dados ou processamento massivamente paralelo
Testei a demo do ChatJimmy e fiquei surpreso com a rapidez com que a resposta apareceu
chatjimmy.ai
O conteúdo também foi surpreendentemente específico e útil
Parece que isso pode abrir um jeito totalmente novo de desenvolver
Muita gente está cética, mas há demanda suficiente até para modelos não frontier
Basta olhar o gráfico de atividade do Llama 3.1, que mostra crescimento semanal de 22%
Se a latência cair, dá para usar LLM até no nível de carregamento de uma página web
Esse chip transforma LLM em uma interface em tempo real
Brincaram que nunca tinham visto respostas erradas tão rapidamente, mas a tecnologia parece muito promissora
O modelo 8B é pequeno, mas no longo prazo isso pode virar um mercado grande
Por enquanto é pouco útil, mas transmite uma sensação totalmente nova de tecnologia
Para trabalho real, nem sempre é preciso um modelo frontier
Acima de 80B, a diferença passa a ser pequena
Fiquei imaginando se daria para colocar uma placa dessas em um PC pessoal e substituir o Claude Code
Com 17k tokens por segundo, seria possível rodar vários pipelines de agentes ao mesmo tempo
Cada agente poderia ficar responsável por editar e validar código, permitindo iterações rápidas de melhoria
Mesmo sem o melhor modelo, fica a dúvida se repetir várias vezes um modelo intermediário pode levar a resultados melhores
Se uma saída rápida de tokens vier combinada com boas ferramentas, a distância para modelos frontier pode diminuir
Segundo informações corrigidas, na prática trata-se de uma estrutura de chip único com o modelo gravado no silício
Parece ser um Llama 8B q3 gravado com contexto de 1k, e são necessários 10 chips (total de 2,4kW)
Como não dá para trocar o modelo, isso só serve para tarefas estáveis de longo prazo
17k tokens por segundo não mudam só a eficiência de deploy, mas representam uma velocidade capaz de mudar o próprio modo de avaliação
Benchmarks estáticos como o MMLU foram pensados para velocidade humana; com esse throughput, passa a ser possível fazer dezenas de milhares de testes interativos
Isso mostra que, quanto maior a velocidade, mais inadequadas ficam as formas tradicionais de avaliação
Testei o chatbot, e foi chocante ver uma resposta longa sair imediatamente a 15k tok/s
Queria ter uma versão frontier disso para programação local
Há reações negativas, mas existem muitas aplicações que realmente precisam de modelos de baixa latência
Por exemplo, transformar busca em linguagem livre em consulta estruturada era inviável por causa da latência dos modelos atuais
Chips assim podem tornar possível um nível de resposta de IA que o usuário percebe como imediato