Groq executa o Mixtral 8x7B-32k a 500 T/s

(groq.com)

1 pontos por GN⁺ 2024-02-21 | 1 comentários | Compartilhar no WhatsApp

Em um cenário em que a velocidade de resposta e o custo de inferência são gargalos em serviços de IA, a Groq destaca sua infraestrutura de inferência rápida e barata
O diferencial é que, em vez de uma abordagem centrada em GPU, ela usa uma stack baseada em LPU desenvolvida desde 2016 exclusivamente para inferência
O GroqCloud opera a stack de LPU em data centers no mundo todo para oferecer baixa latência, e a empresa afirma que 3 milhões de desenvolvedores e equipes usam a plataforma
Os desenvolvedores podem integrar com relativa facilidade a partir de clientes compatíveis com OpenAI, trocando apenas base_url e GROQ_API_KEY
A Fintool afirma que, após adotar o GroqCloud, a velocidade do chat ficou 7,41 vezes maior e o custo caiu 89%, enquanto a McLaren Formula 1 Team também escolheu a Groq como parceira de inferência

Plataforma de inferência rápida e barata

A Groq vê a inferência (inference) como o combustível central da IA e apresenta uma plataforma de inferência rápida e barata que opera com estabilidade também em cargas de trabalho reais
A mensagem principal do site se aproxima de “inferência rápida e barata que não vacila nem em situações reais”
A empresa foi fundada em 2016 e apresenta como propósito de fundação o foco exclusivo em inferência

Uma stack dedicada à inferência construída com LPU

Ao contrário de outras empresas que dependem de GPUs, a Groq coloca seu próprio silício como principal diferencial
A empresa diz ter sido pioneira em LPU em 2016 e a descreve como o primeiro chip criado exclusivamente para inferência
As escolhas de design da LPU se concentram em manter as respostas de modelos inteligentes rápidas e baratas
Com a mensagem de que “não é o benchmark que é implantado, e sim a carga de trabalho”, a empresa enfatiza o ambiente real de produção

Data centers globais e GroqCloud

A stack baseada em LPU roda em data centers no mundo todo, com foco em oferecer respostas de baixa latência
Com base na premissa de que a inferência funciona melhor quando está local, a empresa enfatiza uma arquitetura que entrega respostas do modelo mais perto do usuário
O GroqCloud é o serviço em nuvem pelo qual desenvolvedores podem usar inferência rápida e barata
A Groq afirma que 3 milhões de desenvolvedores e equipes usam a plataforma

Integração para desenvolvedores compatível com OpenAI

A Groq enfatiza a integração compatível com OpenAI e diz que é possível migrar em “duas linhas”
O exemplo em Python define os seguintes valores no cliente openai.OpenAI
- base_url="https://api.groq.com/openai/v1";
- api_key=os.environ.get("GROQ_API_KEY")
Os desenvolvedores podem começar pelo console da Groq ou emitir uma chave de API gratuita para uso

Casos de clientes e parcerias

A McLaren Formula 1 Team é apresentada como um caso de parceria que escolheu a Groq para inferência global
A McLaren F1 Team escolheu a Groq para tomada de decisão, análise, desenvolvimento e insights em tempo real
Kevin Scott, CTO da PGA of America, diz que usa a Groq para tarefas em que desempenho é mais importante
Nicolas Bustamante, CEO da Fintool, relata as seguintes mudanças após adotar o GroqCloud
- aumento de 7,41 vezes na velocidade do chat
- redução de 89% no custo
- aumento de 3 vezes no consumo de tokens
Abhigyan Arya, CTO da Opennote, afirma que a Groq trouxe redução de custos e de carga operacional, além de ajudar a manter razoável o preço do plano premium para estudantes

Itens de notícia divulgados junto

Groq Raises $750 Million as Inference Demand Surges: item de 17 de setembro de 2025
Day Zero Support for OpenAI Open Models: item de 5 de agosto de 2025
From Speed to Scale: How Groq Is Optimized for MoE & Other Large Models: item de 27 de maio de 2025

1 comentários

GN⁺ 2024-02-21

Opiniões do Hacker News

Esta é uma das demos de tecnologia mais impressionantes que já vi na vida, e gosto do fato de ser uma demo pública de verdade, que qualquer pessoa pode experimentar imediatamente sem se cadastrar
Ver os tokens jorrando em uma velocidade absurda chega a parecer irreal, e é ainda mais surpreendente porque estamos acostumados a velocidades que não chegam nem a 1/5 disso. É curioso que ainda não tenham sido comprados por Microsoft, Apple, Google ou afins pagando um grande prêmio
- Se entendi corretamente, cada chip tem 200 MB de RAM, o que significa que são necessários vários racks para rodar um único LLM; isso não soa como avanço
  Precisamos de uma única placa PCIe com dezenas a centenas de GB de RAM e um processador que lide bem com isso
- O Perplexity Labs também tem uma demo pública do Mixtral 8x7b, mas não é tão rápida assim
  https://labs.perplexity.ai/
- Realmente não entendo por que isso é tão incrível, e fico curioso
  O ponto central é qual é o TFLOPS/$ e o TFLOPS/W, e como isso se compara com Nvidia, AMD e TPU. Pesquisando por alto, parece que a Groq vem fazendo alegações parecidas desde 2020, mas as pessoas ainda pagam um grande prêmio pela Nvidia e a Groq não parece estar abalando muito esse mercado. Rodar um modelo bem menor que o ChatGPT em hardware semelhante ou mais potente pode ser rápido, mas isso não significa que seja um avanço revolucionário para a maioria dos modelos ou casos de uso em que a latência não é a métrica principal
- Por que vender? Parece muito mais divertido derrotá-los no próprio jogo deles
O principal problema da LPU da Groq é que ela não tem HBM nenhuma, apenas uma SRAM ultrarrápida de 230 MiB, muito pequena
É verdade que ela é 20 vezes mais rápida que HBM3, mas por isso são necessárias cerca de 256 LPUs, ou seja, algo como 4 racks de servidores, para servir um único modelo. Em contrapartida, mesmo uma H200 consegue servir esses modelos de forma bastante razoável. Pode ser uma boa opção para um único modelo com muitos clientes, mas fica difícil de usar no momento em que você precisa de vários modelos e muitas fine-tunings ou LoRAs de alto rank. Também não combina com implantações on-premises, porque a principal vantagem está em agrupar vários usuários no mesmo modelo
https://wow.groq.com/groqcard-accelerator/
https://twitter.com/tomjaguarpaw/status/1759615563586744334
- Do ponto de vista de um engenheiro da Groq, não vejo bem por que conseguir escalar a computação para além de uma única placa ou de um único nó seria um problema
  Gosto da analogia da fábrica de carros: dá para construir um carro com uma ou duas furadeiras, mas uma fábrica automatizada moderna tem centenas delas. Com uma única furadeira você talvez consiga fazer vários tipos de carro, mas a linha de montagem de uma fábrica só consegue fazer carros de uma configuração específica. Isso não significa que a fábrica seja ineficiente. A afirmação de que a H200 funciona muito bem também pode ser razoável para casos de interação humana síncrona, mas é discutível. Gostaria de ver na Nvidia um exemplo de um modelo com 30B+ parâmetros fazendo RAG durante uma conversa e ainda gerando resposta por voz em menos de 1 segundo
- A Groq declarou no artigo que usou 576 chips para obter esse resultado
  Também é preciso levar em conta que cada usuário precisa de um cache KV separado, o que pode acrescentar alguns GB por usuário. Como observador independente, meu julgamento profissional é que o custo de receita para atingir esses números de desempenho provavelmente passa de milhões de dólares, e amortizar isso pelo uso esperado para chegar ao preço teórico divulgado parece irrealista. Do ponto de vista de desempenho real por dólar, não parece muito viável, mas, ignorando o custo, é de fato uma demo muito legal mostrando desempenho absurdo
  https://www.nextplatform.com/2023/11/27/groq-says-it-can-dep...
- Se baixa latência é o objetivo, é preciso ter muito cuidado com HBM. Não é só a latência em si; a não determinismo também é um problema
  Uma grande vantagem da arquitetura LPU é que ela permite criar sistemas com centenas de chips usando interconexão rápida e ainda conhecer o timing exato de todo o sistema até a escala de ppm. Quando você começa a inserir componentes não determinísticos, as garantias de latência desaparecem muito rapidamente
- O dispositivo da Groq, graças à SRAM, é muito adequado para inferência em lotes pequenos
  Dito isso, não tenho certeza se há vantagem em tokens/segundo/dólar, especialmente para usuários de lotes médios a grandes que podem comprar muito silício. Pela arquitetura, a Groq não parece ficar mais rápida além de batch size 1, enquanto placas da Nvidia devem ganhar throughput de forma significativa quando o tamanho do batch sobe para a casa das centenas
- Talvez seja possível carregar um modelo base e várias LoRAs quase sem usar mais RAM do que a exigida pelo modelo base
  Poderia haver uma abordagem em que o fine-tuning altera apenas cerca de 0,1% dos pesos e, a cada cálculo, em vez de calcular a diferença nos pesos, calcula-se a diferença nas ativações da camada de saída
À primeira vista, é muito impressionante. Mas, sem benchmarks, é melhor manter certo ceticismo
Existem muitos atalhos, como quantização agressiva, que sacrificam qualidade para aumentar a velocidade. Se não for isso, eu gostaria de ver o avanço de tokens/s em LLMs continuar como o de instruções/s em CPUs algumas décadas atrás
- Concordo com a postura científica de abordar isso com ceticismo por padrão
  O app de chat e a API estão abertos para que qualquer pessoa possa testar e comparar a qualidade das saídas com a de outros provedores
- Como o tome disse antes, não fazemos quantização, e todos os valores ativos são FP16
  Também há benchmarks independentes: https://artificialanalysis.ai/models/llama-2-chat-70b
- Na demonstração anterior do Llama 70B, eles afirmaram que rodavam sem quantização
  https://twitter.com/lifebypixels/status/1757619926360096852
  Mas este comentário diz que “alguns dados são armazenados em FP8 quando salvos”, e não sei exatamente o que isso significa: https://news.ycombinator.com/item?id=39432025
- Durante o processo de benchmark da Groq, perguntei se havia quantização e recebi a confirmação de que o modelo está sendo executado em FP-16 completo
  É um bom ponto a verificar e uma parte importante. Link do benchmark: https://artificialanalysis.ai/
  A pergunta foi sobre a API, não sobre a demo de chat
- Talvez eu esteja forçando demais a analogia, mas será que os LLMs já entraram na era dos transistores?
  Quando vejo monstros de 70 bilhões de parâmetros, ainda parece que estamos construindo um ENIAC com válvulas. Em outras palavras, fico curioso se agora estamos prontos para melhorar tokens/s em LLMs de forma constante ano após ano, ou se ainda estamos numa fase em que precisamos de mais uma ou duas grandes rupturas antes disso
Trabalho na Groq. Podem perguntar qualquer coisa
Se olharem meu histórico de posts no HN, falo bastante sobre Haskell, e sim, uma parte do pipeline de compilação da Groq é escrita em Haskell
- Pode ser um bug da interface web, mas depois de enviar um prompt ao modelo Mixtral e receber uma resposta, mudei o menu suspenso para Llama e enviei o mesmo prompt, e recebi uma resposta exatamente igual
  Pode ser cache, pode ser que o modelo consultado na prática não tenha mudado, ou outra coisa
- Haskell parece bem incomum na área de machine learning
  Fico curioso se essa escolha tem alguma vantagem especial e se vocês a recomendariam a outras equipes. Também gostaria de saber quais partes do projeto usam Haskell e quais não usam
- Pelo que entendi, vocês estão aumentando a velocidade de geração de tokens com hardware especializado, e a geração de tokens é fortemente limitada pela latência da velocidade de computação
  Mas a geração de tokens normalmente só precisa de multiplicação de matrizes unidimensional. Quando envio um prompt de cerca de 100 tokens, o serviço fica muito mais lento, provavelmente porque precisa multiplicar uma matriz bidimensional. Fico curioso sobre o que vocês estão fazendo para acelerar a computação de processamento de prompts
- Vocês parecem ser uma das poucas empresas com foco em inferência de baixa latência, sem se concentrar apenas em throughput e, consequentemente, custo por inferência
  Fico curioso sobre qual vocês veem como o principal mercado
- Obrigado pelo AMA. Fico curioso para saber quantos GroqCards vocês usam para rodar a demo e se estão usando uma versão nova com mais SRAM do que os 230 MB vistos online
  Acho que esse número afetaria o uso de processamento em lote e a redução de custos. Além disso, se der para integrar um pipeline de TTS à stack, chamadas com latência realmente baixa parecem possíveis. Estou assumindo que o produto em uso é este: https://www.bittware.com/products/groq/
Demo impressionante
Mas, por causa dos requisitos de hardware e do custo, parece difícil de acessar para quem não é uma grande empresa. Fico curioso sobre quando vocês acham que será possível chegar a uma faixa de preço que desenvolvedores hobbistas também consigam pagar. A demo da CNN Vapi também foi impressionante, mas o https://smarterchild.chat/ compartilhado algumas semanas atrás também permitia conversas naturais com latência de voz muito baixa. Por aquela discussão, parece ter sido feito pela https://www.sindarin.tech/, e fico curioso se usam Groq LPU ou outra coisa. Acredito que, ao chegar a cerca de 50 t/s, a interação em tempo real já se torna possível. Acima disso, é útil para acelerar a geração de grandes volumes de dados, mas passa muito da velocidade que humanos conseguem processar, então o ganho percebido diminui. Pode ser útil para comunicação entre AIs, transmissão de conhecimento e contexto, coisas assim. Nesse caso, imagino que um produto LPU focado apenas em interação AI-humano poderia ser viável com desempenho muito menor e custo muito mais baixo
https://news.ycombinator.com/item?id=39180237
- O acesso à API de tokens como serviço garante um custo por token menor que o de qualquer outro provedor
  Veja https://wow.groq.com. No lado de venda de hardware, o foco é vender sistemas completos e, na prática, isso só faz sentido para empresas ou instituições de pesquisa
- Para interagir em tempo real com sistemas de AI, é absolutamente necessário ter velocidades muito acima de 50 t/s
  A maior parte da saída dos LLMs será usada para monólogo interno, planejamento, RAG, resumo etc., e só a saída final será entregue ao usuário. Basta imaginar um GPT-5 extremamente rápido planejando a resposta várias vezes em alguns piscares de olhos, pesquisando na web, escrevendo resenhas, debatendo consigo mesmo, refinando o que encontrou, criticando a resposta e reescrevendo-a
- Considerando que a equipe da Sindarin parece ter cerca de 3 pessoas, isso parece mais uma combinação muito inteligente de tecnologias existentes
  Já existem APIs de voz que oferecem transcrição em tempo real por palavra, e o Google também tem algo assim. O segredo principal provavelmente é um pipeline muito bem projetado entre reconhecimento de fala → LLM → TTS. Não estou tentando diminuir a conquista; pelo contrário, fiquei interessado porque quero entender como reproduzir esse resultado
Nem sempre é rápido; se você faz uma pergunta complexa ou coloca um prompt prévio pedindo para responder em outro tom, ainda demora para carregar
É interessante, mas no fim parece ter uma boa chance de virar um fracasso
Se a página não consegue acessar determinadas fontes, ela falha e fica repetindo a requisição
Descobri isso porque o navegador bloqueia por padrão esse tipo de rastreador na prática
https://fonts.gstatic.com/s/notosansarabic/[...]
https://fonts.gstatic.com/s/notosanshebrew/[...]
https://fonts.gstatic.com/s/notosanssc/[...]
- Parece uma forma de mostrar ao Google o quanto você é popular e interessante como alvo de aquisição, sem instalar diretamente rastreadores do Google no site
- Mesmo tentando usar substituição de fontes com um plugin de privacidade, o mesmo problema acontece
  É bem estranho existir uma dependência dessas
Sou meio ingênuo nessa área, então queria perguntar: por que isso é impressionante?
Para responder mais rápido, não bastaria colocar mais computação? O fato de formar fila quando há carga não mostra apenas o trade-off entre quantas requisições dá para processar por unidade de tempo e a quantidade de computação alocada para responder mais rápido? Este gráfico da NVIDIA parece dizer que o H100 roda llama v2 70B a mais de 500 tok/s
https://raw.githubusercontent.com/NVIDIA/TensorRT-LLM/rel/do...
- Aumentar a computação pode melhorar o throughput, mas não melhora facilmente a latência entre tokens
  Na geração, o gargalo normalmente é o tempo que leva para atravessar a rede a cada token. Para acelerar isso, é preciso fazer o cálculo em si mais rápido e, depois de esgotar opções óbvias como usar os aceleradores mais rápidos ou cache, isso vira um problema difícil
- Inferência de LLM é, por natureza, um problema sequencial
  Fazer mais coisas em paralelo não a torna mais rápida. Não dá para gerar o 101º token antes de gerar o 100º
- Throughput de tokens e latência são coisas diferentes
  Throughput de tokens é o throughput do GPU/sistema como um todo; latência é o throughput de tokens na perspectiva de um usuário individual. A Groq oferece latência extremamente baixa, ou seja, throughput de tokens muito alto por usuário, mas ainda não há números de throughput total de tokens do sistema inteiro. Já a métrica da Nvidia aqui mostra o throughput de tokens do GPU/sistema como um todo. Mesmo que você consiga de fato 1,5k t/s em um H100, o throughput de tokens por usuário em termos de latência pode ser muito menor, algo como 20 t/s. A métrica realmente importante é o custo por token. O fato de a Groq conseguir rodar com baixa latência não quer dizer que consiga fazer isso barato. Uma aproximação útil é dividir o custo do sistema pelo throughput de tokens por segundo do sistema inteiro, mas, sem o throughput total em tokens por segundo do sistema da Groq, é difícil falar de eficiência; por enquanto, eles também podem estar subsidiando o custo do sistema para fins de PR e aumentar o preço depois
- No fim, parece depender de quanto custa a infraestrutura do texto
  O H100 tem custo de produção de apenas cerca de US$ 3.300, mas é vendido em média por cerca de US$ 30 mil
  https://www.hpcwire.com/2023/08/17/nvidia-h100-are-550000-gp...
- Acho que a Nvidia está listando o throughput máximo em processamento em lote. Por exemplo, 50 tok/s para 10 prompts diferentes ao mesmo tempo
  A LPU da Groq claramente supera o H100 em velocidade pura. Mas, fundamentalmente, é um sistema com preço 500 vezes maior e velocidade 10 vezes maior, e a aparência é a de uma empresa que opera blockchain fazendo marketing pesado, para inferência de LLM, de um chip que originalmente era destinado à mineração de criptomoedas. Também é uma coincidência bem engraçada que, toda vez que alguém posta esse link surpreso toda semana, engenheiros da Groq estejam de prontidão nos comentários, preparados para responder a tudo
Isso não tem nada a ver com o modelo Grok fornecido pela x.ai?
Testei e a velocidade é muito impressionante
- Não tem nada a ver com o Elon; nós, da Groq, usamos o nome primeiro
  No campo de IA, é uma escolha de nome natural por causa da conexão com o espírito hacker, mas a marca registrada é nossa e o Elon não a tem
  https://wow.groq.com/hey-elon-its-time-to-cease-de-grok/
- Se não fosse por este comentário, eu teria achado que era algo feito pelo Twitter
- Também existe um brinquedo infantil chamado Grok, que usa LLM para conversar com crianças
Tanto a Groq quanto o Mixtral são de cair o queixo
Usei o prompt abaixo: criar um arquivo yaml de GitLab CI para um projeto híbrido frontend/backend em que, em /frontend, há um frontend Node empacotado com yarn e buildado com vite para dentro de /backend/public, e o backend é um servidor Python Flask
- Ainda assim, ele cometeu um erro em um código Python simples
  particles = np.zeros((2, 3)) # position, velocity, and acceleration
  particles[:, 0] = [0.0, 0.0, 0.0] # initial position

Groq executa o Mixtral 8x7B-32k a 500 T/s

Plataforma de inferência rápida e barata

Uma stack dedicada à inferência construída com LPU

Data centers globais e GroqCloud

Integração para desenvolvedores compatível com OpenAI

Casos de clientes e parcerias

Itens de notícia divulgados junto

Leituras relacionadas

1 comentários

Opiniões do Hacker News