A demonstração dessa tecnologia é muito impressionante, e o fato de ser uma demo verdadeiramente aberta, que qualquer pessoa pode testar sem precisar criar uma conta, é ótimo.
Ver tokens sendo gerados em uma velocidade muito maior do que víamos antes parece surreal.
Achei surpreendente que não tenha sido adquirida por gigantes como Microsoft, Apple ou Google.
Resumo do segundo comentário:
O principal problema das LPUs da Groq é que não há HBM, e elas contam com uma quantidade mínima de SRAM ultrarrápida (230 MiB).
São necessárias 256 LPUs (equivalente a 4 racks de servidores) para servir um único modelo.
Isso é útil quando há muitos clientes para um único modelo, mas é difícil de usar quando você precisa de vários modelos e ajuste fino.
Resumo do terceiro comentário:
A demo é impressionante, mas é preciso ser cético sem benchmarks.
Existem maneiras de acelerar um modelo sacrificando qualidade, como a quantização de modelo.
Espero que os avanços em tokens por segundo em LLMs acompanhem o que ocorreu com as instruções por segundo das CPUs há décadas.
Resumo do quarto comentário:
Alguém que trabalha na Groq disse que, se tiver perguntas, pode perguntar.
Mencionou que parte do pipeline de compilação da Groq foi escrita em Haskell.
Resumo do quinto comentário:
A demo é impressionante, mas o requisito de hardware e o custo a tornam acessível apenas para grandes empresas.
Pergunta quando os preços cairão o suficiente para ficarem baratos também para hobbistas.
O demo do CNN Vapi também foi impressionante, mas ressaltou que outras plataformas já permitem conversas naturais com baixa latência de áudio.
Compartilhou seu pensamento sobre um limite de tokens por segundo para interação em tempo real e como ir além disso pode ser útil para comunicação entre IAs.
Resumo do sexto comentário:
Pergunta por que isso é impressionante e por que não se pode simplesmente usar mais poder computacional para aumentar a velocidade da resposta.
Citando um gráfico da NVIDIA, disse que o H100 executa o modelo 70B acima de 500 tokens por segundo.
Resumo do sétimo comentário:
Apontou que a página não funciona quando uma determinada fonte não está acessível e que precisa repetir a requisição várias vezes.
Descobriu isso porque o navegador bloqueia esse tipo de rastreador por padrão.
Resumo do oitavo comentário:
Pergunta se essa tecnologia tem relação com o modelo Grok da x.ai.
Disse que, após testar, ficou muito impressionado com a velocidade.
Resumo do nono comentário:
Elogiou tanto a Groq quanto o Mixtral.
Viu uma demo de geração de um arquivo YAML do GitLab CI usando um prompt específico.
Resumo do décimo comentário:
O desempenho da API da Groq também está nesse nível.
Compartilhou que atinge consistentemente mais de 400 tokens por segundo com benchmarks de desempenho ao longo do tempo.
1 comentários
Comentários do Hacker News
Resumo do primeiro comentário:
Resumo do segundo comentário:
Resumo do terceiro comentário:
Resumo do quarto comentário:
Resumo do quinto comentário:
Resumo do sexto comentário:
Resumo do sétimo comentário:
Resumo do oitavo comentário:
Grokda x.ai.Resumo do nono comentário:
Resumo do décimo comentário: