1 comentários

 
GN⁺ 2024-02-21
Comentários do Hacker News
  • Resumo do primeiro comentário:

      • A demonstração dessa tecnologia é muito impressionante, e o fato de ser uma demo verdadeiramente aberta, que qualquer pessoa pode testar sem precisar criar uma conta, é ótimo.
      • Ver tokens sendo gerados em uma velocidade muito maior do que víamos antes parece surreal.
      • Achei surpreendente que não tenha sido adquirida por gigantes como Microsoft, Apple ou Google.
  • Resumo do segundo comentário:

      • O principal problema das LPUs da Groq é que não há HBM, e elas contam com uma quantidade mínima de SRAM ultrarrápida (230 MiB).
      • São necessárias 256 LPUs (equivalente a 4 racks de servidores) para servir um único modelo.
      • Isso é útil quando há muitos clientes para um único modelo, mas é difícil de usar quando você precisa de vários modelos e ajuste fino.
  • Resumo do terceiro comentário:

      • A demo é impressionante, mas é preciso ser cético sem benchmarks.
      • Existem maneiras de acelerar um modelo sacrificando qualidade, como a quantização de modelo.
      • Espero que os avanços em tokens por segundo em LLMs acompanhem o que ocorreu com as instruções por segundo das CPUs há décadas.
  • Resumo do quarto comentário:

      • Alguém que trabalha na Groq disse que, se tiver perguntas, pode perguntar.
      • Mencionou que parte do pipeline de compilação da Groq foi escrita em Haskell.
  • Resumo do quinto comentário:

      • A demo é impressionante, mas o requisito de hardware e o custo a tornam acessível apenas para grandes empresas.
      • Pergunta quando os preços cairão o suficiente para ficarem baratos também para hobbistas.
      • O demo do CNN Vapi também foi impressionante, mas ressaltou que outras plataformas já permitem conversas naturais com baixa latência de áudio.
      • Compartilhou seu pensamento sobre um limite de tokens por segundo para interação em tempo real e como ir além disso pode ser útil para comunicação entre IAs.
  • Resumo do sexto comentário:

      • Pergunta por que isso é impressionante e por que não se pode simplesmente usar mais poder computacional para aumentar a velocidade da resposta.
      • Citando um gráfico da NVIDIA, disse que o H100 executa o modelo 70B acima de 500 tokens por segundo.
  • Resumo do sétimo comentário:

      • Apontou que a página não funciona quando uma determinada fonte não está acessível e que precisa repetir a requisição várias vezes.
      • Descobriu isso porque o navegador bloqueia esse tipo de rastreador por padrão.
  • Resumo do oitavo comentário:

      • Pergunta se essa tecnologia tem relação com o modelo Grok da x.ai.
      • Disse que, após testar, ficou muito impressionado com a velocidade.
  • Resumo do nono comentário:

      • Elogiou tanto a Groq quanto o Mixtral.
      • Viu uma demo de geração de um arquivo YAML do GitLab CI usando um prompt específico.
  • Resumo do décimo comentário:

      • O desempenho da API da Groq também está nesse nível.
      • Compartilhou que atinge consistentemente mais de 400 tokens por segundo com benchmarks de desempenho ao longo do tempo.