1 pontos por GN⁺ 2024-09-08 | 1 comentários | Compartilhar no WhatsApp

LLMs acelerados por hardware: pesquisa abrangente e comparação

  • Os LLMs surgiram como ferramentas poderosas em tarefas de processamento de linguagem natural, revolucionando a área com sua capacidade de compreender e gerar texto semelhante ao humano
  • Este artigo faz uma investigação abrangente de diversos esforços de pesquisa sobre a aceleração de redes Transformer para grandes modelos de linguagem usando aceleradores de hardware

Framework e comparação

  • Apresenta o framework proposto e realiza comparações qualitativas e quantitativas sobre tecnologia, plataforma de processamento (FPGA, ASIC, In-Memory, GPU), ganho de velocidade, eficiência energética, desempenho (GOPs) e eficiência energética (GOPs/W)
  • O principal desafio é que cada esquema proposto foi implementado em tecnologias de processo diferentes, o que dificulta uma comparação justa
  • A principal contribuição deste artigo é estimar os resultados de desempenho e eficiência energética na mesma tecnologia, permitindo uma comparação justa

Experimentos e resultados

  • Implementa partes de LLMs em vários chips FPGA para estimar os resultados na mesma tecnologia de processo e comparar o desempenho de forma justa

Resumo do GN⁺

  • Este artigo oferece uma pesquisa abrangente sobre a aceleração de hardware de grandes modelos de linguagem (LLMs)
  • Compara desempenho e eficiência energética em diferentes plataformas de processamento, permitindo uma comparação justa
  • Usa experimentos com chips FPGA para estimar resultados na mesma tecnologia
  • Pode ser útil para pessoas interessadas em melhorar o desempenho de LLMs na área de processamento de linguagem natural
  • Outros projetos com funcionalidades semelhantes incluem os aceleradores de GPU da NVIDIA e as TPUs do Google

1 comentários

 
GN⁺ 2024-09-08
Comentários no Hacker News
  • Desde os anos 1990, a velocidade das CPUs vem melhorando mais rápido do que a largura de banda da memória

    • William Wulf e Sally McKee previram a "barreira da memória" em 1995
    • Nos últimos 20 anos, os FLOPS do hardware de servidores aumentaram 3x a cada 2 anos, mas a largura de banda de DRAM e de interconexão aumentou apenas 1,6x e 1,4x, respectivamente
    • No treinamento e na inferência de LLMs, o gargalo de desempenho está migrando cada vez mais para a largura de banda da memória
    • Especialmente em modelos decodificadores Transformer autorregressivos, a largura de banda da memória pode se tornar o principal gargalo
    • Novas tecnologias como compute-in-memory (CIM) ou processing-in-memory (PIM) estão se tornando necessárias
    • CIM/PIM melhora a latência e o consumo de energia ao executar operações diretamente na memória, sem transferir os dados para os registradores da CPU
    • O artigo estima o desempenho no processo de 16nm para comparar hardware ASIC e FPGA em diferentes tamanhos de processo de semicondutores
    • Não foram feitas estimativas para CIM/PIM, porque o desempenho não depende apenas da tecnologia de processo
    • Mais informações podem ser encontradas nos links abaixo
  • Tenho uma preferência pessoal por systolic arrays

    • Depois de analisar várias opções por décadas, escolhi uma Cartesian grid of cells como a solução ideal
    • Cada célula tem 4 bits de entrada e 4 bits de saída, com um registrador de deslocamento de 64 bits no centro
    • Por meio da mágica da coloração de grafos, é possível sincronizar todas as células para que os dados possam fluir em qualquer direção
    • Ela oferece a flexibilidade de um FPGA sem precisar se preocupar com problemas de temporização ou condições de corrida
    • Todas as operações acontecem em paralelo
    • Tenho essa ideia desde 1982 e gostaria que alguém a colocasse em prática
    • Chamo essa ideia de BitGrid
    • O artigo relacionado pode ser visto aqui
  • Gostaria de ver um LLM no WebGL em que tudo fosse feito com texturas

    • Acho que seria divertido ver visualmente as diferenças na arquitetura
  • Explica o sucesso da LPU baseada em ASIC da Groq

    • A inferência de LLM na Groq Cloud é muito rápida
    • A redução no consumo de energia também é uma vantagem
  • Hoje em dia, a movimentação de memória é o gargalo

    • Por isso, HBM caro é necessário
    • O design da Nvidia também é otimizado para memória
  • Fico me perguntando se uma arquitetura híbrida FPGA + ASIC + in-mem poderia ter um papel em escalabilidade/flexibilidade

    • Será que integrar as vantagens de cada um (por exemplo, a flexibilidade do FPGA, o desempenho do ASIC e a eficiência energética do in-memory) poderia melhorar ainda mais o desempenho de LLMs?
  • Havia um artigo sobre rodar um LLM com a mesma energia de uma lâmpada

  • Fico me perguntando se existe uma forma de ler conteúdo no Arxiv de um jeito "bom"

    • Fico confuso com a interface do site e muitas vezes saio sem ver o conteúdo
  • Fico me perguntando se "in-memory" é um hardware especial que combina CPU e RAM