2 pontos por GN⁺ 2023-12-14 | 1 comentários | Compartilhar no WhatsApp

Comparação de desempenho do framework Apple MLX em relação à Nvidia RTX 4090

  • A Apple lançou um framework de machine learning para Apple Silicon.
  • Para avaliar o desempenho desse framework, foi usado o exemplo do Whisper.
  • A medição de desempenho foi realizada em arquivos de áudio por meio de código Python.

Resultados

  • Para processar um arquivo de áudio de 10 minutos, o M1 Pro levou 216 segundos, enquanto a Nvidia 4090 levou 186 segundos.
  • Usando um modelo otimizado para Nvidia, foi possível processar em apenas 8 segundos.
  • As especificações de hardware do Macbook e do PC são descritas em detalhes.

A velocidade impressionante do Whisper

  • Em um artigo que virou assunto no HackerNews, um usuário compartilhou um caso em que processou em 8 segundos com uma Nvidia 4090.
  • Também foram feitos testes no macOS, e o resultado foi mais lento que a versão em MLX.

Atualização M2 Ultra / M3 Max

  • Ao processar o mesmo arquivo de áudio no M2 Ultra e no M3 Max, ambos foram muito mais rápidos que o M1, mas mostraram velocidades semelhantes entre si.

Comparação

  • Embora possa não ser totalmente preciso devido a vários fatores, é possível fazer uma comparação aproximada de desempenho.

Consumo de energia

  • Foi medida a diferença de consumo de energia entre o PC e o Macbook.
  • A diferença no consumo do PC entre a Nvidia 4090 em operação e em espera foi de 242W, enquanto a diferença no consumo do Macbook entre os núcleos de GPU do M1 em operação e em espera foi de 38W.

Por que fazer esse teste?

  • Em https://podpodgogo.com, é operado um mecanismo de busca de podcasts, transcrevendo milhares de episódios para permitir busca em texto completo e realizar mineração de dados.

Opinião do GN⁺:

  • O ponto mais importante deste artigo é que o desempenho do framework de machine learning para Apple Silicon é competitivo quando comparado à mais recente placa gráfica de consumo da Nvidia.
  • O fato de ser possível obter esse desempenho especialmente em um notebook é muito interessante, e isso pode ser uma opção atraente para usuários que buscam equilíbrio entre portabilidade e desempenho em tarefas de machine learning.
  • Também é destacado que, em termos de consumo de energia, o Macbook é relativamente eficiente, o que pode ser uma informação importante para usuários que valorizam sustentabilidade ambiental e eficiência de custos.

1 comentários

 
GN⁺ 2023-12-14
Opiniões do Hacker News
  • Parece que está usando o repositório OpenAI Whisper. Para uma comparação de verdade, seria preciso comparar o MLX com faster-whisper ou insanely-fast-whisper rodando na 4090.

    • Em casos de uso reais, descobri que o faster-whisper tem melhor qualidade quando inclui o texto dos segmentos anteriores.
    • O faster-whisper é cerca de 4 a 5 vezes mais rápido que o OpenAI/whisper, e o insanely-fast-whisper é mais 3 a 4 vezes mais rápido que o faster-whisper.
    • Se o Whisper rodando na 4090 não estava muito otimizado, esses resultados são questionáveis.
  • O código está aproveitando a versão mais recente do Apple MLX e usa otimizações específicas da Apple.

    • Espera-se que o MLX receba mais atenção quando forem lançados os bindings Swift para Mac e iOS.
    • No momento, pode haver problemas de compilação com C++20.
  • Fica a dúvida se o Whisper foi escolhido por causa de sua natureza sequencial e da matemática inteira, e se esses resultados se aplicam a outros modelos.

    • Ainda há operações no MLX que não foram otimizadas.
    • São números impressionantes do ponto de vista da latência e do acesso compartilhado, graças à RAM muito rápida conectada diretamente à CPU/GPU.
    • Vale considerar que um sistema com M3 Max custa cerca de 2 vezes o preço de uma 4090.
  • Rodar o Whisper em um Mac M1 é fácil, mas ele não usa MLX por padrão.

    • Gastei algumas horas tentando descobrir o que era necessário para configurá-lo para usar MLX.
    • Aluguei uma VM com GPU e coloquei o Whisper para funcionar em poucos minutos.
  • Haverá muita discussão sobre qual é a melhor escolha para a tarefa X, mas é atraente oferecer esse nível de desempenho com baixo consumo de energia.

  • Considerando o Vision Pro da Apple, isso pode não fazer muito sentido em um laptop, mas é uma grande vantagem em um headset que consome muita energia.

  • Pedido de ajuda sobre bons apps ou fluxos de trabalho open source para transcrição e identificação de locutor.

    • Dei uma olhada em alguns, mas não funcionam bem e travam.
  • Recomenda-se usar um repositório derivado do Whisper capaz de transcrever 1 hora de áudio em menos de 1 minuto na maioria das GPUs.