13 pontos por xguru 2023-05-02 | 1 comentários | Compartilhar no WhatsApp
  • Suporte a quantização inteira (integer quantization): permite converter modelos ggml Whisper dos pesos padrão em ponto flutuante de 16 bits para pesos inteiros de 4, 6 e 8 bits
    • Reduz o tamanho em disco e o uso de memória, além de executar mais rápido em algumas arquiteturas
    • Isso foi possível graças ao código contribuído ao projeto llama.cpp
  • Suporte a GPU NVIDIA usando cuBLAS