Motor de inferência CUDA para rodar modelos híbridos Qwen3.5/3.6 em placas de mineração (CMP 100-210)

(github.com/Haru-neo)

2 pontos por haruneo 2026-05-28 | Ainda não há comentários. | Compartilhar no WhatsApp

Fiquei pensando se haveria um jeito barato de rodar modelos grandes, então encontrei a CMP 100-210 e comprei 4 unidades.
Como ela tem 16 GB de HBM2 por placa, pareceu uma boa opção.

Mas a NVIDIA realmente bloqueou tudo de propósito.

Os Tensor Cores são 64 vezes mais lentos (HMMA latency 8→512 cycle)
PCIe Gen1 x1 e sem P2P
O CUPTI também é bloqueado, então nem dá para usar torch.profiler
É um e-fuse gravado no die, então nem com firmware dá para desbloquear (já tentei de tudo)

Por isso, vLLM, o caminho padrão do llama.cpp, FA e bnb não funcionam.
Tudo que mexe com Tensor Core via cuBLAS roda a 1/64 da velocidade ou simplesmente quebra.

Achei um desperdício deixar GPUs no valor de 640 mil won espalhadas em cima da mesa, então escrevi meu próprio motor de inferência.

Escolhendo só os caminhos que não sofrem throttling:

GEMM com kernel próprio em DP4A (int8, 17 TFLOP)
attention com FlashAttention próprio + block-sparse no estilo MInference
Entre GPUs, bridge de hidden state por pinned-host (já que não há P2P)
Contexto de 256K com cache KV em 3 bits (WHT + Lloyd-Max), reduzindo de 17 GB para 3,5 GB

No momento, se for um modelo híbrido Qwen3.5/3.6 (GDN + Attention), tanto o 27B quanto o 9B funcionam.
Também há suporte para API compatível com OpenAI, streaming, tool calls, vision (mmproj) e /no_think.

Benchmarks (vs llama.cpp build 8462, mesmo Q8_0 GGUF, mesmo hardware):

prefill de 9B em GPU única: 1,22 ~ 2,99x
prefill de 27B em 3 GPUs: 1,45 ~ 2,86x
geração: +30 ~ 50%

Limitações, honestamente:

MoE não funciona (apenas híbrido denso)
Se você tiver A100 / H100, use vLLM. É muito mais rápido.
Coisas como DFlash existem só no código e não rodam (incompatibilidade com o drafter)
Suporte oficial apenas para Q8_0

Espero que isso ajude quem está preso no mesmo tipo de ambiente.
Como é um motor feito por um aluno do 1º ano do ensino médio usando o Claude, pode haver muitos bugs e código espaguete.
Issues e PRs são bem-vindos!

Motor de inferência CUDA para rodar modelos híbridos Qwen3.5/3.6 em placas de mineração (CMP 100-210)

Leituras relacionadas

Ainda não há comentários.