- A AMD anunciou recentemente o acelerador gráfico MI300X, alegando desempenho até 1,6 vez maior em comparação com o H100 da Nvidia
- Em resposta, a Nvidia rebateu dizendo que a AMD não usou suas otimizações ao comparar com o H100
- A AMD apontou que a Nvidia mostrou apenas desempenho de throughput que não reproduz situações reais, sem considerar a latência, que é comum em cargas de trabalho de servidores
- Além disso, alegou que a Nvidia usou o TensorRT-LLM interno do H100 para fazer benchmark com um conjunto seletivo de cargas de inferência
- A AMD afirmou que realizou os testes usando o vLLM, amplamente utilizado, e o tipo de dado FP16, destacando que o vLLM não oferece suporte a FP8
- A AMD criticou a Nvidia por apresentar desempenho de throughput sem refletir ambientes reais de servidores e sem considerar a latência
Resultados atualizados dos testes da AMD com otimizações e consideração de latência
- A AMD realizou três testes de desempenho usando o TensorRT-LLM da Nvidia
- No primeiro teste, as duas empresas foram comparadas usando vLLM com conjunto de dados FP16: o MI300X foi 2,1 vezes mais rápido
- No segundo teste, o desempenho do vLLM no MI300X foi comparado com o TensorRT-LLM: o MI300X foi 1,3 vez mais rápido
- No terceiro teste, o vLLM (FP16) do MI300X foi comparado com o TensorRT-LLM (FP8): 1,7 segundos contra 1,6 segundo, com o H100 sendo ligeiramente mais rápido
- Também foi reconhecido que, para usar FP8, é necessário abandonar o FP16 junto com o sistema fechado do TensorRT-LLM e, essencialmente, abrir mão do vLLM para sempre
Ainda não há comentários.