11 pontos por xguru 2021-08-24 | 1 comentários | Compartilhar no WhatsApp
<p>Texto de James Hamilton, VP da AWS<br /> - O sistema de machine learning Dojo é interessante em três aspectos <br /> 1. Rede em larga escala <br /> → Cada chip D1 oferece 16.000 Gbps de rede (4 canais de 4 Tbps) e, combinados em um MCM de 25 chips (Multi-Chip Modules), fornecem 36.000 Gbps de largura de banda (4x 9 Tb)<br /> 2. Proporção extremamente pequena entre memória e computação <br /> → Cada chip D1 tem 354 unidades funcionais, e cada unidade possui apenas 1,25 mega de SRAM e não tem DRAM, então um chip D1 inteiro tem menos de meio giga de memória (442,5 Mb)<br /> → Um grande pool de DRAM é colocado na extremidade de um rack em unidades de 5, e o próprio rack de computação não possui DRAM<br /> → Pensando em como isso pode funcionar com tão pouca memória, provavelmente é uma combinação de enorme largura de banda de rede com um sistema projetado para executar modelos de visão que usam muito menos memória do que outras cargas típicas de treinamento de ML<br /> 3. Densidade de energia impressionante <br /> → Cada chip D1 consome apenas 400 W, o que está em linha com expectativas de ponta para esse tamanho, mas eles foram combinados em um MCM de 25 chips bastante denso para consumir apenas 15 kW (10 kW dos D1 e 5 kW dos reguladores de tensão)<br /> → Com isso, um sistema de treinamento Dojo de 10 racks totalmente preenchido chega a 1,8 megawatt<br /> → Em termos de escala, um data center de porte médio operaria na faixa de 30 a 40 megawatts<br /> <br /> - Embora seja um detalhe menor, colocar o VRD (Voltage Regulator Down) diretamente no tile parece uma boa tentativa para fornecer a alimentação incomumente alta de 52 V. Mesmo considerando um consumo de 15 kW, ainda são 288 A mesmo em 52 V<br /> - 354 unidades funcionais são integradas em um único chip D1 de 645 mm^2. 25 chips D1 formam um módulo multichip chamado training tile, 12 training tiles compõem um rack, e 10 racks preenchem um Exapod.<br /> - “Um sistema bastante inovador”</p>

1 comentários

 
xguru 2021-08-24
<p>Textos sobre o Tesla AI Day para ler junto<br /> - Impressões sobre o Tesla AI Day https://pt.news.hada.io/topic?id=4859<br /> - Resumo do conteúdo do Tesla AI Day.gif https://gall.dcinside.com/mgallery/board/… /> - Versão completa, parte 1, do Tesla AI Day com legendas em coreano https://www.youtube.com/watch?v=Ah-TMrKSvic</p>;