- A Tesla abriu o código do Tesla Transport Protocol over Ethernet (TTPoE) na HotChips 2024
- A Tesla se juntou ao Ultra Ethernet Consortium (UEC) para compartilhar esse protocolo e trabalhar na padronização de um novo fabric de alta velocidade e baixa latência para AI/ML/data centers
- O TTPoE busca ser não proprietário, de baixo custo e orientado a controle de congestionamento distribuído, quadros EthernetII padrão e um protocolo de interconexão descentralizado
- Características do TTPoE
- Assim como no TCP, perda de pacotes e retransmissão são permitidas, mas a transmissão completa é garantida
- A implantação inicial do TTPoE ocorreu no projeto Tesla Dojo v1
- O protocolo roda inteiramente em hardware e foi implantado em um supercomputador multiexaFLOPS (fp16) de escala massiva com dezenas de milhares de endpoints simultâneos
- Esse protocolo pode estabelecer e operar links sem intervenção de CPU ou do sistema operacional
- O protocolo não é complexo nem excessivamente sofisticado; ele se baseia em princípios fundamentais
- O transporte via Ethernet, em essência, serve para mover dados de A para B e deveria ser limitado apenas por restrições físicas
- Em sistemas de escala muito grande, o gerenciamento centralizado de congestionamento é uma tentativa tola, e cada endpoint deve ser resiliente e autogerenciado
Opinião do GN⁺
- O TTPoE é uma tentativa interessante de superar as limitações do protocolo TCP em ambientes de computação de alto desempenho
- O principal objetivo parece ser minimizar a latência e maximizar a taxa de transferência por meio de offload em hardware e de uma máquina de estados simplificada
- O TTPoE tem potencial para melhorar a velocidade de transferência de dados e a latência nas áreas de AI e ML
- O fato de a Tesla ter aberto o código desse protocolo deve ajudar a acelerar a inovação na área de HPC
- Ainda assim, parece difícil que o TTPoE substitua completamente o TCP em redes de uso geral; trata-se de uma solução otimizada para redes dedicadas de alta qualidade. Para que o TTPoE seja amplamente adotado, padronização e construção de ecossistema serão importantes
- Protocolos com funcionalidades semelhantes incluem RoCE (RDMA over Converged Ethernet) e NVLink
1 comentários
Há outro artigo que explica o TTPoE com mais detalhes
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications
Visão geral do TTPoE
Necessidade do TTPoE
Características do TTPoE
Controle de congestionamento do TTPoE
Implementação em hardware do TTPoE
Mojo NIC
Resumo