4 pontos por GN⁺ 2024-09-24 | 1 comentários | Compartilhar no WhatsApp
  • A Tesla abriu o código do Tesla Transport Protocol over Ethernet (TTPoE) na HotChips 2024
  • A Tesla se juntou ao Ultra Ethernet Consortium (UEC) para compartilhar esse protocolo e trabalhar na padronização de um novo fabric de alta velocidade e baixa latência para AI/ML/data centers
  • O TTPoE busca ser não proprietário, de baixo custo e orientado a controle de congestionamento distribuído, quadros EthernetII padrão e um protocolo de interconexão descentralizado
  • Características do TTPoE
    • Assim como no TCP, perda de pacotes e retransmissão são permitidas, mas a transmissão completa é garantida
    • A implantação inicial do TTPoE ocorreu no projeto Tesla Dojo v1
      • O protocolo roda inteiramente em hardware e foi implantado em um supercomputador multiexaFLOPS (fp16) de escala massiva com dezenas de milhares de endpoints simultâneos
    • Esse protocolo pode estabelecer e operar links sem intervenção de CPU ou do sistema operacional
  • O protocolo não é complexo nem excessivamente sofisticado; ele se baseia em princípios fundamentais
    • O transporte via Ethernet, em essência, serve para mover dados de A para B e deveria ser limitado apenas por restrições físicas
    • Em sistemas de escala muito grande, o gerenciamento centralizado de congestionamento é uma tentativa tola, e cada endpoint deve ser resiliente e autogerenciado

Opinião do GN⁺

  • O TTPoE é uma tentativa interessante de superar as limitações do protocolo TCP em ambientes de computação de alto desempenho
  • O principal objetivo parece ser minimizar a latência e maximizar a taxa de transferência por meio de offload em hardware e de uma máquina de estados simplificada
  • O TTPoE tem potencial para melhorar a velocidade de transferência de dados e a latência nas áreas de AI e ML
  • O fato de a Tesla ter aberto o código desse protocolo deve ajudar a acelerar a inovação na área de HPC
  • Ainda assim, parece difícil que o TTPoE substitua completamente o TCP em redes de uso geral; trata-se de uma solução otimizada para redes dedicadas de alta qualidade. Para que o TTPoE seja amplamente adotado, padronização e construção de ecossistema serão importantes
  • Protocolos com funcionalidades semelhantes incluem RoCE (RDMA over Converged Ethernet) e NVLink

1 comentários

 
xguru 2024-09-24

Há outro artigo que explica o TTPoE com mais detalhes
Tesla’s TTPoE at Hot Chips 2024: Replacing TCP for Low Latency Applications

Visão geral do TTPoE

  • A Tesla apresentou o supercomputador Dojo no Hot Chips 2023, usado para machine learning com foco em aplicações automotivas, como carros autônomos
  • Os dados de treinamento lidam com vídeo, que exige muita largura de banda de I/O, e um único tensor pode chegar a 1,7 GB no caso das aplicações de visão da Tesla
  • A Tesla descobriu que o throughput do supercomputador Dojo podia ser limitado pela velocidade com que as máquinas host enviavam dados ao supercomputador

Necessidade do TTPoE

  • A Tesla resolveu esse problema adicionando mais hosts e encontrando uma forma barata de conectar esses hosts extras ao supercomputador
  • Em vez de soluções comuns de rede para supercomputadores, como InfiniBand, a Tesla escolheu adaptar a Ethernet às suas necessidades com uma camada de transporte modificada
  • O TCP é substituído pelo Tesla Transport Protocol over Ethernet (TTPoE), projetado para oferecer latência na casa dos microssegundos e permitir offload simples em hardware

Características do TTPoE

  • O TTPoE foi projetado para ser processado inteiramente em hardware e oferecer latência melhor que a do protocolo TCP padrão
  • A máquina de estados do TTPoE é bastante simplificada em comparação com a do TCP
  • A remoção de estados de espera do TCP reduz a latência
  • O TTP remove o estado TIME_WAIT e altera a sequência de encerramento de conexão de 3 transmissões para 2
  • O handshake 3-way do TCP foi alterado para 2-way, reduzindo a latência de estabelecimento de conexão

Controle de congestionamento do TTPoE

  • Assim como no TCP, a Tesla usa perda de pacotes para controle de congestionamento
  • Como foi projetado para rodar sobre uma rede base de baixa latência, a Tesla pôde adotar uma abordagem mais bruta para o problema
  • Implementações tradicionais de TCP mantêm uma janela de congestionamento deslizante, mas o TTP não
  • O hardware rastreia os dados transmitidos em um buffer SRAM, que define o tamanho da janela de congestionamento
  • Os algoritmos tradicionais de controle de congestionamento do TCP operam em uma escala de tempo longa demais para serem eficazes nas aplicações do supercomputador Dojo da Tesla

Implementação em hardware do TTPoE

  • A Tesla processa o protocolo TTP em um bloco de hardware posicionado entre o chip e o hardware Ethernet padrão
  • Esse bloco de hardware MAC foi projetado por designers de CPU e incorpora muitos recursos de projeto de CPU
  • O apresentador explicou que ele funciona como um cache compartilhado, e o árbitro escolhe entre as requisições levando em conta riscos de ordenação
  • Um dos recursos mais marcantes é o buffer SRAM de transmissão de 1 MB, que, como mencionado acima, define a janela de congestionamento

Mojo NIC

  • O TPP MAC é implementado no que a Tesla chama de "Dumb-NIC"
  • Ele é chamado de "dumb" por ser o mais barato e simples possível
  • A Tesla pretende implantar um grande número de nós host para alimentar o supercomputador Dojo com dados, e usar placas de rede baratas permite fazer isso de forma econômica
  • O nome Mojo vem da ideia de que hosts extras fornecem mais Mojo ao Dojo para manter o desempenho
  • As placas Mojo são instaladas em máquinas host remotas, e, se os engenheiros precisarem de mais largura de banda para alimentar o supercomputador Dojo com dados, poderão adicionar máquinas host remotas a partir de um pool

Resumo

  • O protocolo Mojo e TTPoE oferece uma visão interessante de como o conhecido Transmission Control Protocol (TCP) pode ser simplificado para uso em redes internas de supercomputadores de alta qualidade
  • Em teoria, esse protocolo poderia rodar na internet, mas simplificações como a janela de congestionamento fixa provavelmente não funcionariam bem em links de menor qualidade conectados a provedores de internet e além
  • Em comparação com outras soluções de rede para supercomputação, como InfiniBand, um protocolo de transporte personalizado sobre Ethernet pode fornecer largura de banda adicional suficiente para atender às necessidades do Dojo