Escalando o Kubernetes para 7.500 nós

(openai.com)

4 pontos por xguru 2021-01-27 | 1 comentários | Compartilhar no WhatsApp

A OpenAI compartilhou sua experiência ao escalar o k8s para GPT-3, DALL·E e outros
Em geral, não se escala um único cluster até 7.500 nós, então é necessário um gerenciamento especial, mas fazer isso permite uma estrutura de infraestrutura simples e expansão prática sem mudanças no código
O ambiente é um pouco diferente do de empresas comuns em termos de aplicação/hardware

→ As GPUs precisam usar todos os recursos de hardware do nó por meio de NVLink, GPUDirect etc.

→ Por isso, normalmente um único Pod ocupa o nó inteiro

→ Ou seja, há muitos nós, mas a carga sobre o scheduler é relativamente menor

→ Como há muitos pods/nós, foi feita a migração para Native Pod Networking

→ A forma de lidar com endereços IP foi alterada para um modelo baseado em alias, permitindo usar 200 mil IPs a qualquer momento

→ Uso do dashboard do Grafana fornecido pelo kube-prometheus

→ É útil alertar sobre HTTP 429 (Too Many Requests) e 5xx (Server Error) como sinais de problemas em alto nível

→ O API server sempre é executado fora do cluster

1 comentários

xguru 2021-01-27

É um texto bem longo... como acho que não vou precisar montar um cluster nessa escala, traduzi só de forma resumida.