Escalando o Kubernetes para 7.500 nós
(openai.com)-
A OpenAI compartilhou sua experiência ao escalar o k8s para GPT-3, DALL·E e outros
-
Em geral, não se escala um único cluster até 7.500 nós, então é necessário um gerenciamento especial, mas fazer isso permite uma estrutura de infraestrutura simples e expansão prática sem mudanças no código
-
O ambiente é um pouco diferente do de empresas comuns em termos de aplicação/hardware
→ As GPUs precisam usar todos os recursos de hardware do nó por meio de NVLink, GPUDirect etc.
→ Por isso, normalmente um único Pod ocupa o nó inteiro
→ Ou seja, há muitos nós, mas a carga sobre o scheduler é relativamente menor
- Rede
→ Como há muitos pods/nós, foi feita a migração para Native Pod Networking
→ A forma de lidar com endereços IP foi alterada para um modelo baseado em alias, permitindo usar 200 mil IPs a qualquer momento
- API Server
→ Uso do dashboard do Grafana fornecido pelo kube-prometheus
→ É útil alertar sobre HTTP 429 (Too Many Requests) e 5xx (Server Error) como sinais de problemas em alto nível
→ O API server sempre é executado fora do cluster
1 comentários
É um texto bem longo... como acho que não vou precisar montar um cluster nessa escala, traduzi só de forma resumida.