Não alugue a nuvem — seja dono dela

(blog.comma.ai)

11 pontos por GN⁺ 2026-02-06 | 3 comentários | Compartilhar no WhatsApp

A CommaAI realiza todo o treinamento de modelos e o processamento de dados em seu próprio datacenter, operando diretamente uma infraestrutura de cerca de US$ 5 milhões
A dependência da nuvem pode levar a aumento de custos e perda de controle, enquanto operar seu próprio ambiente de computação possibilita melhor qualidade de engenharia e redução de custos
O datacenter é composto por cerca de 450 kW de energia, 600 GPUs, 4 PB de armazenamento SSD e uma estrutura simples de refrigeração e rede
A stack de software foi projetada com Ubuntu + Salt, armazenamento minikeyvalue (mkv), agendador Slurm, treinamento distribuído com PyTorch e computação distribuída com miniray
Com essa arquitetura, a comma.ai automatiza completamente o treinamento de modelos de direção autônoma e alcança uma redução de custos de cerca de 5x em comparação com a nuvem

Por que operar um datacenter próprio

Depender da nuvem gera aumento de custos e lock-in do fornecedor
- As empresas de nuvem são projetadas para tornar o onboarding fácil, mas o offboarding difícil
- Com uso contínuo, é fácil ficar preso a uma estrutura de custos elevada
Operar sua própria infraestrutura de computação incentiva autonomia tecnológica e uma cultura de engenharia mais eficiente
- A nuvem exige gestão centrada em APIs e sistemas de cobrança, enquanto um datacenter exige resolver problemas técnicos reais centrados em energia, computação e largura de banda
Mesmo do ponto de vista de engenharia de ML, restrições de recursos induzem otimização de código e melhorias fundamentais
- Na nuvem, costuma-se resolver o problema apenas aumentando o orçamento; em infraestrutura própria, melhorar o desempenho é obrigatório
Em termos de custo, a comma.ai investiu cerca de US$ 5 milhões; calcula-se que executar o mesmo trabalho na nuvem exigiria mais de US$ 25 milhões

Componentes do datacenter

Energia
- Uso máximo de 450 kW, com custo de energia em 2025 de US$ 540.112
- Em San Diego, a tarifa de energia é de US$ 0,40/kWh, cerca de 3 vezes a média mundial
- Há menção a um plano futuro de geração própria de energia
Refrigeração
- Uso de refrigeração com ar externo, mais eficiente em consumo de energia do que sistemas CRAC
  - Circulação de ar com 2 ventiladores de admissão e 2 de exaustão de 48 polegadas
  - Loop de controle PID para ajustar automaticamente temperatura e umidade (mantida em <45%)
  - O consumo de energia fica na casa de algumas dezenas de kW
Servidores e armazenamento
- Composto por 75 TinyBox Pro (total de 600 GPUs), fabricados internamente
  - Cada equipamento tem 2 CPUs + 8 GPUs e é usado para treinamento e computação geral
  - A fabricação própria facilita a manutenção
- O armazenamento é baseado em Dell R630/R730, totalizando 4 PB de SSD
  - Estrutura sem redundância (non-redundant), com 20 Gbps de velocidade de leitura por nó
- A rede é composta por 3 switches Z9264F de 100 Gbps e 2 switches Infiniband

Infraestrutura de software

Configuração básica
- Todos os servidores usam Ubuntu + boot por PXE e são gerenciados com Salt
- Estrutura com mestre único, mantendo 99% de disponibilidade
Armazenamento distribuído — minikeyvalue (mkv)
- Os dados de direção para treinamento ficam armazenados em 3 PB de armazenamento sem redundância
  - 1 TB/s de velocidade de leitura, permitindo treinamento direto sem cache
- Um array de 300 TB para cache e um array com armazenamento redundante guardam modelos e métricas
- Cada array é gerenciado por um servidor mestre único
Gerenciamento de tarefas — Slurm
- Faz o agendamento de jobs de treinamento em PyTorch e jobs distribuídos com miniray
Treinamento distribuído — PyTorch + FSDP
- Opera duas partições de treinamento conectadas por rede Infiniband
- Um framework de treinamento próprio automatiza o loop de treinamento
- Há um serviço de rastreamento de experimentos de modelos
  - Inclui dashboard, métricas customizadas e gerenciamento de pesos de modelos
  - As métricas do modelo mais recente estão públicas
Computação distribuída — miniray
- Agendador de tarefas open source e leve, executa código Python em máquinas ociosas
  - Mais simples que o Dask, gerencia tarefas com um servidor central Redis
  - Workers com GPU executam inferência de modelos com Triton Inference Server
- É possível escalar em paralelo para centenas de máquinas
  - Ex.: o recorde do Controls Challenge foi alcançado com 1 hora de uso do datacenter
Gerenciamento de código — monorepo baseado em NFS
- Toda a base de código tem menos de 3 GB e é replicada em todas as workstations
- Ao iniciar um trabalho, o código local e os pacotes são sincronizados, concluindo em menos de 2 segundos
- Isso garante que todos os jobs distribuídos sejam executados com o mesmo código e ambiente

Pipeline integrado de treinamento

Na comma, a tarefa mais complexa é treinar o modelo de direção no modo on-policy
Para esse treinamento, é necessário executar uma direção simulada com os pesos mais recentes do modelo para gerar dados de treinamento
Todo o pipeline pode ser executado com um único comando como o abaixo
- ./training/train.sh N=4 partition=tbox2 trainer=mlsimdriving dataset=/home/batman/xx/datasets/lists/train_500k_20250717.txt vision_model=8d4e28c7-7078-4caf-ac7d-d0e41255c3d4/500 data.shuffle_size=125k optim.scheduler=COSINE bs=4
Para executar esse treinamento, toda a infraestrutura descrita acima é utilizada
É apenas um comando simples, mas ele coordena diversos componentes

Conclusão

A comma.ai alcança redução de custos e autonomia tecnológica ao operar seu próprio datacenter
Com a mesma abordagem, empresas ou indivíduos também podem construir sua própria infraestrutura

3 comentários

kaydash 2026-02-06

A memória está cara!

harryhan2435 2026-02-12

kkkkkkkkkkkkkkkkkkkk

GN⁺ 2026-02-06

Comentários do Hacker News

No nosso setor, propriedade vs. nuvem são os dois extremos de um espectro
① A nuvem exige pouco investimento inicial (capex) e menos equipe, mas tem custos operacionais (opex) altos e voláteis
② Managed Private Cloud é o que fazemos: gerenciamos com base em open source e sai cerca de 50% mais barato que AWS
③ Bare metal alugado é um modelo em que alguém financia o hardware por você, e fica 90% mais barato que AWS
④ Comprar diretamente e fazer colocation é o mais barato se você tiver capacidade técnica e escala
Empresas como a Hetzner operam com ROI de 3 anos, e as opções 3 e 4 são adequadas para empresas maiores ou cujo core é infraestrutura
Para startups, a opção 1 é realista; para PMEs, a 2 (lithus.eu)
- O problema é que a estrutura de custos da nuvem não vem só do preço do hardware, mas do incentivo a arquiteturas complexas, o que aumenta a ineficiência
  Os “serviços gerenciados” da AWS são estruturados de forma que, quanto mais o usuário melhora a eficiência dos servidores, menor é a receita da AWS
  Se você simplesmente rodar 4 servidores Java sobre EC2 com um banco replicado, tudo fica muito mais eficiente
  No fim, as cobranças absurdas da AWS aparecem quando se abusa de inúmeros serviços
- (derek@ da Carolina Cloud) Nós também preferimos o modelo (4), mas usuários com pouca capacidade técnica acabam ficando nas opções 1 a 3 e presos à estrutura cara da nuvem pública
  Dizem que é “baseado em uso”, mas na prática há taxas fixas e consumo mínimo, então sai bem mais caro (carolinacloud.io)
- Hetzner é uma opção atraente
  Dá trabalho ter que gerenciar serviços como Postgres ou VPN por conta própria, mas acima de US$ 10 mil a 15 mil por mês passa a valer mais a pena do que AWS
  Há riscos, mas compensa assumi-los
- Eu alugo um servidor bare metal de US$ 500 por mês, e o tempo de administração é de só algumas horas por ano
  Talvez seja porque minhas necessidades são simples, mas acho muito melhor do que uma nuvem excessivamente complexa
- Migrei para colocation há 2 anos e agora tenho mais capacidade com 30% do custo
  Também existe o benefício das quedas tardias de preço de RAM/armazenamento
  Só é preciso prestar um pouco mais de atenção à gestão de compliance
Antigamente, isso era chamado simplesmente de data center
É um conceito que já existia antes da nuvem e, no fim, é a repetição de possuir vs. alugar e centralização vs. descentralização
Quando uma empresa escolhe apenas um dos extremos, acaba reencontrando os mesmos problemas
- O interessante é que a nuvem era atraente para o financeiro por causa do efeito de redução tributária
  Mas, com legislações recentes (OBB) permitindo lançar CapEx como despesa, surgiu um vento de retorno ao on-prem
- Então por que não surgem alternativas de nuvem com preço competitivo?
  AWS e Azure dominam o mercado e não têm incentivo para reduzir preços, e o Google traz um risco alto de descontinuação de serviços
- Antes da nuvem, a equipe interna de infraestrutura era o gargalo
  A nuvem padronizou isso e simplificou tudo com um sistema único de cobrança
  Além disso, fora dos EUA a aquisição de servidores era lenta, então a vantagem de velocidade da nuvem era grande
- Data centers on-prem têm alto custo operacional e consomem muitos recursos de engenharia
  Por isso esse debate continua se repetindo
- A verdadeira inovação da nuvem foi “tornar claro o custo por serviço”
  Em vez de “para quem eu preciso pedir isso?”, tudo passou a ser acessível via API
  Esse contexto está bem resumido neste texto
Mesmo em regiões como San Diego, onde controlar a temperatura é fácil, resfriamento com ar externo é arriscado
Umidade e poluentes degradam os servidores rapidamente
Em vez disso, métodos como coolers com roda entálpica (kyotocooling) são eficientes e consomem pouca energia em relação à eficiência térmica
É preciso cuidado, porque resfriamento com ar externo aumenta muito o risco de reduzir a vida útil dos equipamentos
- Também há casos de bons resultados com filtragem e mantendo a umidade abaixo de 45%
- Eu não sabia que precisava me preocupar com esse tipo de coisa
  Por isso eu simplesmente uso nuvem — dá para evitar esse tipo de “risco desconhecido”
O realista é combinar on-prem e nuvem
A infraestrutura principal fica em uma nuvem confiável, enquanto coisas como jobs do Slurm rodam em servidores próprios
Colocation continua sendo uma opção válida, e HPC para pesquisa também pode valer a pena
Na Noruega, até empresas privadas podem usar HPC de pesquisa pagando por isso
- Eu operava server farms em duas regiões da Itália, gerenciadas por 5 pessoas, mantendo quase 100% de uptime
  Com € 800 mil por ano, economizamos € 7 a 8 milhões em custos de nuvem
- Muitos desenvolvedores acham, por engano, que não conseguem fazer hosting
  Na prática é mais fácil do que parece, e resolver os problemas técnicos também é divertido
- Se você alugar espaço em lugares como Equinix ou Global Switch, eles cuidam de energia, refrigeração, cabeamento etc.
  Também é totalmente possível manter suas próprias salas de servidores em duas regiões
- Ainda usamos Azure para serviços voltados ao usuário
  Serviços web que não precisam de GPU são mais eficientes na nuvem
  E o GitHub continua sendo usado como um serviço confiável
- (em tom de brincadeira) Já tivemos um daemon do Postgres se enrolando num pool do Slurm e o Rust saiu disparando
  No fim estabilizamos, mas do ponto de vista de um engenheiro de hardware, o mundo do software é caótico
No início do projeto, comece na AWS com US$ 250 por mês; quando chegar a US$ 30 mil por mês, migre para colocation
O ponto central é a capacidade de calcular custos — um bom engenheiro precisa conseguir usar isso para argumentar com a diretoria
- Mas, além das contas, também é preciso pensar em que tipo de talento atrair e que tipo de negócio você quer construir
  Se a empresa treina modelos de ML, talvez infraestrutura própria seja mais adequada
- Mas, na maioria das empresas, os engenheiros não conseguem participar da escolha da plataforma
  Em 99,999999% dos casos, a diretoria já decidiu e só comunica depois
No começo da carreira, nuvem parecia a escolha óbvia, mas agora on-prem voltou à moda
Daqui a 10 anos, talvez o movimento se inverta de novo
- Pela minha experiência, as equipes que defendiam on-prem sempre subestimavam o desgaste da manutenção
  Em lugares como startups, onde é preciso desenvolver rápido, isso acaba atrapalhando
  Já em empresas que entraram em modo de manutenção, on-prem era eficiente
  Conforme a gente envelhece, “terminar rápido e dentro do orçamento” passa a importar mais, e o apelo de operar a própria infraestrutura diminui
- Desta vez, vejo esse movimento não como um simples ciclo tecnológico, mas como uma reação a uma sociedade em que nada pode ser possuído
  Música, casa, carro — tudo virou assinatura, e as empresas também querem recuperar a soberania computacional
- Esse tipo de ciclo sempre existiu
  Mainframe → PC → sala de servidores → nuvem → edge computing é a repetição de centralização ↔ descentralização
  No fim, quando a tecnologia e as prioridades mudam, tudo volta
  Quando alguém voltar a dizer que “a rede é o computador”, é porque demos mais uma volta completa
- (brincadeira) O próximo estágio talvez seja o espaço (Skynet)
A maioria das empresas evita on-prem por gestão de risco
Empresas boas concentram risco na sua competência central
A decisão não deve ser tomada só pelo custo, mas pelo custo ajustado ao risco
- Mas hoje em dia fico em dúvida se as empresas ainda têm capacidade de avaliar esse risco com precisão
  Afinal, competitividade de preço também é um elemento de diferenciação
- O ponto principal é focar no negócio principal
  Se isso não ajuda a vender melhor um produto que já vende mal, não vale desperdiçar tempo com data center
  A única exceção é quando a própria infraestrutura é a vantagem competitiva do produto, como no caso do Google
- No fim, na maioria dos casos, é uma disputa em que Opex vence Capex
A verdadeira vantagem do on-prem é liberdade, controle e privacidade
Não é apenas uma questão de dinheiro; é como a diferença entre possuir uma casa e alugá-la
- Mas, mesmo no texto original, custo aparecia por último, e os outros benefícios eram o ponto principal
O dogma estilo MBA dos anos 2010 era “leve tudo para a nuvem”
Transferir risco e custo para terceiros era visto como a resposta certa
Mas, na prática, nosso data center era muito mais barato, e os reajustes de assinaturas de software foram muito maiores do que os do hardware
- Claro, a AWS mantém data centers redundantes no mundo todo, então o nível de resiliência é outro
  Mas, considerando custo de pessoal e operação, comparar apenas custo bruto não faz sentido
  Um único tornado pode acabar com a empresa, então no fim a decisão precisa ser tomada com base no valor em relação ao risco

Não alugue a nuvem — seja dono dela

Por que operar um datacenter próprio

Componentes do datacenter

Energia

Refrigeração

Servidores e armazenamento

Infraestrutura de software

Configuração básica

Armazenamento distribuído — minikeyvalue (mkv)

Gerenciamento de tarefas — Slurm

Treinamento distribuído — PyTorch + FSDP

Computação distribuída — miniray

Gerenciamento de código — monorepo baseado em NFS

Pipeline integrado de treinamento

Conclusão

3 comentários

Comentários do Hacker News

Não alugue a nuvem — seja dono dela

Por que operar um datacenter próprio

Componentes do datacenter

Energia

Refrigeração

Servidores e armazenamento

Infraestrutura de software

Configuração básica

Armazenamento distribuído — minikeyvalue (mkv)

Gerenciamento de tarefas — Slurm

Treinamento distribuído — PyTorch + FSDP

Computação distribuída — miniray

Gerenciamento de código — monorepo baseado em NFS

Pipeline integrado de treinamento

Conclusão

Leituras relacionadas

3 comentários

Comentários do Hacker News