SF Compute: 512 H100s para startups por menos de US$ 2 por hora

(sfcompute.org)

2 pontos por GN⁺ 2023-07-31 | 1 comentários | Compartilhar no WhatsApp

Várias startups e institutos de pesquisa compram conjuntamente um cluster de GPUs para garantir em conjunto os recursos computacionais necessários para treinar modelos grandes
Em vez de cada uma comprar individualmente N GPUs, K startups se unem para comprar juntas um cluster na escala de N×K
Um escalonador de jobs distribui a computação de forma justa, proporcionalmente à participação de cada uma, e aloca capacidade extra quando há ociosidade
Em vez de manter 128 A100 ocupadas o mês inteiro, é possível fazer burst com 512 A100 por uma semana, treinando modelos mais rapidamente
Uma estrutura que oferece às startups o modelo de alocação em burst antes disponível apenas em grandes laboratórios de pesquisa como OpenAI e Deepmind

Ideia principal

Em vez de K startups comprarem separadamente clusters com N GPUs cada, elas compram juntas um cluster com N×K GPUs
Há um escalonador de jobs que distribui a computação de forma justa, proporcionalmente à participação de cada startup
Quando há capacidade ociosa, o escalonador a aloca normalmente, então, com sorte, é possível usar mais computação do que a sua própria participação
Em vez de manter 128 A100 sempre ocupadas por um mês, é possível fazer burst de até 512 A100 por uma semana para obter modelos mais rápido
Grandes laboratórios como OpenAI e Deepmind têm clusters grandes que oferecem alocação em burst para seus pesquisadores
- Já as startups, até agora, só conseguiam garantir clusters muito pequenos com contratos de prazo muito longo, enfrentando meses de espera e precisando mantê-los sempre ocupados
O objetivo é chegar a cerca de US$ 2,00 por H100 com alocação em burst e contratos de curto prazo
Startups interessadas em participar podem preencher o formulário de inscrição; dúvidas podem ser enviadas para evan@roomservice.dev

Entrada, saída e expansão

Como em uma hacker house, para sair do cluster (por exemplo, para montar seu próprio cluster), é preciso avisar com um ou dois meses de antecedência para que outra pessoa possa ocupar a vaga
Novas startups são adicionadas ao grupo em lotes (batches), e novos H100 são incorporados ao cluster a cada poucos meses
O mesmo vale para quem já está no grupo e quer expandir seu uso de computação
Há consideração por um pequeno overprovisioning — por exemplo, se um amigo quiser alguns nós para um experimento pequeno, eles podem ser oferecidos imediatamente a um bom preço
- Com 10% de overprovisioning, o preço por H100 por hora sobe 10%

Finanças

Há um caminho promissor para colocar 512 H100 em operação em 4 a 6 semanas
Se a demanda ultrapassar isso, é possível garantir H100 adicionais em cerca de 8 semanas
Como é possível diluir com boas condições bancárias o custo de compra do cluster, dá para manter contratos de curto prazo e alocação em burst, alcançando cerca de US$ 2,00 por H100

Infraestrutura

Será compartilhada uma mailing list/Slack de depuração de infraestrutura, para que o grupo possa fazer perguntas quando surgirem problemas com InfiniBand e afins
Se alguém já tiver lidado com o mesmo problema, poderá ajudar os demais

1 comentários

GN⁺ 2023-07-31

Opiniões no Hacker News

Torço para que dê certo. O TPU Research Cloud (TRC) tentou algo assim em 2019, e foi o que me permitiu começar
Em 2023, é difícil conseguir uma única TPU por mais de uma hora, mas naquela época era literalmente possível receber centenas delas. Eu acreditava no TRC e achava que, se ele escalasse e criasse um continente de TPUs, o problema seria resolvido, mas no fim o tempo de TPU foi diminuindo, com prioridade para pesquisadores internos. O mundo mudou a ponto de que, se hoje você propuser treinar GPT para jogar xadrez em H100s, vão rir de você
Este projeto tem um otimismo jovem que eu espero que não se perca, e no longo prazo talvez seja assim que se vença. Espero que aceitem quando alguém aparecer pedindo um pedacinho minúsculo de H100 para uma ideia maluca. Esse foi o único motivo pelo qual pude me tornar alguma coisa
- “O projeto tem um otimismo jovem” é a melhor coisa que já ouvi. Dá vontade de emoldurar e pendurar na parede
  E, claro, pretendemos aceitar pedidos malucos por um pedacinho de H100
- Na verdade, o programa TPU Research Cloud ainda está funcionando bem. O pool de computação foi bastante ampliado, incluindo também slices de Cloud TPU v4 Pod, e projetos grandes ainda usam centenas de chips de uma só vez. A capacidade do TRC não foi retomada para uso interno
  A lista recente de artigos apoiados pelo TRC pode ser vista em https://sites.research.google/trc/publications/
  A demanda por Cloud TPU está muito forte, então, ao usar capacidade preemptiva, interrupções podem aparecer com mais frequência, mas capacidade reservada também está disponível. Vale a pena entrar em contato com a equipe de suporte do TRC
- Surpreendentemente, acho que só agora vi essa luz. Em posts anteriores eu só via elogios ao TRC, mas, como alguém que começou mais tarde, consegui resultados muito maiores com uma GPU gamer própria
  A comparação não é totalmente equivalente, mas o TRC era muito difícil de usar, tive acesso a TPUv3 apenas uma vez, e nem houve tempo suficiente para aprender o básico. Entendi que a situação muda bastante dependendo de qual endereço de e-mail você usa e de quão famosa é sua conta no Twitter
- Minha experiência foi diferente. Considerando que a inscrição é relativamente fácil, acho que ainda é bem generoso. Nos últimos 6 meses, para vários projetos, me ofereceram v3-8, v3-32 por 30 dias e v3-64 preemptivo por 28 dias
  Fico curioso se você é afiliado à academia. Se não for, não sei por que foram mais generosos comigo, e meus projetos eram, no máximo, apenas um pouco interessantes. Dito isso, é verdade que ficaram muito mais restritivos com Pods grandes do que antes
- Shawn está absolutamente certo. A concorrência está intensa demais agora para haver essa folga. Um único cliente pode levar 512 GPUs por 3 anos
“Em vez de cada uma das K startups comprar separadamente clusters de N GPUs, elas compram juntas um cluster de NK GPUs e distribuem a computação com um escalonador de tarefas” parece, em teoria, quase igual ao modelo de provedores de nuvem como AWS e Azure
A estrutura é: “em vez de todo mundo comprar hardware fixo individualmente, nós compramos um enorme pool de hardware e fazemos compartilhamento por tempo”. Além do fato de os provedores de nuvem precisarem elevar preços para obter margem líquida, fico me perguntando se há mais alguma coisa que esteja sendo perdida a ponto de tornar necessário um projeto desses
- É principalmente por preço e disponibilidade
  Primeiro, investidores de nuvens públicas esperam uma certa estrutura de margens, então é difícil competir com as margens da Lambda ou da Fluidstack. Segundo, as grandes nuvens também têm certa desvantagem em networking para treinamento de grandes modelos de linguagem. Pelo que sei, só a Azure tem InfiniBand; a Oracle tem 3200 Gbps, mas não é InfiniBand, e imagino que a AWS seja parecida. Não tenho certeza sobre o GCP, mas lembro que a velocidade de rede das A100 era 100 Gbps, não 1600 Gbps. Em contraste, Lambda, Fluidstack e CoreWeave têm InfiniBand. Terceiro, a Nvidia não aloca às grandes nuvens tanto volume quanto elas gostariam
- As principais nuvens também estão fazendo isso. Todas as grandes nuvens estão preparando recursos de solicitações/reservas de curto prazo. Antes da IA generativa, não era um recurso de muita utilidade. Com que frequência alguém precisaria solicitar 1000 nós de CPU por 48 horas em uma zona de disponibilidade?
  Em segundo lugar, há aqui o problema fundamental de compartilhamento de recursos. Mesmo neste projeto de Evan e do AI Grant, surge a pergunta: se uma equipe tem dinheiro para ocupar o cluster inteiro continuamente, por que impedi-la? A questão é qual é o critério exato de uso justo. Em redes, há algoritmos de compartilhamento de largura de banda como a justiça do TCP, mas eles não se encaixam bem nesse tipo de trabalho em blocos
  Nos próximos meses, AWS e outras provavelmente tentarão lançar serviços de fila para alocar temporariamente blocos de computação, e é bem possível que venham com pagamento antecipado e custo alto. Pode até ser mais caro que a tarifa sob demanda
- AWS e Azure prefeririam cortar a própria garganta a criar uma forma de os clientes agruparem instâncias para economizar
  Elas mesmas fazem esse pooling e não querem entregar a relação com o cliente nem o lucro a intermediários ou clientes
Como alguém que já operou infraestrutura em várias colocation facilities na CA, se possível é melhor colocar em outro lugar. O custo de energia na Califórnia e outros custos de infraestrutura são muito mais altos do que no AZ ou em NV
- Considerando energia barata e a vantagem da taxa de câmbio CAD-USD, Montreal parece adequada
- A energia parece representar uma parcela muito pequena do custo de computação em GPU
Vi a frase “nenhum provedor de nuvem no mundo disponibilizaria 100 mil dólares em computação por apenas algumas semanas”; nunca comprei computação muito grande, mas achei que esse fosse o ponto central da nuvem
Fico curioso sobre como isso é diferente de https://lambdalabs.com/.
- Nós operamos computação de médio porte com margem zero. O objetivo não é vender para empresas da Fortune 500, e sim permitir que um estudante de pós-graduação use uma verba de pesquisa de US$ 50 mil.
  Hoje é bem fácil conseguir algumas A100/H100, e a Lambda também é excelente para esse uso. Mas é muito difícil conseguir 24 ou mais a um preço razoável, algo em torno de US$ 2 por hora. Mesmo que você só queira rodar um treinamento de 8 horas em H100, muitas vezes exigem um compromisso de mais de 6 meses.
  Para corretores de GPU, preferir reservas de longo prazo faz sentido do ponto de vista de negócios, e nós também poderíamos agir assim se estivéssemos nessa posição. Mas nosso objetivo é diferente. É armar os rebeldes. Queremos permitir que alguém que não seja a BigCorp também consiga treinar modelos.
- Os preços são muito parecidos, mas o modelo parece bem diferente. A diferença importante pode estar em quem roda treinamentos curtos com frequência em várias GPUs. Talvez a Lambdalabs não consiga fornecer 256 instâncias agora mesmo.
  A abordagem do post original se parece mais com comprar o direito de colocar jobs na fila de trabalho de um cluster de 512 GPUs, então um job que precise de 256 GPUs não seria um problema. Porém, você pode ter que esperar atrás de alguém rodando um job em 512 GPUs.
  Não sei qual é a capacidade real da Lambdalabs. Fico curioso se alguém sabe o quão fácil é subir mais de 2 ou 3 instâncias lá.
- Normalmente, se você não assume um compromisso de instâncias reservadas de longo prazo, só consegue receber algumas H100 por vez.
- Não há uma forma prática de obter um bloco grande sem compromisso. Pelo que me lembro, o compromisso mínimo para H100 era de 64 GPUs por 3 anos, cerca de US$ 3 milhões.
- H100 a US$ 2 por hora parece mais flexível, mas nunca tentei conseguir 10 mil GPU-horas em um serviço desses. Talvez esse seja o gargalo.
Pessoalmente, tenho muito interesse em IA e venho me envolvendo com isso há alguns anos, mas nunca vi uma escassez de GPUs como a atual. Para quem quer experimentar aprendizado de máquina como hobby, recomendo muito a vast.ai.
- Como outras clouds, para H100 e A100 há Lambda, Fluidstack, RunPod, CoreWeave, Crusoe, Oblivus e Latitude.
  Para GPUs que não sejam A100/H100, há vast, TensorDock e também RunPod.
- Depende de como você define hobby, mas para rodar uma T4 por alguns minutos para aprender ferramentas e conceitos, a modal.com foi muito boa.
  Atualmente eles revendem AWS e GCP e também têm A100, mas por enquanto uma T4 basta.
- A vast.ai é mais próxima de um marketplace no estilo gig economy para GPUs. Acabei de usar minha primeira máquina; funcionou bem, tinha 512 GB de RAM, 256 CPUs AMD e uma GPU A100, e usei por cerca de 4 minutos por US$ 0,05. Esse valor também foi oferecido de graça.
Entendo que há overhead em AWS/GCP/Azure e por que muitas empresas escolhem bare metal em produção. Pessoalmente, acho que raramente vale o tempo e o esforço, mas aceito que, em grande escala, a economia pode ser significativa.
Mas, se mesmo em treinamento de IA as clouds públicas não são competitivas para demanda em rajadas, então suas margens são muito maiores do que eu imaginava. Fico curioso sobre qual é a base de comparação para a redução de custo de 10 a 20 vezes citada no post original. É em relação à AWS?
- A p5.48xlarge da AWS custa US$ 98,32 por hora para 8 H100, ou seja, US$ 12,29 por hora por H100. É cerca de 6 vezes mais caro.
Como alguém que gosta de SF, fico curioso se há algo interessante sobre o nome. O hardware vai ficar fisicamente em SF? Há planos de organizar meetups ou reunir clientes para interagirem?
Ainda não desaparecemos como a Xerces blue; ainda existimos.
https://en.wikipedia.org/wiki/Xerces_blue
- O hardware não ficará em SF. Não é exatamente o espaço de datacenter mais barato.
  Mas acho que uma boa parte dos clientes estará por aqui. SF provavelmente ainda é o melhor lugar para criar uma startup. Há muita gente resolvendo problemas técnicos difíceis. Em todos os lugares onde morei em SF, havia outra startup no andar de cima ou de baixo.
  Organizar eventos presenciais também é uma boa ideia.
Gosto da ideia de um ativo comunitário. Será que isso pode ser o início de uma cooperativa de GPUs?
- Para placas de consumidor, algo assim já existe. Você pode ganhar dinheiro com sua própria GPU na vast.AI.
  https://cloud.vast.ai/host/setup
- Não conheço nada da infraestrutura interna do Twitter, mas, vendo queda na receita de anúncios, redução de engajamento dos usuários e migração para o Threads, penso se o Twitter não poderia usar parte da infraestrutura para apoiar startups desse tipo.
  Pode ser espaço em rack, VMs, contêineres, conectividade, qualquer coisa. Basicamente, o Twitter estaria regredindo para uma empresa de colocation do fim dos anos 90.
  Para quem não percebeu: é uma piada.
Fico curioso sobre como conseguiram dinheiro para comprar 512 H100.
- Como está claramente no primeiro parágrafo do texto, eles são investidores de VC fazendo isso para as startups nas quais acabaram de investir, e também estão buscando outros participantes.

SF Compute: 512 H100s para startups por menos de US$ 2 por hora

Ideia principal

Entrada, saída e expansão

Finanças

Infraestrutura

Leituras relacionadas

1 comentários

Opiniões no Hacker News