2 pontos por GN⁺ 2023-07-31 | 1 comentários | Compartilhar no WhatsApp
  • A San Francisco Compute é um grupo que reúne startups e institutos de pesquisa para comprar e compartilhar conjuntamente recursos computacionais para o treinamento de modelos em larga escala.
  • Em vez de cada startup comprar seu próprio cluster de GPUs, o grupo compra um cluster com um número total de GPUs proporcional ao número de startups.
  • Com base na propriedade, o agendador de tarefas aloca recursos computacionais de forma justa para todas as startups.
  • Com isso, as startups podem usar 512 GPUs durante uma semana para acelerar o treinamento de modelos, evitando a necessidade incômoda de manter 128 GPUs ocupadas continuamente ao longo de um mês.
  • Se houver recursos computacionais ociosos, o agendador pode alocar para as startups mais recursos do que sua cota justa.
  • Esse modelo é semelhante ao usado por grandes laboratórios de pesquisa como OpenAI e Deepmind, mas geralmente é mais acessível para startups com clusters menores e contratos de longo prazo.
  • O objetivo é oferecer recursos computacionais por cerca de US$ 2,00 por GPU H100 com alocação em rajadas e contratos de curto prazo.
  • As startups podem preencher um formulário ou entrar em contato com os organizadores para participar do grupo.
  • As startups podem deixar o cluster após um período de aviso prévio, e novas startups podem ser adicionadas em lotes.
  • O grupo pode manter uma pequena sobreoferta para acomodar experimentos pequenos ou pedidos de amigos por um bom preço.
  • O financiamento da compra do cluster pode ser distribuído com a ajuda de bancos.
  • O grupo planeja colocar 512 GPUs H100 online em 4 a 6 semanas e pode adicionar ainda mais recursos se a demanda for alta.
  • Uma mailing list de depuração de infraestrutura e um grupo no Slack são oferecidos como espaços onde os membros podem pedir ajuda com problemas de infraestrutura.

1 comentários

 
GN⁺ 2023-07-31
Comentários do Hacker News
  • Um comentarista menciona um projeto semelhante do qual participou anteriormente e torce pelo sucesso do projeto
  • Um comentarista reflete sobre mudanças na disponibilidade de TPUs e sobre os desafios enfrentados em um projeto anterior
  • Um comentarista expressa otimismo em relação ao projeto atual e recomenda à equipe que aceite ativamente as ideias de outras pessoas
  • Um comentarista compara o modelo de negócios do projeto com provedores de nuvem como AWS e Azure
  • Sugestão de hospedar a infraestrutura fora da Califórnia devido ao alto custo
  • Pergunta sobre a comparação do projeto com a Lambda Labs
  • Pergunta sobre o uso potencial do projeto para estudantes universitários e de pós-graduação
  • Recomendação de usar vast.ai para machine learning como hobby
  • Menção à ideia de uma cooperativa de GPUs
  • Pergunta sobre a origem do nome do projeto e os planos de envolvimento da comunidade
  • Pergunta sobre captação de recursos para comprar H100s
  • Os comentários incluem duas mensagens de erro