- A San Francisco Compute é um grupo que reúne startups e institutos de pesquisa para comprar e compartilhar conjuntamente recursos computacionais para o treinamento de modelos em larga escala.
- Em vez de cada startup comprar seu próprio cluster de GPUs, o grupo compra um cluster com um número total de GPUs proporcional ao número de startups.
- Com base na propriedade, o agendador de tarefas aloca recursos computacionais de forma justa para todas as startups.
- Com isso, as startups podem usar 512 GPUs durante uma semana para acelerar o treinamento de modelos, evitando a necessidade incômoda de manter 128 GPUs ocupadas continuamente ao longo de um mês.
- Se houver recursos computacionais ociosos, o agendador pode alocar para as startups mais recursos do que sua cota justa.
- Esse modelo é semelhante ao usado por grandes laboratórios de pesquisa como OpenAI e Deepmind, mas geralmente é mais acessível para startups com clusters menores e contratos de longo prazo.
- O objetivo é oferecer recursos computacionais por cerca de US$ 2,00 por GPU H100 com alocação em rajadas e contratos de curto prazo.
- As startups podem preencher um formulário ou entrar em contato com os organizadores para participar do grupo.
- As startups podem deixar o cluster após um período de aviso prévio, e novas startups podem ser adicionadas em lotes.
- O grupo pode manter uma pequena sobreoferta para acomodar experimentos pequenos ou pedidos de amigos por um bom preço.
- O financiamento da compra do cluster pode ser distribuído com a ajuda de bancos.
- O grupo planeja colocar 512 GPUs H100 online em 4 a 6 semanas e pode adicionar ainda mais recursos se a demanda for alta.
- Uma mailing list de depuração de infraestrutura e um grupo no Slack são oferecidos como espaços onde os membros podem pedir ajuda com problemas de infraestrutura.
1 comentários
Comentários do Hacker News