7 pontos por GN⁺ 2025-02-15 | 1 comentários | Compartilhar no WhatsApp
  • A Fly.io está construindo uma nuvem pública com hardware próprio e desenvolveu o Fly GPU Machines com o objetivo de oferecer inferência de AI/ML usando GPUs
  • O Fly GPU Machines é uma VM que executa contêineres Docker/OCI, projetada para permitir operações rápidas com CUDA por meio do mapeamento direto de GPUs NVIDIA
  • A importância de AI/ML foi maior do que o esperado, mas os produtos de GPU parecem não ter refletido adequadamente as necessidades do mercado

Dificuldades técnicas na adoção de GPUs

  • O Fly GPU Machines foi projetado para usar o Cloud Hypervisor da Intel em vez do Firecracker, a fim de oferecer suporte a PCI passthrough
  • O ecossistema da NVIDIA não oferece suporte a hipervisores de micro-VM, o que dificulta a otimização de segurança e desempenho das GPUs
  • As GPUs eram motivo de preocupação para a equipe de segurança, pois permitem transferências DMA (Direct Memory Access) multidirecionais e operações controladas pelo usuário, gerando altos riscos de segurança
  • Para separar workloads com GPU e sem GPU, foi necessário usar hardware de servidor separado, criando uma estrutura ineficiente em termos de custo
  • Para validação de segurança, foram realizadas avaliações de segurança em larga escala com a Atredis e a Tetrel, consumindo muito tempo e dinheiro

Tentativas e erros técnicos

  • Em vez de seguir a abordagem recomendada pela NVIDIA (montar um cluster K8s ou usar QEMU), a empresa tentou manter a rápida velocidade de inicialização do Fly Machines
  • Houve uma tentativa fracassada de usar os drivers de GPU virtual (vGPU) da NVIDIA no Intel Cloud Hypervisor
  • O ambiente fechado de drivers da NVIDIA dificultou a criação de uma arquitetura que aproveitasse GPUs de forma eficiente
  • Era necessário otimizar o carregamento de pesos de modelos usando GPU, mas foi difícil resolver isso preservando a experiência do desenvolvedor (DX)
  • Muitas GPUs foram compradas, mas os resultados ficaram abaixo do esperado

Por que o modelo de negócios de GPU falhou

  • Desenvolvedores em geral querem LLMs, não GPUs
    • Em vez de otimizar modelos de AI/ML, é mais simples usar APIs de LLM como OpenAI e Anthropic, e a diferença de desempenho também não é tão grande
    • A maioria dos desenvolvedores valoriza desempenho em "tokens por segundo (tokens per second)", e não tem muito interesse nas otimizações em milissegundos oferecidas por GPUs
  • Empresas que executam grandes cargas de trabalho de AI precisam de uma capacidade de computação com GPU enorme, e mesmo uma única GPU A100 não é suficiente
    • Grandes laboratórios e empresas de AI querem clusters H100 baseados em SXM
  • Pode existir um mercado de GPUs pequenas para workloads leves de ML, mas é difícil usar o NVIDIA MIG em um ambiente totalmente virtualizado
  • A GPU L40S tem sido útil, mas não conseguiu se tornar um fator central de crescimento para o negócio principal da Fly.io

Lições aprendidas

  • No início (2022), esperava-se o surgimento de vários modelos de AI, mas hoje o mercado convergiu para um pequeno número de modelos de LLM, como OpenAI e Anthropic
  • A Fly.io segue o princípio de "projetar recursos para 10.000 desenvolvedores"
    • As GPUs eram apenas um recurso para o 10.001º desenvolvedor, o que dificultou sua consolidação como produto principal
  • Startups aprendem por meio de várias tentativas, e a adoção de GPUs foi uma aposta que fracassou
  • O investimento em GPUs não foi uma perda total, e parte do hardware poderá ser vendida mais tarde
  • É possível reduzir o suporte a GPU preservando a segurança e a experiência do desenvolvedor do Fly Machines
  • Assim como o produto inicial da Fly.io, um runtime de edge computing em JavaScript, não era o que o mercado queria e acabou migrando para suporte a contêineres, as GPUs também foram uma escolha desalinhada das necessidades do mercado
  • Startups frequentemente chegam à resposta certa por meio de hipóteses erradas, e este caso das GPUs foi mais um passo desse processo

1 comentários

 
GN⁺ 2025-02-15
Opinião do Hacker News
  • Os desenvolvedores querem LLMs mais do que GPUs ou modelos de AI/ML. Engenheiros de sistemas se importam com CUDA e GPUs, mas desenvolvedores de software não

    • Há uma grande divisão entre os desenvolvedores de software. Alguns querem entender onde o código é executado e como ele funciona
    • Outro grupo quer resolver tudo só com git push e não quer entender coisas como DNS ou Linux
    • Empresas como a fly.io atraem mais o segundo grupo. Instâncias com GPU atraem mais o primeiro
    • Esses dois mercados precisam ser abordados de forma diferente. Para o segundo grupo, dá para vender muita abstração e automação
  • Desde 2012, a Lei de Moore praticamente acabou. A execução em thread única parou nos 2GHz

    • Entre 2012 e 2022, com a migração para a nuvem, muita gente não percebeu a estagnação do desempenho em thread única
    • Em 2022, os data centers perceberam que não precisavam comprar chips da próxima geração com mais núcleos
    • LLMs são 100% paralelizáveis, então o capital pode voltar a ser investido nisso
    • Em 2024, o silício em escala de wafer vai surgir. Ele poderá rodar modelos Llama 10 vezes mais rápido que uma A100
    • O software precisa encontrar formas de aproveitar esse desempenho
  • As máquinas com GPU da fly são muito rápidas e confiáveis, e não são caras em comparação com as alternativas

    • A DX é excelente. Não é preciso aprender novos comandos
    • Seria bom se o preço fosse menor e estivesse disponível em mais regiões
  • Comprei uma 4090, mas 24GB de VRAM não são suficientes

    • Duas ou mais 3090 com uma fonte de alimentação personalizada teriam sido uma escolha melhor
    • O desempenho e a qualidade ainda deixam a desejar
  • Os clientes que escolhem a Fly provavelmente serão os últimos a usar servidores dedicados com GPU por longos períodos

    • É mais provável que usem soluções serverless
  • É uma pena não haver GPU slicing. Um custo mensal de US$ 1.000 é difícil de justificar

    • Conectar uma GPU AMD de consumo a um Raspberry Pi pode ser economicamente viável
  • “Estávamos errados” é uma das frases mais nobres e bonitas da língua inglesa

  • A Fly.io atrai desenvolvedores parecidos com os da plataforma Workers da Cloudflare

    • Eles querem a velocidade de desenvolvimento de um ambiente PaaS
    • A Cloudflare mantém a abordagem PaaS junto com GPUs ao criar o Workers AI
  • Levou um mês para configurar endpoints serverless no Runpod, e foi caro e pouco confiável

    • Foi possível entregar o produto aos clientes usando créditos do Google Cloud
    • Existe demanda por provedores de GPU. Não está claro se a Fly conseguirá entrar nesse mercado