Fly.io, agora com GPUs
(fly.io)A IA é realmente incrível
- A Fly.io é um novo serviço de nuvem pública que permite posicionar poder computacional perto dos usuários.
- Agora é possível usar GPUs para processar cargas de trabalho de IA em ambientes de computação de borda.
- A Fly.io permite executar apps full-stack ou plataformas de desenvolvimento baseadas na API Fly Machines perto dos usuários.
Casos reais de uso com GPUs da Fly.io
- É possível implantar seu próprio código e os modelos de sua preferência sobre o backbone de nuvem da Fly.io.
- Com as GPUs da Fly.io, dá para colocar no ar facilmente, em duas etapas, um app com GPU rodando Ollama (os amigos da geração de texto).
- Você pode implantar o app adicionando configurações ao
fly.tomle executando o comandofly apps create sandwich_ai && fly deploy.
A velocidade da luz tem limites
- Colocar GPUs em funcionamento rapidamente é ótimo, mas a Fly.io realmente se destaca na inferência na borda.
- Um exemplo é um app em que o usuário informa os ingredientes que tem na cozinha e recebe instantaneamente uma receita de sanduíche.
- A Fly.io tem GPUs em data centers no mundo todo e permite executar o mesmo programa em qualquer região com suporte a GPU.
Só quando realmente for necessário
- GPUs são dispositivos poderosos de processamento paralelo, mas não são baratas.
- Você pode adicionar a seção
servicesao arquivofly.tomlpara especificar como o app deve escalar para cima e para baixo. - Assim, é possível configurar para não pagar pelo custo da GPU quando ninguém estiver pedindo receitas de sanduíche.
Mais detalhes
- A empresa oferece GPUs disponíveis em várias regiões dos Estados Unidos, Europa e Sydney.
- Há diferentes opções de GPU e preços, e por padrão toda implantação usa oito núcleos de CPU AMD EPYC.
- É possível anexar volumes de até 500 GB, e também há descontos para instâncias reservadas e hosts dedicados.
GN⁺ opina:
- A Fly.io oferece um serviço de nuvem inovador capaz de processar cargas de trabalho de IA em ambientes de computação de borda, com foco em melhorar a experiência do usuário.
- O serviço com GPUs oferece uma solução que considera tanto velocidade de inferência quanto eficiência de custos, sendo especialmente adequado para aplicações que exigem alto poder computacional em tempo real.
- É um avanço muito interessante e útil, pois amplia a acessibilidade da tecnologia de IA e pode ajudar desenvolvedores a criar novas aplicações inovadoras.
1 comentários
Comentários no Hacker News
cogusados pelo replicate e também rodar modelos pré-empacotados com a mesma API de predição. Acha que o replicate pode ser um fator de hesitação, mas acredita que adotar isso proporcionaria uma experiência mais fluida.