- Esqueça as caras GPUs da NVIDIA e use dispositivos que você já tem, como iPhone, iPad, Android, Mac e Linux, combinando tudo em uma única GPU poderosa
- Suporte a LLaMA e vários outros modelos
- Com o "particionamento dinâmico de modelos", divide o modelo de forma otimizada com base na topologia atual da rede e nos recursos de dispositivo disponíveis
- Permite executar modelos maiores do que aqueles que caberiam em um único dispositivo
- Encontra outros dispositivos com descoberta automática de dispositivos
- Fornece API compatível com ChatGPT
- Cada dispositivo se conecta em modo p2p, e não em uma estrutura Master-Worker (a estratégia de particionamento padrão é ring memory weighted partitioning)
- Suporte a engines de inferência:
- ✅ MLX
- ✅ tinygrad
- 🚧 llama.cpp
- Suporte a módulos de rede:
- ✅ GRPC
- 🚧 Radio
- 🚧 Bluetooth
- Problemas conhecidos
- Como a biblioteca está evoluindo rapidamente, a implementação em iOS está ficando para trás em relação ao Python
- No longo prazo, a proposta é avançar para uma abordagem unificada para que não seja necessário manter implementações separadas
Resumo do GN⁺
- O exo é um software experimental que pode integrar vários dispositivos em um único e poderoso cluster de IA
- Oferece vários recursos, como descoberta automática de dispositivos e particionamento dinâmico de modelos, permitindo executar modelos maiores do que em um único dispositivo
- Fornece uma API compatível com ChatGPT, facilitando a execução de modelos
- Está promovendo uma abordagem unificada para resolver o problema de a implementação em iOS estar ficando para trás
1 comentários
Opiniões no Hacker News
mlx, uma biblioteca exclusiva para Apple Silicon. Dizem que funciona em "iPhone, iPad, Android, Mac, Linux, pretty much any device", mas fico em dúvida se isso já foi realmente testadopaddlerdo GitHub funcionar no Windows em dois dispositivos para balanceamento de carga. Isso seria útil para executar o Llama 400B em vários dispositivos. Mas ainda não há suporte para Windows