Lançamento do Llama Stack 0.21 - suporte ao Llama 4
(github.com/meta-llama)- O Llama Stack da Meta é um framework que padroniza os componentes centrais para aplicações de IA generativa
- Fornece uma camada de API unificada com base em implementações de diversos provedores de serviço
- Garante consistência na experiência do desenvolvedor ao migrar do ambiente de desenvolvimento para o ambiente de produção
- Principais componentes:
- API unificada para inferência, RAG, agentes, ferramentas, segurança (Safety), avaliações (Evals), telemetria (Telemetry) etc.
- Suporte a diversos ambientes (local, on-premises, nuvem, mobile) com arquitetura de plugins
- Início rápido e estável por meio de distribuições validadas (distribution)
- Várias interfaces para desenvolvedores, como CLI e SDKs (Python, Node.js, iOS, Android)
- Exemplos de aplicações em nível de produção
Como o Llama Stack funciona
- O Llama Stack é composto por servidor + SDKs cliente
- O servidor pode ser implantado em vários ambientes, como local, on-premises e nuvem
- Os SDKs cliente oferecem suporte a Python, Swift, Node.js, Kotlin etc.
Lista de SDKs cliente
- Python:
llama-stack-client-python - Swift:
llama-stack-client-swift - Node.js:
llama-stack-client-node - Kotlin:
llama-stack-client-kotlin
Implementações compatíveis com o Llama Stack
API de Inferência
- Suporte a provedores de inferência em diversos ambientes de hospedagem/locais
- Meta Reference, Ollama, Fireworks, Together, NVIDIA NIM, vLLM, TGI, AWS Bedrock, OpenAI, Anthropic, Gemini etc.
API de Vector IO
- Fornece uma interface para armazenamento vetorial
- Implementações compatíveis:
- FAISS, SQLite-Vec, Chroma, Milvus, Postgres(PGVector), Weaviate etc.
API de Safety
- Garante a segurança das respostas de IA, incluindo inspeção de prompts e código
- Implementações compatíveis:
- Llama Guard, Prompt Guard, Code Scanner, AWS Bedrock etc.
Recursos para desenvolvimento
- Se quiser começar rapidamente: Quick Start
- Se quiser contribuir: Contributing
O Llama Stack é um framework de uso geral projetado para que desenvolvedores integrem e implantem facilmente diversas tecnologias de IA, com amplo suporte a diferentes ambientes e linguagens.
Ainda não há comentários.