Microsoft Agent Lightning: framework para treinar agentes de IA com aprendizado por reforço sem alterar o código
(aisparkup.com)O Agent Lightning, lançado pela Microsoft Research, é um framework inovador que permite treinar agentes de IA existentes com aprendizado por reforço (RL) quase sem alterar o código atual do agente. Ele é compatível com diversos frameworks de agentes, como LangChain e AutoGen, e já demonstrou resultados concretos, como elevar a precisão em testes com agentes SQL de 73,2% para 80,4%.
Principais características
- Arquitetura Training-Agent Disaggregation: separa completamente a execução do agente e o treinamento em RL. Com um design sidecar, viabiliza coleta não intrusiva de dados (prompts, chamadas de ferramentas e sinais de recompensa), permitindo mudança zero no código.
- Independência de framework: por meio de uma API compatível com OpenAI, qualquer agente pode ser integrado imediatamente, incluindo LangChain, OpenAI Agent SDK e CrewAI.
- Algoritmo GRPO: uma variação do PPO que aprende de forma eficiente em memória por meio da comparação de desempenho relativo dentro de um grupo. O LightningRL decompõe interações complexas de múltiplos turnos em transitions para lidar com credit assignment.
Exemplo de aplicação prática: agente SQL
Treinamento aplicado a um agente SQL baseado em LangGraph (que converte perguntas em linguagem natural em consultas SQL, executa e corrige erros em loop):
- Processo de treinamento: começa apenas executando o servidor e conectando o cliente. Exemplo: uso do modelo Qwen2.5-Coder-3B.
- Resultados: no dataset Spider, a precisão foi de 73,2% → 80,4%, e o número médio de transitions caiu de 3,30 → 2,60, aumentando a eficiência. O modelo 7B alcançou 84,4%.
Instalação e uso
pip install agentlightning(adicional: opções[apo]ou[verl]).- O GitHub examples oferece casos como Text-to-SQL e RAG. Também permite otimização seletiva em sistemas multiagentes.
- Algoritmos compatíveis: GRPO/PPO, Supervised Fine-tuning, APO (otimização de prompts).
Perspectivas futuras
Como projeto open source, vem estimulando a comunidade (como DeepWerewolf). No futuro, deve se expandir com mecanismos de recompensa mais ricos, Off-policy RL e aprendizado por currículo. Ao separar o desenvolvimento do agente da otimização, a proposta aponta para a era dos agentes adaptativos.
Ainda não há comentários.