Microsoft Agent Lightning: framework para treinar agentes de IA com aprendizado por reforço sem alterar o código

(aisparkup.com)

13 pontos por davespark 2025-10-27 | Ainda não há comentários. | Compartilhar no WhatsApp

O Agent Lightning, lançado pela Microsoft Research, é um framework inovador que permite treinar agentes de IA existentes com aprendizado por reforço (RL) quase sem alterar o código atual do agente. Ele é compatível com diversos frameworks de agentes, como LangChain e AutoGen, e já demonstrou resultados concretos, como elevar a precisão em testes com agentes SQL de 73,2% para 80,4%.

Principais características

Arquitetura Training-Agent Disaggregation: separa completamente a execução do agente e o treinamento em RL. Com um design sidecar, viabiliza coleta não intrusiva de dados (prompts, chamadas de ferramentas e sinais de recompensa), permitindo mudança zero no código.
Independência de framework: por meio de uma API compatível com OpenAI, qualquer agente pode ser integrado imediatamente, incluindo LangChain, OpenAI Agent SDK e CrewAI.
Algoritmo GRPO: uma variação do PPO que aprende de forma eficiente em memória por meio da comparação de desempenho relativo dentro de um grupo. O LightningRL decompõe interações complexas de múltiplos turnos em transitions para lidar com credit assignment.

Exemplo de aplicação prática: agente SQL

Treinamento aplicado a um agente SQL baseado em LangGraph (que converte perguntas em linguagem natural em consultas SQL, executa e corrige erros em loop):

Processo de treinamento: começa apenas executando o servidor e conectando o cliente. Exemplo: uso do modelo Qwen2.5-Coder-3B.
Resultados: no dataset Spider, a precisão foi de 73,2% → 80,4%, e o número médio de transitions caiu de 3,30 → 2,60, aumentando a eficiência. O modelo 7B alcançou 84,4%.

Instalação e uso

pip install agentlightning (adicional: opções [apo] ou [verl]).
O GitHub examples oferece casos como Text-to-SQL e RAG. Também permite otimização seletiva em sistemas multiagentes.
Algoritmos compatíveis: GRPO/PPO, Supervised Fine-tuning, APO (otimização de prompts).

Perspectivas futuras

Como projeto open source, vem estimulando a comunidade (como DeepWerewolf). No futuro, deve se expandir com mecanismos de recompensa mais ricos, Off-policy RL e aprendizado por currículo. Ao separar o desenvolvimento do agente da otimização, a proposta aponta para a era dos agentes adaptativos.