DeepEval - Testes unitários para LLMs
(github.com/mr-gpt)- A filosofia básica é ser o "Pytest para LLMs"
- Para a transição para produção, oferece uma forma no estilo Python de executar avaliações offline para pipelines de LLM
- Permite escrever testes para aplicações de LLM (como RAG) da mesma forma que se escrevem testes unitários em Python
- Por meio de
assert_llm_output, avalia respostas com métricas como entailment / exact / bertscore - Também é possível definir métricas personalizadas e modificar métricas existentes
Ainda não há comentários.