Contexto do desenvolvimento de um GPT sobre budismo
- Eu queria usar GPT para estudar budismo, mas o desempenho básico ficou abaixo do esperado.
- A qualidade das respostas melhorou ao treinar com materiais em PDF.
- Recebi a sugestão de treinar com os sutras Jataka e iniciei o projeto.
Limites do aprendizado com PDF
- Depois de treinar com o PDF de Jataka, as alucinações ficaram graves.
- Estruturas não lineares como múltiplas colunas, tabelas e imagens atrapalharam o GPT.
Métodos tentados (todos fracassaram)
- uso do formato epub
- ajuste de instruction
- conversão para Markdown + crawling
- adição de índice em csv
A pista para a solução
- O problema era o choque entre a estrutura baseada em numeração de Jataka e a natureza generativa do GPT.
- O GPT não conseguia usar o csv corretamente.
- Quando me sugeriram um índice em JSON e eu apliquei, a precisão disparou.
Forma de aplicação na prática
- conversão de epub → Markdown (
pandoc)
- correção dos headings e remoção de textos desnecessários
- em alguns casos, organização manual do Markdown
Motivos para encerrar o serviço
- ocorreram alucinações em perguntas sobre Abhidhamma
- o tradutor Sujato Bhante era contrário ao treinamento de IA
- havia possibilidade de violação da licença do SuttaCentral
Conclusão
- RAG não é algo simples.
- É indispensável verificar a licença dos materiais usados no treinamento de IA.
4 comentários
Parece que isso também pode ajudar no aprendizado de outros tipos de textos que usam uma notação parecida com a de escrituras clássicas. Livros de Platão, por exemplo...
Isso aí... ele não entrou em nirvana sozinho e deixou a gente para trás, né?
Achei que o Doc As Prompt funcionaria bem com o Mistral OCR, mas eu também tive um problema parecido. Estou levando uma pista daqui.
"Faça com conforto no LLM aquelas consultas amorosas que são difíceis de fazer aos amigos" — isso me vem à cabeça.