Achei que bastava jogar um PDF lá — relato de fracasso ao aplicar RAG em GPTs

(velog.io)

20 pontos por computerphilosopher 2025-03-24 | 4 comentários | Compartilhar no WhatsApp

Contexto do desenvolvimento de um GPT sobre budismo

Eu queria usar GPT para estudar budismo, mas o desempenho básico ficou abaixo do esperado.
A qualidade das respostas melhorou ao treinar com materiais em PDF.
Recebi a sugestão de treinar com os sutras Jataka e iniciei o projeto.

Limites do aprendizado com PDF

Depois de treinar com o PDF de Jataka, as alucinações ficaram graves.
Estruturas não lineares como múltiplas colunas, tabelas e imagens atrapalharam o GPT.

Métodos tentados (todos fracassaram)

uso do formato epub
ajuste de instruction
conversão para Markdown + crawling
adição de índice em csv

A pista para a solução

O problema era o choque entre a estrutura baseada em numeração de Jataka e a natureza generativa do GPT.
O GPT não conseguia usar o csv corretamente.
Quando me sugeriram um índice em JSON e eu apliquei, a precisão disparou.

Forma de aplicação na prática

conversão de epub → Markdown (pandoc)
correção dos headings e remoção de textos desnecessários
em alguns casos, organização manual do Markdown

Motivos para encerrar o serviço

ocorreram alucinações em perguntas sobre Abhidhamma
o tradutor Sujato Bhante era contrário ao treinamento de IA
havia possibilidade de violação da licença do SuttaCentral

Conclusão

RAG não é algo simples.
É indispensável verificar a licença dos materiais usados no treinamento de IA.

4 comentários

pkj3186 2025-03-24

Parece que isso também pode ajudar no aprendizado de outros tipos de textos que usam uma notação parecida com a de escrituras clássicas. Livros de Platão, por exemplo...

bus710 2025-03-24

Isso aí... ele não entrou em nirvana sozinho e deixou a gente para trás, né?

1206good 2025-03-24

Achei que o Doc As Prompt funcionaria bem com o Mistral OCR, mas eu também tive um problema parecido. Estou levando uma pista daqui.

halfenif 2025-03-24

"Faça com conforto no LLM aquelas consultas amorosas que são difíceis de fazer aos amigos" — isso me vem à cabeça.