20 pontos por computerphilosopher 2025-03-24 | 4 comentários | Compartilhar no WhatsApp

Contexto do desenvolvimento de um GPT sobre budismo

  • Eu queria usar GPT para estudar budismo, mas o desempenho básico ficou abaixo do esperado.
  • A qualidade das respostas melhorou ao treinar com materiais em PDF.
  • Recebi a sugestão de treinar com os sutras Jataka e iniciei o projeto.

Limites do aprendizado com PDF

  • Depois de treinar com o PDF de Jataka, as alucinações ficaram graves.
  • Estruturas não lineares como múltiplas colunas, tabelas e imagens atrapalharam o GPT.

Métodos tentados (todos fracassaram)

  • uso do formato epub
  • ajuste de instruction
  • conversão para Markdown + crawling
  • adição de índice em csv

A pista para a solução

  • O problema era o choque entre a estrutura baseada em numeração de Jataka e a natureza generativa do GPT.
  • O GPT não conseguia usar o csv corretamente.
  • Quando me sugeriram um índice em JSON e eu apliquei, a precisão disparou.

Forma de aplicação na prática

  • conversão de epub → Markdown (pandoc)
  • correção dos headings e remoção de textos desnecessários
  • em alguns casos, organização manual do Markdown

Motivos para encerrar o serviço

  • ocorreram alucinações em perguntas sobre Abhidhamma
  • o tradutor Sujato Bhante era contrário ao treinamento de IA
  • havia possibilidade de violação da licença do SuttaCentral

Conclusão

  • RAG não é algo simples.
  • É indispensável verificar a licença dos materiais usados no treinamento de IA.

4 comentários

 
pkj3186 2025-03-24

Parece que isso também pode ajudar no aprendizado de outros tipos de textos que usam uma notação parecida com a de escrituras clássicas. Livros de Platão, por exemplo...

 
bus710 2025-03-24

Isso aí... ele não entrou em nirvana sozinho e deixou a gente para trás, né?

 
1206good 2025-03-24

Achei que o Doc As Prompt funcionaria bem com o Mistral OCR, mas eu também tive um problema parecido. Estou levando uma pista daqui.

 
halfenif 2025-03-24

"Faça com conforto no LLM aquelas consultas amorosas que são difíceis de fazer aos amigos" — isso me vem à cabeça.