PDF만 던져주면 끝날줄 알았다 - GPTs RAG 적용 실패기

2 days ago 6

불교 GPT 개발 배경

  • 불교 공부에 GPT를 활용하고자 했으나, 기본 성능은 기대 이하.
  • PDF 자료 학습을 통해 답변 품질이 향상됨.
  • 자타카 경전 학습을 제안받아 프로젝트 착수.

PDF 학습의 한계

  • 자타카 PDF 학습 후 환각 심각.
  • 다단, 표, 그림 등 비선형 구조가 GPT에게 방해됨.

시도한 방법들 (모두 실패)

  • epub 포맷 사용
  • instruction 조정
  • 마크다운 변환 + 크롤링
  • csv 인덱스 추가

해결의 실마리

  • 문제는 자타카의 번호 기반 구조와 GPT의 생성형 특성의 충돌.
  • GPT가 csv를 제대로 활용하지 못함.
  • JSON 인덱스를 제안받아 적용하자 정확도 급상승.

실제 적용 방식

  • epub → 마크다운 변환 (pandoc)
  • heading 수정, 불필요한 텍스트 제거
  • 경우에 따라 수작업으로 마크다운 구성

서비스 종료 이유

  • 아비담마 질문에서 환각 발생
  • 번역자 Sujato Bhante의 AI 학습 반대 입장
  • SuttaCentral 라이선스 위반 소지

결론

  • RAG는 단순하지 않다.
  • AI 학습용 자료는 반드시 라이선스를 확인해야 한다.

Read Entire Article