Skip to content

개요

1) 청킹(Chunking) 전략

RAG 품질은 검색 대상 문서를 어떻게 나누는지에서 크게 갈립니다.

  • 고정 길이 청킹: 구현이 단순하지만 문맥이 끊기기 쉬움
  • 의미 단위 청킹: 문단/섹션 기준으로 분할해 정답률 향상
  • 오버랩 적용: 인접 청크 일부를 겹쳐 경계 손실 완화

권장 시작값

  • 청크 길이: 300~600 토큰
  • 오버랩: 10~20%
  • 메타데이터: 문서명, 버전, 작성일, 소유팀 필수

2) 검색 재정렬(Rerank)

벡터 검색 Top-K 결과를 그대로 생성에 넣으면 노이즈가 섞일 수 있습니다.

  • 1차: 벡터 검색으로 후보 20~50개 수집
  • 2차: reranker로 상위 3~8개 압축
  • 3차: 압축된 근거만 LLM에 제공

효과: 답변 정확도 개선, 토큰 비용 절감, 할루시네이션 감소

3) 캐시 전략

반복 질의가 많은 서비스는 캐시로 비용과 지연시간을 줄일 수 있습니다.

  • 질의 캐시: 동일/유사 질문의 최종 응답 캐시
  • 검색 캐시: query → retrieved chunks 캐시
  • 임베딩 캐시: 동일 문서 재색인 비용 절감

주의: 문서가 업데이트되면 관련 캐시를 함께 무효화해야 합니다.

4) 평가 프레임워크

RAG는 모델 평가 + 검색 평가를 함께 봐야 합니다.

  • 검색 품질: Recall@K, MRR
  • 생성 품질: 정확성, 근거 일치율, 응답 일관성
  • 운영 지표: P95 지연시간, 요청당 비용, 실패율

5) 운영 체크리스트

  • [ ] 문서 버전별 재색인 정책 정의
  • [ ] 민감정보 마스킹 파이프라인 적용
  • [ ] 출처 링크/문장 인용 규칙 고정
  • [ ] 품질 기준 미달 시 fallback 응답 정의

다음 문서