개요
1) 청킹(Chunking) 전략
RAG 품질은 검색 대상 문서를 어떻게 나누는지에서 크게 갈립니다.
- 고정 길이 청킹: 구현이 단순하지만 문맥이 끊기기 쉬움
- 의미 단위 청킹: 문단/섹션 기준으로 분할해 정답률 향상
- 오버랩 적용: 인접 청크 일부를 겹쳐 경계 손실 완화
권장 시작값
- 청크 길이: 300~600 토큰
- 오버랩: 10~20%
- 메타데이터: 문서명, 버전, 작성일, 소유팀 필수
2) 검색 재정렬(Rerank)
벡터 검색 Top-K 결과를 그대로 생성에 넣으면 노이즈가 섞일 수 있습니다.
- 1차: 벡터 검색으로 후보 20~50개 수집
- 2차: reranker로 상위 3~8개 압축
- 3차: 압축된 근거만 LLM에 제공
효과: 답변 정확도 개선, 토큰 비용 절감, 할루시네이션 감소
3) 캐시 전략
반복 질의가 많은 서비스는 캐시로 비용과 지연시간을 줄일 수 있습니다.
- 질의 캐시: 동일/유사 질문의 최종 응답 캐시
- 검색 캐시: query → retrieved chunks 캐시
- 임베딩 캐시: 동일 문서 재색인 비용 절감
주의: 문서가 업데이트되면 관련 캐시를 함께 무효화해야 합니다.
4) 평가 프레임워크
RAG는 모델 평가 + 검색 평가를 함께 봐야 합니다.
- 검색 품질: Recall@K, MRR
- 생성 품질: 정확성, 근거 일치율, 응답 일관성
- 운영 지표: P95 지연시간, 요청당 비용, 실패율
5) 운영 체크리스트
- [ ] 문서 버전별 재색인 정책 정의
- [ ] 민감정보 마스킹 파이프라인 적용
- [ ] 출처 링크/문장 인용 규칙 고정
- [ ] 품질 기준 미달 시 fallback 응답 정의