개요
RAG란?
RAG(Retrieval-Augmented Generation)는 LLM이 답변을 만들기 전에 외부 지식 저장소에서 관련 문서를 검색해 함께 참고하도록 만드는 방식입니다.
왜 쓰는가?
- 최신 정보 반영: 모델 학습 시점 이후 정보도 활용 가능
- 근거 기반 답변: 출처 문서를 함께 제시 가능
- 도메인 특화 성능: 사내 문서/매뉴얼 기반 답변 강화
기본 아키텍처
- 문서 수집 및 전처리
- 청크 분할 및 임베딩 생성
- 벡터 DB 저장
- 질의 시 관련 청크 검색
- 검색 결과를 포함해 LLM에 프롬프트 전달
시작 체크리스트
- [ ] 답변 근거가 필요한 시나리오인지 확인
- [ ] 검색 대상 문서 범위와 보안 등급 정의
- [ ] 청크 크기/오버랩 정책 설계
- [ ] 오프라인 평가셋 구축(정확도/재현율)
- [ ] 할루시네이션 방지 규칙(근거 없으면 모른다고 답변)
흔한 실패 패턴
- 문서 청크가 너무 커서 검색 품질 저하
- 메타데이터(문서 버전/소유팀/시점) 누락
- 검색 결과 재정렬(rerank) 없이 바로 생성
- 운영 모니터링 없이 초기 품질로 방치
다음 단계
- 소규모 파일셋으로 PoC 실행
- 질문 유형별 평가 템플릿 정의
- 품질 기준 통과 후 서비스 반영