RAG 시스템에서 청킹 전략이 검색 품질에 미치는 영향
· Tech Team · #RAG #LLM #검색
TL;DR
- 고정 크기 청킹은 빠르고 단순하지만, 문맥이 잘리는 문제가 빈번하다.
- 의미 기반(semantic) 청킹은 검색 정확도가 약 15% 높았지만, 전처리 비용이 4배 이상이었다.
- 문서 성격에 따라 다른 전략을 적용하는 하이브리드가 가장 안정적이었다.
왜 청킹이 중요한가
RAG(Retrieval-Augmented Generation)에서 검색의 단위는 청크다. 청크가 너무 크면 임베딩이 평균화되어 정확도가 떨어지고, 너무 작으면 문맥이 사라져 LLM이 엉뚱한 답을 만든다.
실험 설정
내부 기술 문서 1,200개를 대상으로 세 가지 전략을 비교했다.
- 고정 크기: 512 토큰 단위, 50 토큰 오버랩
- 문단 기반: 빈 줄 기준으로 분할
- 의미 기반: 인접 문장 임베딩 유사도가 임계값 이하일 때 분할
결과
| 전략 | Recall@5 | 처리 시간 (1k 문서) |
|---|---|---|
| 고정 크기 | 0.71 | 3분 |
| 문단 기반 | 0.76 | 5분 |
| 의미 기반 | 0.82 | 14분 |
결론
새 문서 수집 파이프라인에서는 문서 타입별로 분기하기로 했다. 정형화된 API 레퍼런스는 고정 크기, 블로그/튜토리얼류는 의미 기반으로 가른다.