Dasis AI Blog
← 목록으로

RAG 시스템에서 청킹 전략이 검색 품질에 미치는 영향

· Tech Team · #RAG #LLM #검색

TL;DR

  • 고정 크기 청킹은 빠르고 단순하지만, 문맥이 잘리는 문제가 빈번하다.
  • 의미 기반(semantic) 청킹은 검색 정확도가 약 15% 높았지만, 전처리 비용이 4배 이상이었다.
  • 문서 성격에 따라 다른 전략을 적용하는 하이브리드가 가장 안정적이었다.

왜 청킹이 중요한가

RAG(Retrieval-Augmented Generation)에서 검색의 단위는 청크다. 청크가 너무 크면 임베딩이 평균화되어 정확도가 떨어지고, 너무 작으면 문맥이 사라져 LLM이 엉뚱한 답을 만든다.

실험 설정

내부 기술 문서 1,200개를 대상으로 세 가지 전략을 비교했다.

  1. 고정 크기: 512 토큰 단위, 50 토큰 오버랩
  2. 문단 기반: 빈 줄 기준으로 분할
  3. 의미 기반: 인접 문장 임베딩 유사도가 임계값 이하일 때 분할

결과

전략 Recall@5 처리 시간 (1k 문서)
고정 크기 0.71 3분
문단 기반 0.76 5분
의미 기반 0.82 14분

결론

새 문서 수집 파이프라인에서는 문서 타입별로 분기하기로 했다. 정형화된 API 레퍼런스는 고정 크기, 블로그/튜토리얼류는 의미 기반으로 가른다.