리랭커는 '2차 선발 결과'를 담당하는 검색 시스템 계층입니다. 보통 초기 리콜 후에 나타나며, 가장 관련 있는 콘텐츠를 우선 배치하기 위해 "모든 룩 관련" 세그먼트를 재배열하는 데 사용됩니다. 많은 지식 기반 시스템이 검색되지 않지만, 뒷줄이 잘못되어 모델이 최적이 아닌 재료를 소비하게 되고, 그러면 리랭커가 역할을 하게 됩니다.
임베딩 검색과는 다릅니다
임베딩 검색은 대략적인 선별의 첫 번째 단계에 가깝습니다. 목표는 많은 문서에서 후보 결과를 빠르게 가져오는 것입니다; Reranker는 2차 리허설과 비슷하며, 속도보다는 "이 질문이 이 내용에 가장 적합한가"에 대한 더 세밀한 판단에 초점이 맞춰져 있습니다. 전자는 리콜에 유리하고, 후자는 정확성에 편향되어 있으며, 두 가지는 종종 함께 사용됩니다.
지식 기반 시스템이 종종 필요한 이유
- 사용자 질문은 대체로 짧지만, 문서 조각은 길고, 벡터 유사성만으로도 '유사한' 단락을 먼저 두는 경우가 많습니다.
- 사업 내 버전, 부서, 제품 라인, 시간 조건 등 미묘한 경계가 있는 경우가 많으며, 초기 심사 단계가 명확히 구분되지 않을 수 있습니다.
- 여러 조각이 유사한 키워드를 포함할 때, 모델은 잘못된 증거를 먼저 읽는 것을 가장 두려워합니다.
Reranker는 '예' 아니오'가 아니라 '누구를 먼저 줄까'를 다룹니다
이 점이 특히 중요합니다. 보통 처음부터 정보를 찾는 것이 아니라, 리콜된 후보자들을 다시 비교하는 역할을 합니다. 다시 말해, Reranker는 모두에게 똑같은 패치가 아닙니다. 올바른 클립이 전혀 회수되지 않으면 저장할 수 없습니다; 하지만 문제가 '정답이 뒤처진다'는 것이라면 가치가 있습니다.
흔한 오해
- 오해 1: Reranker가 추가되면 지식 기반이 더 정확해져야 한다는 점. 사실 정렬만 최적화할 수 있고, 문서 청킹, 필터링, 컨텍스트 스티칭을 대체할 수 없습니다.
- 오해 2: 더 비용이 많이 든다는 점. 더 정확히 말하면, 상관관계 판단의 더 세밀한 층입니다.
- 신화 3: 오직 대형 시스템만 필요하다. 지식 기반이 "분명히 정보가 있지만 답은 항상 틀린다"는 식으로 나타나기 시작한다면, 이미 이해할 가치가 있습니다.
따라서 Reranker는 특히 흔한 사용자 느낌을 설명하기에 가장 적합합니다: 정보는 분명히 라이브러리에 있고 시스템이 그것을 찾은 것 같지만, 답은 질문을 게시하는 것이 아닙니다. 많은 경우 진짜 결함은 시퀀싱 단계에서 발생합니다.