Le reclasseur est la couche du système de récupération responsable des « résultats de la sélection secondaire ». Il apparaît généralement après le rappel initial et sert à réorganiser un lot de segments « tous liés à l’apparence » afin de mettre en premier le contenu le plus pertinent. Beaucoup de systèmes de base de connaissances ne sont pas recherchés, mais la dernière ligne est fausse, et le modèle finit par consommer des matériaux sous-optimaux, puis c’est au tour de Reranker d’intervenir.
Ce n’est pas la même chose que la récupération par plongement
La recherche par intégration ressemble davantage au premier tour de tri grossier, avec pour objectif de récupérer rapidement les résultats candidats d’un grand nombre de documents ; Reranker ressemble davantage à la deuxième série de répétitions, l’accent n’est pas mis sur la rapidité, mais sur un jugement plus détaillé de « si cette question correspond mieux à ce contenu ». La première est précentrée pour le rappel, la seconde est biaisée vers la précision, et les deux sont souvent utilisées ensemble.
Pourquoi les systèmes de base de connaissances en ont souvent besoin
- Les questions des utilisateurs ont tendance à être courtes, mais les fragments de document sont longs, et la similarité vectorielle seule peut facilement placer les paragraphes « liés aux points similaires » en premier.
- Il existe souvent des limites fines telles que les versions, les départements, les gammes de produits et les conditions temporelles dans l’entreprise, et la phase initiale de sélection peut ne pas être clairement distincte.
- Lorsque plusieurs fragments contiennent des mots-clés similaires, le modèle a le plus peur de lire d’abord la mauvaise preuve.
Reranker ne parle pas de « oui ou non », mais de « qui donner en premier »
C’est particulièrement crucial. Il n’est généralement pas responsable de trouver des informations à partir de rien, mais plutôt de recomparer un ensemble de candidats rappelés. En d’autres termes, Reranker n’est pas un patch universel. Si le clip correct n’est pas rappelé du tout, il ne peut pas être sauvegardé ; Mais si le problème est « la bonne réponse est repoussée », c’est précieux.
Idées reçues courantes
- Mythe 1 : Avec l’ajout de Reranker, la base de connaissances doit être plus précise. En fait, il ne peut qu’optimiser le tri, et ne peut pas remplacer le fragment de documents, le filtrage et le contexte.
- Mythe 2 : C’est une recherche plus coûteuse. Plus précisément, il s’agit d’une couche plus granulaire de jugement de corrélation.
- Mythe 3 : Seuls les grands systèmes en ont besoin. Tant que votre base de connaissances commence à sembler « évidemment il y a de l’information mais la réponse est toujours fausse », cela vaut déjà la peine de le comprendre.
Par conséquent, Reranker est le mieux adapté pour expliquer un sentiment particulièrement courant chez les utilisateurs : l’information est évidemment dans la bibliothèque, et le système semble l’avoir trouvée, mais la réponse est de ne pas poster la question. Souvent, la véritable erreur survient à l’étape de séquençage.