1. La bibliothèque Concept
Vector est une base de données pour les « vecteurs » (embeddings) : elle stocke des vecteurs de grande dimension convertis à partir de texte, d’images, d’audio et d’autres données par le biais de modèles d’intégration, et fournit des capacités de récupération du voisin le plus proche en fonction de la similarité (comme le cosinus, le produit interne, la distance L2). Par rapport aux recherches de mots-clés à correspondance exacte, les bibliothèques vectorielles sont bonnes pour trouver du contenu « sémantiquement similaire » pour la recherche sémantique, la recommandation, le RAG et d’autres tâches.
2. Pourquoi est-ce nécessaire
La recherche traditionnelle ne peut faire correspondre que les visages des mots ; La recherche vectorielle peut comprendre des « significations similaires ». Par exemple, lors de l’interrogation « collations saines », la recherche vectorielle peut renvoyer des résultats sémantiquement similaires, tels que « collations hypocaloriques, barres granola » au lieu d’un texte contenant uniquement le mot « sain ». Lors de l’amarrage avec de grands modèles, la bibliothèque vectorielle peut également récupérer les connaissances externes les plus pertinentes pour le problème dans l’invite, réduisant ainsi considérablement la « fabrication ».
3. Flux de travail (version simplifiée)
: 1) Utilisez le modèle d’intégration pour convertir les données en vecteurs et les écrire dans la bibliothèque de vecteurs avec les métadonnées ;
2) Indexation (généralement HNSW, IVF, PQ ou Exact Flat) pour équilibrer la vitesse, la mémoire et le rappel ;
3) Au cours de la requête, le problème est également encodé en vecteurs, et k recherche du voisin le plus proche (kNN/ANN) est effectuée, puis les résultats sont renvoyés en fonction du score et des conditions de filtre.
4) Dans les scénarios de recherche, une « recherche mixte » peut être effectuée : les scores des mots-clés BM25 sont fusionnés avec la similarité vectorielle pour prendre en compte la pertinence et la mémorisation.
4. Aperçu rapide des
- indicateurs clés : regardez souvent le recall@k, la latence (p95/99), le débit et le coût.
- Mesure de distance : Le cosinus et le produit interne sont souvent utilisés dans le texte ; La L2 est couramment utilisée pour les plongements visuels partiels. Notez si la normalisation vectorielle est requise.
- Sélection de l’indice : HNSW ou recherche exacte disponible à petite échelle ; Lorsque la quantité de données se chiffre en dizaines de millions, les techniques de clustering et de quantification telles que l’IVF/PQ sont couramment utilisées pour économiser de la mémoire et accélérer la production.
- Données et cohérence : les mises à jour du corpus doivent être reconstruites/indexées de manière incrémentielle ; Une fois le modèle d’incorporation mis à niveau, envisagez la « réintégration » et la gestion des versions.
- Forme écologique : Il existe à la fois des bibliothèques vectorielles dédiées (telles que Milvus, Weaviate) et des capacités vectorielles sur des bases de données/moteurs de recherche à usage général (tels que PostgreSQL+pgvector, OpenSearch/Elastic).
5. Applications courantes
Recherche sémantique, récupération RAG, génération augmentée, déduplication de contenu similaire, rappel de recommandation, récupération multimodale (graphique, texte, audio et vidéo), détection d’anomalies et apprentissage métrique, etc.