Retour à L’IA est open source
QwenLong-L1.5 vs RAG : comparaison entre l’inférence multi-sauts longs, la synthèse des données et le proxy mémoire

QwenLong-L1.5 vs RAG : comparaison entre l’inférence multi-sauts longs, la synthèse des données et le proxy mémoire

L’IA est open source Admin 80 vues

1. Résumé

QwenLong-L1.5 est un ensemble de recette post-entraînement « raisonnement à long contexte + gestion de la mémoire » que l’équipe Tongyi Zhiwen a rendu open source dans le dépôt Qwen-Doc. Il repose sur trois éléments : la synthèse complexe de données d’inférence pour de longs documents, l’apprentissage par renforcement des méthodes d’entraînement stable (AEPO, etc.) pour de longues séquences, et des cadres de gestion de la mémoire qui fonctionnent encore en dehors de la fenêtre de contexte physique, et le modèle correspondant QwenLong-L1.5-30B-A3B (basé sur Qwen3-30B-A3B-Thinking) a été publié.

2. Caractéristiques principales

  1. Synthèse des données par inférence contextuelle longue : Par la méthode « décomposition atomique des faits + combinaison vérifiable », des échantillons de raisonnement de documents longs nécessitant une concaténation de preuves multi-sauts sont générés, et non seulement des tâches de récupération simples.
  2. Entraînement stable RL en longue séquence : Des stratégies telles que l’échantillonnage équilibré des tâches sont introduites, et AEPO (Optimisation Politique Contrôlée par Entropie Adaptative) est proposé pour réguler le processus d’entraînement avec des mécanismes liés à l’entropie afin d’atténuer les problèmes d’instabilité courants du RL à long contexte.
  3. Gestion de la mémoire et entrée ultra-longue : effectuer une seule inférence dans la fenêtre physique du modèle (fenêtre de 256K mentionnée dans l’exemple), et la combiner avec des mises à jour itératives de la mémoire pour étendre la plage de traitement à des millions ou même plus de flux d’entrée (la description de l’article couvre 1M-4M de tâches au niveau des jetons).
  4. Reproductible open source : Fournir des poids de modèles et des descriptions de dépendances de soutien pour permettre aux chercheurs de reproduire des expériences ou de réaliser un développement secondaire (la licence du modèle est Apache-2.0, le dépôt ou la carte modèle spécifique prévaut).

3. Installation

1. Créer un environnement (exemple) : conda create -n qwenlongl1_5 python==3.10 && conda activate qwenlongl1_5

2. Installer les dépendances : exécuter pip3 install -r requirements.txt dans le répertoire correspondant (sous réserve du fichier réel).

3. Installer la bibliothèque de formation RL : Installer le verl selon la recommandation du projet (par exemple cloner volcengine/verl et couper à la pip3 install -e . après v0.4).

  1. Dépendances côté inférence : Utilisez des Transformers pour charger des modèles et des tokenizateurs (vous pouvez aussi ajuster device_map, dtype, etc. selon votre cadre d’inférence).

4. Cas d’usage typiques

  1. Questions & Réponses sur un long document (DocQA) : Raisonnement en plusieurs sauts et attribution de réponses en croisière sur des documents techniques, des documents de conformité et des documents/rapports.
  2. Matériaux ultra-longs « lire et répondre » : Lorsque l’échelle d’entrée dépasse un seul contexte, le processus de l’agent mémoire est utilisé pour la lecture segmentée, la mise à jour de la mémoire et la réponse finale complète.
  3. Analyse des connaissances d’entreprise : extraction structurelle de points clés, détection de conflits et vérification de la cohérence des rapports annuels, documents d’appel d’offres et documents de demande.
  4. Recherche sur la reproduction et la pratique d’entraînement : utilisée pour explorer la stratégie d’échantillonnage, la conception de la récompense, la stabilité de l’entraînement et le système d’évaluation du RL à long contexte.

5. Écologie et produits concurrents

  1. Même écosystème de dépôt : Qwen-Doc inclut également QwenLong-L1 (exploration RL à long contexte antérieure) et SPELL (framework RL auto-jeu), adapté aux expériences comparatives sur le lien complet « data-training-agent ».
  2. Relation avec le schéma RAG/compression : RAG est davantage un « taux de réussite de récupération et staling de contexte », tandis que QwenLong-L1.5 met l’accent sur « la capacité de raisonnement et le processus de mémoire après avoir lu un long texte » ; Les deux peuvent être combinés en ingénierie (d’abord la récupération, puis le raisonnement long / résumé de la mémoire).
  3. Référence de produit concurrentielle : les modèles à long contexte fermés et diverses méthodes open source de fine-tunning/attention parcimonie/compression ont leurs propres compromis ; La différence de QwenLong-L1.5 est que « synthèse de données à longue inférence + entraînement stable RL en longue séquence + agent mémoire » est donné comme un ensemble de formules post-entraînement.

6. Limitations et précautions

  1. Puissance de calcul et latence : L’inférence en longues séquences et l’entraînement RL nécessitent plus de mémoire/débit, surtout dans les fenêtres de niveau 256K ou les boucles proxy mémoire, le coût augmentera considérablement.
  2. La mémoire n’est pas « absolument correcte » : la mise à jour de la mémoire peut introduire des omissions et des écarts, et il est recommandé de conserver la traçabilité des preuves et les mécanismes de revue manuelle dans les scénarios clés.
  3. Seuil de reproduction d’entraînement : Les récompenses, l’échantillonnage et les superparamètres du RL sont sensibles aux résultats. Différents clusters/backends d’inférence peuvent aussi affecter la stabilité.
  4. Évaluer les risques d’extrapolation : L’amélioration des benchmarks ne signifie pas que toutes les tâches réelles des documents sont améliorées, et que la régression des données de domaine et l’évaluation de la sécurité doivent être effectuées avant la mise en œuvre.

7. Adresse du projet

https://github.com/Tongyi-Zhiwen/Qwen-Doc/tree/main/QwenLong-L1.5

8. Questions fréquemment posées

Q : Quel problème résout QwenLong-L1.5 ?

R : Principalement pour les tâches de long document de « raisonnement inter-chapitres, multi-preuves, multi-sauts », l’objectif est de permettre au modèle non seulement de récupérer des fragments, mais aussi de compléter le raisonnement en chaîne et le jugement de cohérence sur une longue période.

Q : Qu’est-ce que l’AEPO de QwenLong-L1.5 et quel est son rapport avec les PPO courants ?

R : L’AEPO est l’une des méthodes d’optimisation stratégique conçues pour la stabilité de l’entraînement à long contexte, qui régule l’exploration et l’intensité de mise à jour via des mécanismes liés à l’entropie. Il appartient au même paradigme d’optimisation stratégique que PPO, mais les détails d’implémentation et les méthodes de stabilisation sont différents (sous réserve de l’implémentation du papier et du code).

Q : Combien de temps le QwenLong-L1.5-30B-A3B a-t-il besoin pour utiliser la fenêtre de contexte ?

R : Le modèle fonctionne selon une combinaison de « fenêtre physique + mécanisme mémoire » ; Le matériel d’exemple mentionne la réalisation d’une seule inférence dans une fenêtre de 256K et peut être étendu à des entrées plus longues avec un proxy mémoire. La longueur réelle disponible dépend du cadre d’inférence, de la mémoire et de la configuration.

Q : Je veux juste faire du raisonnement, pas de l’entraînement, comment puis-je commencer le QwenLong-L1.5 le plus rapidement possible ?

R : Utilisez directement Transformers pour charger les poids et les tokenizateurs depuis l’entrepôt de modèles, et préparez de longs textes et des questions de questions. Pour reproduire le processus de proxy mémoire, référez-vous à la description du script et de l’article de support du projet.

Q : Dois-je choisir entre QwenLong-L1.5 et RAG ?

R : Pas forcément. RAG résout le problème de la « recherche », et QwenLong-L1.5 met l’accent sur « la lecture et la compréhension, l’exploration et la mémoire » ; Une combinaison courante en pratique technique est « rétrécissement par récupération + long raisonnement/résumé mémoire pour résoudre des questions et réponses complexes ».

Analyse du schéma d’inférence à long contexte open-source QwenLong-L1.5 Tongyi Zhiwen a publié la formule d’entraînement après QwenLong-L1.5 Comment QwenLong-L1.5 implémente l’inférence multi-sauts pour les documents longs Explication détaillée de la méthode de synthèse des données QwenLong-L1.5 à longue inférence La décomposition atomique QwenLong-L1.5 génère des données QwenLong-L1.5 peut vérifier comment fonctionne l’échantillon combiné Entraînement à la stabilité RL en longue séquence QwenLong-L1.5 révélé QwenLong-L1.5 a proposé une stratégie de stabilisation AEPO Interprétation des différences entre AEPO et PPO entre QwenLong-L1.5 Analyse de la stratégie d’échantillonnage équilibré des tâches QwenLong-L1.5 Comment QwenLong-L1.5 soulage l’instabilité de la longue vie Comment fonctionne le cadre de gestion de la mémoire QwenLong-L1.5 Comment QwenLong-L1.5 dépasse-t-il l’inférence physique de fenêtre ? QwenLong-L1.5 élargit de manière itérative les entrées avec la mémoire QwenLong-L1.5 prend en charge le traitement de flux d’entrée au niveau millionnaire QwenLong-L1.5 couvre les descriptions de missions de 1M à 4M QwenLong-L1.5 peut atteindre une fenêtre d’inférence unique de 256K Introduction du modèle QwenLong-L1.5-30B-A3B QwenLong-L1.5 est construit sur Qwen3-30B-A3B Poids et dépendances du modèle QwenLong-L1.5 Interprétation de la valeur reproductible open source QwenLong-L1.5 QwenLong-L1.5 adopte la licence Apache-2.0 Guide d’installation et de configuration de l’environnement QwenLong-L1.5 Points d’installation des dépendances QwenLong-L1.5 Comment installer la bibliothèque d’entraînement verl dans QwenLong-L1.5 Tutoriel de chargement du transformateur côté inférence QwenLong-L1.5 QwenLong-L1.5 Long Document Questions et Réponses Usage DocQA Processus mémoire QwenLong-L1.5 après lecture et réponse Scénario d’atterrissage pour l’analyse des connaissances d’entreprise QwenLong-L1.5 QwenLong-L1.5 est utilisé pour la détection de collisions et la vérification de la cohérence QwenLong-L1.5 est utilisé pour étudier les pratiques d’entraînement à la reproduction Positionnement QwenLong-L1.5 dans l’écosystème Qwen-Doc Les différences entre QwenLong-L1 et QwenLong-L1.5 sont résolues Comment se comparent les cadres SPELL dans Qwen-Doc ? QwenLong-L1.5 et relation et compromis RAG Comment QwenLong-L1.5 est combiné avec la récupération pour améliorer le RAG Avantages de QwenLong-L1.5 par rapport aux solutions de compression QwenLong-L1.5 pour les contextes longs en source fermée QwenLongLong-L1.5 ensemble de trois parties à raisonnement long en points de lumière Évaluation de la puissance de calcul et du coût de latence QwenLong-L1.5 Analyse de la pression mémoire vidéo QwenLongLong-L1.5 par inférence longue fenêtre Avertissement de risque de déviation de la mise à jour mémoire QwenLong-L1.5 Seuil de reproduction et sensibilité aux hyperparamètres de l’entraînement QwenLong-L1.5 QwenLong-L1.5 évalue comment gérer les risques d’extrapolation Suggestions d’évaluation de la régression QwenLong-L1.5 avant l’atterrissage Adresse du projet QwenLong-L1.5 & Entrée rapide Résumé des FAQ et des points clés QwenLong-L1.5

Outils Recommandés

Plus