Retour à L’IA est open source
Interprétation de l’engramme DeepSeek : Utilisez O(1) pour rechercher une mémoire conditionnelle afin d’ajouter un « nouvel axe clairsemé » aux grands modèles

Interprétation de l’engramme DeepSeek : Utilisez O(1) pour rechercher une mémoire conditionnelle afin d’ajouter un « nouvel axe clairsemé » aux grands modèles

L’IA est open source Admin 86 vues

1. Résumé

Engram est un module open source de « mémoire conditionnelle » de DeepSeek, et l’idée centrale est d’ajouter une primitive mémoire extensible de recherche de forme au Transformer : une partie du motif/connaissance plus statique est stockée sous forme d’une table mémoire N-gramme, récupérée de manière approximative O(1) lors de l’inférence, puis fusionnée avec l’état caché actuel. La conclusion donnée par le dépôt officiel est que, sous les contraintes de paramètres et de puissance de calcul égales, Engram-27B a des rendements stables comparés à la base du MoE dans des tâches telles que la connaissance, le raisonnement, le code et les mathématiques. Et l’analyse des mécanismes montre qu’elle peut réduire la charge de la « reconstruction » du modèle statique dans la couche initiale, de sorte que la profondeur effective est destinée à des calculs d’inférence plus complexes.

2. Caractéristiques principales

1. Mémoire de condition forme O(1)

Par l’adressage et la récupération déterministes de mémoire statique à N-grammes, la « recherche de connaissances » est partiellement séparée de l’informatique neuronale dense, réduisant ainsi l’occupation du chemin de calcul.

2. « Nouvel axe clairsemé » complémentaire au MoE

Le MoE augmente la capacité par le calcul conditionnel, et Engram augmente la capacité par la mémoire conditionnelle : l’un est « calculé » et l’autre « vérifié », ce qui peut être plus efficacement alloué aux capacités du modèle sous les mêmes FLOP après combinaison.

3. La loi de l’échelle en U est utilisée pour l’allocation de capacité

Le compromis officiel entre « Capacité de calcul (MoE) et Capacité de mémoire statique (Engramme) » est donné, et souligne qu’il existe une loi d’échelle en forme de U qui peut guider les compromis d’ingénierie.

4. L’explication du mécanisme est plus proche de l’intuition technique

Le dépôt mentionne explicitement qu’Engram peut éliminer le besoin des premières couches de reconstruire à répétition des motifs statiques, laissant le nombre de couches et de capacités de représentation aux processus d’inférence plus critiques ultérieurs, ce qui peut être compris comme un « approfondissement plus efficace pour l’inférence ».

5. Efficacité du système et facilité d’atterrissage

L’adressage déterministe est utilisé pour transférer les tables embarquées à hyperéchelle vers la mémoire hôte, et l’augmentation de la surcharge d’inférence est maintenue aussi contrôlable que possible.

3. Installation

1. Préparer l’environnement

Python 3.8+, un environnement isolé (venv/conda) est recommandé.

2. Dépendances d’installation

Démarrage rapide par dépôt : installez des dépendances telles que torch, numpy, transformers, sympy, etc.

3. Organiser la démonstration

Le dépôt fournit des engram_demo_v1.py pour démontrer les flux de données centraux d’Engram ; Cette version simulera certains composants standards (par exemple Attention/MoE, etc.) et mettra en avant le fonctionnement des modules Engram.

4. Cas d’usage typiques

1. Questions et réponses intensives en connaissances et rappel factuel

Lorsque la tâche repose davantage sur un « mode de connaissance stable / expression fixe », la mémoire de recherche peut réduire la reconstruction répétitive du modèle dans les premières couches.

2. Réutilisation stable des fragments dans un contexte long

Des résultats de mémoire statique pour des fragments courts récurrents (phrases fixes, modèles de code, formats courants) afin de réduire les calculs invalides dans de longs contextes.

3. Structure modèle de code et scénarios mathématiques

Dans les tâches avec plus de « routines de dérivation courantes/squelettes de code », les canaux mémoire sont utilisés pour réaliser des structures plus statiques, et les canaux de calcul se concentrent sur la combinaison et le raisonnement.

4. Expansion rentable combinée au ministère de l’Éducation

Sous le postulat que les paramètres totaux et les FLOP totaux sont limités, « une partie de la capacité est placée dans la table de mémoire statique » en échange d’une densité de capacité effective plus élevée.

5. Écologie et produits concurrents

1. Statut écologique

Actuellement, le dépôt officiel est principalement basé sur des articles + diagrammes de structure + diagrammes expérimentaux + démonstrations, ce qui convient à une compréhension rapide du nouveau composant de la « mémoire conditionnelle » et à l’évaluation de l’espace de combinaison avec la pile MoE existante.

2. Produits concurrents et directions adjacentes

Les idées voisines incluent généralement : RAG (Amélioration de la récupération externe), kNN-LM/Récupération par voisins plus proches, Mémoire en cache traditionnelle N-gram/cache, et diverses architectures de routage à attention parcime/clairsemée. La différence d’Engram est qu’il utilise une « table de mémoire statique entraînable » comme primitive interne du modèle, et met l’accent sur la division du travail et l’échelle avec MoE. L’effet réel doit encore être vérifié en combinaison avec une distribution spécifique des données, une formule d’entraînement et des contraintes de déploiement.

6. Limitations et précautions

1. Détails et qualité de reproduction du journal

Le dépôt fournit des conclusions clés et des démonstrations, mais les détails de la formation à grande échelle, de la mise en œuvre de l’intervention et de l’ablation complète doivent toujours être basés sur l’article.

2. Compromis entre la mémoire et le déploiement

Transférer d’énormes tables mémoire à la mémoire hôte réduit la pression mémoire, mais introduit de nouvelles contraintes sur la bande passante, la latence et la complexité d’ingénierie.

3. L’applicabilité dépend de la forme de la tâche

Si le principal goulot d’étranglement de la tâche est le « raisonnement dynamique/généralisation combinatoire » plutôt que la « réutilisation statique du mode ou des connaissances », les bénéfices peuvent ne pas être aussi évidents que les tâches à forte intensité de connaissances.

4. Coût d’intégration avec le système d’entraînement existant

Pour connecter de nouveaux modules à la mise en œuvre du MoE/attention existante et aux stratégies parallèles, il faut évaluer la stabilité de l’entraînement, le débit et les indicateurs de suivi (tels que le taux de réussite, l’utilisation de la capacité de la table, etc.).

7. Adresse du projet

https://github.com/deepseek-ai/Engram

8. Questions fréquemment posées

Q : Quels sont les mots-clés clés d’Engram et quels problèmes résout-il ?

R : Les mots-clés sont mémoire conditionnelle, recherche évolutive, mémoire de recherche O(1) et mémoire N-gramme. Il essaie de donner au transformateur la capacité de « recherche native de connaissances » pour séparer certains schémas/connaissances statiques du calcul intensif.

Q : Quelle est la relation entre Engram et MoE ?

R : Le MoE augmente la capacité par le calcul conditionnel, et l’Engramme augmente la capacité via la mémoire conditionnelle. Les deux peuvent se compléter pour former une division du travail : « calcul (calcul) + vérification (mémoire) ».

Q : Que signifie l’analyse mécaniste officielle par « plus efficace et plus profonde » ?

R : La vision du dépôt est qu’Engram réduit la charge de reconstruire des motifs statiques aux premières couches, en rendant la profondeur du réseau plus axée sur les inférences complexes ultérieures, ce qui revient à « laisser de la profondeur pour les parties clés ».

Q : Comment puis-je vérifier rapidement comment fonctionne Engram ?

R : Pour exécuter directement les engram_demo_v1.py fournis par l’entrepôt, il faut d’abord comprendre le flux de données et la localisation de la fusion. La démo se moque des composants courants pour mettre en avant Engram.

Q : Engram est-il adapté comme alternative à RAG ?

R : Il est plus adapté comme direction complémentaire : RAG est la récupération et la mise à jour externe de documents, et Engram est un langage primitif interne de mémoire statique et division du travail informatique/mémoire. La substitution dépend de la nécessité de savoir si la tâche nécessite une connaissance externe à jour et un lien de récupération contrôlable.

Module mémoire conditionnelle open source Engram DeepSeek révélé O(1) Pourquoi est-il important de vérifier la table ? Engramme-27B et la raison pour laquelle la puissance de calcul dépassait la référence du MoE Engram utilise un transformateur d’expansion à table de mémoire statique N-gramme pour susciter la controverse Engram-27B est implémenté dans le code de raisonnement mathématique stable gain of knowledge DeepSeek Engram retire la recherche de connaissances à partir du démontage computationnel intensif des FLOP L’engramme et le MoE complètent les nouveaux axes exposés : l’un compte et l’autre vérifie comment répartir le travail Engram a proposé la loi de l’échelle en U Comment choisir entre la capacité de calcul MoE et la mémoire statique Explication du mécanisme de l’engramme : Les premières couches ne reconstruisent plus de raisonnement statique en schémas de façon plus profonde et efficace DeepSeek Engram prend en charge le déchargement de la mémoire hôte pour de très grandes tables, mais le coût de latence est géométrique Engram_demo_v1 en ligne Comment comprendre le flux de données mémoire conditionnel et la localisation de fusion aussi rapidement que possible Engram convient aux questions-réponses intensives en connaissances Pourquoi le multiplexage en mode statique est meilleur que le calcul pur L’engramme réutilise des fragments fixes dans de longs contextes Peut-on réduire les chemins de calcul invalides ? Engram améliore les structures de code et de modèles mathématiques Calculez la mise au point du canal et combinez le raisonnement est plus fort Engramme+MoE : expansion rentable Pourquoi la densité est-elle plus élevée sous les FLOP ? Engram vs RAG, qui est le plus fort si la mémoire statique intra-modèle peut remplacer la récupération externe Différences entre Engram et kNN-LM : Les primitives de mémoire statique peuvent être entraînées pour attirer l’attention Statut écologique de l’engramme DeepSeek : Que peut illustrer la démonstration du diagramme expérimental ? Interprétation des mots-clés clés d’Engram : Mémoire conditionnelle : Quels points de douleur cela résout-il ? L’engramme implémente la récupération O(1) avec un adressage déterministe Quels sont les avantages du projet d’atterrissage ? Engram évite à l’étage avant la charge de la reconstruction Pourquoi la profondeur peut-elle être laissée à un raisonnement complexe ? Plus la capacité de mémoire statique d’Engram est grande, mieux c’est La loi en forme de U donne la réponse Engram décharge la mémoire hôte pour économiser de la mémoire vidéo La bande passante et le débit vont-ils devenir de nouveaux goulots d’étranglement ? L’intégration d’un MoE d’engrammes avec attention est coûteuse Comment la stabilité de l’entraînement est évaluée Quels indicateurs Engram doit-il surveiller ? Le taux de réussite et l’utilisation de la capacité de la table sont essentiels Rappel de reproduction d’engramme : Quelle est la différence entre la conclusion de l’entrepôt et les détails du document Où se trouve la frontière d’Engram ? Les avantages des tâches de raisonnement dynamique peuvent ne pas être évidents Engram a intégré la « recherche » dans le modèle Pourquoi est-ce plus proche d’un nouveau primitif que de mettre en cache des N-grammes Engram est plus compatible avec la connaissance stable que pour les expressions fixes Pourquoi réduire le double comptage DeepSeek Engram-27B comparé à la référence MoE Pourquoi la puissance de calcul reste-t-elle rentable ? Le nouvel axe clairsemé d’Engram est différent de l’attention parcimonieuse Est-ce plus direct de vérifier la table et d’augmenter la capacité ? Intuition en ingénierie des engrammes : ce que signifie laisser les capacités de représentation à la fin Points de démarrage rapides pour l’installation d’engrammes : comment configurer les dépendances sympiques des transformateurs de torche Pourquoi la démo d’Engram est-elle simulée ? Attention/MoE Quels chemins principaux sont mis en avant Engram est utilisé pour le multiplexage de fragments stabilisé à long contexte Combien de puissance de calcul peut-on économiser sur le modèle de code L’engramme frappe des structures statiques dans des routines de dérivation mathématiques Pourquoi il est plus facile de s’améliorer La combinaison d’Engram et de MoE va-t-elle changer la voie d’expansion ? La synergie calcul + investigation est devenue une tendance Scalable d’Engram Signification de la recherche La recherche évolutive ne ralentit pas le raisonnement L’adressage déterministe d’Engram est avantageux pour le déploiement Mais la flexibilité sera-t-elle sacrifiée ? Les détails de la formation à grande échelle d’Engram ne sont pas entièrement divulgués Quels sont les risques et les pièges d’atterrissage Les compromis mémoire et déploiement d’Engram : économiser de la mémoire vidéo et ajouter de la latence ne valent pas la peine Engramme Comparaison des concurrents voisins : RAG kNN-LM Cache N-gram Lequel est le plus adapté L’adresse du projet de l’engramme DeepSeek est publique La mémoire conditionnelle deviendra-t-elle la norme pour les Transformers ? Controverses sur les clés de l’engramme : Est-il rentable de convertir la mémoire en puissance de calcul à long terme Engram « nativeizes » la recherche de connaissances Pourquoi la logique d’allocation des capacités du modèle pourrait-elle être modifiée ? La déclaration d’Engram « plus efficace et plus profonde » si les preuves du mécanisme sont cohérentes avec l’explication technique Comment Engram est plus fort sous les mêmes FLOPs La séparation entre la mémoire statique et les chemins de calcul est essentielle Difficultés à intégrer Engram avec les stratégies parallèles existantes Comment la formation distribuée et le routage fonctionnent ensemble L’engramme est utilisé pour la mémoire factuelle et les anecdotes Pourquoi est-ce plus stable que le pur MoE ? Engram peut-il compenser les lacunes du MoE ? La mémoire conditionnelle permet au modèle de calculer moins et de vérifier davantage

Outils Recommandés

Plus