Bulletin open source DeepSeek V3.1 : Hugging Face lance Weight avec un contexte de 128K

DeepSeek a publié les poids des modèles V3.1-Base sur Hugging Face, qui peuvent être téléchargés et utilisés directement. De nombreux médias ont qualifié cette publication de « source ouverte » ; Cependant, la carte de modèle actuelle n’est pas disponible, la licence n’est pas marquée et les limites strictes d’utilisation doivent toujours être soumises aux instructions officielles de suivi. Le service en ligne a été mis à niveau vers la version 3.1, affirmant que la longueur du contexte a été étendue à 128 Ko, et que le Web/App/Mini Program reste compatible avec l’API.

1. Informations clés

Formulaire de décharge : Hugging Face fournit des poids de base V3.1 (protecteurs), et la page montre qu’il prend en charge BF16 / F8_E4M3 / F32, fournissant une variété de versions quantitatives.
Paramètres d’échelle : La page affiche « Taille du modèle : paramètres 685B ».
Durée du contexte : De nombreux rapports et annonces officielles montrent que le modèle en ligne a été mis à niveau vers un contexte de 128 Ko et que la méthode d’appel API reste inchangée.
Contexte architectural : La série V3 est une voie MoE (Mixture-of-Experts), combinée à la MLA auto-développée de DeepSeek et à d’autres technologies ; V3.1 Sur cette base, l’ingénierie et l’amélioration du contexte sont effectuées (selon les documents publics et les résumés des médias).
Remarques : Il n’y a pas de champs détaillés et d’autorisation pour la carte de modèle Hugging Face actuelle ; Vous devez vérifier la licence et les conditions avant de télécharger et de commercialiser.

2. Adresse open source (entrée officielle et faisant autorité)

Visage câlin · DeepSeek-V3.1-Base :

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

2, site officiel de DeepSeek (produits et API) :

https://www.deepseek.com/

3, DeepSeek-V3 GitHub (référence de référence sur l’architecture et la thèse) :

https://github.com/deepseek-ai/DeepSeek-V3

3. Disponibilité et suggestions de déploiement

Téléchargement et formatage : SafeTensors est préféré ; Choisissez les variantes quantifiées BF16 ou FP8(F8_E4M3) par matériel.
Ressources d’inférence : le modèle de niveau 685B (paramètres totaux MoE) nécessite une mémoire vidéo/inférence distribuée élevée ; Si les ressources sont limitées, choisissez d’abord la quantification ou l’inférence dans le cloud.
Stratégie contextuelle : le contexte 128K convient aux documents longs/bases de code longues, et le projet d’invite doit être combiné avec l’amélioration de la récupération (RAG) pour réduire l’injection de contexte invalide.
Évaluation et niveaux de gris : utilisez d’abord de petits échantillons de benchmarks (code, recherche, résumé d’article long) pour faire de l’A/B, fixez des seuils de vitesse et de coût, puis passez à la production.

4. Scénarios d’application typiques

Compréhension de documents longs et résumé de la conformité : chargement unique du contexte et raisonnement segmenté des contrats/rapports annuels/livres blancs techniques.
Agent de code : lisez, écrivez et reconstruisez de grandes bases de code, combinées à des appels d’outils et des frameworks de test.
Recherche d’entreprise et assistant de connaissances : Combiné à la récupération vectorielle/RAG, il utilise un contexte plus long pour effectuer des résumés interbases de données et des réponses à la chaîne de preuves.

5. Risques et limites

Licence peu claire : Actuellement, il n’y a pas de champ de licence clair et l’utilisation commerciale est strictement interdite par défaut. Attendez les mises à jour officielles de la carte de modèle et de la licence.
Puissance de calcul et coût : les modèles de niveau MoE ont toujours des besoins importants en mémoire/bande passante ; Évaluez le coût total de possession et le débit avant de décider de l’ampleur de l’atterrissage.
Conformité des données : les données sensibles sont faciles à transporter dans des contextes longs, nécessitant une désensibilisation, une notation et un contrôle d’accès, ainsi que la configuration de politiques d’effacement des journaux et des expirations.

6. FAQ

La V3.1 est-elle vraiment « open source » ?

Actuellement, les poids peuvent être téléchargés sur Hugging Face, qui est publié en « poids ouverts » ; Cependant, la carte modèle n’est pas encore disponible, la licence n’est pas marquée et la limite stricte open source/commercial doit être soumise à la licence officielle.

Où puis-je découvrir la version en ligne et appeler l’API ?

Le site officiel de DeepSeek fournit des programmes Web/App/Mini et des API, et l’annonce officielle indique qu’il a été mis à niveau vers la V3.1, et que l’API reste compatible.

Quelles sont les principales différences avec la V3 ?

l’information publique met l’accent sur « le contexte à plus long terme (jusqu’à 128 K) » et « l’optimisation de l’ingénierie et l’amélioration de l’expérience de vitesse » ; La couche sous-jacente continue le système V3, et les données détaillées de formation et d’évaluation doivent être complétées par la carte de modèle officielle.

Comment l’essayer s’il n’y a pas assez de ressources ?

La priorité est donnée aux pondérations quantitatives et à l’inférence des nuages ; Le déploiement hors ligne permet d’évaluer un petit échantillon avant de décider d’investir dans l’inférence distribuée et les GPU haut de gamme.

Articles connexes

Altman a confirmé qu’OpenAI accélère GPT-6 : la mémoire à long terme et la personnalisation sont au cœur de la direction

Nano Banana est susceptible de venir de Google : LMArena est devenu populaire dans la mesure réelle, et la fenêtre de la conférence de presse est verrouillée

Mem0 vaut-il la peine d’être intégré à un agent ? La mémoire à long terme est utile, mais il faut gérer les limites

Quel type d’équipe Haystack convient-il ? C’est plutôt comme un framework d’ingénierie RAG composable

Outils Recommandés