DeepSeek a publié les poids des modèles V3.1-Base sur Hugging Face, qui peuvent être téléchargés et utilisés directement. De nombreux médias ont qualifié cette publication de « source ouverte » ; Cependant, la carte de modèle actuelle n’est pas disponible, la licence n’est pas marquée et les limites strictes d’utilisation doivent toujours être soumises aux instructions officielles de suivi. Le service en ligne a été mis à niveau vers la version 3.1, affirmant que la longueur du contexte a été étendue à 128 Ko, et que le Web/App/Mini Program reste compatible avec l’API.
1. Informations clés
- Formulaire de décharge : Hugging Face fournit des poids de base V3.1 (protecteurs), et la page montre qu’il prend en charge BF16 / F8_E4M3 / F32, fournissant une variété de versions quantitatives.
- Paramètres d’échelle : La page affiche « Taille du modèle : paramètres 685B ».
- Durée du contexte : De nombreux rapports et annonces officielles montrent que le modèle en ligne a été mis à niveau vers un contexte de 128 Ko et que la méthode d’appel API reste inchangée.
- Contexte architectural : La série V3 est une voie MoE (Mixture-of-Experts), combinée à la MLA auto-développée de DeepSeek et à d’autres technologies ; V3.1 Sur cette base, l’ingénierie et l’amélioration du contexte sont effectuées (selon les documents publics et les résumés des médias).
- Remarques : Il n’y a pas de champs détaillés et d’autorisation pour la carte de modèle Hugging Face actuelle ; Vous devez vérifier la licence et les conditions avant de télécharger et de commercialiser.
2. Adresse open source (entrée officielle et faisant autorité)
- Visage câlin · DeepSeek-V3.1-Base :
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
2, site officiel de DeepSeek (produits et API) :
https://www.deepseek.com/
3, DeepSeek-V3 GitHub (référence de référence sur l’architecture et la thèse) :
https://github.com/deepseek-ai/DeepSeek-V3
3. Disponibilité et suggestions de déploiement
- Téléchargement et formatage : SafeTensors est préféré ; Choisissez les variantes quantifiées BF16 ou FP8(F8_E4M3) par matériel.
- Ressources d’inférence : le modèle de niveau 685B (paramètres totaux MoE) nécessite une mémoire vidéo/inférence distribuée élevée ; Si les ressources sont limitées, choisissez d’abord la quantification ou l’inférence dans le cloud.
- Stratégie contextuelle : le contexte 128K convient aux documents longs/bases de code longues, et le projet d’invite doit être combiné avec l’amélioration de la récupération (RAG) pour réduire l’injection de contexte invalide.
- Évaluation et niveaux de gris : utilisez d’abord de petits échantillons de benchmarks (code, recherche, résumé d’article long) pour faire de l’A/B, fixez des seuils de vitesse et de coût, puis passez à la production.
4. Scénarios d’application typiques
- Compréhension de documents longs et résumé de la conformité : chargement unique du contexte et raisonnement segmenté des contrats/rapports annuels/livres blancs techniques.
- Agent de code : lisez, écrivez et reconstruisez de grandes bases de code, combinées à des appels d’outils et des frameworks de test.
- Recherche d’entreprise et assistant de connaissances : Combiné à la récupération vectorielle/RAG, il utilise un contexte plus long pour effectuer des résumés interbases de données et des réponses à la chaîne de preuves.
5. Risques et limites
- Licence peu claire : Actuellement, il n’y a pas de champ de licence clair et l’utilisation commerciale est strictement interdite par défaut. Attendez les mises à jour officielles de la carte de modèle et de la licence.
- Puissance de calcul et coût : les modèles de niveau MoE ont toujours des besoins importants en mémoire/bande passante ; Évaluez le coût total de possession et le débit avant de décider de l’ampleur de l’atterrissage.
- Conformité des données : les données sensibles sont faciles à transporter dans des contextes longs, nécessitant une désensibilisation, une notation et un contrôle d’accès, ainsi que la configuration de politiques d’effacement des journaux et des expirations.
6. FAQ
- La V3.1 est-elle vraiment « open source » ?
Actuellement, les poids peuvent être téléchargés sur Hugging Face, qui est publié en « poids ouverts » ; Cependant, la carte modèle n’est pas encore disponible, la licence n’est pas marquée et la limite stricte open source/commercial doit être soumise à la licence officielle.
- Où puis-je découvrir la version en ligne et appeler l’API ?
Le site officiel de DeepSeek fournit des programmes Web/App/Mini et des API, et l’annonce officielle indique qu’il a été mis à niveau vers la V3.1, et que l’API reste compatible.
- Quelles sont les principales différences avec la V3 ?
l’information publique met l’accent sur « le contexte à plus long terme (jusqu’à 128 K) » et « l’optimisation de l’ingénierie et l’amélioration de l’expérience de vitesse » ; La couche sous-jacente continue le système V3, et les données détaillées de formation et d’évaluation doivent être complétées par la carte de modèle officielle.
- Comment l’essayer s’il n’y a pas assez de ressources ?
La priorité est donnée aux pondérations quantitatives et à l’inférence des nuages ; Le déploiement hors ligne permet d’évaluer un petit échantillon avant de décider d’investir dans l’inférence distribuée et les GPU haut de gamme.