DeepSeek hat die V3.1-Base Modellgewichte auf Hugging Face veröffentlicht, die heruntergeladen und direkt verwendet werden können. Viele Medien nannten diese Version "Open Source"; Die aktuelle Modellkarte ist jedoch nicht verfügbar, die Lizenz ist nicht gekennzeichnet und die strengen Nutzungsgrenzen müssen weiterhin den offiziellen Folgeanweisungen unterliegen. Der Online-Dienst wurde auf V3.1 aktualisiert, wobei behauptet wird, dass die Kontextlänge auf 128 KB erweitert wurde und das Web-/App-/Mini-Programm weiterhin mit der API kompatibel ist.
1. Wichtige Informationen
- Freigabeformular: Hugging Face bietet V3.1-Base-Gewichte (Safetensoren), und die Seite zeigt, dass es BF16 / F8_E4M3 / F32 unterstützt, was eine Vielzahl von quantitativen Versionen bietet.
- Skalenparameter: Auf der Seite wird "Modellgröße:685B params" angezeigt.
- Kontextlänge: Mehrere Berichte und offizielle Ankündigungen zeigen, dass das Online-Modell auf 128K-Kontext aktualisiert wurde und die API-Aufrufmethode unverändert bleibt.
- Architektonischer Hintergrund: Bei der V3-Serie handelt es sich um eine MoE-Route (Mixture-of-Experts), kombiniert mit dem selbst entwickelten MLA und anderen Technologien von DeepSeek; V3.1 Auf dieser Grundlage werden Engineering und Kontextverbesserungen durchgeführt (gemäß öffentlichen Materialien und Medienzusammenfassungen).
- Hinweise: Es gibt keine detaillierten und Berechtigungsfelder für die aktuelle Hugging Face-Modelkarte; Sie müssen die Lizenz und die Bedingungen überprüfen, bevor Sie sie herunterladen und vermarkten.
2. Open-Source-Adresse (offizieller und maßgeblicher Eingang)
- Umarmtes Gesicht · DeepSeek-V3.1-Base:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
2, Offizielle DeepSeek-Website (Produkte und APIs):
https://www.deepseek.com/
3, DeepSeek-V3 GitHub (Hintergrundreferenz für Architektur und Abschlussarbeit):
https://github.com/deepseek-ai/DeepSeek-V3
3. Verfügbarkeits- und Bereitstellungsvorschläge
- Download und Formatierung: SafeTensors wird bevorzugt; Wählen Sie die quantifizierten Varianten BF16 oder FP8(F8_E4M3) nach Hardware aus.
- Inferenzressourcen: Das Levelmodell 685B (MoE-Gesamtparameter) erfordert einen hohen Videospeicher/verteilte Inferenz; Wenn die Ressourcen begrenzt sind, wählen Sie zuerst Quantisierung oder Cloud-Inferenz.
- Kontextstrategie: 128K-Kontext eignet sich für lange Dokumente/lange Codebasen, und das Eingabeaufforderungsprojekt sollte mit Retrieval Enhancement (RAG) kombiniert werden, um ungültige Kontextinjektionen zu reduzieren.
- Evaluierung und Graustufen: Verwenden Sie zunächst kleine Beispiel-Benchmarks (Code, Suche, Zusammenfassung langer Artikel) für A/B, legen Sie Schwellenwerte für Geschwindigkeit und Kosten fest und erweitern Sie sie dann auf die Produktion.
4. Typische Anwendungsszenarien
- Langes Dokumentenverständnis und Compliance-Zusammenfassung: einmaliges Laden des Kontexts und segmentierte Argumentation von Verträgen/Geschäftsberichten/technischen Whitepapers.
- Code-Agent: Lesen, Schreiben und Rekonstruieren großer Codebasen, kombiniert mit Tool-Aufrufen und Test-Frameworks.
- Assistent für Unternehmenssuche und Wissen: In Kombination mit Vector Retrieval/RAG wird ein längerer Kontext verwendet, um datenbankübergreifende Zusammenfassungen und Antworten auf die Beweiskette zu erhalten.
5. Risiken und Grenzen
- Unklare Lizenz: Derzeit gibt es kein klares Lizenzfeld, und die kommerzielle Nutzung ist standardmäßig strengstens untersagt. Warten Sie auf offizielle Updates der Modellkarte und der Lizenz.
- Rechenleistung und Kosten: Modelle auf MoE-Ebene haben immer noch erhebliche Anforderungen an Speicher/Bandbreite. Bewerten Sie die Gesamtbetriebskosten und den Durchsatz, bevor Sie sich für den Umfang der Landung entscheiden.
- Datenkonformität: Sensible Daten sind in langen Kontexten leicht zu transportieren und erfordern eine Desensibilisierung, Einstufung und Zugriffskontrolle sowie die Konfiguration von Protokoll- und Ablauflöschrichtlinien.
6. FAQ
- Ist V3.1 wirklich "Open Source"?
Aktuell können die Gewichte auf Hugging Face heruntergeladen werden, das in "open weights" veröffentlicht wird; Die Modellkarte ist jedoch noch nicht verfügbar, die Lizenz ist nicht gekennzeichnet und die strikte Open-Source-/Commercial-Grenze muss der offiziellen Lizenz unterliegen.
- Wo kann ich die Online-Version erleben und die API aufrufen?
Die offizielle Website von DeepSeek bietet Web-/App-/Mini-Programme und APIs, und die offizielle Ankündigung besagt, dass sie auf V3.1 aktualisiert wurde und die API kompatibel bleibt.
- Was sind die Hauptunterschiede zu V3?
Die öffentliche Information konzentriert sich auf "längeren Kontext (bis 128K)" und "technische Optimierung und Verbesserung der Geschwindigkeitserfahrung"; Die darunterliegende Schicht führt weiterhin das V3-System fort, und detaillierte Trainings- und Evaluierungsdaten müssen durch die offizielle Modellkarte ergänzt werden.
- Wie kann man es versuchen, wenn nicht genügend Ressourcen vorhanden sind?
Priorität haben quantitative Gewichte und Wolkeninferenz; Die Offlinebereitstellung ermöglicht eine kleine Stichprobenbewertung, bevor entschieden wird, ob in verteilte Rückschlüsse und High-End-GPUs investiert werden soll.