Zurück zu KI ist Open Source
Chinesische Internet-Korpus-Ressourcenplattform Open-Source-Daten

Chinesische Internet-Korpus-Ressourcenplattform Open-Source-Daten

KI ist Open Source Admin 4 Aufrufe

1. Hintergrund der Plattform

Sie wurde von der China Cyberspace Security Association und dem National Internet Emergency Response Center ins Leben gerufen und zielt darauf ab, hochwertige und zuverlässige chinesische Internet-Korpus-Ressourcen bereitzustellen, um das Training von Modellen für künstliche Intelligenz, die Forschung zur Verarbeitung natürlicher Sprache und andere Anwendungen zu unterstützen.


2. Eigenschaften der Ressourcen

Die

Plattform hat das "Chinese Internet Basic Corpus 2.0" gestartet, das 27 Datensätze mit einem Gesamtvolumen von etwa 2,7 TB umfasst, von denen der Basiskorpus etwa 120 GB beträgt und etwa 38 Millionen Daten enthält. Alle Daten werden an der Quelle verifiziert, der Inhalt gefiltert und dedupliziert, um die Genauigkeit und Zuverlässigkeit des Inhalts zu gewährleisten.


3. Open-Source-Wert

Nach der Registrierung und Zertifizierung kann es heruntergeladen und verwendet werden, um verschiedene Anforderungen wie wissenschaftliche Forschung und Industrie zu erfüllen, die Entwicklung der Open-Source-Ökologie zu fördern und die Innovation und Anwendung großer Modelle und Technologien zur Verarbeitung natürlicher Sprache im chinesischen Bereich zu fördern.


Weitere Informationen finden Sie auf der offiziellen Website:

https://corpus.cybersac.cn/?home#/index

Empfohlene Tools

Mehr