1. Contexte de la plate-forme
Lancé par l’Association chinoise de sécurité du cyberespace et le Centre national d’intervention d’urgence Internet, il vise à fournir des ressources de corpus Internet chinois fiables et de haute qualité pour soutenir la formation de modèles d’intelligence artificielle, la recherche sur le traitement du langage naturel et d’autres applications.
2. Caractéristiques des ressources
Laplate-forme a lancé « Chinese Internet Basic Corpus 2.0 », couvrant 27 ensembles de données avec un volume total d’environ 2,7 To, dont la partie de base du corpus est d’environ 120 Go, contenant environ 38 millions de données. Toutes les données sont vérifiées à la source, le contenu est filtré et dédupliqué pour garantir l’exactitude et la fiabilité du contenu.
3. Valeur open source
Après l’enregistrement et la certification, il peut être téléchargé et utilisé pour répondre à divers besoins tels que la recherche scientifique et l’industrie, promouvoir le développement de l’écologie open source et promouvoir l’innovation et l’application de grands modèles et de la technologie de traitement du langage naturel dans le domaine chinois.
Pour plus de détails, veuillez vous référer au site officiel :
https://corpus.cybersac.cn/?home#/index