Retour à L’IA est open source
Plateforme de ressources de corpus Internet chinois données open source

Plateforme de ressources de corpus Internet chinois données open source

L’IA est open source Admin 4 vues

1. Contexte de la plate-forme

Lancé par l’Association chinoise de sécurité du cyberespace et le Centre national d’intervention d’urgence Internet, il vise à fournir des ressources de corpus Internet chinois fiables et de haute qualité pour soutenir la formation de modèles d’intelligence artificielle, la recherche sur le traitement du langage naturel et d’autres applications.


2. Caractéristiques des ressources

La

plate-forme a lancé « Chinese Internet Basic Corpus 2.0 », couvrant 27 ensembles de données avec un volume total d’environ 2,7 To, dont la partie de base du corpus est d’environ 120 Go, contenant environ 38 millions de données. Toutes les données sont vérifiées à la source, le contenu est filtré et dédupliqué pour garantir l’exactitude et la fiabilité du contenu.


3. Valeur open source

Après l’enregistrement et la certification, il peut être téléchargé et utilisé pour répondre à divers besoins tels que la recherche scientifique et l’industrie, promouvoir le développement de l’écologie open source et promouvoir l’innovation et l’application de grands modèles et de la technologie de traitement du langage naturel dans le domaine chinois.


Pour plus de détails, veuillez vous référer au site officiel :

https://corpus.cybersac.cn/?home#/index

Outils Recommandés

Plus