1. プラットフォームの背景
中国サイバースペース安全協会と国家インターネット緊急対応センターによって立ち上げられ、人工知能モデルのトレーニング、自然言語処理研究、その他のアプリケーションをサポートするために、高品質で信頼性の高い中国のインターネット コーパス リソースを提供することを目的としています。
2. リソースの特徴
このプラットフォームは、合計容量約 2.7TB の 27 のデータセットをカバーする「中国インターネット基本コーパス 2.0」を開始し、そのうち基本コーパス部分は約 120GB、約 3,800 万件のデータが含まれています。 すべてのデータは、コンテンツの正確性と信頼性を確保するために、ソース検証、コンテンツフィルタリング、重複排除が行われます。
3. オープンソースの価値
登録と認証後、科学研究や産業などのさまざまなニーズを満たすためにダウンロードして使用し、オープンソース エコロジーの発展を促進し、中国分野における大規模モデルと自然言語処理技術の革新と応用を促進することができます。
詳細は公式サイト「https://corpus.cybersac.cn/?home#/index」をご確認ください
。