一、平台背景
由中国网络空间安全协会联合国家互联网应急中心推出,旨在提供高质量、可信赖的中文互联网语料资源,支持人工智能模型训练、自然语言处理研究等应用。
二、资源特点
平台已上线“中文互联网基础语料2.0”,涵盖27个数据集,总量约2.7TB,其中基础语料部分约120GB,包含约3800万条数据。所有数据均经过信源校验、内容过滤与去重处理,确保内容的准确性与可靠性。
三、开源价值
注册并认证后即可下载使用,满足科研、产业等多种需求,推动开源生态发展,促进大模型与自然语言处理技术在中文领域的创新与应用。
详见官网:
https://corpus.cybersac.cn/?home#/index