返回Ai开源
中文互联网语料资源平台开源数据

中文互联网语料资源平台开源数据

Ai开源 Admin 4 次浏览

一、平台背景

由中国网络空间安全协会联合国家互联网应急中心推出,旨在提供高质量、可信赖的中文互联网语料资源,支持人工智能模型训练、自然语言处理研究等应用。


二、资源特点

平台已上线“中文互联网基础语料2.0”,涵盖27个数据集,总量约2.7TB,其中基础语料部分约120GB,包含约3800万条数据。所有数据均经过信源校验、内容过滤与去重处理,确保内容的准确性与可靠性。


三、开源价值

注册并认证后即可下载使用,满足科研、产业等多种需求,推动开源生态发展,促进大模型与自然语言处理技术在中文领域的创新与应用。


详见官网:

https://corpus.cybersac.cn/?home#/index

推荐工具

更多