中文互联网语料资源平台开源数据 一、平台背景 由中国网络空间安全协会联合国家互联网应急中心推出,旨在提供高质量、可信赖的中文互联网语料资源,支持人工智能模型训练、自然语言处理研究等应用。二、资源特点 平台已上线“中文互联网基础语料2.0”,涵盖27个数据集,总量约2.7TB,其中基础语料部分约120GB,包含约3800万条数据。所... Ai开源 • Admin • 2025/8/11 4