中文互联网语料资源平台开源数据

Ai开源 • Admin • 2025/8/11 • 4 次浏览

一、平台背景

由中国网络空间安全协会联合国家互联网应急中心推出，旨在提供高质量、可信赖的中文互联网语料资源，支持人工智能模型训练、自然语言处理研究等应用。

二、资源特点

平台已上线“中文互联网基础语料2.0”，涵盖27个数据集，总量约2.7TB，其中基础语料部分约120GB，包含约3800万条数据。所有数据均经过信源校验、内容过滤与去重处理，确保内容的准确性与可靠性。

三、开源价值

注册并认证后即可下载使用，满足科研、产业等多种需求，推动开源生态发展，促进大模型与自然语言处理技术在中文领域的创新与应用。

详见官网：

https://corpus.cybersac.cn/?home#/index

一、出台背景依据《生成式人工智能服务管理暂行办法》，向境内公众提供具备舆论属性或社会动员能力的生成式人工智能服务，应依法开展安全评估并办理算法备案，确保服务运行安全可控、内容合法合规。二、适用范围 ...

一、出台背景由全国网络安全标准化技术委员会（TC260）制定，于2024年9月9日在国家网络安全宣传周主论坛正式发布。该框架响应《全球人工智能治理倡议》，旨在为人工智能安全治理提供系统化、可操作的指...

GLM-4.5 推出高效 RL 训练框架 slime，全面开源助力大规模模型优化清华大学知识工程实验室（THUDM）在发布 GLM-4.5 系列模型的同时，正式开源了自主研发的高效强化学习（RL）训练...

Z.ai 官方宣布开源视觉语言模型 GLM-4.5V。该模型在同尺寸开源模型中表现领先，覆盖 40+ 公共基准测试，主打多模态视觉推理能力。GLM-4.5V 基于 GLM-4.5-Air 基座，采用 ...

推荐工具