2025 年 11 月,OpenAI 在官网发表声明,点名纽约时报在版权诉讼中提出的取证要求“越界”,称对方希望获取大约 2000 万条 ChatGPT 用户对话,借此寻找用户是否借助模型绕过纽约时报付费墙、复制报道内容。OpenAI 强调,这些聊天中包含密码、支付信息、健康问题和情感困扰等高度敏感内容,任何大规模移交给第三方律师团队的做法,都与平台对用户的隐私承诺相冲突,因此公司将全力在法庭上阻止这一请求。
这场争端源自纽约时报在 2023 年底提起的版权诉讼,核心指控是 OpenAI 和微软在未授权情况下利用时报内容训练模型,并导致部分输出与原文高度相似。随着诉讼推进,焦点逐渐从训练数据是否合法,转移到“证据能怎么拿、拿到什么程度”。有法院裁决认为,在严格的保密令和去标识措施下,有限获取部分对话日志用于取证是可以讨论的,而纽约时报也声称不会用这些数据识别具体用户。OpenAI 则强调,即使去掉姓名和账号,内容本身也可能足以暴露个人身份与隐私,因此要求法院在平衡版权主张与用户数据安全时更加克制。
在此背景下,OpenAI 过去曾收到较宽泛的证据保全命令,被要求暂停按常规删除相关聊天记录并集中保存,随后公司通过上诉和协商,将义务缩减为对特定时间段数据进行法律保留,并承诺不得将其用于训练或产品改进。未来法院如何划定聊天记录的披露范围,不仅将影响本案结果,也会为整个平台类 AI 服务在日志保留、隐私保护与诉讼取证之间如何取舍,提供一个具有示范效应的边界。
常见问题
Q:纽约时报为什么要向 OpenAI 索要 2000 万条聊天记录?
A:纽约时报希望在这些 ChatGPT 对话中寻找证据,证明用户曾借助模型还原或重构时报付费内容,从而支持其关于“模型大量重现受版权保护作品”的主张,这属于版权诉讼中的证据发现策略。
Q:OpenAI 认为这一取证请求有哪些风险?
A:OpenAI 认为,即便删除账号信息和姓名,聊天内容本身也包含疾病、工作、家庭、财务等细节,足以让当事人被间接识别,大规模向对方律师团队移交这些数据会造成严重隐私风险,因此称这是对用户隐私的“入侵”。
Q:法院目前对聊天记录的态度是怎样的?
A:法院一方面下达过证据保全命令,要求 OpenAI 暂缓删除相关日志,另一方面在后续裁决中仅在保护令框架内允许有限取证,而并未直接支持纽约时报获得全部请求数据,具体范围和方式仍在博弈中。
Q:普通用户的 ChatGPT 对话会因此被长期保存吗?
A:OpenAI 的公开说明是,常规情况下用户删除对话后,相关内容会在一定时间内从系统中移除,不再用于训练;但在纽约时报诉讼期间,部分时间段的数据受法院命令约束,需要在法律保留系统中保存,直至诉讼程序结束。企业版和签署零数据保留协议的用户通常不在此次争议范围内。
Q:这场案子对整个 AI 行业有什么潜在影响?
A:案件结果不仅关系到新闻内容能否被视为训练数据的合理使用,也会影响法院今后如何看待平台聊天记录在诉讼中的取证价值。AI 公司在设计日志保留策略、删除机制和对外交付流程时,都不得不考虑未来可能面临的类似要求,这将推动行业重新权衡“数据最小化”与“法律合规”之间的边界。