ChatGPT面临销毁？被曝逐字抄袭，或赔数十亿

来源：信息时代

今天，《纽约时报》对OpenAI和微软正式提起诉讼，指控其未经授权就使用纽约时报内容训练人工智能模型。此案可能是人工智能使用知识版权纠纷的分水岭。

今天，OpenAI和微软正式被《纽约时报》起诉！索赔金额，达到了数十亿美元。

指控内容是，OpenAI和微软未经许可，就使用纽约时报的数百万篇文章来训练GPT模型，创建包括ChatGPT和Copilot之类的AI产品。

并且，要求销毁“所有包含纽约时报作品的GPT或其他大语言模型和训练集”。酝酿了几个月，该来的终于来了。

此案涉及到的，是AI技术和版权法之间的复杂关系。大模型爆火之后，业界一直未能有明确的立法，对于AI侵犯版权给出界定。

纽约时报打响的这一炮，可以说是迄今为止规模最大、最具有代表性和轰动性的案例。

在整个生成式AI历史上，这必定是一件具有重大意义的事件，标志着人工智能和版权的分水岭。

起诉文件中，《纽约时报》的关键争议之一是ChatGPT训练权重最大的数据集——公共爬虫网站Common Crawl。其中2019年数据快照中，NYT的内容占比1亿个token。

纽约时报甩出的证据，让OpenAI哑口无言。

左边是GPT-4输出的句子，右边是纽约时报的原文，红色是重叠的部分。这种程度的逐字抄袭，简直是让人倒吸一口凉气。

图片OpenAI这一关，怕是难过了。

GPT-4被曝照搬原文

起诉书明确提出OpenAI侵犯版权的指控，并强调了《纽约时报》的文章和ChatGPT输出内容之间高度相似性。

“被告试图搭纽约时报对新闻业巨额投资的便车，无偿使用纽约时报的内容来创造它的替代品，并从中窃取读者。”

文件中，NYT提供了许多关键事实。比如，NYT是Common Crawl中用于训练GPT的最大的专有数据集。

从下表中，可以看出有1750亿参数的GPT-3训练数据中，大部分的数据集都来自Common Crawl，所占权重高达60%。

下图中，是由501非营利组织Common Crawl提供的“网络副本”。

在Common Crawl 2019年快照的过滤英语子集中，域名www.nytimes.com是代表度最高的专有来源（总体排名第三，仅次于维基百科和美国专利文件数据库），占1亿个token。

图片OpenAI发言人表示，公司一直在推进与纽约时报的洽谈，对于这起诉讼感到惊讶和失望。

我们尊重内容创作者和所有者的权利，并致力于与他们合作，确保他们从人工智能技术和新的收入模式中受益。

我们希望能找到一种互惠互利的合作方式，就像我们与许多其他出版商所达成的合作。

这个案件之所以极富争议性，是因为许多生成式AI公司训练模型时，对于受版权保护内容的使用程度，这是个模糊的灰色地带。