• 简体版 | 繁體版
  • 联系我们
  • 加入我们
  • 关于我们
  •  
  • 首页
  • 快讯
  • 价值号
  • 视频
  • 专题
  • 滚动
  • 入驻价值号
  • 碳链APP
    微信公众号

    扫码下载App

  • 登录
  • 微信公众号

    微信公众号

导航
  • 首页
  • 快讯
  • 区块链+
  • 价值号
  • 视频
  • 专题
  • DeFi优选
碳链价值APP
专注服务于金融科技和区块链
立即打开

ChatGPT版权第一案:OpenAI面临六项指控,因输出图书摘要被“抓包”

腾讯科技腾讯科技  •  2023-08-07
第一起具有代表性的ChatGPT版权侵权之诉,终于出现在了公众视野

原文来源:腾讯科技

图片来源:由无界 AI‌ 生成

2023年6月28日,第一起具有代表性的ChatGPT版权侵权之诉,终于出现在了公众视野。两名作家在美国加州北区法院,对Open AI公司发起了版权集体诉讼,指控后者未经授权利用自身享有版权的图书训练ChatGPT,谋取商业利益。

原告Paul Tremblay和Mona Awad居住于马萨诸塞州,分别享有涉案作品《The Cabin at the End of the World》和《13 Ways of Looking at a Fat Girl and Bunny》的版权;被告Open AI创建和运营了生成式人工智能产品ChatGPT,目前主要由GPT-3.5和GPT-4两个底层大语言模型驱动。

起诉状指出,虽然原告没有授权Open AI使用自身享有版权的图书进行模型训练,但ChatGPT却能够根据prompts指令输出图书的摘要,而这只有在被告将涉案图书纳入语料库加以训练才可能发生。

01 因为输出图书摘要而被“抓包”

原告表示,Open AI训练数据集中收录的大量内容属于版权保护的作品,这其中便包括原告享有版权的图书。但Open AI既没有经过原告的同意,也没有标明内容来源、支付必要的费用。而原告出版的图书具有明确的版权管理信息,包括出版号、版权号、版权人姓名以及使用条款等。

原告从既有的事实和信息可以推断,ChatGPT之所以可以准确生成特定图书的摘要,唯一可解释的原因便是Open AI获取、复制了涉案图书,并用于旗下大语言模型(GPT3.5 或GPT4)的训练。

原告测试发现,当通过prompts的方式要求ChatGPT总结两部涉案图书时,ChatGPT可以生成较为准确的摘要(虽然也存在少量的错误内容)。这表明ChatGPT保存了被训练数据集中特定作品的内容,并能够输出对应的文本。与此同时,ChatGPT通过对大语言模型内容生成原理的设计,输出内容并不会包含原有的版权管理信息。

02 “ChatGPT,你是如何运行的!”

本案有意思之处在于,原告证明Open AI侵权的过程中,对于ChatGPT基本原理的介绍,是建立在同ChatGPT对话,让其“进行自我介绍”的基础之上。具体内容总结如下。

Open AI至今已经公开了一系列的大语言模型,包括GPT-1(2018·6)、GPT-2(2019·2)、GPT-3(2020·5)、GPT-3.5(2022·3)以及最新的GPT-4(2023·3)。通常来讲,人工智能软件旨在借助统计学方法,通过算法模拟人类的逻辑和推理。大语言模型则是一类专门的人工智能软件,用来解析和输出自然语言。

一方面,Open AI以每个月20美元的价格将ChatGPT通过网络页面的方式提供给用户。使用者可以选择两个版本的ChatGPT,GPT-3.5模型或者更新后的GPT-4模型。另一方面,ChatGPT也以API的方式提供给软件开发者。API接口允许开发者撰写程序用于和ChatGPT进行数据交换,在此情况下则是按照使用量来计费。

不管是以页面还是API方式提供服务,ChatGPT都会积极响应用户的prompts请求。如果用户向ChatGPT提问,它会给出答案;如果用户向ChatGPT下指令,ChatGPT会执行;如果用户要求ChatGPT总结一本图书的摘要,ChatGPT依然会照做。

03 图书是大模型训练的核心语料

原告着重论证的观点是,不同于传统软件是由工程师撰写代码而成,大语言模型则是通过“训练”的方式研发——收集不同来源的海量内容语料并“投喂”给模型,这些语料被称为训练数据集(training dataset)。

大语言模型会不断调整自身的输出,尽可能的接近被训练作品中的文字组合顺序。值得关注的是,虽然很多内容都被用来训练大语言模型,但图书一直是训练数据集中核心的语料素材,因为其提供了高质量长篇写作的最佳范例。

在2018年6月发表的企业论文《通过生成式预训练提升语言理解力》中,Open AI披露GPT-1的训练依赖于“BookCorpus”的数据集。“BookCorpus”包含7000本涉及探险、奇幻、浪漫等不同领域的图书。Open AI指出,之所以图书作为训练语料尤为重要,是因为其包含了长篇幅的连续文本,这可以让生成式模型学习如何处理长文本信息的能力。

包括Open AI、谷歌、亚马逊等在内的众多人工智能研发企业,都利用“BookCorpus”进行模型训练。2015年,一个人工智能研究团队创建了该数据集,其包含的图书来源于Smashwords.com网站,但“BookCorpus”在收录这些图书时未获得版权人授权。

04 揭秘GPT背后的图书语料库

通过公开检索Open AI主动披露信息(企业论文)的方式,原告希望论证GPT系列模型的训练建立在,未经授权侵权利用海量图书内容的基础之上。在2020年7月发表的企业论文《语言模型是小样本学习者》中,Open AI披露GPT-3训练数据集中15%的内容,来源于两个名为“Books1”“Books2”的电子图书语料库。

虽然Open AI没有说明“Books1”和“Books2”内容的具体情况,但可以通过相关线索推断:第一,两个语料库均来自于网络;第二,两个语料库的规模均明显大于“BookCorpus”。根据Open AI的披露,“Books1”的规模是BookCorpus的9倍(约6.3万本书),Books2是42倍(约29.4万本书)。现实中,只有极少数的数据库能够提供如此规模的图书语料。一方面,“Books1”大概率来源于“古登堡项目”或“古登堡语料库标准化项目”。“古登堡项目”(Project Gutenberg)是一个汇集“超过版权保护期限”的在线电子书库。2020年9月,古登堡项目宣布已经收录超过6万本书。因为不受版权保护,古登堡项目一直被广泛用作人工智能模型训练。2018年,一个人工智能研究团队在“古登堡项目”的基础上,创建了超过5万本图书的“古登堡语料库标准化项目”(Standardized Project Gutenberg Corpus)。另一方面,“Books2”极大可能来源于网络上的“影子图书馆”。“Books2”数据集大约含有2.94万本书,只有饱受诟病的“影子图书馆”(shadow library),能够提供如此规模的图书语料。例如Library Genesis、Z-Library、Sci-Hub和Bibliotik等。“影子图书馆”一词由美国社会科学研究理事会,在2011年发表的《新兴经济体中的媒体盗版问题》文章中创造,指代侵权收录大量书籍并向公众免费开放的网站。2023年3月,Open AI发布GPT-4企业论文,但表示“出于行业竞争形势和产品应用安全角度考量,不再对训练数据集的结构和内容进行相关披露。”

05 Open AI面临的六项侵权指控

原告针对Open AI一共发起了六项指控,前三项涉及版权侵权,第四项涉及不正当竞争,第五和第六项涉及两类基本民事责任——注意义务和不当得利。

第一、版权直接侵权。原告没有授权Open AI对其图书进行复制、制作演绎作品,也没有授权Open AI公开展示、分发上述复制品或演绎作品。

此外,原告强调,因为Open AI大语言模型需要从原告图书中提取和保存表达性信息才能够运行,所以在缺乏原告授权的情况下,大语言模型本身构成侵权演绎作品。

第二、版权替代侵权。原告强调,在缺乏授权的情况下,大模型每次输出的内容都构成侵权演绎作品。因为有权利和能力控制大语言模型的内容输出,并从中获得了经济利益,所以Open AI构成版权替代侵权。

在美国判例法体系下,“替代侵权”和“帮助侵权”“教唆侵权”共同构成了版权间接侵权的完整体系。间接侵权与直接侵权相对,意指侵权人虽然没有直接从事版权专有权利规制的行为(即版权直接侵权),但却为版权直接侵权提供了一定的助成条件。

第三、违反DMCA中版权管理信息的规定。从产品设计机制来看,ChatGPT输出的内容不会保留作品的“版权管理信息”(CMI),所以被告故意移除原告作品版权管理信息的行为,违反《数字千年版权法》(DMCA)的规定。此外,在未获授权的情况下,被告分发了不含有版权管理信息的侵权演绎作品,也违反了DMCA。

“版权管理信息”是一种能够识别有关作品权利人、权利归属和使用条件的相关信息。不管是在美国是我国,删除或改变版权管理信息,或向公众提供被删除或改变版权管理信息的作品,都构成违法。

第四、不正当竞争。Open AI未经授权使用原告受版权保护的作品进行模型训练,这一行为违反了《加利福尼亚州商业和职业条例》,因为其具有不正当性、不道德性、强迫性并损害了消费者利益。

被告有意设计了ChatGPT,可以在不标明内容出处的情况下,输出原告作品的片段和摘要。ChatGPT通过隐瞒作者、复制被侵权作品内容和观点的方式,研发商业产品获取不公平的利益和名声。

第五、过失侵权即违反注意义务。Open AI需要承担《加州民法典》规定的注意义务——所有人对于他人应当采取一种合理的行为方式。这一义务建立在行业惯例、商业实践、被告掌握的信息以及基于信息所拥有的控制能力基础之上。

被告一旦为了训练GPT模型而收集原告享有版权的作品,那么便需要负有一定的注意义务:当预见到未经授权将作品进行模型训练会对原告造成损害时,便不应再侵权利用这些作品。

第六、不当得利。原告为创作涉案图书付出了实质性的时间和精力。因为自身作品被未经授权的用来训练GPT模型,原告被剥夺了从作品中原本可以获利的权利。通过使用原告作品训练GPT模型获得商业利益,占据这些利益对于被告而言是不公平的。除非加以禁止或限制,被告的行为将会给原告造成难以弥补的损害。

写在最后:本案待探讨的三个问题。

作为ChatGPT版权侵权的首例代表性诉讼,加州北区法院做出正式判决仍将经历一个漫长的过程。但在此之前,针对原告起诉状中的具体内容,仍然有一些问题值得关注和思考。

关注一:发现模型侵权不容易。

大语言模型的训练本质上是一种机器内部的、非外显性作品利用行为,版权人存在发现自身作品被侵权的现实难题。一般来说,只能通过比对模型生成内容和自身作品存在实质性相似,倒推出模型训练阶段存在未经授权的作品利用行为。本案中,原告之所以能够指控自身图书被Open AI旗下的大语言模型侵权训练,便是从发现ChatGPT输出了自身作品的摘要,倒推而来。

但这一主张是否成立仍有待探讨。若ChatGPT输出的作品摘要,仅是建立自身在收集网络上原告图书公开介绍资料的基础上,而非直接对原告图书进行复制和训练,那么该侵权指控的正当性便会受到动摇。原告也承认ChatGPT输出的自身图书摘要存在少部分事实错误,一定程度也表明大模型可能并未完整的学习涉案图书。

关注二:侵犯何种权利待论证。

目前来看,虽然“作品数据的储存行为”形式上可以落入版权法“复制权”的规制范畴,但核心的“作品数据的训练行为”,是否侵权以及侵犯何种版权法上的权利尚未有一致结论。本案,原告强调大语言模型的正常运行和内容输出,建立在对作品语料的训练基础之上,所以大模型训练便构成版权侵权,大模型本身也构成侵权演绎作品。

这一主张亦仍有待探讨。除了少数类似于本案“以prompts方式要求概括、总结、翻译特定版权作品”这类特殊内容生成需求之外,绝大多数情况下大模型接收开放式内容生成指令(不限定特定作品、特定作家风格),基本不会输出特定作品甚至说特定作品的片段,也就不构成版权法上的侵权。

关注三:上下游责任需明确。

在大模型版权领域,模型研发者对于大模型本身享有相关权利,所以承担模型训练涉及的版权责任;而对于大模型输出的内容,从目前行业实践来看,通行做法是通过合同方式,明确权利和责任均属于使用者。在2023年7月10日,网信办发布的《生成式人工智能服务管理暂行办法》也明确认可,“提供者应当与使用者签订服务协议,明确双方权利义务。”

值得关注,从原告诉讼请求看,亦遵循了模型训练和内容输出两个阶段,权利责任二分的思路。原告对于版权直接侵权的主张,聚焦于Open AI模型训练阶段:一是,未经原告授权在模型训练过程中制作了图书的复制品;二是在缺乏原告授权的情况下,大语言模型本身构成侵权演绎作品。原告对于ChatGPT输出内容侵权的指控,仅是主张Open AI构成版权间接侵权(替代侵权)。这也意味着对于大模型输出的内容,是由使用者承担版权直接侵权责任,因为其享有对应的权利。

展开全文
打开碳链价值APP  查看更多精彩资讯
声明:本文内容为作者独立观点,不代表碳链价值立场,且不构成任何投资理财建议。
0 0
ChatGPT

扫一扫,分享到微信

相关推荐

ChatGPT用户数量已超过17亿,一岁生日后何去何从? 滚动

ChatGPT用户数量已超过17亿,一岁生日后何去何从?

元宇宙之心MetaverseHub 2023-12-05 滚动
ChatGPT
ChatGPT自问世以来,发生了很多的变化。
欧洲版OpenAI,给ChatGPT之父狠狠上了一课 滚动

欧洲版OpenAI,给ChatGPT之父狠狠上了一课

AI梦工厂 2023-12-05 滚动
ChatGPTOpenAI
跟权力和资本斡旋背后,更本质的是利益。
GPT-4没通过图灵测试!60年前老AI击败了ChatGPT,但人类胜率也仅有63% 滚动

GPT-4没通过图灵测试!60年前老AI击败了ChatGPT,但人类胜率也仅有63%

AI梦工厂 2023-12-04 滚动
AIChatGPTGPT-4
GPT-4竟然没有通过图灵测试。

碳链快讯更多 ›

2023-12-07

路透社:比特币现货 ETF 发行人与美 SEC 的谈判已推进到关键细节

2023-12-07

Bitcoin核心开发者:Ordinals 只是一个骗局

2023-12-07

陈茂波:港府将防止区块链金融风险被带到内地

2023-12-07

a16z 分享 2024 年加密行业值得关注的趋势,包括模块化技术栈等

2023-12-05

贝莱德获得 10 万美元比特币现货 ETF 种子资金

2023-11-30

MicroStrategy 再次购买 16130 枚BTC

2023-11-28

李家超:打击无牌加密平台

2023-11-28

港媒:HOUNAX或为香港本地公司玖币

2023-11-28

Spartan Group管理合伙人:做空头寸信息遭某大型加密交易所泄露

2023-11-28

WSJ:美SEC仍在寻找 Binance.US 存在潜在欺诈的证据

2023-11-28

Vitalik 最新博文阐述对技术乐观主义、AI 风险、区块链和密码学等的看法

2023-11-28

美法官:赵长鹏必须暂时留在美国

2023-11-26

Arthur Hayes:美元流动性增长预示比特币将迎来上行趋势

2023-11-25

Web3 数字银行 iPeakoin 完成近千万美元 A 轮融资,真格基金领投

2023-11-24

盈透证券已获香港零售客户虚拟资产交易的许可

2023-11-23

新加坡拟于2024年中禁止加密货币保证金或杠杆交易,以遏制散户投机

2023-11-22

Mt. Gox 受托人:将很快开始向债权人偿还债务

2023-11-22

Sam Altman 将回归 OpenAI 担任 CEO

2023-11-21

武汉市公安局破获10亿元虚拟币洗钱案

2023-11-20

连线杂志:OpenAI 近 500 名员工威胁辞职,除非董事会辞职并重新任命 Sam Altman

2023-11-20

Tether 自愿冻结与国际犯罪集团有关的 2.25 亿枚被盗 USDT

2023-11-20

OKX已向香港证监会递交虚拟资产交易平台牌照申请

2023-11-20

华尔街日报:Bullish 已收购 CoinDesk 100% 的股权

2023-11-20

彭博:现货比特币 ETF 市场规模有望达 1000 亿美元

2023-11-20

微软 CEO:OpenAI 创始人 Sam Altman 和 Brockman 将加入微软

2023-11-20

Sam Altman回归失败 OpenAI董事会聘请Emmett Shear担任CEO

2023-11-20

彭博社:OpenAI 临时 CEO Mira Murati 计划重新聘请前 CEO Sam Altman 和前总裁 Greg Brockman

2023-11-20

知情人士:在被 OpenAI 罢免前,Altman 正寻求为新的人工智能芯片公司筹集资金

2023-11-19

OpenAI董事会:原则上同意Sam Altman回归

2023-11-19

彭博社:OpenAI 投资者正向公司董事会施压,要求恢复 Sam Altman 的 CEO 职务

2023-11-18

京港互联网 3.0 产业中心暨青年人才基地揭牌

2023-11-18

美 SEC 已推迟对 Global X 与富兰克林邓普顿的现货比特币 ETF 做出决定的日期

2023-11-18

OpenAI 罢免 Sam Altman 的 CEO 与董事会职务

2023-11-18

富达已向美 SEC 提交以太坊现货 ETF 申请

2023-11-17

BitGo 首席执行官:美 SEC 很有可能拒绝一系列现货比特币ETF申请

2023-11-17

日本金融厅批准推出ODX数字证券交易所START

2023-11-17

资产管理公司 WisdomTree 再次提交现货比特币 ETF 的 S-1 招股说明书

2023-11-17

德国联邦议员支持比特币作为该国法定货币

2023-11-16

贝莱德向 SEC 提交以太坊现货 ETF 的 S-1 招股说明书,任命 Coinbase 为托管人

2023-11-16

NYDFS 更新加密货币上市和退市指导方针,要求更为严格

2023-11-16

Arthur Hayes:随着美元流动性上升,比特币等风险资产将继续飙升

2023-11-15

新加坡金管局宣布扩大资产代币化计划

2023-11-15

蚂蚁集团首次披露海外发展数据 营收规模同比增长300%

2023-11-15

马来西亚砂拉越州与蚂蚁数科达成合作 发展数字政务服务应用

2023-11-15

彭博分析师:美 SEC 将在 21 日前对 3 个比特币现货 ETF 申请作出决策

2023-11-15

Cathie Wood:Gary Gensler的政治野心是现货比特币ETF受阻的原因

2023-11-15

Blockchain.com完成1.1亿美元E轮融资,估值较去年3月下跌超50%

2023-11-15

港股上市公司博雅互动拟斥资 9000 万美元购买比特币和以太坊

2023-11-14

加密货币集团 BGX 战略投资 OSL 母公司 BC 科技集团,认购约 7.1 亿港元新股

2023-11-14

渣打银行推出区块链部门 Libeara,拟代币化新加坡元政府债券基金

推荐文章

  • Web3游戏如何打破困境?这3个方向值得关注

    2023-08-04

  • DeFi流动性趋势能否预测市场价格?

    2023-08-03

  • 彭博分析师:现货BTC ETF获批几率从1%飙升到65%

    2023-08-03

  • 以太坊八周年:重温「公链之王」 的重大里程碑

    2023-08-01

  • 检察官撤销对FTX创始人的竞选捐款指控,这场法律纷争获最新转折

    2023-07-28

价值号更多 ›

深潮TechFlow
深潮TechFlow
文章: 304
  • Apple 的 Vision Pro 问世, Web3 元宇宙面临复苏还是毁灭?
  • a16z 安德森:为什么 AI 会拯救世界
  • 红杉资本分家背后:地缘政治、投资冲突、未来博弈
区块链骑士
区块链骑士
文章: 1387
  • Web3究竟离90%的普通人还有多远?丨BK Weekly#02
  • Web3游戏如何打破困境?这3个方向值得关注
  • 彭博分析师:现货BTC ETF获批几率从1%飙升到65%
TinTinLand
TinTinLand
文章: 64
  • 速览热门赛道 DePIN:发展潜力、挑战与主要玩家
  • 从链上应用到应用链,Web3 生态头号玩家都在如何布局?
  • AI 与 Web3:如何冲破炒作噱头,开启价值落地之路?
换一批

热门标签

新基建 比特币 以太坊 DeFi 共识对话 区块链+ 美联储 央行数字货币 加密衍生品 AI 云计算 大数据 5G 政策 交易所 稳定币 电子支付 Libra 算力产业 联盟链 公链 区块链 加密货币 Nervos Cosmos EOS BCH STO 数字货币 去中心化

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

App内打开

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

Moshou

碳链价值是集资讯、行情、数据于一身的区块链信息服务平台,我们追求及时、全面、专业、精确的资讯与数据,致力于为区块链创新者和数字货币投资者提供优质的服务。

关于我们 加入我们 联系我们 隐私条款
微信公众号

扫一扫关注微信公众号

Copyright © 2018-2020 碳链价值 京ICP备18046423号
下载碳链App

下载碳链App

微信公众号

微信公众号

微信公众号

微信公众号

打赏文章作者

支付宝打赏二维码 支付宝扫一扫打赏
微信打赏二维码 微信扫一扫打赏

# 热门搜索 #

CBDC 比特币 DeFi 以太坊 区块链