作者简介:王雪蕾,女,湖南醴陵人,北京航空航天大学法学院博士研究生,研究方向:民法、知识产权法。
摘要:人工智能时代,著作权法需为数据挖掘行为提供制度便利以促其发展。具体到合理使用制度的设计上,应明确数据挖掘行为包含“数据获取”与“数据分析”两阶段。在“数据分析”阶段,应明确人工智能对作品数据的利用行为处于著作权法应然规制范围外,无合理使用制度适用空间。依据“有阅读权即有挖掘权”理念,人工智能在合法获取作品数据后,即可对其进行自由利用,无需得到著作权人的特别授权。但作为配套措施,人工智能主体需建立数据保护机制,以保障数据安全与隐私权益。在“数据获取”阶段,法律应对商业性质和非商业性质的人工智能主体做出区分,仅对非商业性质人工智能的数据获取行为适用合理使用制度。在进行合理使用制度细则设计时,我国可考虑先将此合理使用情形纳入《著作权法实施条例》的修改,以此实现与《著作权法》的有效衔接和制度闭环,最终完成该制度的现阶段建立。
关键词:人工智能;大数据;数据挖掘;合理使用;制度设计
引言
在数字经济蓬勃发展的时代背景下,海量数据作为驱动社会进步的核心要素,展现出体量庞大、类型多样、价值密度低及处理速度迅捷的四大显著特征,被誉为推动时代前行的“新石油”。鉴于这些数字化科学信息源自全球互联的数十万个多元来源,海量数据价值的深度挖掘与实现,主要依赖于先进的信息挖掘技术。而作为数字时代的标志性科技成果,生成式人工智能通过大规模复制材料并精准提取相关数据,进行智能识别与重组,从而生成精确答案,其高效运作同样植根于强大的数据挖掘技术之上。以OpenAI公司研发的GPT模型为例,从2018年GPT-1的5GB数据集,至2023年GPT-4的1PB数据集,实现了五年内209 715.2倍的惊人增长(1PB=1048576GB),且增长势头仍在持续。由此可见,数据已成为决定生成式人工智能发展速度的关键因素。
然而,著作权的存在,是横亘在人工智能数据挖掘过程中不容忽视的一个重要问题。在生成式人工智能的数据输入环节,由于对著作权状态进行识别的经济成本与时间成本高昂,机器往往会在未充分辨识目标对象权利状态的情况下即启动数据挖掘,但此举潜藏着巨大的著作权侵权风险,将给研发工作带来沉重的经济负担。为规避此风险,部分研发者转向使用公共领域的数据,将数据来源局限于20世纪上半叶之前。但优质的训练数据集对于构建高性能人工智能系统至关重要,若训练数据来源单一或过于陈旧,将导致生成结果不准确、带有时代偏见与歧视性,进而无法贴合现阶段用户的需求,最终阻碍生成式人工智能的持续发展。
因此,生成式人工智能的价值实现,有赖于受著作权保护的作品数据的有效利用,我国法律对此必须给予积极回应。本文认为,为权利人提供合法、合理的制度保护是著作权法的固有职责,但同时也应避免成为新技术发展的绊脚石。面对新的作品使用类型,法律需适时调整著作权范围,以平衡社会发展与权利人利益。鉴于数字技术与人工智能代表着未来新技术的发展方向,我国已于2017年颁布《新一代人工智能发展规划》,将大力发展人工智能的规划纳入国家公共政策体系,足以证明其重要程度。然而,2020年新修订的《著作权法》未将文本与数据挖掘行为纳入著作权合理使用范畴,导致学界与实务界对于生成式人工智能未经授权使用受著作权保护作品的行为是否构成侵权、侵犯何种权利、能否适用合理使用制度免责等问题存在诸多争议。具体而言,主要形成了三种不同的观点:最主流的观点主张对人工智能的数据挖掘行为适用合理使用制度,以推动人工智能技术的发展;部分学者则持更为谨慎的态度,认为人工智能需就整个数据利用行为单独获得著作权人的特别授权,仅凭复制权无法有效规避著作权侵权的风险;而持有较为开放态度的学者则提出,人工智能对数据的挖掘与训练行为不应纳入著作权法的规制范畴,依据“有阅读权即有挖掘权”的逻辑,人工智能在获取作品数据后应有权对其进行利用。众说纷纭之下,人工智能的作品使用行为缺乏明确的法律指引,若此争议持续处于未决状态,无疑将严重阻碍人工智能技术的广泛应用与社会文化艺术的繁荣发展。
基于上述考量,本文旨在深入探讨人工智能使用作品数据的著作权归属状态,并尝试通过采取“有阅读权即有挖掘权”这一理论路径,来规制人工智能数据挖掘行为。值得注意的是,该路径并非完全排除合理使用制度的适用,而是为不同性质的人工智能主体提供了共存的空间。通常而言,商业性人工智能主体需通过购买、订阅等方式合法获取作品数据;而非商业性人工智能主体则可依据合理使用制度免费获取。本文的观点将为人工智能数据挖掘行为提供一个较为宽松的环境,但这并非是一种过于激进的观点,因为从最终结果上来看,“有阅读权即有挖掘权”说与学界主流的“合理使用”说将达成近乎一致的效果,即人工智能无需著作权人的特别授权即可利用其作品进行机器训练。甚至相较于完全无偿的“合理使用”制度,“有阅读权即有挖掘权”还在一定程度上兼顾了作者的利益诉求,避免了市场秩序的混乱。在清晰界定并阐释上述问题的基础上,本文将特别针对非商业性人工智能主体利用作品数据的行为,提出一套既能有效保障著作权人权益,又能有力促进科技发展的人工智能数据挖掘适用合理使用制度的系统性建议。
一、人工智能数据挖掘行为适用合理使用制度存疑
(一)人工智能运行过程及对应的著作权问题
人工智能的运行机制可被大致划分为三个核心阶段:数据输入、数据分析以及生成物输出。在数据输入阶段,人工智能需接触并提取数据,实现数据的复制与录入;进入数据分析阶段,人工智能会筛选与用户需求相匹配的信息,经过文本转换、词句等效识别、信息符号化处理等环节,完成对事件的识别与归纳;最终,进入生成物输出阶段,人工智能将进行语言组织,并输出其学习成果。
在生成物输出阶段,著作权问题清晰简明:若人工智能未经著作权人授权,其创作成果在“表达”上与原作品存在实质性相似,则构成对原作者复制权的侵犯;若人工智能基于原作品内容,通过改变表现形式或用途的方式,创作出具有独创性的新作品,则可能侵犯原作者的改编权或翻译权;若人工智能将多个作品或作品片段进行选择、编排,形成具有独创性的汇编作品,则原作者的汇编权将受损。此外,由于人工智能软件通常通过无线方式向公众提供其生成结果,因此还可能面临侵犯原作者信息网络传播权的风险。简而言之,生成物输出阶段所涉及的著作权问题及其表现形式,均已被现行著作权法所规制,故本文对此不再赘述。本文将重点聚焦于人工智能的数据输入与数据分析阶段,深入剖析这两阶段所涉及的著作权问题。
数据输入与数据分析阶段,实质上是人工智能为执行用户指令,通过互联网搜索作品数据,将有价值的数据复制并输入机器内部,以提取信息与知识的计算机处理流程,这一过程通常被称为数据挖掘行为。当前学界普遍主张,为支持人工智能的发展,数据挖掘行为应适用合理使用制度。然而,本文对此持有一定保留意见,认为应将数据挖掘行为拆解为不同阶段分别进行考量。
在数据输入阶段,人工智能需要对识别到的作品进行大量扫描和存储,并将其转换为机器可读的标准数据格式,以供后续深度学习使用。此存储行为导致作品被稳定地固定在芯片、硬盘、服务器等有形载体上,且可随时再现,根据词意,此行为应被视为“复制”。鉴于2020年修订的《著作权法》已明确将“数字化”纳入复制类型,因此人工智能的这一存储行为无疑被纳入到法定的复制权涵盖范围内。若存储的数据属于著作权法保护的范畴,则生成式人工智能可能构成对原作者复制权的侵犯。在此阶段,一方面,为避免侵权后果的发生,人工智能需要通过合法手段获取作品数据;另一方面,由于其行为处于著作权应然规制范围内,因此仍有适用著作权合理使用制度的空间。
至于人工智能内部的数据分析行为,在探讨其是否适用著作权合理使用制度之前,应首先明确:一项法律行为的著作权状态可能存在三种情况:一是属于著作权法规制范围且需获得著作权人授权;二是虽属于著作权法规制范围,但因合理使用等权利限制因素而无需获取著作权人授权;三是超出著作权法规制范围。因此,即便为了支持人工智能技术的发展,认为其使用作品数据进行分析的行为不应受著作权人授权的限制,也并不能直接将其归入“合理使用”的范畴,因为还存在第三种可能性,即人工智能使用作品的行为完全超出了著作权的管制范围。对此,本文将在后续部分对“著作权人当然具有垄断智能化利用作品的权利”这一前提提出质疑,并对人工智能数据分析行为的著作权状态进行深入的理论探讨。
(二)人工智能数据分析行为超出著作权法规制范围
1.数据分析行为超出著作权应有范围边界
首先,数据分析行为所针对的对象与著作权法所保护之客体在本质上并不具有一致性。人工智能在数据分析过程中的核心目标,在于从海量的作品中发掘出数据间的内在联系与普遍规律。换言之,其聚焦点在于作品所蕴含的“事实性信息”,而非对单一作品中独创性表达的模仿与学习。依据“思想与表达二分法”原则,著作权仅对“具备独创性的表达”予以保护,而对于数据分析过程中所触及的事实信息、语言规律等要素,通常被视为已超出“表达”的范畴,归入公有领域之中。因此,从保护客体的维度审视,数据分析所依托的数据信息已然超越了著作权的应有规制范畴,不应被纳入作者合法利益的范畴之内。
其次,人工智能的生成物并非对原作品的表达性使用,其与原作品之间不构成演绎性关系,著作权的保护基础出现连接关系的断裂。演绎性权利,诸如翻译权、改编权、摄制权等,均建立在对原作品内容基本保持不变的基础上,对作品的艺术表达形式进行再创作。尽管演绎性作品的本质特征在于其“独创性的新作品”属性,但由于其与原作品在内容上保持关联性,并在独创性特征上呈现出相似性,且未改变原作的创作主旨,故而被视为对原作品的表达性使用,理应受到著作权法的庇护。然而,人工智能的生成物虽亦源于原作品提供的数据信息,但其更像是通过对众多作品提炼而得出的一般性表达规律的探索与总结,具有高度的独立性,因而不再承载演绎性权利中所蕴含的与原作品的关联意义。换言之,数据分析过程生成的产物属于对作品的非表达性使用,应当被排除在著作权的保护范围之外。
最后,数据分析行为不属于著作权法所保护的传统市场,作者现有或潜在的经济利益不会因数据分析行为而受到影响。著作权交易中,作者与读者进行思想交流的基础在于作品可通过“在读者眼前原样呈现”的方式满足读者的精神或物质需求。回溯著作权的制度变迁史,从18世纪初的“印刷版权时代”到20世纪的“电子版权时代”再至当下的“网络版权时代”,技术的革新不断拓展作品的传播渠道,同时也推动了著作权外延边界的拓展。然而,无论著作权的种类如何细化与发展,其权利内涵始终如一,即指向“向读者原貌呈现作品”这一核心要义。可以说,“作品的原貌呈现”正是诸多著作财产权得以承认的根基,亦是著作权法所致力于保护的传统市场。然而,在数据分析行为过后,人工智能生成物不但早已不具备“作品的原貌呈现”这一基本特点,反而更像是与任何原作品都无关的全新内容,原作的受众和市场也因此很难被替代。因此,在作品的正常商业化利用未受影响的情境下,著作权人主张对人工智能的数据分析行为施加特别授权以强化自身利益的诉求,便缺乏了正当性基础。当然,鉴于人工智能生成物的数据来源可能涉及多个受著作权保护的作品,本文并不否认将人工智能使用纳入著作权潜在市场的可能性。但鉴于潜在市场并非作者在创作之初便能依据当时的社会认知水平所预见,不具备现实的可期待性,因此,为激发市场活力、防止权利人垄断,对潜在市场的探索与发掘不应被纳入著作权人的权利范畴之内。
2.数据分析过程中的复制行为不受复制权控制
复制行为,作为人工智能数据分析技术得以顺利开展并发挥其效能的基石,是其系统内部不可或缺的基本关键技术之一。尽管从表象观之,数据分析中的复制行为似乎全然契合“以物化方式再现作品”及“以物化载体固定作品”这两项复制权的构成要件,然而,本文仍主张此类复制行为不应被纳入著作权法的规制范畴。究其根本,在于数据分析行为的整体流程并不导致作品以“原貌展现”的形式直接面向读者群体。
复制权的设立初衷,在于通过赋予著作权人积极与消极双重权能,确保其能够垄断性控制作品上可预期利益的传播途径。此处的可预期利益,特指能够通过作品的“原貌展现”直接获取的经济或精神回报。值得注意的是,这种“原貌展现”不仅涉及展现的形式,更明确了展现的对象,即广大读者群体。然而,在人工智能数据分析的语境下,人工智能对作品的复制行为具有显著的内部性与技术性特征,其更类似于机器内部的数据流转与处理过程,而非传统意义上的作品传播。此种复制仅作为后续数据训练与模型优化的基础素材,其存在形式与目的均与传统复制存在显著差异。进一步而言,当人工智能系统摄入作品时,会立即将其内容转换为“机器语言”进行存储与处理。这一过程不仅使得作品内容对于人类读者而言变得无法直接解读,同时也意味着即便是负责管理这些数据库的人员,也无法直接阅读、欣赏或传播这些被转换后的作品内容。这一现象深刻反映了人工智能处理下的作品与原始作品在可感知性上的根本性差异。
因此,尽管数据分析过程中的复制行为确实实现了作品数据在芯片、硬盘、服务器等有形载体上的相对持久且稳定的固定,表面上看似符合现行《著作权法》中关于“数字化”复制类型的定义,但实质上,这种复制与著作权法所规范的、旨在面向公众传播并产生直接影响的复制行为存在本质区别。数据分析过程中的复制结果并未流入消费市场,也未削弱人类读者基于阅读、欣赏等目的对作品原件的需求。换言之,它并未触及著作权法保护的核心利益——即作品与读者之间的直接联系与互动。
3.数据分析行为保护有悖著作权创设目的
严格来说,知识产权的设立,其本质意义在于扮演一种工具性角色,作为通往提升整体社会福利、促进全人类文化蓬勃发展这一宏伟目标的桥梁与途径。人工智能在创作过程中的运作机理,核心在于对海量作品进行自动化且无偏见的深度剖析,以挖掘其中潜藏的普遍规律与核心逻辑。在此背景下,对于人工智能而言,任何单一作品的直接使用价值均显得极为有限,几乎可忽略不计。相应地,这种学习过程对个别作者经济利益的波及,也往往微乎其微,难以构成实质性影响。因此,赋予人工智能数据挖掘的权限,并不会导致著作权人丧失其本应获得的任何经济回报,更不会挫伤创作者们的积极性与创造力。相反,此举将有助于文学资源在新时代技术浪潮中实现更为高效、合理的配置,为文化的持续繁荣注入新的动力。故而,从法律层面考量,基于保护著作权人利益的立场,对数据挖掘行为施加特殊的授权要求或额外的经济补偿,显然缺乏充分的合理性依据。
进一步而言,若将数据分析行为纳入著作权法的严格规制范畴,视其为一种经许可方可使用的财产性权利,那么在实际操作中,必将面临一系列棘手的挑战。鉴于数据需求的海量性与即时性特征,严格遵循许可制度,无疑将在交易市场中引发诸多不必要的障碍与拖延。正如莫杰思教授在其著作中所深刻剖析的那样,过度的控制取代了资源的合理分配,已成为数字时代知识产权领域亟待破解的一大难题。当获取许可成为著作权交易的沉重负担,其所带来的实际价值远低于因繁琐程序而产生的成本时,这无疑与知识产权作为推动社会文化进步工具性权利的初衷相悖。
因此,在当下大数据盛行的时代背景下,将人工智能的数据分析行为纳入著作权管理的框架之内,不仅会徒增实施过程中的复杂性与负担,更有违于知识产权促进人类文化进步的根本宗旨。数据的价值在于使用而非保护,人们应当赋予人工智能更多的自由空间与探索机遇,使其在遵循基本法律原则的前提下,充分发挥其在数据处理与知识创造方面的独特优势。
二、“有阅读权即有挖掘权”:作为人工智能数据挖掘的指导规则
基于前文之论证,人工智能在数据分析阶段对作品的使用,实则超越了著作权法的应然规制范畴。因此,在人工智能实施数据挖掘的进程中,著作权规制的核心环节应当聚焦于数据输入阶段之作品获取路径。若人工智能通过合法途径获取作品数据,则无需承担侵权责任,此合法途径既涵盖购买、订阅等商业交易方式,亦包含通过合理使用制度获取作品数据的准入路径。由此观之,合理使用制度在此阶段才有进一步讨论的必要及适用空间。
人工智能主体依据其性质差异,可被划分为商业性主体及非商业性主体,然无论其性质如何,皆具备规模宏大、资金充裕、前景广阔等特质,均拥有较强的经济效益转化能力,因此需承担更为严格的数据保护职责。具体而言,人工智能在数据获取过程中,若欲通过合法途径获取作品数据以取得使用分析之权,除需满足获取方式合法这一基本前提外,还需构建完备的数据保护机制,以确保在数据处理与利用全过程中,著作权人权益得到充分地尊重与保障。
(一)前提条件:通过合法途径获取作品数据
在作品数据进入人工智能的数据库之前,数据获取阶段的重要性便已然凸显,此阶段实为人工智能是否获取数据分析权之关键。人工智能务必遵循合法、正当之途径以获取作品数据,此原则既为道德伦理之要求,亦系法律明文规定之责任。欧盟颁布的《数字化单一市场版权指令》便是对此原则的有力背书,其第3条第1款与第4条第1款均明确界定了对“合法获取的作品或其他内容”进行文本与数据挖掘的合法性边界,为人工智能的数据获取行为勾勒出了清晰的法律框架。
具体而言,对于那些已归入公有领域,不再受著作权法庇护的作品,人工智能可充分利用技术手段,自由且无障碍地进行获取。此类作品,作为人类文明的共同瑰宝,理应成为驱动科技进步与创新的重要源泉。然而,对于仍受著作权法严格保护的作品,人工智能则需采取更为审慎与规范的获取方式,这包括但不限于通过正规渠道购置复制件、订阅内容服务,或参与数据的有偿共享计划,以确保每一步均行走在著作权法的合法轨道之上。如此规定,实则将诸如入侵数据库、购买盗版书籍、非法传输数据等非法获取作品的行为,明确排除在合法使用范畴之外,有力维护了著作权法的秩序与著作权人的尊严。在合法获得作品数据的准入资格后,人工智能即获取了作品的“阅读权”,进而可依据“有阅读权即有挖掘权”之理论,拥有了深入探索、分析及利用数据的自由。
“有阅读权即有挖掘权”这一理论,其核心在于倡导一种开放、包容的知识利用环境。该理论认为,只要数据获取途径合法,数据挖掘者便不应再受任何不必要的法律、伦理或道德束缚。同时,著作权人也无权对数据挖掘行为额外征收费用,更无权对挖掘结果主张进一步的收益。这一理论无疑为人工智能的发展注入了强劲动力,使这些智能系统能够更自由地探索既有作品,创造出更多有价值的信息与服务。同时,它也确保了著作权人的预期利益不会因数据挖掘而受损,从而有效平衡了双方间的利益冲突。这一理念不仅在国际学术界引发了广泛共鸣,也赢得了诸多权威机构的认可与支持。国际图书馆协会联合会(IFLA)、欧洲研究图书馆协会(LIBER)、英国知识产权局(UK Intellectual Property Office)等机构纷纷发表声明,强调数据挖掘对于科学研究、知识创新的重要意义,并呼吁社会各界尊重并保护这一权利。而欧盟的《数字化单一市场版权指令》更是以法律形式,将这一理念部分地融入版权保护体系之中,为人工智能的数据挖掘行为提供了坚实的法律支撑。
然而,值得注意的是,欧盟的《数字化单一市场版权指令》在支持这一观点的同时,亦展现出一定的保留态度。特别是其第4条第3款,对商业性质的数据挖掘行为设定了额外的限制条件。依据该条款,唯有当权利人未以明示方式保留对作品内容的挖掘性使用时,商业性的数据挖掘行为方能被视为合法。这一规定,虽在在一定程度上尊重了权利人的意愿,但也给人工智能的商业应用带来了不小的挑战。
对此,本文持不同见解。人工智能的发展是推动社会经济进步的重要力量,除科研目的外,商业性质的使用同样不可小觑。事实上,当今公众所接触的绝大多数人工智能软件均以商业利用为最终目标。若将数据挖掘的权利保留交由著作权人,出于利益最大化考量,他们很可能选择保留这一权利。如此一来,“有阅读权即有挖掘权”的理念将难以落地生根,甚至可能沦为空谈。因此,本文主张,对所有类型的人工智能主体均应坚持“有阅读权即有挖掘权”这一指导规则,只要人工智能主体能够证明其获取作品数据的途径合法,那么它便有权对这些数据进行自由地分析与利用。
(二)配套措施:建立数据保护系统
尽管前文已深度剖析了人工智能在阅读数据行为上与自然人读者的相似之处,并阐明在合法获取作品数据后,人工智能可自由地对这些数据进行分析与利用。然而,我们亦需保持清醒的认知,人工智能数据库与自然人的阅读行为在本质层面存在着显著差异。这些差异突出地体现在数据的海量性、易受攻击性以及高效传输性上,这些特性导致人工智能数据库在面临恶意侵害和数据泄露时,其潜在风险远超一般自然人读者。
首先,从数据海量性的维度审视,人工智能数据库所具备的数据存储与处理能力远超人类读者的阅读极限。庞大的数据量虽为数据分析与利用提供了丰富的素材,但同时也成为了黑客攻击与非法数据获取的诱人目标。一旦数据库的防护体系出现纰漏,大量敏感信息可能瞬间外泄,从而引发严重的侵权风险与难以估量的财产损失。其次,数据的易受攻击性亦是人工智能数据库所面临的一大严峻挑战。相较于传统纸质书籍或单一电子设备上的阅读内容,数字化数据更易于被复制、篡改与非法传播。黑客可凭借技术手段轻易突破数据库的防护屏障,窃取或篡改其中数据,进而触发一系列法律纠纷与信任危机。再者,数据的高效传输性亦加剧了数据泄露的风险。在数字化时代背景下,数据能够瞬间跨越地理界限,传输至全球任意角落。这种高速、高效的传输方式虽极大地促进了信息的流通与共享,但也为数据的非法获取与滥用提供了极大便利。鉴于上述特性所蕴含的风险,本文有必要重新审视“有阅读权即有挖掘权”这一理论中内涵的隐藏条件。
鉴于此,著作权法对人工智能施加额外的配套要求就显得尤为重要,其中,数据保护系统的构建即为最核心和紧迫的一项。这一要求不仅得到了国际法案的明确支持,如欧盟《数字化单一市场版权指令》第3条即明确规定了成员国应为人工智能数据库提供必要的安全等级存储,以确保数据与网络的安全性与完整性;同时在司法实践中亦得到了充分体现,如The Authors Guild v. Google, Inc.一案中,Google公司正是因其采取了有效的数据库安全管理措施,才得以成功摆脱著作权侵权的指控。
值得注意的是,法律对人工智能主体建立数据保护系统的要求并非苛求其达到完美。在现实中,完全杜绝数据泄露几乎是一项不可能完成的任务。故而,法律仅要求数据库提供者采取必要且合理的保护措施,以满足基本的保护标准。只要人工智能主体能够证明其已建立了符合规范的安全系统,并持续、稳定地运用该系统对数据库进行监测、维护与防护,即应视为其已履行了数据保护的义务,从而符合“有阅读权即有挖掘权”的配套措施要求。
三、合理使用制度应用场景:非商业性人工智能可无偿获取数
上文业已阐述,现今学界笼统地认为,为推动科学技术的进步发展,人工智能数据挖掘行为应被纳入合理使用制度的范畴。对此论题,本文已展开深入剖析,依据本文的论点与逻辑脉络,当作品数据被导入人工智能系统内部后,该系统对数据的“分析与利用”行为,理应排除于著作权法的直接规制领域之外,即在此环节,合理使用制度并无适用之余地。
在数据挖掘过程中,对人工智能视域下的著作权合理使用制度的研究,其焦点应严格限定于人工智能的数据输入阶段。具体而言,仅需对人工智能“获取”作品数据这一单一行为实施法律规制,此点构成了与其他学术观点的根本性差异。
(一)合理使用制度的设定标准:参考借鉴“四要素分析法”
在特定情境下,法律允许他人在无需获得著作权人许可及支付报酬的条件下自由利用著作权作品,此情形被界定为合理使用。我国《著作权法》第24条对合理使用制度作出了明确规定,要求作品使用主体在符合其列举的十二种具体情形之一的基础上,还需同时满足“不得影响作品的正常使用”与“不得不合理损害著作权人的合法权益”的双重条件。值得注意的是,这三个条件并非并列关系,而是需遵循严格的先后顺序进行逐一审视。具体而言,首先,作品的使用方式必须契合前述十二种行为模式之一,当然,此等模式可能随法律变迁而有所增减;其次,需在具体案例中审慎评估使用行为是否干扰了作品在原有渠道中的正常功能,以及是否会对原作品的潜在市场造成替代性冲击;最后,必须确保使用行为对著作权人造成的利益减损保持在合理范围之内,避免对著作权人产生重大的负面经济后果。我国《著作权法》所采用的这一合理使用判定框架,被学界概括为“三步检测法”。
三步检测法具有逻辑清晰、稳定性强、可预见性强等优点,但也逐渐在司法实践中暴露其问题:由于此方法的遵循具有先后顺序,因此当案件中涉及的使用行为不属于前述十二种情形之一时,便无法进入后续步骤的评估。由于与人工智能相关的作品使用行为不在其中,因此按照三步检测法,其将被直接排除在著作权合理使用范畴之外。鉴于此,为深化人工智能著作权合理使用制度的研究,本文主张可借鉴《美国版权法》第107条所确立的“四要素分析法”作为补充参考:(1)使用的目的与性质,考量其是否出于非营利性目的而进行使用;(2)作品的性质,要求其必须是已经公开发表的作品;(3)所使用部分的质与量在版权作品中的占比,要求必须控制在适当范围内;(4)使用行为对作品潜在市场或价值的影响,不可不合理损害著作权人的利益。
四要素分析法因其非限制性特征,能够灵活应对个案中的复杂情形,故而亦得到了我国司法政策的认可与支持。我国最高人民法院已明确表态,为激励技术创新与商业发展,即便作品的特定使用行为未直接对应《著作权法》第24条所列举的任一情形,但只要能够通过四要素分析法的严格考量,亦可被纳入合理使用的范畴之内。
(二)合理使用制度的适用对象:非商业性的人工智能主体
法律界普遍认同,非商业性质的人工智能获取作品数据之行为,应纳入合理使用制度范畴。此观点基于其全面满足四要素分析法的各项考量,有效将著作权人潜在损失控制在合理限度内,同时有力促进科技进步与社会发展,契合著作权制度之根本目的。英国相关调研揭示,在确保不会对版权作品市场及价值造成负面影响的前提下,允许科研机构自由获取、分析及共享数据,国家有望在未来十年内获得超过5亿英镑的经济收益,并每年额外增收约2.9亿英镑。若数据使用与共享水平能进一步提升,此经济效益还将持续扩大。
然而,对于商业性质人工智能是否同样适用合理使用制度这一问题,学界意见纷呈。争议核心在于,以营利为目的的商业主体,能否通过四要素分析法首项的“目的与性质”之审查?传统观点认为,除教育、科研、基本人权保护等公益目的外,其他作品使用行为通常难以被认定为合理使用。唯有对商业性使用行为征收费用,方能确保对著作权人的经济激励。但随着时间推移,“转换性使用”这一判断标准的比重逐渐代替“非商业性质”成为四要素分析法首项考量的重点,即只要作品使用符合“转换性”标准,便会被默认为无法对原作品的利用产生重大替代威胁,即便其具有商业目的,也不排除其构成合理使用的可能性。这一规则的演变实质上是将合理使用的“单纯公益”原则拓展为了“公益优先”原则,在保障作者利益的同时,使合理使用制度更加贴合现今科技水平和经济环境,因此亦获得了我国部分学者的支持。
针对上述争议,本文认为,无论四要素分析法标准如何演变,我国均不应将作品商业性利用纳入合理使用范畴。理由如下:首先,此举将破坏我国著作权法体系的内在逻辑。人工智能获取作品数据之行为,本不在《著作权法》第24条规定的十二种情形之列,故需援引四要素分析法为其提供理论支撑。但若连是否满足四要素分析法之要件都存在争议,则该行为的合理使用认定将显得过于宽泛且缺乏说服力。至少,商业性人工智能对作品的使用是“全面”且“海量”的,而非“适当”或“少量”,强行赋予其合理使用豁免,将从根本上违背我国著作权法的规定标准。其次,此举有悖于利益平衡的基本原则。著作权作为私权,根据“私人权利神圣不可侵犯”这一法理原则,理应受到法律的严格保护。然出于公益需要及文化发展等考量,著作权法将部分利益让渡,设立合理使用制度,以保障特定主体以特定理由无障碍接触作品。因此,私权性质的让渡意味着继受主体应当具备相应的限制性条件——非营利性。著作权合理使用制度实乃私人利益与社会公益之间的微妙平衡,而允许商业性人工智能适用合理使用制度,无偿获取作品数据,无疑将打破这一平衡。事实上,商业性质人工智能盈利模式多样,其研发者可通过会员费、商业合作、广告投放等方式获取巨额利润。在海量数据的支撑下,人工智能、云计算、大数据等网络信息技术已成为资本市场的主要投资方向。若其无需承担任何经济成本即可获取核心资源“数据”,将严重违背法律公平原则。况且,本文并非主张人工智能研发者需为数据挖掘行为额外支付许可费,而是要求其通过合法途径付费获取作品数据。对于大型科技公司而言,此费用并非不可承受之重,远未达到“实现不能”之境地。
综上所述,关于合理使用制度的适用对象,本文主张应根据人工智能的性质进行区分,实施“双轨制”管理体系。即仅将非商业性质的人工智能纳入合理使用制度范畴,而将商业性质的人工智能排除在外。
(三)我国人工智能数据挖掘适用合理使用制度的设计
我国2020年新修订的《著作权法》虽对合理使用制度进行了若干修正与优化,并引入“三步检验法”作为普适性原则,从而强化了其理论基础,但在具体条文中,却未对人工智能、大数据等新兴技术之发展需求明确表达支持立场。合理使用的具体范畴依然局限于“个人使用”“新闻报道”“介绍评论”等传统类型。尽管新增了第13项“法律、行政法规规定的其他情形”作为兜底性条款,然而,鉴于当前尚无此类文件对人工智能的合理使用作出相关规定,该兜底条款并未实质性改变我国合理使用规则的封闭特性,难以将人工智能对作品数据之获取纳入合理使用的轨道。
值得注意的是,为缓解合理使用制度之僵化,我国最高人民法院已于2011年颁布司法性文件《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》,授权法院可依据四要素分析法,在个案中根据具体情形判定合理使用。然而,由于我国并非判例法国家,个案判决难以为行业提供明确统一的参考基准。因此,即便司法实践中倾向于对非商业性质的人工智能适用合理使用制度,此默认标准亦不具备法律条文之权威性与明确性,难以彻底消除人工智能研发者的侵权忧虑。因此,将“非商业性质的人工智能对作品数据的无偿获取”这一情形以法律条文形式固定,实为合理使用制度改革之必由之路。
然而,考虑到新修订的《著作权法》自2021年6月方始施行,且依据著作权法十年一修之惯例,短期内直接将“人工智能获取作品数据”纳入著作权法具体条款,显具现实不可行性。加之人工智能当前仍处于技术成长期,其发展前景与趋势尚存不确定性,行为主体、行为模式、行为类型等细节认定亦存边界模糊之虞。在此背景下,贸然对《著作权法》进行补充修订,是一种较为草率的做法。故而,笔者建议,我国或可先行修订《著作权法实施条例》,将“出于科学研究及其他非商业性目的之需,人工智能获取作品数据”之情形,纳入条例所规定的合理使用具体情形之中。鉴于《著作权法实施条例》是由国务院发布的行政法规,且距上次修订已有十年,此举既能满足《著作权法》第24条第13款对可援引法律文件的要求,实现制度的有效衔接与闭环,又能在未来几年内,以法律文本形式对非商业性质人工智能的著作权合理使用行为予以确权,为其提供明确的制度保障,进而促进科技产业的持续健康发展。
结语
几个世纪以来,科学技术的持续演进不仅深刻地重塑了民众的生活方式,还有力地驱动了著作权制度的演变与创新。自印刷时代肇始,历经电子时代,再至当下的网络时代,著作权制度始终紧随时代步伐,不断在新环境下为作者和读者的权利平衡提供着指引。现阶段,信息产业发展迅猛,与大数据密切相关的人工智能成为了未来科技的发展方向,著作权制度亦随之步入了人工智能的新纪元。作为一项工具性权利,著作权亟需根据现实情境的变迁,对其核心要素与外延边界进行深入地剖析、重构与再定义,这无疑是一项艰巨而复杂的挑战。
面对新技术的发展需求,著作权法即便需要考虑利益平衡的因素不能对其给予完全的支持,也要及时对相关的权利界限进行明晰,以更好地对技术研发者做出明示及提醒。有鉴于此,本文首要阐述了人工智能对作品数据的使用与分析行为,理应位于著作权法的应然规制范畴之外。基于“有阅读权即有挖掘权”这一理念,人工智能在合法获得作品数据后即可对其进行自由利用,无需额外获得著作权人的特别授权。然而,作为配套措施,人工智能主体需构建完善的数据保护机制,以保障数据安全与隐私权益。
在数据获取阶段,关于人工智能能否适用著作权合理使用制度以无偿获取作品数据这一问题,本文主张应依据人工智能是否具有商业属性而进行区分对待,仅对非商业性质人工智能的数据获取行为适用合理使用制度。在进行具体的制度设计时,可考虑先将此合理使用情形纳入《著作权法实施条例》的修改,以此实现与《著作权法》的有效衔接和制度闭环,完成该制度的现阶段建立,最终在保证著作权市场利益平衡的同时,成为新技术发展的推动力量,以实现社会文化繁荣这一著作权法创设目标。
因篇幅限制,已省略注释及参考文献。原文详见《河北法学》2025年第3期。