作者简介:项定宜,女,湖北麻城人,东北林业大学文法学院副教授,硕士生导师,法学博士,博士后,研究方向:民商法学、数据法学。
摘要:“数据二十条”提出构建数据分类确权制度,其规定的数据分类涉及数据内容、数据处理主体、数据形态多种标准,地方性法规和司法实践中也存在多种不同分类标准,厘清分类标准对落实数据分类确权制度至关重要。司法实践对数据分类进行了积极探索,从人格属性、公开性、衍生性三个方面确立多元类型标准。数据分类确权追求的价值应当涵括实现数据安全、数据经济效率、数据全民共享三个层面。多元类型标准对于设立统一的数据财产权利有较大挑战,需要对满足数据财产权利要件的数据设立数据财产权的数据基准类型,其他类型的数据在此基础上进行权益内容扩张或限缩,只有同时满足对价交换性、可控制性、衍生性的数据,方能成为数据财产权利的客体。与上述三个属性相对应,同时符合非个人数据、非公开数据、衍生数据的数据方可以作为设计数据财产权益的基准,个人数据、公开数据、原始数据则需要在基础数据财产权利之上进行权利内容扩张或限缩。其中,个人数据应当配置个人信息权和隐私权限制规则,公开数据上设立合理使用规则,单一原始数据设计非排他性使用规则以保留其公共性。
关键词:数据;数据类型;司法探索;分类确权;衍生数据
一、 问题的提出
我国立法并无数据类型的明确规定,目前仅在《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)提到公共数据、企业数据和个人数据的分类确权,但是分类标准模糊不清,数据内容、数据处理主体、数据形态多种标准混杂。第一,数据内容标准。第(三)条规定建立公共数据、企业数据和个人数据的分类分级确权授权制度,第(六)条规定建立健全个人信息数据确权授权机制,这两处分别表述为“个人数据”和“个人信息数据”,二者是否为同一含义?对此可从“数据二十条”的体系上进行解释。第(三)条首先提到“建立公共数据、企业数据、个人数据的分类分级确权授权制度”,接下来几条分别规定“(四)推进实施公共数据确权授权机制”“(五)推动建立企业数据确权授权机制”“(六)建立健全个人信息数据确权授权机制”。由此可见,第(三)条提到的“个人数据”与第(六)条提到的“个人信息数据”应属同一含义。在“(六)建立健全个人信息数据确权授权机制”中,个人信息数据应解释为承载个人信息的数据,第(三)条所指的公共数据和企业数据则不承载个人信息,此种分类标准是数据内容是否承载个人信息。第二,数据处理主体标准。第(四)条确立公共数据以党政机关和企事业单位在履行公益职责中产生的数据作为界定标准,以数据处理主体为判断标准;第(五)条侧重企业作为数据生产主体享有数据权益,同时内容不包含个人信息和公共利益,显然兼顾数据处理主体和数据内容两个判断标准;第(六)条规定“个人信息数据”则肯定第(三)条“个人数据”的界定是以包含个人信息内容作为个人数据的判断标准。第三,数据形态标准。第(三)条同时明确“数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制”“审慎对待原始数据的流转交易行为”,对原始数据、数据资源、数据产品等数据形态分别设置产权内容。由此可见,“数据二十条”同时采取数据内容、数据处理主体、数据形态的多重分类标准。
地方性规范对数据分类确权有相应的规定。《上海市数据条例》和《深圳经济特区数据条例》区分个人数据和公共数据,《苏州市数据条例》明确界定公共数据、企业数据和个人数据,《北京市数据知识产权登记管理办法(试行)》指出登记对象是数据集合,《深圳市数据产权登记管理暂行办法》对数据资源和数据产品设置登记规则,《北京市企业数据知识产权工作指引(试行)》规范和保护企业数据的知识产权。《深圳经济特区数据条例》将个人数据界定为包含识别个人信息的数据,而公共数据则是指“公共管理和服务机构在依法履行公共管理职责或者提供公共服务过程中产生、处理的数据”。《上海市数据条例》也规定公共数据是承担公共事务的国家机关或组织在履行公共职责过程中产生的数据。按照上述地方性规范,公共数据、企业数据、个人数据是依据数据的产生主体来进行的划分。如果这三者并列在分类分级授权机制中,则其分类标准一定会出现界限不明的情况。目前的地方性法规均未明确规定公共数据不得包含识别个人信息的数据,但如果公共数据还包含承载个人信息的数据,那么公共数据、企业数据、个人数据的分类就会出现标准混杂的问题。
国内学界对此观点纷呈。王利明认为,数据权益具有多元性,不同数据承载的权益类型不同,利用方式不同,不能采用单一的权益保护,而是不同主体对不同数据享有不同内容权益的“权利束”。高富平按照数据生成的价值不同将数据分为原始数据和数据集。许可则主张运用权利模块理论,将数据分为公共数据和非公共数据,分别设置数据财产权结构。沈健州从数据利用的冲突出发,以不承载个人信息的非个人数据和公开数据作为数据财产权设置的起点,对个人信息数据辅之以个人信息权益优先的外在限制,以公开数据合理使用制度对数据权益的边界加以限缩,以应对数据之上的多元利益冲突。徐玖玖认为以主体为标准将数据分为个人数据、企业数据、公共数据,标准混乱、边界模糊。
由此可见,无论是当前的立法还是法学理论,对数据的分类确权保护基本达成共识,但是数据的分类标准和不同类型的数据权利内容尚有争议,难以落实“数据二十条”提出的数据分类确权机制,亟需进一步深入研究。
二、数据分类确权的司法探索
司法实践对数据分类确权进行了积极探索。实践中,出现了大量以个人信息为保护对象的案例,数据处理者与数据使用者之间关于个人数据的纠纷亦不少;司法实践亦出现公开数据爬取纠纷和非公开数据的商业秘密纠纷,公开数据与非公开数据的侵权边界和保护途径各不相同;数据判决还有以数据产品为对象的反不正当竞争案,引起原始数据与衍生数据的区分。这些案件以企业数据纠纷居多,也有因公共数据引发的不正当竞争案,公共数据与企业数据在授权利用和保护方式上差异非常明显。可见,司法实践中数据分类标准呈现多元特点。
(一)个人数据与非个人数据
目前在数据保护领域的主要矛盾集中于在数据中所体现的人格权益保护与数据作为资源在利用时所体现的经济价值的平衡。例如,“北京百度网讯科技公司与朱烨隐私权纠纷案”中法院认为百度公司收集、利用的是未能与用户个人身份对应识别的数据信息,该数据信息的匿名化特征不符合“个人信息”的可识别性要求,而且百度公司并未直接将数据向第三方或向公众展示,个性化推荐行为不构成对个人信息和隐私权的侵害。百度公司对cookie收集产生的数据用于个性化推荐,匿名化数据的个人识别性不强,此时优先考虑数据在利用时所体现的经济价值。对人格权益与财产权益进行区分保护已经成为数据保护面临的首要问题,为此将数据划分为个人数据与非个人数据,实现数据人格利益的保护与数据产业安全稳定发展之间的平衡。
个人数据与非个人数据的划分关键就在于是否能通过该数据直接或者间接地识别出具体的特定人身份。个人数据是指以个人信息为内容、能够识别特定个人的数据,包括由个人产生或是与个人有关的可识别特定人身份的数据,如姓名、身份证号码、工作证号码、基因数据、社会保险号码等。欧盟《一般数据保护条例》使用个人数据的表述,个人数据采用可识别性判定标准。欧盟个人数据“识别”采取较为宽泛的外延,“识别”的外延越大,个人数据保护外延范围和强度就越大。我国目前立法中只有“个人信息”表述,无“个人数据”的立法表述,仅仅在“数据二十条”(三)中使用“个人数据”的表述。由于个人信息与个人数据是内容与载体的关系,《个人信息保护法》个人信息权利的规定同时适用于个人数据。“数据二十条”指出“建立健全个人信息数据确权授权机制”“保障使用个人信息数据时的信息安全和个人隐私”,个人数据利用时应当兼顾个人信息保护与数据财产保护的平衡,而非个人数据则无此明确要求。依据《民法典》《个人信息保护法》,个人作为数据来源者对个人数据享有知情、同意、查询、修改、删除权、可携带权等在先权利。但是个人的数据财产收益权没有明确规定。部分学者认为,个人因其个人数据被商业性利用而有权向数据处理者请求支付对价。个人数据收益权源于“信息有价”,数据处理者应当因信息商业利用向信息主体支付报酬。无论哪种支付方式,都体现个人数据在商业利用中的交换价值,个人有权行使收益权,数据处理者不能无偿对个人数据进行商业利用。曾经有学者在列举四种“正在出现的财产权”(emerging property right) 时,就包括个人数据财产权。
非个人数据是在数据本身的基础上无法利用各种手段识别到特定人的身份信息,此类数据不再存在人格权益。我国立法虽未规定非个人数据,但是2022年12月颁布的“数据二十条”第(五)条规定市场主体对不涉及个人信息的数据享有相应的持有、使用、获取收益的权益,确认非个人数据权益归属于数据处理者。2023年中国互联网协会发布的《数据确权风险控制通则(征求意见稿)》区分个人数据和非个人数据,分别规定数据采集、加工、使用、交易不同环节的确权风险控制要求。正是由于非个人数据不涉及个人权益,因此司法实践中法院主张非个人数据的处理未侵害个人信息。“朱某诉北京百度网讯科技有限公司隐私权纠纷案”中,法院认为cookie信息无法与特定的人相联系,也不包含《电信和互联网用户个人信息保护规定》第4条规定的个人身份识别信息,百度网讯公司为客户在合作网站上展示推广的内容仅是一种个性化展现,百度网讯公司所搜集的仅是不可识别的网络行为碎片化信息,而非现实世界中具体的个人信息,根本不可能与朱某发生对应识别关系,不认为构成个人信息和隐私侵权。类似判决有庞某某与趣拿信息技术有限公司等隐私权纠纷一审判决,上述案例中匿名数据不能识别个人身份,属于非个人数据。
虽然我国没有立法明确区分个人数据和非个人数据,但“数据二十条”实质上已经对个人数据和非个人数据进行区分保护。非个人数据不受个人信息权的限制,然而一旦恢复识别,仍然受到个人信息权和数据来源者权利的限制。个人数据和非个人数据的区分保护,既保护了人格尊严,又促进了数据流通以及个人信息安全与数据经济发展之间的平衡关系,更好地实现了社会的公平、效率与安全的价值理念。
(二)公开数据和非公开数据
互联网领域有大量对公众开放的数据,中小企业为了发展而爬取平台上的数据,由此引发大量数据纠纷。2020 年 7 月 20 日,北京市海淀区人民法院就“微梦创科诉云智联不正当竞争纠纷案”作出判决。微梦公司系从前端和后端之角度对新浪微博数据进行区分,云智联公司则从公开和非公开数据之角度进行区分。法院认为,在论述云智联公司被诉行为性质前,有必要对新浪微博数据的类型进行一定区分和界定,前端数据和后端数据的分类存在交叉情形,公开数据和非公开数据的分类更易于从法律上设立不同的数据使用规则。在该裁判中,法院指出在无相反证据的情形下,未设定访问权限的数据属于公开数据;但对于通过登录规则或其他措施设置访问权限的数据,则属于非公开数据。由此可见,司法实践对数据类型有新的探索,根据不特定人是否能自由访问数据,将数据分为公开数据和非公开数据。公开数据是指不特定人能自由访问的数据,反之非公开数据则是指未经数据控制者同意不得自由访问的数据。公开数据和非公开数据可以相互发生转化,数据控制者采取技术措施后,公开数据可以转变为非公开数据;反之,非公开数据解除技术措施后可以转变为公开数据。
目前,发生的数据纠纷大多数在公开数据,企业为了降低研发成本,直接爬取公开数据而引发纠纷。非公开数据由于采取了严密的技术措施,受到商业秘密保护。全国出现首例以商业秘密保护非公开数据的案例,即重庆光某公司诉广州三某公司案,法院认为原告主张经营信息中针对某目的国出口某款摩托车(品牌、排量、型号)对应的数量、单价组合信息是不为相关人员普遍知悉和容易获得的,是能为原告带来竞争优势和经济效益的,并已采取了合理保密措施的商业秘密,判决立即停止侵害原告重庆光某摩托车制造有限公司商业秘密的不正当竞争行为。司法实践中也有对非公开数据爬取行为未采取商业秘密路径而是直接认定为不正当竞争行为的案件,“微梦诉蚁坊案”中法院认为被告对原告不公开数据进行存储可能导致用户个人信息的泄露和被侵害,而这必然影响其他公司的数据安全而破坏了其他公司所提供服务的正常运行,可能侵害用户作为消费者对其个人隐私等信息所享有的合法权益,构成不正当竞争行为。
公开数据的控制者未对数据设置访问障碍,不具有事实上的排他性,对公开数据的保护不依赖技术控制而需要法律控制。公开数据的后续使用原则上应当不再受限,法律应当构建公开数据合理使用制度。尽管公开数据应当容忍合理使用,但是超出合理使用的行为构成数据侵权。由于公开数据不符合商业秘密的保密性要件,商业秘密不适合公开数据保护。司法实践中,曾经出现著作权保护公开数据的案例,法院认为消费者点评数据具有原创性,大规模获取数据构成著作权侵权,但是此阶段的公开数据通常通过反不正当竞争法规则进行保护。然而反不正当竞争法路径具有较大不确定性,有赖于当事人证明自己对数据享有正当权益,并依赖法官行使自由裁量权,将侵害数据财产权益的行为视为不正当竞争行为。自淘宝诉美景案起,逐渐认可数据控制者对数据的竞争性财产权益,并以侵害竞争性财产权益来确定是否构成不正当竞争。尽管司法实践由反不正当竞争路径向数据权益路径发展,已经向数据确权方向迈进,但是公开数据被赋予数据财产权益更有助于数据控制者权益保护,公开数据的法律保护仍然有赖于数据确权立法。
非公开数据是指数据控制者实施技术措施以限制不特定第三方访问的数据。数据控制者设置加密技术措施排除公开获取的可能性,包括个人提供的敏感信息数据、企业自身的关键业务数据、不愿公开的产品核心数据等。“微梦诉云智联公司案”中的微博数据区分公开数据和非公开数据,法院认为微博数据既有公开数据也有非公开数据,其中非公开数据包括新浪微博用户登录账号后才可访问的数据和用户即便登录新浪微博账号亦无法访问的数据,登录账号才可访问的数据对不特定人而言,仍然是不公开数据。非公开数据基于技术控制具有事实上的排他性,但仍然有数据企业破解技术壁垒非法获取数据,因此非公开数据仍然需要法律保护,未经非公开数据的控制者同意不得获取和访问数据。破解技术壁垒侵入计算机网络系统而非法获取数据的行为不仅侵害数据权益,还涉及破坏计算机信息系统、拒不履行信息网络安全管理义务罪等刑事犯罪。正如锁上房门的破门而入盗窃行为,不仅侵害屋内物品,还侵害房门房锁,构成双重侵害。非公开数据的非法获取行为,同时受到民法、刑法、行政法的规制。非公开数据被侵害时,除了追究破坏计算机信息系统罪外,数据控制者的竞争性财产权益损失仍然需要赔偿。就如同破门而入的盗窃行为,不能仅仅赔偿门锁的损失,还应当赔偿被盗窃的屋内物品损失。非公开数据是数据控制者通过前期投入的人力和技术进行收集加工而生成,数据控制者应当被赋予数据财产权益。“数据二十条”指出数据控制者对数据享有持有权、加工使用权、经营权等权利,只有对非公开数据赋予财产权,才能在其被技术破防非法获取时保障数据控制者获得保障。
区分公开数据和非公开数据的意义在于二者保护目标和保护途径不同。公开数据缺乏事实控制和事实上的排他性,具有较强的流通性和公益性,需要兼顾数据保护与数据公益利用。数据控制者应当容忍符合正当目的和手段的合理使用行为,但是侵害信息主体权益、妨碍数据创新、非法传播数据或对数据控制者构成实质性替代的数据使用行为仍然构成数据侵权。因此,公开数据的保护目标在于平衡数据合理使用和数据权益保护,超出正当使用边界的数据使用行为应当受到法律规制。当前司法实务中公开数据不能适用商业秘密保护,目前的保护途径主要是反不正当竞争法路径,但是竞争法规则并无明确的数据不正当竞争规则,需要数据控制者证明享有合法的数据权益,这是认定不正当竞争的前提,增加当事人证明和被保护的难度。数据确权能降低数据控制者的证明难度,增加数据保护的确定性,是反不正当竞争保护、合同法保护等路径的前提。同时,公开数据允许被合理使用不影响数据确权的正当性,数据财产权益保护亦不妨碍合理使用,只需要设置合理使用的边界,即可实现数据权益与公共利益的平衡。
非公开数据具有较强的事实控制和排他性,其流通性和公益性均弱于公开数据。事实控制不意味着非公开数据不需要法律控制,技术破防在当下已经不成问题,例如继2022年6月西北工业大学遭受境外网络攻击后,2023年7月26日武汉市地震监测中心遭受境外组织的网络攻击,境外的木马程序能非法控制并窃取地震速报前端台站采集的地震烈度数据。非公开数据的保护目标更侧重于规制未经同意非法获取数据的行为。非公开数据如果符合商业秘密的三要素即可获得商业秘密保护。由于非公开数据受到技术保护,非公开数据的非法获取和侵害通常伴随非法侵害计算机信息系统犯罪,然而非公开数据具有不同于计算机信息系统的独立价值,对侵害计算机信息系统的犯罪追究不能代替非公开数据的侵权规制。司法实践中,商业秘密保护和反不正当竞争法保护路径存在一定局限性,不符合商业秘密构成要素的非公开数据无法适用商业秘密保护,而且我国立法并无专门针对数据侵权的反不正当竞争规制条款,需要司法裁判者进行个案衡量,导致数据保护出现明显的不确定性。非公开数据的确权,更有利于非公开数据的法律保护,立法应当尽快落实“数据二十条”数据持有权、加工使用权等数据产权结构配置。
(三)原始数据与衍生数据
近几年数据纠纷裁判已经开始关注不同数据在价值链中的不同贡献。“淘宝诉美景案”中司法裁判者根据不同数据的价值生成而开创性区分原始数据和数据产品,法院认为涉案“生意参谋”数据产品中的数据内容虽然来源于原始用户信息数据,但经过淘宝公司的深度开发已不同于普通的网络数据。首先,该产品所提供数据内容不再是原始网络数据,而是在巨量原始网络数据基础上通过一定的算法,经过深度分析过滤、提炼整合以及匿名化脱敏处理后形成的预测型、指数型、统计型的衍生数据;其次,该产品呈现数据内容的方式是趋势图、排行榜、占比图等图形,提供的是可视化的数据内容。数据产品不同于原始数据,也不是一般意义上的网络数据库(数据集合)。正是基于涉案数据产品与原始数据、数据集合的产生和内容价值不同,法院认为淘宝公司尽管对原始信息转化为原始数据投入了一定劳动,但是原始数据内容仍然受制于原始信息,如果赋予数据采集者财产权益,任由其自由处置原始数据,用户信息主体对于数据中的个人信息将失去控制,势必危及信息主体的人格安全,故而淘宝公司对原始数据仅仅依据合同享有数据使用权,而无独立、绝对的财产权益。而淘宝公司对数据产品投入大量的智力劳动成果,经过深度开发与系统整合,最终呈现给消费者的数据内容,已独立于网络用户信息、原始网络数据之外,是与网络用户信息、原始网络数据无直接对应关系的衍生数据,因此淘宝对于其开发的数据产品应当享有独立的财产性权益。
“腾讯诉搜道、聚客通案”提出单一原始数据与整体数据资源的区分。法院判决认为,网络平台中的数据,以数据资源整体与单一数据个体来划分,网络平台方所享有的是不同的数据权益。本案中两原告明确主张其享有数据权益的数据是指微信用户账号数据、好友关系链数据、用户操作数据,均为微信用户的个人身份数据或个人行为数据,该部分数据只是微信平台将微信用户提供的用户信息作了数字化记录后而形成的原始数据,并非微信产品所产生的衍生数据。原始数据只是用户信息转换为电子符号的外在形式,原始数据对于社会的价值贡献仍未脱离用户信息所包含的资讯内容。数据采集主体在此过程中虽然付出了一定的劳动,但并未提升用户信息的品质,换言之并未提供创造性劳动成果,故数据采集主体仅有权享有其劳动所增加的价值而不是原始数据的全部价值。数据采集主体只能依附于用户个人信息权益,依其与用户的约定享有原始数据的有限使用权。而就微信平台数据资源整体而言,网络平台方经过长期经营积累聚集而成,且能够给网络平台方带来开发衍生产品获取增值利润和竞争优势的机会,两原告依法享有竞争性权益,如果两被告破坏性使用该数据资源,则构成不正当竞争,两原告有权要求获得赔偿。
“淘宝诉美景案”判决首次提出区分原始数据和数据产品,“腾讯诉搜道、聚客通案”判决进一步对原始数据和数据资源进行区分保护。两个判决共同之处在于否定原始数据的创造性价值,数据处理者对原始数据仅仅依据与信息主体的协议享有数据使用权;肯定数据资源和数据产品生产者的创造性劳动和衍生价值,数据处理者对数据资源和数据产品享有独立的财产权益。数据资源和数据产品虽然都具有一定的创造性,但是创造性价值仍有不同,“淘宝诉美景案”所涉的“生意参谋”数据产品是数据处理者运用算法对海量数据进行深度分析后形成的趋势图、排行榜、占比图等图形,且具有统计、预测等功能;“腾讯诉搜道、聚客通案”判决所述的微信数据资源是指两原告投入了大量人力、物力,经过合法经营而形成的海量数据集合,而不是数据产品,尽管数据资源不具有与数据产品相同程度的创造性,但是数据处理者投入大量的人力,大量的微信经营性用户及其微信好友的微信账号数据、微信好友关系链数据以及微信用户使用微信产品的数据均产生于微信平台,如果其他经营者“搭便车”式地利用了网络企业所掌握的数据资源开展经营活动则构成不正当竞争。
由此可见,司法实践根据加工过程中的劳动创造性程度和数据形态不同,将数据分为原始数据、数据集、数据产品。原始数据的产生主要依赖数据处理者提供设备或互联网平台收集信息的行为,不需要数据处理者付出额外的劳动,不具有创造性,原始数据是数据集和数据产品的素材。数据集需要数据处理者付出一定的劳动,对原始数据进行汇编、整理,但这项劳动创造性程度比较低,数据集仅是进一步驱动数据创新的素材。数据产品是数据处理者在规模化数据集基础上运用一定算法深度加工分析形成,投入的实质性劳动具有创造性,是驱动数据经济创新的重要来源。数据加工过程所蕴含的分析技术成本和企业研发成本,是最终数据价值中所凝结“无差别劳动”的核心,是否具有技术创新与劳动投入是判断数据价值的关键所在。因此,伴随数据处理者对劳动投入创造性程度的逐渐提高,数据从原始数据到数据集,从数据集到数据产品,不同的数据形态的价值不同,数据处理者财产权益的保护从不正当竞争行为规制模式逐渐转向财产权益保护模式。从数据集到数据产品,财产权益的排他性呈现从弱到强的变化。具体而言:
第一,数据处理者对原始数据不享有独立、绝对、排他的数据财产权,而是依约定对原始数据享有一定的使用权。原始数据具有分散、海量、非结构性特征,是数据经济发展的基础性资源,具有一定公共性,不能直接交易,数据处理者依据约定对原始数据享有持有和使用权,不享有独立、排他、绝对的数据财产权。数据处理者始终受到数据来源者限制,包括个人信息权、商业秘密、知识产权及公共利益的限制。数据控制者处理和使用原始数据受到的限制较小,只要处理行为不违反个人同意、合法、正当、必要等个人信息保护原则,均应当认为合法。
第二,数据处理者对数据集享有的财产权益具有有限的排他性。数据集处理者投入了大量汇集原始数据和筛选、清洗、整合等数据处理劳动,劳动的创造性程度较低,形成可控制的标准化数据集合。数据集具有明确的内容和形式,能够被清晰确定,应当作为财产权益的客体。数据集能够给数据处理者带来开发衍生数据产品获取竞争优势的机会,依据“额头流汗”等劳动产生权利的学说,处理者享有数据集财产权益,包括持有、使用、收益、处分的权益,具有一定排他性,对抗同业竞争者“搭便车”的不劳而获行为,未征得数据控制者同意时不得直接使用数据集。数据处理者对数据集享有类似于数据库权和邻接权,有权在一定期限内禁止公开传播,未经许可大规模使用数据集构成数据侵权,可以直接参照适用邻接权中权利归属规则、许可使用规则、侵权归责原则、侵权损害赔偿规则。个人仍然享有个人信息权,但不妨碍数据处理者对数据集享有相应的财产权益。
第三,数据处理者对数据产品享有独立、绝对、排他的数据财产权益。数据处理者对原始数据、数据集合进行深度分析加工形成具有创造性的数据产品,从结构、内容到形式均不同于原始数据和数据集,数据产品价值远大于作为数据加工原材料的数据集和原始数据。依据添附理论和数据生产理论,数据控制者对数据产品享有类似于版权的新型财产权,这项财产权具有完全支配和绝对排他性,数据控制者可依法持有、使用、收益、处分,与数据集财产权益的弱排他性相比,数据产品的财产权益的排他性相对较强。“数据二十条”针对数据产品特别指出“数据产品经营权”,经营权是对数据交易环节最重要的内容。《深圳经济特区数据条例》明确规定数据处理者对数据产品享有使用、收益和处分的权利。
值得一提的是,数据集和数据产品作为衍生数据,仍然可能因包含个人信息而受到个人信息权的限制。依据《信息安全技术 网络数据分类分级要求(征求意见稿)》,按照数据加工由浅入深的程度,数据依次分为原始数据、脱敏数据、标签数据、统计数据、融合数据,除了原始数据之外的四种数据是衍生数据。融合数据级别要考虑数据汇聚融合结果,如果结果是对大量多维数据进行关联、分析或挖掘,汇聚了更大规模的原始数据或分析挖掘出更敏感、更深层的数据,数据重要程度的级别可以升高,但如果结果数据降低了标识化程度等,级别可以降低。可见,衍生数据中的统计数据和融合数据仍然可能产生敏感数据。初步加工的衍生数据仍然可能包含个人信息,只是识别个人信息的风险有所不同。
我国司法实践已经意识到,由于数据来源众多、数据生成贡献主体多元、数据形态多样,单一的数据分类标准已经不能满足数据类型化保护的需求。司法实践从人格属性、公开性、衍生性三个角度对数据分类确权进行积极探索,为立法进一步落实数据分类确权提供了有益参考。
三、数据类型化追求的法律理念和价值
数据保护的目标从来都不是单一的。欧盟《一般数据保护条例》以保护个人数据和促进数据流通为目标,《非个人数据自由流动条例》对非个人数据则以促进自由流通为目标,2023年通过的欧盟《数据法》进一步对第三方访问和公平利用的自由限制数据权益,兼顾人格尊严、数据流通共享、社会公益的多重目标。我国司法实践已经对数据分类确权展开积极的探索,然而类型的确定应当首先确定类型化追求的理念。
源于“潘德克顿法学”的概念法学思维,强调对法律概念的分析和构建法律的结构体系,体系化的法律制度甚至是法典都以此为理论基石。然而,盖因法律的稳定性与滞后性,社会转型时期出现法律漏洞是必然现象。概念法学方法对于转型时期法律漏洞的补充却捉襟见肘,运用类型化思维方法则可以弥补概念法学的不足。拉伦茨认为,立法者尝试尽可能精确地以概念来容纳典型的生活事实,但司法裁判为适当解决生活事实,就必须再度突破这些概念,因此寻找具体的法规范时我们必须一再求助于法律所意指的类型。大数据时代数据法律问题是传统社会立法者无法预见的新问题,对数据进行类型化研究有利于司法裁判者在三段论推理中合理评价法律事实和规范,以弥补法律漏洞。过度抽象的概念化思维以内容及意义上的空洞为代价,法官只有遵循类型化思考,才能期待得到“与生活接近”的裁判。
类型的确定并无绝对标准,必须与法律理念保持一致,确定相对合理的类型标准。德国当代法哲学家亚图·考夫曼认为法律规范的产生有两个关键要素,即法律理念和生活事实,法律规范就是使法律理念与事物的本质相调适。因此,数据类型化应当通过两步来确定:第一步,确定数据类型化的法律理念;第二步,结合生活事实全面认定数据的本质。只有这样,才能最终合理确定契合法律理念的数据类型。
数据分类标准应当与法律理念保持一致,因此只有首先确定立法追求的法律理念,才能合理确定数据的类型。大数据时代人格尊严保护与数据利用的平衡、个体利益与社会利益的平衡是当前立法亟待解决的首要问题。合理确定数据类型可以保障良好的数据流通秩序,促进数据产业的发展。本文认为数据的类型化保护研究的价值基础有以下三个方面。
一是保护人格尊严,实现人权和数据安全价值。从事数据分析的数据从业者可以清楚地看到大数据的价值潜力,这极大地增强了他们进一步收集、存储、循环使用个人数据的动力,使数据中蕴含的个人隐私更容易受到安全性威胁。随着大数据变得更为普遍,此种情况将更加地严重,造成的后果可能不堪设想。虽然大数据时代的到来为人们的生活带来了便利,但是我们不能容忍大数据带来的无限度的个人信息披露以及对人们正常交往中亲密关系造成的负面影响。个人隐私必然涉及个人尊严,克里斯托弗·麦克拉登(Christopher McCrudden) 曾经说到:“尊严经常是人权讨论‘达不成一致意见时的一根救命稻草’。”无论社会发展到什么程度,人格尊严都应该作为人权的一个重要依据,尤其承载个人信息的数据自身的人格权属性,更是要求我们要对其承载的人格尊严进行保护。
二是促进数据流通和共享,实现经济效率价值。大数据的价值不仅仅单纯来源于它的基本用途,更多是源于对它们的二次利用,这也就要求我们保证数据的流通。数据作为新型生产要素对其他生产要素所具有的扩大、叠加、倍增作用不断凸显,让数据在安全可信的环境下有序流动、高效配置与融合应用,充分发挥其基础资源作用和创新引擎作用,实现效率价值是数据类型化的第二个价值理念。企业对数据进行处理之后,通过一系列的技术措施对数据进行处理分析,形成拥有独特价值的数据集合,企业也可以因此实现用户画像、精准广告推送,从而为人们提供服务的特定功能。数据利用是一个动态的过程,正是因为流通才使数据的经济价值得以显现,使数据成为新时代的新资源。
三是促进数据共享,实现公共价值。《关于加强数字政府建设的指导意见》要求,建立健全大数据辅助科学决策机制,统筹推进决策信息资源系统建设,充分汇聚整合多源数据资源,拓展动态监测、统计分析、趋势研判、效果评估、风险防控等应用场景,全面提升政府决策科学化水平。“数据二十条”第(四)条规定,应当加强对公共数据的共享与开放使用,以推进公共事业发展和公共治理。为公共利益而使用数据允许无偿使用,从而推进数据共享,让全民享有数据红利,实现公共价值。
综上,数据类型化追求的价值包括保护数据安全、提高数据经济效率、实现数据全民共享,在此基础上实现数据多元的类型化。一方面,数据分类能够对数据进行规范化管理,使数据资源安全有效地得到合理利用,促进数据合规利益最大化。另一方面,数据分类是建立数据流通规则的基础条件。通过数据分类,对敏感度高、影响度高的数据限制或禁止流通,对脱敏处理的数据、影响度低的数据依照其价值以市场为基础进行分类流通,平衡数据利用和保护。数据分类更有利于建立配套的流通规则,继而稳定开展数据产业各项工作。为了兼顾人格尊严、数据共享和社会公益,本文主张确立多元分类标准。
四、数据分类确权的规则重构
如前所述,数据可按不同标准进行分类,不同类型数据的保护方式和权利内容不同。按照数据能否识别个人身份分为个人数据和非个人数据,基于数据能否直接访问分为公开数据和非公开数据,按照数据控制主体的属性分为公共数据和非公共数据,按照数据的价值和创新程度不同分为原始数据、数据集和数据产品。若将所有类型的数据都赋予人格权保护,显然不适于具有非人格属性的非个人数据保护;若赋予所有类型数据非经授权不可使用的绝对权,则具有公共物品属性的公共数据难以实现开放和利用,从而无法发挥数据社会化利用的价值;未经同意对非公开数据的访问都构成侵权,而公开数据具有较强的公共性,对公开数据的爬取和使用则并非绝对构成侵权;若对原始数据、数据集、数据产品赋予相同排他性的绝对专有权保护,对原始数据的绝对排他会扼杀数据处理者自身的创新激励与数据产业发展。多元的类型标准对于设立统一的数据财产权益有较大挑战,需要确立作为财产权益客体的数据应当满足的要件,以满足要件的数据设立数据财产权的数据基准类型,其他类型的数据在此基础上进行权益内容扩张或限缩。
(一)数据财产权益的客体要件
数据具有无体性、形态多样性和一定的公共性,能否成为数据财产权益客体一直存有争议。梅夏英结合《德国民法典》中规定的民法客体物的特点,主张数据不具有民法客体性,因为数据自身的流通性以及需要依赖载体存在的特征使得数据从表面上来看难以具备传统民法客体应有的专属性与独立性。此外,他认为数据本身并不具有任何意义,只有被人们赋予了具体内容之后才能找到自己的应属定位,从而提出数据不具有实体法中应有的权利表彰意义。另外一些学者则对此持不同的观点。他们认为数据作为当代社会的一种重要资源,具有民法上客体的特征,理由如下:第一,数据存在于人体之外,是对于现实活动的记录,恰好符合民事客体不能为人体本身这一要求;第二,数据具有确定性。数据虽然需要一定的载体才能存在,不具有实体性,但是,对于特定载体之上的数据的数量及其所包含的内容,我们是可以对其进行独占和控制的。需要注意的是,数据独占性的实现与有体物的实际占有不同,其应与知识产权所保护的无体物相同,需法律的特别授权;第三,数据具有独立性。一方面,数据的独立性体现在数据能够与特定的物质载体相区分,如硬盘,两者无论在观念还是制度上都有独立的利益导向。另一方面,数据与其所表现的事实内容的主体也可以相分离。在一定条件下,数据可仅仅以数字化的形式存在,且鉴于数据的物理性质特征,数据所承载的信息内容的主体并不一定是数据文件的主体。本文认为数据具有独立性,而且具有巨大的价值,但并非所有的数据都可以作为民事权利的客体。不是所有类型的数据都需要通过财产权制度加以保护。成为数据财产权益客体应当满足一定的要件,同时符合所有要件的数据才能成为财产权益客体。具体而言,包括:
1.对价交换性
作为数据财产权益的客体,应当是纯粹的财产,即主体之外、能满足主体经济需求,能成为对价交换的客体。数据是对信息的记录,独立于数据描述的信息内容,即使个人数据的内容包含个人信息,也不影响数据与主体相分离的属性。数据具有经济价值,有助于数据控制者挖掘分析进而精准营销、提供趋势预测依据等,可转让和许可他人获取收益,设定担保获取融资等,在互联网平台经济下能为数据处理者带来流量优势,成为数据企业相互争夺的经济资源。在“谷米诉元光案”中,法院认为数据属于“无形财产”。其他数据纠纷案件中,法院认为数据属于竞争性财产权益。传统民事权利中的知识产权兼顾人格权和财产权属性,知识产权财产权不包含署名、修改、保护作品完整等人格权益,知识产权财产权行使时不得侵害人格权。与知识产权的双重内容相似,个人数据的内容包含个人信息,承载与个人尊严、自由相关的人格利益,人格利益当然不能作为财产权益的客体,而且数据财产权益行使不得侵害个人信息权,个人对个人信息享有的知情同意、访问、更正、删除、携带等人格权伴随个人数据处理和权利行使的全过程。
并非一切具有经济价值的物质当然成为财产权益的客体,财产权益客体还应当满足可在市场上自由流通的可交换性。传统民法理论中,物权客体应当为可自由转让和交换的物。我国土地公有制背景下,土地承包经营权囿于权利主体身份限制而不得在市场上自由流通,土地承包经营权、土地经营权的分置即以促进土地资源的流转为目标,土地经营权可以通过转让、入股、设定抵押、质押等方式在市场上自由流通,从而激活农村土地的充分利用。与土地经营权的分置设立目标相同,2018年国家提出探索宅基地使用权三权分置之后各地试点宅基地改革,以实现宅基地使用权的可流转性。同理,数据财产权益作为一种新型的财产权益,其客体也应当满足可交换性要件,数据在流通中方能实现数据的财产价值。
学界对个人数据的对价交换性尚有质疑,认为个人数据为人格一部分而与主体不可分离,这种观点混淆了“个人信息”与“个人数据”的差异,前者是指向或与特定自然人个人身份相联系的抽象内容,其依赖于主体的认识与理解,不能与主体相分离进行对价交换;后者是反映个人信息的代码形式,有着独立于主体的客观性和具象性,个人对个人数据无法控制,数据控制者支配和控制个人数据。个人数据流通发生在数据控制者与数据使用者之间,与个人没有直接关系,因此只要不侵害个人在个人信息上享有的知情同意、查询、更正、删除、携带等权利,个人数据完全可以在市场上自由流通。
2.衍生性
依据数据的技术投入和创造性程度不同,数据分为原始数据和衍生数据,衍生数据进一步细分为数据集和数据产品。申卫星基于权利分割理论,认为个人对原始数据享有所有权,数据处理者享有数据持有权。有学者认为原始数据应当设立数据财产权益,但是权能配置有差异。原始数据是数据处理者提供设备自动采集信息或者征得个人同意收集信息而生成的单一数据,不需要数据处理者进行任何创造性劳动,不具有衍生价值。原始数据不适合作为数据财产权益的客体,理由在于:第一,原始数据分散,内容经常变动,不具集合性,即使设立数据财产权益,也会因为权益边界不明晰而影响权利行使。第二,原始数据不具有排他性。任何数据处理者不能排除他人征得个人同意收集信息而形成内容相同的数据,无法满足财产权益排他性要件,对同一内容的数据为不同主体设立财产权益,这种财产权益彼此不具排他性,形同虚设。第三,原始数据具有公共性,是数据加工处理成衍生数据的来源,是驱动创新的基础资源,设立排他性的财产权益将妨碍数据利用和经济创新。而投入实质性劳动的衍生数据可以通过赋予财产权,肯定其实质性投入,激励数据生产和创新。正如2015年“瑞安航空(Ryanair)公司案”阿姆斯特丹法院认为瑞安航空公司没有根据96/9号指令和数据库法的规定,在创建其数据集时确定存在“实质性投资”。按照“数据二十条”的规定,数据处理者投入的劳动应当获得相应的回报。投入的劳动应当具有创造性价值,即生成衍生数据。参照民法添附理论,加工生成的新物价值大于原物者由加工人享有权利,数据处理者投入大量算法技术和创造性劳动产生的衍生数据价值远远大于原始数据,赋予排他性数据财产权益是对创造性劳动贡献的回报,以激励数据企业加大技术投入,促进数据创新。衍生数据通常建立在大规模数据加工分析基础上形成,数据内容表现为数据库、统计图、排行榜等,数据财产权益边界清晰,可以成为数据财产权益的客体。
3.可控制性
数据财产权益客体应当是可控制的数据。数据具有一定公共性和分享性,承载公共利益,是互联网的基础规则,数据公开与分享是数据控制架构的前提。如若数据不能公开分享,数据的流通利用和公共价值就无从实现。正因为数据具有一定的公共性,易发生个人信息泄露、公共物品“负外部性”带来的“公地悲剧”和“搭便车”情形,导致数据处理者丧失生产数据的积极性和动力,无法保证数据要素的供给,应当对数据进行法律控制。设立数据财产权益的目的是为了激励数据生产,保障数据要素供给和创新。数据控制者对非公开数据采取技术控制,事实上具有排他性,然而仍然存在技术破防而被盗取数据的风险,第三方获取数据以非法侵入计算机信息系统犯罪为风险代价,赋予非公开数据以财产权益的确权保护对防范非公开数据窃取行为仍然是非常有必要的,此外非公开数据可以在满足商业秘密条件下获得商业秘密保护。公开数据缺乏技术控制和事实排他性,需要通过赋予数据财产权益的排他性实现法律控制。但是,公开数据处于公开状态,第三人可以采取正当的手段获取数据和合理使用数据,数据财产权益受到公众合理使用数据的限制。当然,数据的公开状态并非一成不变,数据控制者仍然可以采取技术措施控制公开数据转化为非公开数据。如果数据完全进入公开状态和公共领域,数据控制者对数据无任何控制可能,则没有设立数据财产权益的必要。
综上,只有同时满足对价交换性、衍生性、可控制性的数据,方能成为财产权益的客体。
(二)数据分类确权的设计
以满足纯粹财产性、衍生性、可控制性的数据作为设立数据财产权益的基础,不完全符合要件的数据的财产权益内容适度扩张或限缩。同时符合非个人数据、衍生数据、非公开数据的数据类型作为设计数据财产权益的基准,个人数据、原始数据、公开数据则需要在基础数据财产权益基础上设计权益内容扩张或限缩的制度。
第一,非个人数据仅仅承载财产利益,无人格利益的限制,以非个人数据作为数据产权的客体更具有普适性,个人数据只需在非个人数据财产权的基础性规则之上,优先适用基于个人信息权和隐私权的特别规则。例如欧盟委员会发布的《非个人数据自由流动框架条例》中规定数据生产者权利客体是“非个人数据”, 而不是个人提供的与个人有关的个人数据。因此,以非个人数据作为设立数据财产权的基础,个人数据权利行使时受到数据来源者个人信息权和隐私权的限制,包括个人对数据处理的知情同意权、访问权、更正权、删除权、携带权等。如此既能确认数据财产权从而实现数据的充分利用,也能同时兼顾个人信息保护,实现数据利用和数据安全的平衡。
第二,衍生数据具有更强的创造性和经济价值,应当以衍生数据为基础设计数据财产权。而原始数据具有公共性和非排他性,不应对单一原始数据设立数据财产权益。包括深层加工产生的数据集和数据产品在内的衍生数据具有标准化的可用价值,是数据经济驱动的主要原料,蕴含数据处理者的创造性劳动。实践中,最容易产生纠纷的是数据产品,如“淘宝诉美景案”“腾讯诉搜道、聚客通案”等不正当竞争案例均以数据产品为对象。法学界对数据集和数据产品保护的探讨最为热烈,如申卫星、高富平、孙莹、姬蕾蕾等学者从不同角度对数据集和数据产品的数据财产权进行分析。尽管数据集和数据产品不一定能达到知识产权客体的独创性要求,但数据集和数据产品具有明显的财产属性和衍生的经济价值,学者对数据集合和数据产品上设立数据财产权基本持相同观点。数据集和数据产品具有确定的财产利益内容和明确的权利边界。但是原始数据具有一定的公共属性和人格属性,原始数据的流通利用有利于促进数据利用和创新,原始数据上不能设立绝对排他的权利,其排他性和支配性弱于数据集和数据产品,原始数据处理者不能排除第三方基于个人同意收集信息而生成原始数据。数据产品上不仅能成立绝对的数据财产权,符合知识产权客体特征时还得获得知识产权。有学者认为,只有衍生数据之上可以设立数据权利。因此,以深加工数据集和数据产品在内的衍生数据为基础设立数据财产权,简单汇聚的数据集合财产权益则在此基础上排他性和支配性减弱,原始数据不具排他性,不宜设立数据财产权益。如此既能通过确认数据财产权以激励数据生产与创新,同时能兼顾原始数据一定程度的公共属性。
第三,非公开数据具有更强的可控制性,以非公开数据为基准设立数据财产权益符合财产权的可支配性效力。非公开数据通常被采取技术手段进行事实控制,包括同业竞争者在内的第三方不易接触到非公开数据,而且非公开数据可以受到商业秘密保护,但是不能排除第三方利用破防技术而盗取数据,数据财产权益能排除这一行为。以非公开数据设置数据财产权,能够积极解决同业竞争者之间的数据纠纷,确认和保护数据控制者的竞争性财产权益,构成商业秘密时还可以获得商业秘密保护,此外通过非法侵入数据系统窃取非公开数据还构成刑事犯罪。然而,公开数据未设立访问权限,不具有事实控制性和排他性,第三方可以正当获取和使用数据,但是数据控制者并未彻底丧失对公开数据的可控制性,可以采取技术措施使其恢复事实控制状态,就如同房门敞开时房间里的物品仍然在所有权人控制之下,其他人路过可以看这些物品,但不能窃取这些物品。数据爬取纠纷多发生在公开数据上,法院裁判不仅仅判断数据控制者是否合法享有数据财产权益,还需要裁量数据爬取行为是否正当合理,对于手段目的正当、遵守robots协议、尊重个人信息的数据获取和使用行为不认定为数据侵权。由此,公开数据确权规则不能仅仅考虑数据控制方的数据财产权益,还应当兼顾社会公众对数据的正当使用和数据创新的合理需求,公开数据财产权益侵权判断需要结合数据合理使用规则判断,构成合理使用则阻断其侵权。为了兼顾数据权益保护与数据正当使用的双重目标,立法需要确立数据财产权益与公开数据合理使用规则。
结论
单一的数据分类难以实现大数据时代兼顾数据安全、数据经济效率、公共利益三个层面的价值,应当确立多元分类标准:依据数据内容分为个人数据和非个人数据,二者属性不同;按照数据能否被不特定第三人访问分为公开数据与非公开数据,二者可控制程度存在差异;依据数据加工过程中的创造性价值不同分为原始数据与衍生数据,二者价值衍生性和排他性强弱不同。然而,多元的数据类型对确立统一的数据财产权利挑战较大,需要确立作为数据财产权利客体的数据应当满足的要件,并在此基准上对不同类型的数据设计不同的数据使用规则。为了体现数字经济发展规律,驱动数据创新,兼顾数据保护与数据流通利用,未来立法应当在数据财产权益确权基准上,个人数据配置个人信息权和隐私权限制规则,公开数据上设立合理使用规则,单一原始数据保留其公共性和非排他性,真正实现全民共享数字经济发展红利。