引 言
根据《中华人民共和国个人信息保护法》(简称“《个保法》”)规定,匿名化处理后的个人信息不属于个人信息,由此经过匿名化处理的个人信息不负有相应的个人信息合规义务,企业无需经过个人同意可自由进行处理。这是以个人信息挖掘和利用构建商业模式的企业进行商业变现的合法性基础。
法律规定匿名化是指个人信息经过处理无法识别特定自然人且不能复原的过程。该规定看似对匿名化有明确的定义,但在技术日益发展背景下,在复杂实践场景中,并不能***保证经过匿名化处理后的个人信息无法重新识别和复原。对此,企业还能以匿名化豁免个人信息合规义务吗?本文结合国内外立法、案例以及商业实践来分析和回应该问题。
一、匿名化的认定标准及与去标识化、假名化的区分
中国、欧盟、美国等都有关于匿名化(anonymization)的规定,但具体内容却不尽相同,与去标识化(de-identification)、假名化(pseudonymization)等概念也紧密相关,对此本文进行简要归纳。
1.欧盟
欧洲数据保护委员会(EDPB)前身欧盟数据保护工作组2014年发布《关于匿名化技术的意见》(简称“《意见》”)。该《意见》讨论的是匿名化技术,并非匿名化概念,但其指出根据《数据保护指令》和欧盟相关法律,匿名化是处理个人信息后不可再重新识别个人身份,并考虑所有合理可能用于重新识别个人身份的手段。欧盟《通用数据保护条例》(简称“GDPR”)也没有明文对匿名化进行定义,其序言第(26)款从数据保护范围出发,反向指出GDPR适用于已识别或者可识别自然人的个人信息,不适用于匿名化数据,若通过附加信息可重新识别自然人身份,也视为可识别个人数据。
序言进一步指出是否可识别应考虑所有客观因素,例如在当前的处理数据技术和科技发展水平下,考虑所有合理可能识别到数据主体身份的手段,若数据在前述条件下仍不可识别,则不属于GDPR保护的数据。该匿名化要求与《意见》一致,要求处理后不可逆转,不能重新识别到个人。
GDPR第4条第(5)款规定假名化(pseudonymisation)是指对个人数据进行处理后,如果不使用额外的信息就不能识别数据主体,其要求此类额外信息应当单独保存,并通过已有技术与组织方式确保个人数据不能关联到某个已识别或可识别的自然人。《意见》认为假名化是将数据中的一个属性(通常系***)替换成另一个属性,因而单独假名化处理不会产生匿名化数据,仍可能间接识别到自然人。
《意见》明确指出匿名化与假名化具有明显区别,假名化处理后数据仍属于GDPR保护范围,而且两者使用的技术不同,《意见》讨论了匿名化技术和假名化技术。匿名化技术包括随机化技术和泛化技术,随机化技术[1]主要有添加噪声[2]和差分隐私[3]等方法,而泛化技术[4]主要有聚合和K-匿名[5]等方法,假名化技术则包括使用密钥加密[6]、哈希函数[7]等方法。
2.美国
美国各州总体上对个人信息流转持开放态度,虽然不同州法律采用概念不尽相同,但均没有采用欧盟关于不可识别且不可复原的匿名化标准,而是采取去标识化和假名化概念,这两个概念要求个人信息处理后无法合理地、直接或间接地识别到特定的个人,并且信息处理者通过技术措施、承诺等方式确保其不会进行重新识别。
总体上,美国采用的去标识化和假名化标准与欧盟匿名化相比较为宽松和灵活,并没有要求达到***无法重新识别的标准。
3.我国大陆地区
我国早在《中华人民共和国网络安全法》(简称“《网络安全法》”)就对匿名化进行规定。《网络安全法》第42条规定,个人信息经过处理无法识别且不能复原的可以不经个人同意而对外提供。2017年旧版推荐性***标准《个人信息安全规范》则提出匿名化的定义是不可识别且不能复原,但2020年版《个人信息安全法规范》则规定匿名化是“通过技术处理,使得个人信息无法被识别或关联,且处理后个人信息不能被复原的过程”,在无法识别外增加了“关联”标准,即不可识别之外若能够关联不构成匿名化。而《个保法》***终并没有将“关联”纳入匿名化认定标准当中。
对于上述关于匿名化规定的变化,笔者认为,因我国《个保法》和《个人信息安全规范》对个人信息概念界定采取可识别或者关联性判定标准,即与个人有关联的信息为个人信息,故2020版《个人信息安全规范》增加关联标准确实有据可循。但按照2020版《个人信息安全规范》中个人信息经过匿名化处理后仍能关联特定人的则不构成匿名化的规定,无疑加重个人信息处理者的义务,不利于个人信息合理利用及流转,因此《个保法》中关于只要不可识别到特定个人则构成匿名化的规定相对减轻了个人信息处理者的义务。对于去标识化界定,我国《个保法》规定是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程,而《信息安全技术 个人信息去标识化指南》(简称“《个人信息去标识化指南》”)中去标识化技术是指降低数据集中信息和个人信息主体关联程度的技术。
由此可知,欧盟匿名化法律定义与我国匿名化定义接近,即要求不可识别且不可复原,我国去标识化与欧盟假名化法律定义基本相同。不同的是,我国匿名化法律标准从文义上理解是静态的“***”不可识别且不可复原,暂没有细化规定,而欧盟关于匿名化并非***而是在现有技术的支持和所有可能性下合理的不可识别。各地区的匿名化、去标识化和假名化概念是不同的,其中欧盟匿名化技术中的泛化、随机化技术在我国却属于《个人信息去标识化指南》所指的去标识化技术。
二、匿名化后***不可识别且不可复原?
如前述,匿名化目标是防止重新识别,匿名化可以有效保护个人隐私,在此基础上,对数据价值***限度的挖掘和利用是平衡个人信息保护和利用的有效解决方案。然而,匿名化之后就能完全实现不可识别且不可复原吗?答案是否定的,目前已经有不少案例和研究表明个人信息在匿名化处理后并非***不可重新识别且不可复原。
例如:2019年7月23日《自然·通讯》期刊中一篇《使用特定模型可成功重新识别匿名数据的可能性》的研究文章称,通过特定模型能够准确估算匿名数据集正确地重新识别个体身份的可能性。文章指出,只需要少数几个属性,如邮政编码、出生日期、性别和子女数量,一般就能够以高可信度重新识别出个体身份——即使数据集是匿名的。已知属性越多,识别的可能性越大。例如,99.98%的马萨诸塞州人口可以通过15个人口统计学属性识别出来。因此,文章认为匿名数据集不足以保护个人隐私。
再举一个例子,麻省理工研究者搜集了100多万用户在3个月内的信用卡消费数据,发现仅需要4个外部信息,就能以超过90%的概率识别到特定用户。这些外部信息包括该用户在Twitter上的定位信息、在Google上对餐厅的评价、在Netfliex上发布对电影的评分等等。例如,想要找出特定用户S的消费记录,已知的外部信息是9月23号S曾在某甜品店消费,并于9月24号在某餐馆就餐。经过信用卡数据集中的筛选,仅ID为“7abc1a23”的用户完全符合上述条件。因此,只通过两条外部信息,就能在海量的信用卡数据中找到了S,并通过ID获取了她的所有相关记录。
三、一个理想化的状态——对我国匿名化标准的反思
结合前述,我国匿名化法律定义从文义上理解是静态的“***”不可重新识别且不可复原,但实践中也表明存在匿名化可重新识别到特定人的情况,由此我国《个保法》规定的匿名化在目前的实践中只是一个理想化的状态,根据目前的技术是无法保证个人信息经过匿名化后不可逆转和不可复原。
在此情况下,企业如何确保经过匿名化处理的个人信息达到法律规定的匿名化标准,并可以自由利用?
1.从法律上来看
个人信息处理者在实际场景中如何达到我国《个保法》匿名化规定不可识别且不可复原的要求,目前法律以及实践中并无明确技术标准,但显然匿名化需要使用特定技术来实现。欧盟数据保护工作组的《意见》所列泛化和随机化两种匿名化就是两种实现匿名化的技术,欧盟认为通过泛化和随机化两种技术处理后的数据在评估现实可能性等无法合理重新识别的情况下就认定为匿名化,该等数据不受GDPR保护。
欧盟对匿名化的操作标准是可以借鉴的,这也为企业提供了相应的匿名化指引,但欧盟《意见》泛化和随机化两种技术在我国《个人信息去标识化指南》中属于去标识化技术,我国法律将去标识化的个人信息定义为结合额外信息可重新识别的信息。若此,在我国使用泛化和随机化技术处理的个人信息,可能因属于去标识化则仍在个人信息的范畴,即便在合理情况下无法识别且不可复原也未达到法律规定的匿名化标准。
也就是说,在我国,假设一家企业经过现有泛化或者随机化等技术处理并达到无法识别和复原的状态后,按通常实践标准可自由使用,但因业务需要而公开了该数据集,若后续其他个人信息处理者通过一定手段重新识别到个人,该企业则存在个人信息侵权的潜在风险。
显然,目前我国匿名化困境根源在于我国《个保法》将实现匿名化这一技术操作上升为法律静态的定义而缺乏类似欧盟的解释和实现匿名化技术标准,实践中《个人信息去标识化指南》又将部分匿名化技术认定为去标识化技术,以至于匿名化在实践过程中出现一定的混乱。
因此,笔者认为,具体是否实现匿名化建议参照欧盟规定的合理不可识别即可,不可能要求***实现无法识别且不可复原的标准,我国匿名化标准需要后续有更细化的规定或者指引进行厘清。
2.从司法实践来看
在《网络安全法》生效后,从已有的司法案例来看,我国法院对于匿名化和去标识化并没有严格区分,甚至无法准确判断是否是匿名化。例如,2018年12月18日,杭州中院作出的《安徽某科技有限公司、某(中国)软件有限公司商业贿赂不正当竞争纠纷二审民事判决书》中,对于某软件公司在收集用户个人信息基础上经过脱敏处理和加工之后形成的数据产品“生意参谋”,一审杭州铁路运输法院认为涉案“生意参谋”数据产品所使用的网络用户信息经过匿名化脱敏处理后已无法识别特定个人且不能复原,公开“生意参谋”数据产品数据内容,对网络用户信息提供者不会产生不利影响。且某软件公司的某宝隐私权政策已宣布:“经去标识化处理的个人信息,且确保数据接收方无法复原并重新识别个人信息主体的,不属于个人信息的对外共享、转让及公开披露行为,对此类数据的保存及处理将无需另行向用户通知并征得用户的同意”。因而,某软件公司公开使用经匿名化脱敏处理后的数据内容属于上述法律规定的除外情形,即无需另行征得网络用户的明示同意。
不难看出,一审法院对于匿名化和去标识化没有作出严格区分,而从某宝上述隐私政策来看,作为个人信息处理者是把去标识化概念认定为匿名化处理措施,或许其实现结果匿名化的目标,但其实现匿名化结果使用的技术是去标识化技术。而二审杭州中院可能因无法区分两个概念,故避开使用上述两个概念,而是认为“数据产品是某软件公司在前述原始痕迹数据的基础上,经综合、计算、整理而得到的趋势、占比、排行等分析意见,其对信息的使用结果与原始痕迹信息本身已不具有直接关联,已远远脱出个人信息范畴,不属于对用户信息的公开使用”。
综上,笔者认为,我国匿名化标准规定需要进一步细化解释,且在我国现有规定和实践来看,去标识化是否是实现匿名化的措施,取决于去标识化的程度,若处理后在现有技术和预期下达到无法重新识别特定个人的标准可称之为匿名化,则适用《个保法》例外条款,同时匿名化需要结合实际使用场景和目的,具有动态性,不是所有场景下使用该数据都是匿名化,也并非100%的匿名。
四、合规建议
匿名化能够使企业利用数据合规,并将侵权以及风险降到***,但达到上述匿名化并非就***免除个人信息处理者的义务,笔者建议企业还需要关注以下几个方面:
***,严格区分去标识化与匿名化。去标识化技术是借助额外信息能够复原,该额外信息需要单独存储,以避免重新识别,企业在业务场景中若将个人信息完全匿名化则无法实现商业目标,故使用一定的去标识化技术,例如,企业利用各种cookie、SDK、广告ID等方法收集用户个人数据,信息通过去标识化处理后共享给第三方,进而由第三方通过特定技术形成用户画像进而进行个性化推荐。但去标识化的信息如果达到匿名化标准则可能存在无法进行个性化推荐或者推荐准确率大大降低的情况,故需要保留足够的识别信息。因此去标识化处理后,仍需要确保额外信息存储安全,同时还需要履行《个保法》规定的义务,去标识化的信息并非完全可以自由流转、共享或者公开。
第二,对匿名化信息不得重新识别个人的义务,在《个保法(***次审议稿)》第24条规定,个人信息处理者向第三方提供匿名化信息的,第三方不得利用技术等手段重新识别个人身份。不过第二次审议稿删除了该条规定,但该条对于实务操作来说是值得借鉴的,企业可以在与第三方合同条款中约定,以减轻个人信息侵权风险。
第三,对匿名化信息的安全进行管理,笔者认为,匿名化信息可以自由利用,但也要履行相应安全管理义务,例如,个人信息处理者在制作匿名信息时,应当建立安全管理措施,对制作时从个人信息中删除的相关描述、个人识别符号,以及采取的处理技术和方法予以保密,以防泄露。
五、结语
个人信息匿名化对于个人信息主体隐私保护、企业数据利用和开发以及数据社会发展具有积极作用,尤其是对于企业来说匿名化就是安全港,值得企业在合规上投入细化,我国《个保法》于2021年11月1日生效,后续应会对匿名化问题进一步细化,笔者将持续关注。
注释
[1]随机化技术是指改变数据的真实性,以消除数据与个人之间的强关联的技术类型。
[2]添加噪声是指通过修改数据集中的属性,使其不那么准确,同时保留数据整体分布。例如,一个人的身高测量到接近厘米的数据,通过添加噪声处理后该数据显示包含+-10厘米的身高,添加噪声通常会与其他技术相结合,去除明显的属性或者标识符。
[3]差分隐私技术是指通过技术处理使得数据库查询结果对于数据集中单个记录的变化不敏感,即单个记录在或者不在数据集中,对于查询结果的影响微乎其微,信息处理者以外的人就无法通过加入或减少一个记录,观察查询结果的变化来推测个体的具体信息。
[4]泛化技术是指通过修改数据数量,将信息主体属性概括化或者淡化。
[5]聚合和K-匿名技术都是指通过将个人信息主体与至少K或者其他个体进行分组,以防止个人信息主体被筛选出来。
[6]密钥加密是指密钥的持有者可以通过解密数据集来重新识别个人身份。
[7]哈希函数是指一个具体的函数,它从任意大小的输入中得出一个固定大小的输出,并且不能反转。