文|蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算科技有限公司董事长 韦韬
近期,国家发展改革委、国家数据局等六部门联合印发了《国家数据标准体系建设指南》(以下简称《指南》)。《指南》以数据“供得出、流得动、用得好、保安全”为指引,构建了涵盖数据基础设施、数据资源、数据技术、数据流通、融合应用及安全保障等模块的国家数据标准体系,有利于指导数据领域关键急需标准的制修订和落地实施,满足数据要素市场快速响应新技术、新模式的发展需求,提升数据标准的适用性和前瞻性,为数据标准化工作提供了基础指引,为数据要素市场指明了规范化建设路径。
相较传统侧重于数据在主体内部进行治理和利用的内循环范式来说,数据要素市场的核心在于构建跨主体、跨行业、跨场景的外循环流通利用。数据要素的外循环释放了数据更深层价值,但也增加了数据的治理难度和流通风险。第一,当数据跨越提供方的域后,存在权属、责任不明晰的情况,导致出现合规、安全保护强度、责任追溯等问题。第二,数据流通链路上的多数企业缺乏全面的数据保护能力,导致数据存在潜藏泄露滥用风险。
在此背景下,建立一个技术信任的可信数据基础设施变得极为关键。不仅可以鼓励跨主体、跨场景、跨行业的数据供应者积极参与,以激发数据要素价值的规模化转换,而且加速了数据要素在高效、安全条件下开展外循环流通利用,确保数据要素价值得到最充分的释放。针对高价值高敏感数据开展数据基础设施试点,可以梳理典范,完善行业准入标准,形成行业指导意见,并催生规模效应,降低边际成本,为数据要素大规模“供得出、流得动、用得好、保安全”提供更有利的环境。
标准作为凝聚产业共识、明晰责权分配、确立行业水位、规范治理要求的产业工具,对于指导数据安全高效进入数据要素可信流通的外循环中具有重要作用。《指南》明确了数据基础设施在数据要素流通利用过程中的基础性和支撑性作用,对于存算设施标准、网络传输标准以及流通利用设施的技术、流程、管控要求标准等建设提出了指导意见,确保数据资源合规高效有序流通。
在这些工作基础上,针对当前比较迫切需要解决的几个产业问题的角度,我们认为受控匿名化、数据跨域管控和数据可信流通安全分级三个方向值得特别关注。
一、可实施的受控匿名化标准是规范个人信息保护与促进数据合规流通利用的“稳定器”
现有的《中华人民共和国网络安全法》与《中华人民共和国个人信息保护法》引入了专门的“个人信息匿名化条款”,将匿名化后的数据与个人信息进行了区隔,但针对匿名化的法律内涵和实施标准却有待厘清。实践中,这一条款虽已确立却未能充分发挥效用,但匿名化实施以促进数据利用的需求非常迫切。如在大型模型训练的场景下,重新获取个人数据授权用以训练的难度极高。而采用受控匿名化手段处理个人信息,则能在保障人工智能发展所需数据资源的同时,有力保障个人隐私安全。
匿名化最核心的是重标识风险是否可控可忽略。在开放空间中,由于能实施数据的高维关联,无法保证重标识风险的可控可忽略,因此必须在受控的环境中来探讨匿名化方案。受控匿名化能满足匿名化要求的核心原理在于,既然信息被限制到特定环境中,那么考虑攻击威胁及相应的重标识风险的时候,就只需要考虑结合所有可能进入该环境的个人信息可能产生的重标识风险,以及通过各种手段非授权获得该环境中的信息后可能产生的重标识风险,确保结合空间内的所有信息,无法识别特定自然人且不能复原,以及受控环境足够安全,能够防止非授权数据访问和窃取。
因此,制定一套针对受控环境的匿名化实施指标和评估规范等系列标准显得尤为重要。通过建立统一的数据受控匿名化处理流程和方法,详细界定何为足够的数据脱敏程度,不仅可以有效防止敏感信息泄露,而且确保数据在研究、分析及其他非识别性用途中的价值得以保留。
二、支持数据使用权跨域管控的标准是确保数据可信流通的“压舱石”
将来自不同主体、行业的数据进行融合,能够帮助业务构建层次丰富、视角全面的数据画像,为决策提供深度更广的上下文环境。当数据提供方将数据流入到数据基础设施,转移到外部实体时,常常伴随着一种信任焦虑,担心接收方是否能妥善处理这些数据,是否会非法截取、篡改或泄露数据等。
尽管有很多流通技术可选择,但是由于缺乏相应的技术要求标准,我们无法确定数据是否在合作方处到有效的保护,以及数据可以被哪些算法处理、使用次数和有效期是否能够得到有效界定并得到落实。这些都是数据使用权跨域管控的核心技术要求。
为确保数据在流通过程中,数据提供方依然能够对其进行有效控制,防止被窃取或者滥用等,应该制定数据使用权跨域管控技术要求标准,在标准中明确运维管控域的划分;明确流通参与各方需要遵从的原则、要求与义务;明确数据流通基础设施为支持实现数据跨域管控应该遵循的技术要求;明确事前、事中、事后全生命周期中数据跨域使用和应急处置的各种流程。由此,需要一整套围绕数据跨域流通过程中使用权的跨域保护为目标的技术要求标准,以明确保护责任、义务、技术手段、管理与运行流程等各类要素,为数据要素的流通提供制度性的安全保障。
三、数据可信流通技术的通用安全评估标准是数据大规模安全流通的“度量衡”
数据可信流通技术为数据流通各参与方提供高效便捷、安全可靠的数据计算分析能力,从而有效推动数据处理环节的高效率、低成本和高智能化。数据流通技术的安全性评估标准至关重要,通过对其进行安全性评估,可以增强行业信心,促进技术大规模部署,保护用户隐私和数据安全。
当前,数据可信流通技术呈现出多元化发展态势,包含隐私保护计算、使用控制、区块链等技术。隐私保护计算技术是一种基于密码学、分布式计算、人工智能、数据科学等领域的技术体系,在保护隐私信息的前提下,实现数据价值的分析和挖掘,即实现数据在加密的、非透明的状态下的计算,保护计算各参与方的隐私信息安全。数据使用控制技术基于预定义的控制策略并结合动态属性身份认证机制,保障数据消费者按照数据提供方设定的策略使用数据,维护数据提供方对数据使用的控制能力,相较于“可用不可见”的隐私保护计算,数据使用控制技术可实现“使用范围可界定”、数据“用后即焚”。区块链技术是一种块链式存储、不可篡改、安全可信的去中心化分布式账本,它结合了分布式存储、点对点传输、共识机制、密码学等技术,通过不断增长的数据块链记录交易和信息,确保数据的安全性和透明性。
由于不同技术路线的安全防护机制和侧重点各异,目前缺乏统一、全面的安全等级评价体系来客观比较多种数据可信流通技术的安全性能。虽然针对单一技术路线已经有一些评估规范类标准,但是不同技术路线的评估规范标准存在差异,用户无法对所有的产品进行横向比较。因此,制定数据可信流通技术通用评估规范类标准,针对不同安全等级的数据选择合适的数据可信流通技术,从而合理分配安全资源,在安全、性能和成本之间实现平衡。
综上所述,国家数据标准体系旨在建立技术信任革新趋势,简化数据“供得出、流得动、用得好、保安全”门槛,降低成本,扩大受益范围。数据标准体系跨越单一组织边界,实现跨主体、跨场景、跨行业的数据外循环标准体系,打造一个可信的交流生态系统。通过数据基础设施标准,实现数据合规高效地从源头顺利地接入、传输、开发到最终应用。通过制定和实施可控匿名化、数据使用权跨域管控的技术要求和数据可信流通技术的通用安全评估等系列标准,将为数据在多元主体、多样场景及广泛行业间的流畅、安全传递与循环利用提供有效支撑,让数据要素成为赋能数字经济和数字技术发展的强劲动力。