研究 | 人工智能数据安全风险及治理

vlambda
2020-05-11

研究 | 人工智能数据安全风险及治理

文│中国信息通信研究院安全所信息安全研究部主任魏薇中国信息通信研究院安全所信息安全研究部高级工程师景慧昀牛金行

2019年数据是驱动本轮人工智能浪潮兴起的关键要素。随着数据投毒影响智能驾驶汽车安全造成人员伤亡、数据智能定向推送影响政治走向、数据深度伪造被用来敲诈勒索等事件发生，人工智能数据安全风险引发各方高度关注。习近平总书记指出要加强人工智能发展的潜在风险研判和防范，维护人民利益和国家安全，确保人工智能安全、可靠、可控。本文通过分析人工智能数据安全风险，梳理国内外治理举措，结合安全形势和国家要求研究提出治理建议。

一、人工智能数据安全风险

人工智能数据安全风险是人工智能数据安全治理的起因, 包含人工智能技术自身面临的数据安全风险，以及人工智能技术被恶意或者不当应用导致的数据安全风险。

（一）人工智能技术自身面临的数据安全风险

训练数据污染可导致人工智能决策错误。数据投毒通过在训练数据里加入伪装数据、恶意样本等破坏数据的完整性，进而导致训练的算法模型决策出现偏差。随着人工智能与实体经济深度融合，医疗、交通、金融等行业训练数据集建设需求迫切，为恶意、伪造数据注入提供机会，使得从训练样本环节发动攻击潜在危害增大。例如，在对话机器人领域，训练数据投毒可导致机器人发表歧视性、攻击性的不当言论；在自动驾驶领域，训练数据投毒可导致车辆违反交通规则甚至造成交通事故。

运行阶段的数据异常可导致智能系统运行错误。一是人为构造对抗样本攻击，导致智能系统产生错误的决策结果。例如在生物特征识别应用场景中，对抗样本攻击可欺骗基于人工智能技术的身份鉴别、活体检测系统。2019年4月，比利时鲁汶大学研究人员发现，借助一张设计的打印图案可以避开人工智能视频监控系统。2019年12月曝出美国Kneron公司用高清3D面具可欺骗一些人脸识别支付系统。二是动态环境的非常规输入可导致智能系统运行错误。人工标记数据覆盖不全、训练数据与测试数据同质化等会导致人工智能算法泛化能力不足，智能系统在动态环境实际使用中决策可能出现错误。如特斯拉汽车自动驾驶系统曾因无法识别蓝天背景下的白色货车，发生致命交通事故。

模型窃取攻击可对算法模型的数据进行逆向还原。攻击者可通过公共访问接口对算法模型的输入和输出信息映射关系分析，构造出与目标模型相似度非常高的模型，实现算法模型窃取，进而还原出模型训练和运行过程中的数据以及相关隐私信息。新加坡国立大学Reza Shokri等针对机器学习模型提出一种成员推理攻击，在对模型参数和结构知之甚少情况下，可推断某一样本是否在模型训练数据集中。

开源学习框架安全风险可导致人工智能系统数据泄露。人工智能开源学习框架集成了大量的第三方软件包和依赖库资源，相关组件缺乏严格的测试管理和安全认证，存在未知安全漏洞。360、腾讯等企业安全团队曾多次发现TensorFlow、Caffe、Torch等深度学习框架及其依赖库的安全漏洞，攻击者可利用相关漏洞篡改或窃取人工智能系统数据。

（二）人工智能技术恶意或不当应用导致的数据安全风险

人工智能应用可导致个人数据过度采集风险。随着各类智能设备（如智能手环、智能音箱）和智能系统（如生物特征识别系统、智能医疗系统）的应用普及，人工智能设备和系统对个人数据采集更加直接与全面，用户人脸、指纹、声纹、虹膜、基因等具有强个人属性的生物特征信息具有唯一性和不变性，一旦被泄露或者滥用将会对公民权益造成严重影响。2019年2月，某人脸识别公司被曝出数据泄露事件，超过250万人数据、680万条记录被泄露，其中包括身份证信息、人脸识别图像及GPS位置记录等。

人工智能放大数据偏见歧视，威胁社会公平正义。人工智能训练数据在分布性上往往存在偏差，隐藏的社会价值倾向决策结果可能影响社会公平正义。例如，海量互联网数据更多体现我国经济发达地区、青壮年网民特征，而对边远地区以及老幼贫弱人群的特征无法有效覆盖。据报道，美国Kronos公司的人工智能雇佣辅助系统让少数族裔、女性或者有心理疾病史的人更难找到工作。

人工智能技术的数据深度挖掘分析加剧数据资源滥用，加大社会治理和国家安全挑战。利用人工智能技术对用户的地理位置、消费偏好等数据进行深度挖掘分析加剧了数据滥用问题。例如差异化定价导致消费者的知情权、公平交易权等受损，“信息茧房”导致用户自由选择信息受影响。基于人工智能技术的数据分析与滥用给数字社会治理和国家安全等带来严峻安全挑战。2018年曝光的“Facebook数据泄露”事件中，剑桥分析公司利用广告定向、行为分析等智能算法推送政治广告，进而形成对选民意识形态和政治观点的干预诱导，影响美国大选、英国脱欧等政治事件走向。

人工智能技术可提升网络攻击的智能化水平，进而实施数据智能窃取。可利用人工智能技术自动锁定目标，进行数据勒索攻击；自动生成大量虚假威胁情报，对分析系统实施攻击；自动识别图像验证码，窃取系统数据。美国Vicarious公司开发的基于概率生成模型的验证码识别算法，在标准的reCAPTCHA测试中，可成功解开三分之二的验证问题。

基于人工智能技术的数据深度伪造威胁社会安全和国家安全。深度伪造数据内容的大量生成和传播，降低了生物特征识别技术的可信度，给网络攻击提供了新手段。随着换脸换声技术的不断进化，伪造图片和音视频的成本不断降低，恶意伪造的图片和音视频信息将大量涌现，甚至用于敲诈勒索、伪造罪证等不法活动，造成社会信任危机。2019年9月曝光首例基于变声的电信诈骗导致被害人损失22万欧元。虚假信息可能影响政治舆论，进而威胁国家安全。2019年6月，由于担心深度伪造对2020年美国大选的灾难性影响，美国众议院已经开始考虑修订现行法案，在立法层面打击相关行为。

二、国内外人工智能数据安全治理现状

当前，世界主要国家在人工智能发展战略、伦理规范方面包含人工智能数据安全，但法律法规还不够完善，安全技术研究方兴未艾，安全标准处于制定初期，人工智能数据安全治理工作任重道远。

（一）人工智能发展战略中包含数据安全

美国积极推进高质量训练数据集的建设与开放，并加强数据安全问题应对。美国在2019年2月签署的《人工智能倡议》发展规划中提出要加强联邦政府和机构数据的对外开放，并在2019年6月发布的《国家人工智能研发与发展战略计划》中要求所有机构负责注重保护数据安全、隐私和机密性。欧盟细化人工智能数据规则，关注个人数据与权益保护。欧盟在2018年3月发布的《人工智能时代：确立以人为本的欧洲战略》提出，应设计利于欧洲数据收集、使用和共享的监管方案，以确保《通用数据保护条例》（GDPR）个人数据保护要求实施。我国高度重视数据集建设，推进人工智能安全应用，防范人工智能数据风险。国务院在2017年7月印发的《新一代人工智能发展规划》指出，“重点建设面向人工智能的公共数据资源库”、“促进人工智能在公共安全领域的深度应用”以及“强化数据安全与隐私保护”。

（二）欧美较早重视人工智能数据安全伦理原则，我国近年不断加强

2017年1月，阿西洛马人工智能23原则在美国加州形成并发布，霍金、马斯克等近四千名各界专家签署支持。2018年4月，英国议会发布《英国人工智能发展计划、能力与志向》，提出了“人工智能不应用于削弱个人、家庭乃至社区的数据权利或隐私”等5项人工智能基本道德准则。2019年4月，欧盟委员会发布了《可信赖人工智能伦理指南》。我国近年来加强人工智能数据安全伦理研究与制定。2019年6月，国家新一代人工智能治理专业委员会发布《新一代人工智能治理原则——发展负责任的人工智能》，将“尊重隐私”作为八项原则之一。2019年7月，腾讯、旷视科技等企业相继发布人工智能伦理准则。

（三）世界主要国家数据安全法案促进人工智能发展，我国相关立法较为滞后

世界主要国家数据安全要求得到明确细化，指导人工智能行业合规实践。欧盟《通用数据保护条例》、印度《2018年个人数据保护法案（草案）》、巴西《通用数据保护法》、美国《2018年加州消费者隐私法案》等对数据处理者的个人数据的收集和使用行为加以明确规范，促使人工智能行业进一步规范数据收集和使用行为。世界主要国家努力平衡数据权利保护与数据开放流动，促进人工智能发展。2018年11月，欧盟通过《非个人数据在欧盟境内自由流动框架条例》，致力于清除欧盟内部非个人数据自由流动障碍。2018年12月，美国国会通过《开放政府数据法案》，要求联邦机构必须以“机器可读”和开放的格式发布任何“非敏感”的政府数据。我国目前数据安全和个人信息保护立法相对滞后，相关规定散落在《民法总则》、《网络安全法》、《电子商务法》等法律法规中，亟需针对当前人工智能新技术发展，加速完成数据安全和个人信息保护的顶层立法，为人工智能健康发展提供法律支撑。

（四）国内外人工智能数据安全标准整体处于起步阶段

ISO/IEC JTC1 SC42 WG3人工智能可信标准组正在开展人工智能风险管理、人工智能的可信度概览等标准研制。IEEE标准协会对涉及人工智能道德规范的伦理标准进行研究。2019年5月1日，美国国家标准与技术研究院（NIST）发布人工智能标准化计划纲要，将人工智能数据安全与隐私保护相关标准化纳入人工智能可信标准领域。我国在《数据安全法》和《个人信息保护法》尚未出台的情况下，相关标准起到了行业指引作用，得到业界重视。但是，人工智能安全标准体系指南刚刚发布，人工智能数据安全收集、使用和共享等关键技术标准尚未形成，亟需加快制定实施人工智能数据安全标准。

三、我国人工智能数据安全治理建议

我国作为数字经济大国和人工智能先行国家，需坚持发展与安全并重的治理思路，以伦理规范为引导，以法律法规为底线，以安全监管为约束，大力推进标准建设、技术发展和人才培养等工作，全面提升我国人工智能数据安全的综合治理能力。

（一）坚持发展与安全并举的治理思路

一是推进人工智能数据资源建设，在发展中解决安全问题。建立适合我国国情的数据流通共享机制，培育规范数据交易市场，鼓励不同主体安全地进行数据交换，构建支撑我国人工智能产业发展的优质数据资源，在发展中规避数据偏见、数据权属等人工智能数据安全问题。二是提升人工智能数据安全治理能力，以安全促进发展。加大人工智能应用场景下数据安全防护技术研究，促进人工智能技术在数据安全治理与网络攻防对抗等领域中的应用，实现人工智能数据安全风险的提前感知和预防，规避训练数据污染、数据智能窃取等数据安全风险，促进人工智能安全发展。

（二）引导社会遵循人工智能伦理规范

一是加强人工智能伦理原则的社会宣贯。针对我国人工智能治理机构、行业和企业发布的人工智能伦理原则，加强社会宣传教育，引导形成社会共识，使其成为人工智能参与方在设计、研发、使用、治理过程中的潜在道德观念，提升个人数据和权益保护意识，降低人工智能发展过程中可能存在的数据安全伦理风险。二是积极参与国际人工智能伦理规范制定。通过联合国、G20、亚太经合组织、上合组织等国际平台，积极开展国际对话与合作，在充分尊重各国人工智能治理原则和实践的前提下，贡献我国人工智能数据安全治理思路，推动形成具有广泛共识的国际人工智能数据安全伦理规范。

（三）健全人工智能数据安全法律法规

一是推进人工智能和数据安全相关立法工作。在国家层面，推进明确人工智能数据安全法律原则，确立不同参与主体在人工智能生命周期各阶段所享有的数据权利与承担的安全责任，设立人工智能数据安全问责制和救济制度，对数据过度采集、偏见歧视、资源滥用、深度伪造等突出问题进行规制。二是完善人工智能数据安全相关部门规章。结合人工智能在不同领域应用中的特点，针对各领域关键突出人工智能数据安全风险，制定相关部门规章，提出对所属领域的人工智能算法设计、产品开发和成果应用等过程中数据安全要求。三是开展人工智能数据安全执法。加强对人工智能数据收集、使用、共享等高风险环节安全执法，特别是对数据过度采集、数据资源滥用、侵犯个人隐私、违背道德伦理等行为加大执法惩戒力度，创新规范人工智能数据安全事件调查取证方法和程序。

（四）完善人工智能数据安全监管措施

一是开展人工智能数据安全监督惩戒。依照国家法律法规，政府部门针对数据过度采集、数据偏见歧视、数据资源滥用等人工智能数据安全风险，通过线上线下多种方式实施监督检查。针对基于人工智能的网络攻击、深度伪造等严重不良行为，利用技术手段监测和社会公众监督等方式及早发现，加强惩戒。二是开展人工智能数据安全检测评估。依托行业组织或者第三方机构，构建人工智能数据安全检测评估平台，制定人工智能产品、应用和服务的数据安全检测评估方法和指标体系，研发安全检测评估工具集，通过测试验证提升人工智能产品安全性和成熟度，降低人工智能数据安全风险。

（五）建立人工智能数据安全标准体系

一是建立我国人工智能数据安全标准体系，加快急需重点标准研制。在我国人工智能安全标准框架下，制定人工智能数据安全标准推进计划。重点加快推进人工智能数据安全评估、人工智能平台数据安全保护、自动驾驶用户隐私保护等急需重点标准研制工作。二是优化我国人工智能数据安全标准化组织建设。推动国家信息安全标准化技术委员会、中国通信标准化协会等国家及行业标准化组织成立人工智能安全研究组，促进国家、行业和团体标准化组织联合有序推进人工智能数据安全标准出台。三是加强国际人工智能数据安全标准化工作。组织国内企业、科研院所等多方力量加强研究储备，在IEEE、ISO/IEC、ITU等国际标准化组织中联合发声,更多实质性参与和主导人工智能数据安全相关国际标准工作。

（六）创新人工智能数据安全技术手段

一是加强人工智能数据安全保护基础理论研究和技术研发。利用国家专项和社会基金引导产学研各界联合开展人工智能数据安全风险产生机理和防御理论的研究，突破小样本学习、联邦学习、差分隐私等人工智能数据安全保护核心关键技术。二是建设完善我国人工智能开源学习框架，提供保障数据安全的人工智能基础研发平台。鼓励企业建设完善人工智能开源学习框架，增强框架内置数据安全设计和技术措施，并且通过我国市场优势，加快培育我国人工智能开源平台生态圈和产业链。

（七）培养复合人工智能数据安全人才

一是完善学校人工智能数据安全教育。鼓励高校尽快形成人工智能与网络信息安全交叉学科的人才培养模式，组建和壮大人工智能安全师资队伍，促进国内外人工智能安全学生和教师共同开展研究，扩大培养规模、提高人才培养质量。二是加大企业人工智能数据安全人才培养。鼓励企业创办培训机构，与科研机构、高校等建立联合人工智能数据安全培训基地，加强企业人员能力培训。三是加强国外人工智能数据安全人才引进。制定人才政策引进专项人才，支持高校或企业引进世界一流人工智能数据安全领军人才；鼓励企业通过资本运作等方式吸纳掌握核心技术的人工智能数据安全团队。

（本文刊登于《中国信息安全》杂志2020年第3期）