RSA创新沙盒盘点 | Cape Privacy——基于加密机器学习的多方数据协作与隐私保护方案
2021-05-13
RSAConference2021将于旧金山时间5月17日召开,这将是RSA大会有史以来第一次采用网络虚拟会议的形式举办。大会的Innovation Sandbox(沙盒)大赛作为“安全圈的奥斯卡”,每年都备受瞩目,成为全球网络安全行业技术创新和投资的风向标。
前不久,RSA官方宣布了最终入选创新沙盒的十强初创公司:WABBI、Satori、Abnormal Security、Apiiro、Axis Security、Cape Privacy、Deduce、Open Raven、STARATA、WIZ。
金沙js1996君将通过背景介绍、产品特点、点评分析等,带大家了解入围的十强厂商。今天,我们要介绍的是厂商是:Cape Privacy 。
一、公司介绍
Cape Privacy成立于2018年1月,总部位于美国纽约。当前融资总额达到2500万美元,包括最近一次2000万美元的A轮融资,由Evolution Equity Partners领投,Tiger Global Management、Ridgeline Partners、Version One ventures、Radical ventures等多家投资公司参与[1]。其创始人兼CEO是Ché Wijesinghe,他拥有丰富的网络安全从事经验和管理背景,曾先后担任Datalogue(被Nike收购)、OmniSci、Composite Software(被Cisco收购)等公司的高管;团队其他一些成员,来自美国、英国和法国多个国家,包括David Besemer、Morten Dahl和Ben Decoste,具有密码学、数据科学和计算机领域的技术背景[2]。公司通过将机器学习和密码学技术,致力构建与实现一个多方数据协作与隐私保护的企业级SaaS平台,旨在解决隐私监管下的敏感数据共享难题。
在今年2021年RSA创新沙盒十家入选公司,有三家数据安全公司。除了本文介绍的Cape Privacy,还有Open Raven和Satori,其中后两者聚焦在敏感数据发现/分类,数据泄露监控,与数据安全治理相关。在去年2020的创新沙盒角逐赛中,许多人说Securiti.ai夺冠有很多的一部分归属于商业原因和运气成分。那么,回归技术主导的创新,Cape Privacy作为掌握加密机器学习、密码学等先进技术,实现了多方的数据协作与隐私保护方案。它这样同时兼具创新技术和商业条件的公司,是否能一举夺得今年的RSAC创新沙盒的冠军?值得期待!
二、背景简介
欧盟2018 年 5 月 25 日正式颁布《通用数据保护条例》(General Data Protection Regulation,GDPR)。距离现今已经实施接近三年,先后多张巨额的企业罚单相继被开出。根据GDPR的执法跟踪网站相关统计,截至当前,欧盟成员国从2018年共开出616件罚单,共罚款约2.79亿欧元[3]。其中具有代表性是谷歌罚款事件,其备受关注——作为一家大型国际互联网公司,谷歌却陆续被欧盟的两个国家罚款:2019年1月被法国处罚5000万欧元,原因是执法方认为谷歌的隐私条款未充分体现GDPR公开透明和清晰原则;2020年3月被瑞典处罚700万欧元,原因是谷歌未充分履行GDPR赋予用户的数据“遗忘权”。
以GDPR为风向标,全球各个国家纷纷进行新的数据安全与隐私立法,并趋向更加严格趋势。根据联合国贸易发展组织(UNCTAD)截止当前的统计[4],全球194个国家中,共有132个国家制定了数据隐私相关法律,包括欧盟、美国、中国、俄罗斯和印度和澳大利亚、加拿大和日本等国家,占所有国家总数的66%。其中具有代表性是美国加州,作为科技创新公司聚集地,2020年初实施《加利消费者隐私法案》(California Consumer Privacy Act 简称 CCPA),2020年底公开《加利福尼亚隐私权法案》(California Privacy Rights Act 简称 CPRA),被认为是CCPA强化版,在CCPA基础上增加了更多严格的条款。近日,我国《数据安全法》、《个人信息保护法》通过二次审议稿阶段,这两部重量级法规的距离落地脚步声越来越近。无论是国外还是国内,这些法规无疑给企业(无论巨头,还是中小型企业)带来了巨大的合规压力与挑战。
随着数字化转型和人工智能战略,机器学习、深度学习等先进技术在各行各业的数字领域得到广泛应用与推广。然而,随着GDPR、CCPA等法规实施,人工智能的应用,特别是跨多方企业的应用中,其合规风险越来越高。例如GDPR对个人数据的处理以及共享作出较高限制,CCPA条款明确指出未经消费者同意不能与第三方共享用户数据。然而,数据在流动过程中将价值发挥最大化,企业间的数据共享、计算与交换场景与需求越来越多,这给企业的数字化转型、AI战略价值构成了巨大的障碍。
如何保证在数据共享实现数据价值挖掘而保障数据安全、满足合规性是一个关键性问题。Cape Privacy声称创建更强大的人工智能解决方案,企业可以在不泄露任何机密数据的情况下实现了协同机器学习,从而对敏感数据的安全可信的访问中获取数据的价值。这是否是数据共享中合规挑战的解决之道呢?接下来我们对Cape Privacy的产品以及应用进行分析和解读。
三、 公司产品与应用
Cape Privacy公司的开发团队从2018至2020花了两年时间推出了公司产品的Alpha版本——Cape平台测试版。据最近一次的采访,其公司CEO声称产品在2021年已经大量改进和完善,在一些场景可进行商业应用[3]。值得一提的是,该初创公司通过项目开源和社区的模式推动产品孵化,不仅有Cape Privacy公司的员工搭建框架和贡献代码,同时也有一些外部开发人员会加入贡献代码。
本章节首先解读Cape Privacy公司的产品——Cape平台,然后介绍公司产品的应用场景,最后简介Cape Privacy主导的几个有代表性且与产品相关的Github开源项目。
3.1 Cape平台
Cape平台是一个基于加密机器学习的多方数据协作平台,它通过先进密码学、隐私保护,以及机器学习技术确保企业组织共享数据的安全状态下改善数据模型从而提升业务价值。
如图1所示,A、B和C三家公司希望通过数据共享实现联合建模,例如三家不同银行希望融合大量的数据样本,联合建立一个信用评分风控模型。然而现实是,由于客户隐私、以及法律合规的原因,三家银行不能直接共享这些敏感数据,这看似是矛盾的。但是,Cape平台可以通过加密机器学习技术,对原始的敏感数据进行加密(例如同态加密、秘密共享、不经意传输、混淆电路等密码技术),在加密数据进行计算与联合建模。原始数据不出本地,即A、B和C三家公司流出是加密后的,不暴露敏感信息,在不解密的情况实现计算与学习(work with protected data without decrypting it),实现“可用不可见”的效果。
图1 Cape平台的多方敏感数据共享的框图
具体来说,Cape平台目前提供以下三个核心组件:
1) Cape云服务(也称为“Cape”),用户可以在这里新建数据科学项目,以便与其他组织进行协作。该服务还包括Cape代理,用户可以轻松且安全地进行连接云服务。
2) Cape Workers,由用户来管理和运行加密学习任务,比如使用Cape Workers访问本地数据,对本地数据使用安全多方计算等技术加密数据,连接传输给Cape代理。
3) Python库pycape,通过使用pycape,用户可以与他的Cape项目进行交互,查看和更新项目的详细信息,且可以对数据集进行操作或将数据集加密上传到Cape。
从上面的三个核心组件可以看出,Cape平台实际上是云-本地部署的计算架构。由于对原始数据和中间计算状态是加密的且计算任务在加密数据中进行,因此云服务可以是第三方,即公有云。据官方介绍,目前支持部署在亚马逊云S3。这与Cape Privacy公司的愿景是一致的——为客户提供安全可用的支持加密机器学习的企业SaaS平台。
由于Cape平台是涉及多方的数据协作平台,Cape 云服务支持给不同的参与方分配不同的角色,以满足不同的权限和制作需求。这些角色可分为组织级角色、项目级角色两大类[6],其具体的权责如下:
1) 组织级角色(Organizational-Level Roles),有3类:
组织级管理员(Organizational-Level Administrator):管理员具有Cape上所有功能的全部权限。它是由超级管理员担任的角色,这些超级管理员需要与其他用户配合使用,并在Cape上具有最高级别的权限。具有组织的完整权限,包括:可以在组织中添加或删除人员、可以更改组织中任何成员的角色、可以删除组织。此外,具有后文介绍的项目级管理员所有的权限。
操作员(Operator):操作员控制组织的令牌,并负责部署,运行和监控Cape Workers。他们能够撤消令牌并查看组织的所有项目和项目活动。具有的权限包括:可以查看所有组织项目和工作/项目活动、可以发行/撤销组织令牌、能够安装和下载Cape Workers。
用户(User):Cape用户可以查看他们所属的项目,也可以加入和离开被邀请参加的项目。他们只能查看和加入由Cape组织或项目管理员邀请的项目。具有的权限包括:组织或项目管理员邀请我加入和离开项目、可以查看项目页面和日志,但不能更改数据视图/任务、批准或拒绝任务。
2) 项目级角色(Project-Level Roles),有3类:
项目级管理员(Project-Level Administrator):项目管理员具有其在Cape上对其组织项目的全部权限,可以在其所属的项目上添加和编辑参与者,并执行必要的项目操作,例如添加和删除数据视图或批准和运行加密的学习任务。组织所属的所有项目的完整权限,包括:可以在所有项目中添加或编辑贡献者、可以添加,删除所有项目的数据视图、可以批准和运行所有项目的加密学习任务,如图2所示。
图2 项目级管理员的任务管理(需同意、运行、完成)
数据科学家(Data Scientist):数据科学家可以添加、删除和编辑数据视图,以及创建,运行,拒绝和批准项目的加密学习任务。他们只能查看和加入由Cape组织或项目管理员邀请的项目。数据科学家权限包括:组织或项目管理员邀请我加入和离开项目、可以添加,删除自己方参与的项目的数据视图、可以为自己方参与的项目创建,批准,运行加密的学习作业、如果自己方的组织是模型所有者,则可以访问作业的度量标准和模型权重。
用户(User):项目级的用户与组织级用户具有相同的权限(同上文描述)。
Cape平台除了在加密数据中学习与计算、多方参与多种角色的特点,还具有以下的功能特点:
1) 加密机器学习模型的训练速度更快
Cape Privacy优化了加密机器学习的底层加密协议,使加密数据的使用没有过多的计算开销和延迟,同时也提高了机器学习的成功率。
2) 多方数据协作训练过程中支持可视化
如图3所示,多方数据协作训练过程是可视化的。
图3 Cape平台多方数据协作可视化
3) 技术的安全性通过同行评审进行背书
Cape Privacy公司基本核心价值观是尊重、合作和信任。如何确保隐私保护技术是可信任的,是安全的。Cape Privacy对新的隐私保护技术的研究采取公开发布,同行评审机制,一些技术成果会发表会议会期刊论文中。同时通过开源项目和社区的模式驱动产品孵化,一些底层算法库做到公开透明。
3.2 应用场景
Cape平台产品可以在以下三种场景进行应用:
1) 金融服务
加密机器学习允许金融机构与其他第三方进行合作,以消除数据集的偏差,确定一些基本事实。
2) 生命科学
通过使用个人医疗信息(PHI)、健康和临床试验数据,通过使用跨组织的机器学习,解决有偏见或不准确的数据和模型。
3) 政府
对位置或其他个人信息进行加密,以消除潜在的数据滥用同时,推动公共安全的进步。
3.3 开源项目
Cape Privacy在Github开源多个加密机器学习相关项目,下面介绍3个具有代表性的项目。
1) pycape
Cape平台核心的三个组件之一,是一个Python编写的模块,可实现与Cape云服务组件进行数据交互。该项目最近一年更新十分活跃。具体地,通过pycape模块,可以实现:
创建和查询数据视图,或指向Cape云服务中的加密机器学习模型训练过程中所需的数据位置。
提交和跟踪任务,这些任务可以看成计算会话,包含如何训练模型的说明。
网址:
https://github.com/capeprivacy/pycape
2) Cape Python
它是一个支持数据转换和隐私保护策略(比如不同的脱敏方法,包括哈希、置换、近似)的Python库,可用于Pandas和Apache Spark建立的数据科学项目。
网址:
https://github.com/capeprivacy/cape-python
3) TF Encrypted
它是一个构建在TensorFlow之上的Python库,供研究人员和从业者实验保护隐私的机器学习。它封装一些密码底层协议与库,仅提供了一个类似于TensorFlow的接口,目的是无需研究和开发人员是密码学、隐私保护的专家情况下,让这项技术仍然随时调用。TF Encrypted针对基于张量的应用程序进行大量的优化,依赖于TensorFlow的后端意味着运行时性能可与独立的TensorFlow框架运行相媲美。
网址:
https://github.com/tf-encrypted/tf-encrypted
四、技术解读
从Cape privacy的官网介绍以及开源项目可以看出,它提供的多方数据协作与隐私保护的企业级SaaS平台的核心技术是安全多方计算、同态加密等核心技术。实际上,Cape平台支持多方联合的机器学习建模与训练,这与近年来数据安全领域的创新技术——“联邦学习”实现的效果几乎完全趋同,因此也可以看成一种联邦学习方案。下面从一个简单例子对联邦学习(加密机器学习)做一个直观的认识,然后对其原理、发展进行一个全貌性的概述。
4.1 简单理解的例子
Cape平台无需解密密文数据,即在加密数据即可实现数据的处理与机器学习训练,其中使用同态加密、秘密分享、混淆电路、不经意传输等先进的密码技术。其中同态加密技术是如何构建加密的机器学习(联邦学习)方案,官网给出一个简单的示例。
首先,考虑一个普通的算法,如a + b = c,如果你输入2和3函数会产生5。现在考虑一个特殊的加密函数,如Enc(a) + Enc(b) = Enc(a+b) =Enc(c),这种性质称为满足“加法同态加密”性质,比如Paillier加密系统。如果输入Enc(2)和Enc(3),将它们进行运算Enc (2) + Enc (3),那么将生成Enc(5)。那么,在此过程中,可以在不解密的情况下将两个数字相加来产生输出。结果输出仍然是加密的,只能由使用密钥的人解密,可显示答案是5。
同样的方法可以应用于加密机器学习模型中,比如线性回归是一个加法和一个矩阵乘法:aX + b = Y;加密的线性回归为:Enc(aX) + Enc(b) = Enc(Y),对加密数据运行加密的线性回归模型将产生加密的Enc(Y)结果。这使得用户可以在加密数据中机器学习模型训练与预测,而不暴露或读取数据,如图4所示。这意味着数据科学家可以通过这种技术,实现多方数据的协作与共享,从而提高他们的模型的准确性。
图4 加密线性回归模型的简单示例
4.2 联邦学习概述
联邦学习(Federated Learning, FL)概念最早由谷歌在2016年提出,原本用于解决大规模Android终端协同分布式机器学习的隐私保护问题,它有机融合了机器学习、分布式通信、以及隐私保护技术与理论。随着全球隐私法规的强化,以及数据利用需求旺盛,自从联邦学习概念提出以来,在学术界和工业界受到广泛的关注,发展十分迅速。
联邦学习可以使得多个参与方(如企业、用户移动设备)在不交换原始数据情况下(也表述为“敏感数据不出本地”),实现联合机器学习建模、训练和模型部署。联邦学习按照参与各方使用数据集的不同场景可分为三种类别:横向联邦学习、纵向联邦学习和联邦迁移学习。按照联邦学习算法类型可分为联邦线性回归、联邦提升树、联邦神经网络等。目前亟需解决的联邦学习的是算法效率、精度、通信机制以及参与方的诚信等问题。
联邦学习有两大类场景应用:B2C场景——移动设备的隐私数据采集与机器学习,如谷歌、苹果在Android、iOS设备的应用;B2B场景——企业组织间的敏感数据共享与机器学习,如多家银行联合建立风控模型。在具体的行业应用上,国内外多家企业开展了探索,并且实现了一些商业落地案例。如谷歌将联邦学习应用在Android手机的新闻推荐上,并开源了TensorFlow Federated框架;Intel 将TEE(可信任执行环境)技术与联邦学习进行结合;国内的微众银行为代表将联邦学习应用在保险定价、图像检测等领域,并开源了FATE联邦学习框架;此外,百度、腾讯和京东等厂商均推出了联邦学习相关产品与应用。
具体的联邦学习技术介绍可参考文章《十种前沿数据安全技术,聚焦企业合规痛点》以及相关的研究报告。
五、总结与点评
无论是欧盟GDPR,美国CCPA,还是中国呼之欲出的《数据安全法》、《个人信息保护法》两部法规的未来落地,国内外公司绕不开的迫切需亟需解决的安全问题——遵循数据安全合规。为了应对挑战,从目前的合规产品与应用市场来看,笔者将其分为三类:
第一类是满足显式合规需求的相关产品与工具,比如Securiti.ai和 OneTrust提供的合规性检查协作平台、用户数据权利(访问权、修改权、限制处理权等)的请求-响应自动化工具(参考《RSA2020创新沙盒Securiti.ai—解决隐私合规痛点的一站式自动化方案》);
第二类是可以有效降低企业内部合规风险的产品,一般是敏感数据的“识别-防护-评估”为基本体系的数据安全治理方案,比如BigID提供的敏感数据识别产品、以及Microsoft、IBM的数据脱敏产品,以及国内分类分级、数据脱敏产品,该方向技术和市场较为成熟;
第三类是支持跨企业的敏感数据共享与传输的合规技术与产品,这类产品吸引人的地方在于满足合规同时获得巨大的业务价值。国内外隐私法规均显式、隐式指出一般不允许企业将隐私数据与第三方共享,但一般也会直接或间接给出两条路径:一条是征求所有用户的同意,另一条路径对原始的个人数据进行处理,已达到“匿名化信息”的目标效果。
显然地,Cape Privacy公司提供的基于加密机器学习的多方数据协作与隐私保护方案属于第三类的范畴。公司的产品Cape平台,通过先进的密码学和隐私保护与机器学习相结合(联邦学习类技术),可确保跨企业的多方数据共享的安全下改善数据模型同时提升业务价值。值得一提的是,2019年RSAC创新沙盒亚军——Duality公司,也属于第三类范畴,它通过定制硬件、算法优化将同态加密技术的进行商业应用(《RSA2019创新沙盒Duality:基于同态加密的数据分析和隐私保护方案》)。如果说2019年是第三类创新技术在商业应用上的第一次亮相,那么该类技术经过两年时间的快速发展,由于其可观的商业价值逐步形成数据安全领域新的赛道,Cape Privacy在项目开源驱动、新技术经过严格的评审、更多的场景应用、云服务模式等,这些显示该领域巨大进步,技术研究开始走向产业生态、商业模式逐渐形成。Gartner在2020年预测报告,将同态加密、安全多方计算、机密计算(TEE)等技术称为隐私增强计算(Privacy Enhanced Computation)类技术,并将其与随处运营、人工智能工程化等作为2021年六大重要战略科技趋势,其技术的价值未来仍有巨大的研究与发展空间。
自2018年至2021年连续四年来,数据安全一直是RSAC创新沙盒比赛的焦点,每年都至少有一家是数据安全的初创公司入选。今年更是一个爆点,更是有三家相关公司——Cape Privacy、Open Raven、Satori,其中Open Raven专注云资产发现、敏感数据发现/分类和数据泄露监控,Satori专注敏感数据发现/分类、访问控制策略和数据脱敏,根据前面的划分原则,它们均属于第二类范畴,是降低合规风险的数据安全治理相关产品。
在前三年的创新沙盒比赛中,2018 年BigID获得冠军(第二类范畴,数据安全治理),2019 Duality 亚军(第三类范畴,同态加密技术的商业应用),2020 Securiti.ai冠军(第一类范畴,满足GDPR/CCPA的显式合规)。Cape Privacy公司通过加密机器学习(联邦学习)技术,致力构建与实现一个多方数据协作与隐私保护的企业级SaaS平台,旨在解决隐私监管下的敏感数据共享难题。从技术创新角度是讲,技术是足够创新与新颖的;从商业价值上看,由于数据共享与机器学习的业务,尤其是金融、医疗等敏感领域,价值回报是可观的;从技术团队上看,公司CEO具有多家成功创业公司的管理经验,团队其他一些成员具有密码学、数据科学和计算机领域的技术背景。有趣是,它们这个技术团队,来自美国、英国和法国多个国家,具有天然的“分布式”基因。基于以上的分析,笔者继续看好2021年RSAC创新沙盒三家的数据安全公司,并认为Cape Privacy有较大的可能性夺得今年的冠军。