摘要
√隐私计算赛道的崛起,是由市场需求的产生、技术的演进、法律与政策的推动引发的。首先是2019年的“净网行动”引发了金融科技领域对隐私计算的需求。与此同时,隐私计算技术经历了2019年的技术普及和市场教育阶段、2020年的大规模概念验证和试点部署阶段之后,在实际商业场景中达到基本可用。最终,一系列法律与政策的推出,使得隐私计算技术成为未来商业世界的刚需。
√ 隐私计算庞大的产业生态正在形成。在这个生态当中,包括数据源、数据使用方和为数众多的中间服务机构。目前,入局隐私计算领域的厂商有十大类,其中包括:互联网巨头、云服务商、有人工智能背景的公司、有区块链背景的公司、有大数据背景的公司、有安全背景的公司、软件服务商、有金融科技背景的公司、有供应链金融背景的公司、从隐私计算技术出发的创业公司。
√ 目前,隐私计算领域的商业模式主要有三种:硬件销售、软件销售、平台分润。其中平台分润模式有三种:数据源侧分润、数据应用场景分润、类数据代理模式。但是,在未来,随着隐私计算技术与区块链技术进一步结合、以及开源的发展,可能出现更多的商业模式。
√ 在隐私计算领域发展初期,各厂商商业模式比较相似,并无明显差异。但是基于目前业务方向以及能力的不同,隐私计算公司的商业模式可能在发展中产生分化。目前,在零壹智库的调研中,我们看到了数据底座、与场景深度融合、隐私计算叠加数据运营、开放平台、“区块链+隐私计算”基础平台等几种不同的业务方向。
√ 通过对隐私计算专利申请信息进行梳理,零壹智库发现,中国目前有超过2000家公司参与隐私计算专利申请,但是成功推出相关产品的仅部分公司。在相关政策和行业法规的推动下,未来可能有更多的隐私计算产品推出。
√ 在金融领域,目前隐私计算主要应用于风控和营销两个方面。但是,隐私计算对金融领域的影响将不止于这两个方面。隐私计算与区块链技术结合之后,可以改变更多的金融场景,比如跨境支付、供应链金融等。
√ 2021年,隐私计算开始在真实商业场景中全面落地。但是,这距离隐私计算市场的全面爆发还有距离。这主要是基于以下三方面的原因:隐私计算技术自身的原因、市场的原因、宏观环境的原因。隐私计算的长跑才刚刚开始。
出品 | 零壹智库
作者 | 温泉、姚崇慧、赵金龙
任万盛、陈丽姗、刘翌
10月21日,由零壹财经•零壹智库主办的“第一届中国信用经济发展峰会暨2021第三届数字信用与风控年会”在深圳前海举办,会上发布了《隐私计算在金融领域应用发展报告(2021)》。报告由零壹财经·零壹智库作为研究机构,由中国科技体制改革委员会数字经济发展研究小组、深圳市信用促进会、横琴数链数字金融研究院联合发布,并且得到了同盾科技、星云clustar、瑞莱智慧、金智塔科技和天冕科技的研究支持。以下为完整版报告:
前 言
2021年,隐私计算开始在真实的商业世界中全面落地。
这在实际生活中有一些不那么引人注目的信号。我们能够看到,不少隐私计算初创公司正在卖力地推广产品,他们穿梭于各类人工智能、数据、科技论坛,他们接受各路媒体采访,宣讲数字经济的未来。我们也能看到,电信运营商、不少银行、保险公司、证券公司都在进行隐私计算平台的招标采购。
隐私计算不再是隐居在论文中的生僻学术名词,而是出现在公司官网上琳琅满目的产品介绍,出现在各大展会中充满科技感的酷炫展台,登上各种技术沙龙的最火热的话题,金融机构业务中令人惊艳的数字,以及真金白银。
数据要素市场不再是中央文件中的抽象概念,而是在技术支持下徐徐展开的可以想见的未来。
构成中国隐私计算市场未来的,是活跃在其中的互联网巨头、创业公司们。一切概念都变成了鲜活的产业实践,一切未来都构筑在行动之上。
为此,从隐私计算落地最为密集的金融业开始,零壹智库将尽力展示隐私计算发展中真实而鲜活的产业生态。让产业实践者们被看见、被发现。
隐私计算赛道崛起
2021年,隐私计算成为资本市场大热的赛道。
经历了2019年的技术普及和市场教育阶段,2020年的大规模概念验证和试点部署阶段之后,2021年隐私计算进入真正尝试规模化应用的阶段。
这个赛道的崛起,源于市场需求的拉动和技术的日益成熟,同时法律与政策环境的变化也成为利好因素。
(一)需求的产生:明文数据盛宴结束
隐私计算市场的启动是由监管的实质性行动引发的。无论从中国自身的发展来看,还是从美国和欧盟的情况来看,都是出于这一原因。
1、中国监管风暴启动隐私计算市场
2019年9月,中国金融科技领域迎来一场前所未有的整顿风暴。
这场监管风暴源自2019年1月公安部组织部署全国公安机关开展的“净网2019”专项行动。这次专项行动的目标是,依法严厉打击侵犯公民个人信息、黑客攻击破坏等网络违法犯罪活动。
“净网行动”始自2011年,是由公安部发起的网络犯罪专项打击行动。2011年首次“净网行动”的主要打击目标为网上涉枪涉爆违法犯罪活动。此后,随着互联网的发展,净网行动的内容根据实际情况不断变化。
“净网2019”专项行动开始后,很快聚焦于对“套路贷”及其生态的打击。根据公安部2019年11月14日在北京召开的通报全国公安机关开展“净网2019”专项行动工作情况及典型案例的新闻发布会上披露的信息:
2019年5月25日,黑龙江省七台河市接到居民报案,之后七台河市公安局成立专案组,从本地被“套路贷”受害者和催收团伙入手,延伸打击触角、持续经营攻坚,侦获一条集实施“套路贷”犯罪团伙、催收团伙以及帮助“套路贷”犯罪的技术服务商、数据支撑服务商、支付服务商的完整犯罪链条。
8月10日开始,上述专案组对“7·30”网络“套路贷”专案开展集中收网行动,打掉犯罪团伙9个,抓获犯罪嫌疑人80名,查封冻结涉案资产7亿元,提取各类涉案数据205T,涉及被催收人员7万余人。
在此过程中,公安部网络安全保卫局从这些案件线索出发,组织全国展开集群战役。9月1日以后直至11月间,各地网安会同刑侦部门收网打掉团伙147个,抓获嫌疑人1531名,采取刑事强制措施798名,铲除了一批帮助犯罪的技术服务商、数据支撑服务商、支付服务商,实现了对“套路贷”犯罪规模打击、生态打击。
在这场打击当中,金融科技领域受到波及。据《财新》报道,2019年6月,公安部门锁定“套路贷”、“714高炮”依赖导流获客和暴力催收这两大帮凶,利用爬虫等工具,为这些“套路贷”平台爬取通讯录等个人敏感信息,并引发命案。这些非法个人信息的主要提供者,不少来自大数据风控公司。
9月6日,位于杭州的大数据风控平台杭州魔蝎数据科技有限公司被警方控制,高管被带走,相关服务瘫痪。此后,不少第三方风控行业头部公司相继被调查或被波及,使得整个行业主要爬虫服务出于避险考虑基本暂停。对市场来说,这是监管层释放的强烈信号,即用爬虫爬取个人隐私数据(因为大数据风控当中不少数据涉及个人隐私)要付出巨大的代价。
这场整治,使得隐私计算成为一种可考虑的替代方案,市场洞然而开。
整治之前,爬虫是大数据风控行业的灵魂——大多数大数据风控公司本身并没有那么多数据,因为数据是从业务当中来的,但是有大量数据源的机构实际上并不多,多数大数据风控公司的数据是靠爬虫爬取。本来,用爬虫来爬取公开数据并不违法,但是与个人信息强相关的数据对网络贷款的风险控制才是更直接有效的,在利益的驱使下,爬虫爬取信息的范围逐渐扩大,很多公司都利用爬虫技术去抓个人隐私数据或者政府机关、银行机构的数据。这些数据,是有网络贷款业务的机构用来做风险控制的主要依据。
整治之后,大部分爬虫服务停止,市场不得不考虑替代方案。在这个过程中,数据的供需双方开始重新看待数据的合规使用问题:一方面,一些有数据源的机构只愿意与持牌金融机构合作;一方面,持牌金融机构,也要看合作方是否获得了合法的数据源授权。
也正是在这场整治之后,发展隐私计算业务的公司迎来了市场机会——这在零壹智库的调研中是有实例证明的。
2、Facebook和Google被罚启动隐私计算应用
在隐私计算的发展方面,中国与全球是几乎同步的。
在美国和欧盟,隐私计算技术的应用原因也如出一辙。这在互联网巨头Facebook和Google身上体现得尤为突出。
从2016年开始,Facebook在对外的广告合作中特别关注隐私保护问题。Facebook广告的用户数据部门要与各类数据提供者展开密切合作,但同时又要确保数据不被泄露。
此前,Facebook曾遭遇过一场集体诉讼。
2015年4月,来自美国伊利诺伊州的民众对Facebook提起诉讼。这场诉讼的关键在于,Facebook 在收集和存储用户的生物特征数据时,没有明确地告知用户。此外,这个“标签建议”功能在用户使用软件时是默认开启的。作为全美范围内拥有独立生物特征隐私法的三个州之一,伊利诺伊州拥有在用户生物信息隐私保护方面最全面的法律。经历了多年诉讼之后,Facebook最终选择了和解方案,罚金支付总额达到了6.5亿美元。
但是,2016年前后,全世界开始将隐私计算技术应用到业务中的公司不到10家,而且在绝大多数公司,隐私计算的重要性还没有被提到非常核心的位置。
此后,在全球范围内,大数据飞速增长引发的问题越来越严重。这在Facebook和Google身上也有明显的体现。
2018年3月,媒体曝光,Facebook 5000万用户的信息被泄露。此事在世界范围内激起了轩然大波。彼时,Facebook向美国联邦贸易委员会(FTC)缴纳了50亿美元(约合人民币341亿元)的罚款,打破了类似罚款的金额记录,被称为“史诗级”罚款。
2018年第四季度,Google旗下社交网络服务 Google+ 爆出安全漏洞,可能多达 50 万用户的个人信息被泄漏。这直接导致Google+业务被关停,并将Google推上了法庭。
目前,Facebook正在隐私计算的应用方面采取实际行动。[ 《Facebook 重建广告系统,个性化广告即将改朝换代》]
2021年9月1日,Facebook 产品营销副总裁Graham Mudd 在 Facebook 官网主页上发布了一篇名为《Privacy-Enhancing Technologies and Building for the Future》(《隐私增强技术和面向未来的建设》)的文章。文中提到:“必须承认的是,数字广告势必要减少对个人第三方数据的依赖,这也是我们多年来一直投资建设一系列隐私增强技术,并与行业一同制定标准以支持下一时代的原因。”
目前,Facebook 正在重建广告系统。Graham Mudd表示:“可以肯定的是,未来五年个性化广告的发展对行业意义重大,提前投资将使我们所有客户受益,并能帮助我们塑造未来广告生态。因为数据与个性化几乎占据我们所有系统的核心位置,从广告定向到优化再至度量,接下来 2 年内,Facebook 上几乎所有系统都将重建,事实上这已经在进行中了。”
Google也在采取行动。2017年,Google在《联合学习:协作机器学习没有集中训练数据》的博客文章中首次引入了“联邦学习”的概念。
2021年 5 月 Google I/O 开发者大会发布 Android 12 的同时,宣布了隐私计算核心(Private Compute Core)。这是一项开源计划,提供了一个沙盒式的安全环境,将智能回复、实时播放和字幕等服务与操作系统和应用程序的其他部分隔离。其目的是为了让数据在用户自己的设备上保持私密,并以保护隐私的方式利用云。现在,Google 已经通过隐私计算核心服务(Private Compute Services)进一步加强了这一举措。
9 月 9 日,Android & Play 安全和隐私产品副总裁 Suzanne Frey 在一篇博文中说,新套件将“在隐私计算核心和云之间提供一个保护隐私的桥梁”。
Google 提到,很多 Android 功能利用机器学习来更新模型,为用户提供较好的体验。有了隐私计算核心服务,将确保这些更新通过私有路径进行,如智能回复和实时字幕等隐私计算核心功能不会直接进入网络。这将通过利用专门的开源 API 来实现,这些 API 通过删除个人身份信息(PII)来保护隐私,并使用联邦学习、联合分析和私人信息检索等技术。
(二)技术的演进:隐私计算技术达到基本可用
在市场需求产生的同时,隐私计算领域的一些主流技术,包括多方安全计算、可信执行环境、联邦学习等,也通过技术研究与攻关逐步达到基本可用的程度,并且目前正在实际业务场景的应用当中不断提高完善。
首先看多方安全计算。
1982年,时任加州大学伯克利分校计算机系教授姚期智(姚期智先生后来回国,担任清华大学交叉信息研究院院长,并且当选为中国科学院院士)提出了多方安全计算理论,受限于当时的算力水平,多方安全计算仅有理论上的可能性。这是因为,要完成相同的计算,密文计算要耗费的时间是明文计算的5-6个数量级,也就是几十万倍到几百万倍。这是无法实现应用的。
2014年起,出于科研需求,清华大学交叉信息研究院助理院长徐葳带领清华大学“姚班”的学生,开始研究如何提升密文计算的效率,从而使得多方安全计算技术可以在实践当中真正被应用。为了实现技术突破,徐葳和团队对计算机科学分支领域中的中包括密码学、安全协议、计算机系统、分布式计算、算法、数据库、编译和芯片等方面进行了全方位的整合与优化。这项研究从各个领域中挖掘潜力来提升密文计算的性能。
经过不懈的努力,徐葳带领团队把密文计算要花费的时间从之前的5-6个数量级,降低到了目前的10—50倍;同时创建了明密文混合运算,大幅降低密文计算的比例。这种革命性的性能提升,使得多方安全计算初步具备了进入实际应用的能力。
此外,有不少产业实践者也从不同角度对多方安全计算技术进行了优化。
比如,富数科技推出了抗合谋、无中间方的多方安全计算技术方案。这个方案使得在N方计算场景下,各数据参与方自始至终持有一份自有数据碎片在本地不公开,少于或等于N-1个合谋者都是不能独自得到结果的。该方案能够支持参与各方完全直连,无需任何第三方,解决了甲乙方安全建模找不到合适第三方的问题,让合作各方获得更加自主可信的数字空间。这个方案能够帮助银行、运营商等对数据安全极其严苛的组织,与合作机构开展多方安全联合建模,提升精准营销能力和风险评估水平,进一步推动了多方安全计算技术的应用落地。
再比如,2020年5月,矩阵元发布了基于密码学的隐私开源框架——Rosetta。Rosetta设计的初衷是降低密码学在应用中门槛太高的痛点。在实际当中,如果想要运用密码学解决问题,但是如果没有很高的数学基础或者没有学习过密码学,相关算法使用门槛太高。但是一些AI领域的专家、学者对于AI的应用,深度学习、机器学习的框架已经非常熟悉。所以,这两种具有不同专业技能的人之间有很深的沟壑。Rosetta的发布,降低了密码学技术的使用门槛。
再看联邦学习。
零壹智库在调研中了解到的对于联邦学习最早的研究,来自四川大学华西医院特聘研究员、同济大学附属普陀医院客座教授、杭州锘崴科技CTO王爽。王爽于2012年首先提出了联邦学习框架应用于医疗在线学习,并于2013年发表在了专业SCI期刊上,论文题目是《EXpectation Propagation LOgistic REgRession (EXPLORER): Distributed privacy-preserving online model learning》。该论文提出了在不需要分享原始个体数据的情况下,利用多个数据源进行带有隐私保护的联合建模。同年王爽带领的团队发表了开源联邦学习框架“WebGLORE: a web service for Grid LOgistic Regression”,该底层技术服务于多个医疗网络数据的联邦建模需求。团队并于2017年前又发表了十余篇联邦学习相关著作。
但是目前,在产业应用中,影响更大的是谷歌在联邦学习上的探索。2016年,谷歌提出联邦学习,用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。此外,2015年谷歌开源了机器学习框架Tensor Flow,后来Tensor Flow 成为世界上最受欢迎的开源机器学习框架。2019年,Tensorflow专门为联邦学习推出了一个学习框架Tensor Flow Federated(简称TFF)。
2018年,国际人工智能界“迁移学习”(transfer learning)技术的开创者、香港科技大学新明工程学讲席教授、计算机科学和工程学系主任杨强出任微众银行首席人工智能官。随后,2019年初,微众银行正式开源全球首个工业级联邦学习框架FATE(Federated Learning Enabler),并开始尝试将联邦学习应用于金融业务中。FATE的开源,使得联邦学习在中国的应用门槛大幅降低。
最后看可信执行环境。
可信执行环境的概念来源于2006年Open Mobile Terminal Platform (OMTP)工作组提出的保护智能终端的双系统解决办法。即在同一智能终端下、除了多媒体操作系统,再提供一个隔离的安全操作系统。随后,ARM公司于同年提出硬件虚拟化技术trustzone,并于2011年加入Global Platform为技术制定标准并开发落地的可信操作系统。2013年,Intel发布SGX指令集扩展,实现不同程序的隔离,在环境下执行的应用未经授权无法读取或操作其他应用的数据或代码。
当前,TEE代表硬件产品主要有ARM的Trustzone和Intel的SGX。国内外也诞生了很多基于硬件实现的商业化落地方案,例如Oasis Parcel,百度MesaTEE和华为iTrustee。
隐私计算的主流技术之外,硬件的算力加速对隐私计算进入更多的场景也功不可没,在这方面也有不少厂商进行尝试。例如,星云Clustar通过对联邦学习的不同应用分析,归纳总结出了11种影响计算效率的密码学计算算子,并创新式的将算子中的公共部份抽取出来,形成核心模幂引擎,研发出了针对联邦学习的首款FPGA加速卡。加速卡可以根据实时的任务需求将模幂引擎拼装成不同算子,给联邦学习应用带来全生命周期加速,进而带给联邦学习50-70倍的算力提升。未来通过软硬件的进一步优化,可使这个倍数变为100倍以上。
算力的爆发式提升意味着未来隐私计算将成为所有计算的默认配置,无感地融入到人工智能等领域中,也意味着隐私计算技术可以进入越来越多的应用场景。
据零壹智库2021年5月调研了解,隐私计算运算速度目前不能一概而论,计算速度最快的耗时是明文计算的3—5倍,计算速度最慢的耗时达到明文计算的上百倍。运算速度与多种因素相关,其中包括算法类型、数据规模、数据特征、软硬件环境、服务器性能、网络带宽、硬件加速等。
这个数字,听上去仍是一个不小的差距,但是在很多场景,已经可以接受,达到初步可用。
以富数科技的金融风控场景为例。比如最早期训练一个逻辑回归的风控模型,同样的样本和特征数量,联邦学习的建模耗时是明文的数十倍。随着算法和工程的优化,甚至是硬件加速的结合,联邦学习的性能大大提高,富数科技做过最快的逻辑回归测试,1分钟的明文训练数据规模,甚至可以在3~5分钟内用联邦学习完成。
再以华控清交目前在与多家银行尝试合作的生物特征保护的人脸识别场景为例,需要将人脸特征和身份证信息进行比对的场景,明文计算耗时几十毫秒,用多方安全计算的耗时已经降到低于1秒。虽然隐私计算耗时仍是明文计算的10多倍,但是在现实应用场景中已经基本可以接受。
隐私计算的性能还在不断优化当中。比如,华控清交在2021年5月向零壹智库预测,在未来一年左右的时间里,要做相同的计算,多方安全计算的平均耗时有可能可以优化到明文计算的5-10倍。
(三)法律政策的推动:隐私计算成为持续的刚需
在市场需求产生,技术基本达到可用的情况下,法律和政策环境也在朝着保护个人隐私的方向推进。
近年来,通过立法加强数字经济下的数字安全及个人信息保护已经成为世界性的趋势。同时,数字经济下数据的战略地位凸显,相关支持政策频出。
1、立法进展
1.1 欧盟GDPR生效
欧洲议会于2016年4月通过的《欧盟一般数据保护条例》(General Data Protection Regulation,GDPR),于2018年5月25日在欧盟的28个成员国生效。该条例适用于所有欧盟成员国的个人信息保护,任何收集、传输、保留或处理涉及到欧盟成员国内的个人信息的机构组织均受该条例的约束。
GDPR被认为是史上最严的数据保护法规,促进了全球更为严格的个人信息保护趋势。由于其约束力超越了欧盟这一地理范围,覆盖到在欧盟有相关业务的国际机构组织,GDPR实际上重构了国际个人信息保护标准。咨询公司埃森哲在一份报告中认为GDPR是“近二十年来数据隐私规则领域发生的最重要变化”。
GDPR强调责任共担,数据供应链上的各方都要承担责任,改变了过去由收集和使用数据的数据拥有者负责保护数据的规则,要求数据处理者也要承担合规风险和义务。
GDPR对于违规的处罚极为严厉,处罚金额高达2000万欧元或企业全球年营业额的4%(二者取较高值)。2021年7月,亚马逊因为对个人数据的处理不符合GDRP被欧盟开出了7.46亿欧元(约合8.88亿美元)的巨额罚单。
1.2 美国CCPA实施
2018年6月28日,《加利福尼亚州消费者隐私保护法案》(CCPA)经州长签署公布,并于2020年1月1日起正式实施。
CCPA从消费者保护的角度,规定了个人信息处理者的义务,包括“必须披露收集的信息、商业目的以及共享这些信息的所有第三方;企业需依据消费者提出的正式要求删除相关信息”,等等。在处罚方面,CCPA规定违法企业面临支付给每位消费者最高750美元的赔偿金,以及最高7500美元的政府罚款。
加州的硅谷是互联网企业的集聚地,包括世界上著名的行业巨头如微软、谷歌及亚马逊等,所以CCPA的影响会通过这些互联网企业向外辐射;另一方面,CCPA的约束范围覆盖了处理加州居民个人数据的营利性实体,从这个角度,与GDPR一样,给相关跨国企业带来影响。
1.3 中国国内法律框架体系成形
关于个人信息保护及数据安全的立法及监管,与欧美等西方国家相比,中国国内相对滞后。但随着近年来侵犯个人信息的现象频发,甚至出现了非法获取,泄露、滥用,倒卖个人信息的“黑产”,侵犯个人信息与网络诈骗及敲诈勒索等犯罪行为合流,国内的相关立法及监管也逐步完善,监管趋于严格。
在数据安全及个人信息保护方面,中国目前已经形成了包括民法、刑法及单行法在内的法律框架体系。
刑法具有最高的保护和约束效力,2017年6月,《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》开始施行,明确了侵犯公民个人信息罪的定罪量刑标。
2021年7月,最高人民法院发布的《最高人民法院关于审理使用人脸识别技术处理个人信息相关民事案件适用法律若干问题的规定》,明确了人脸识别技术应用的法律边界。
2020年5月通过的《中华人民共和国民法典》中将人格权单独成编,对个人信息受法律保护的权利内容及其行使等作了原则规定。
在单行法方面,2017年6月,《网络安全法》开始施行。2021年,《数据安全法》及《个人信息保护法》通过,并分别于9月及11月开始施行。
表:数据安全及个人信息保护方面的法律及相关解释(按时间顺序)
数据来源:零壹智库整理
《数据安全法》及《个人信息保护法》的通过与实施是2021年以来数据领域法制建设的重大进展。
这两部法律的实施标志着数据安全及个人信息保护的法制治理进入系统化和专门化的新阶段,将进一步提升整个社会的守法意识,也将促进数据相关企业严守业务边界,合法合规经营;而法制环境的完善,也将促进整个数据产业的健康发展,为隐私计算行业的发展带来契机。
2、政策推动
在法律不断完善的同时,政策也成为隐私计算市场发展的助推器。
未来,数据将成为新的生产要素,释放数据红利对未来推动数字经济高质量发展至关重要。
2019年,新型冠状病毒疫情过后,全社会都更加认识到数字化发展的重要性。2020年开年之后出台的一系列政策,都对隐私计算市场的发展形成有力推动。
表:数据相关政策文件(按时间顺序)
根据零壹智库调研了解,政策的出台对市场的影响是巨大的。比如隐私计算厂商在拓展政务市场时,能明显感受到,政策出台后地方政府相关部门对隐私计算技术的尝试更加积极。
法律和政策环境的变化,一方面使得对个人隐私的保护成为持续稳定的市场需求,而非短暂的应对监管的行动;另一方面使得对数据价值的充分应用和挖掘的行为受到正面肯定。客观上,数据价值挖掘和个人隐私保护成为必须并行兼顾的社会目标,这使得隐私计算成为现实中的刚需。
隐私计算对数字经济的影响趋势
作为当下实现数据“可用不可见”的唯一技术解,隐私计算将对未来的科技产业以及实体经济的关键领域产生重要影响。
在科技产业,隐私计算对人工智能、区块链、大数据技术的发展都将产生巨大的影响,并且隐私计算对这三个领域的影响是相互关联的。
在实体经济的金融、医疗、政务、零售乃至更多的领域,隐私计算的应用将为产业发展带来新的跃迁。目前,我们了解到的隐私计算在金融、医疗、政务领域的应用是最多的。
(一)隐私计算对科技产业的影响
1、对大数据产业的影响
隐私计算将重塑大数据产业。
首先,隐私计算技术是大数据行业处理数据合法化的刚需。《数据安全法》强调,产业需要平衡数据安全与应用发展。隐私计算将成为平衡的关键技术支点。隐私计算致力于为数据获取、共享、利用提供全周期的安全保障,搭建各类数据的隐私协作基础,降低了数据泄露的风险、杜绝了明文数据留痕造成的价值递减风险。
第二,随着数据流通的安全化,以往较为敏感的数据领域逐渐开放。以政务数据为例,隐私计算使联合政务、企业、银行等多方数据建模和分析成为可能,进一步释放数据应用价值,创造了多样化的应用机遇。
2、对区块链产业的影响[ 该部分主要观点源自零壹财经调研信息,部分表述参考了钛媒体报道《翼帆数字科技创始人夏平:区块链最大应用前景是数据的流通与融合》,https://mp.weixin.qq.com/s/N7Wk1o9ULGIIrrNrxom1zQ。]
根据零壹财经的调研信息,综合来看,隐私计算与区块链相结合,可以建立更大范围的数据协同网络。在未来,这可能形成数据流通的基础设施。
区块链技术可以用于解决数据资产的流转问题。区块链技术起源于密码学的小圈子,区块链最初提出的目的,是针对密码学的这个圈子里面提出的一个具体问题的解决方案——如何实现安全、可靠、无可辩驳的把一笔资产从A转给其完全陌生的B。比特币的诞生,就是为了解决这个问题。
但是,只应用区块链技术,又不能完全解决这个问题。数据的流通和传统资产的流通,有一个关键的不同,那就是数据的流通需要解决数据的安全和隐私保护问题。如果这个问题不解决,数据就流通不起来。
数据本身的加密和安全问题,隐私计算技术可以解决。
因此,对于数据资产的流转来讲,没有隐私计算,不能解决数据本身的安全和隐私保护问题;没有区块链,不能解决数据的确权问题以及在更大范围内的数据网络协作问题。区块链和隐私计算二者结合,是目前能够看到的建设大规模数据流通网络的途径之一。
3、对人工智能产业的影响
隐私计算与人工智能的结合,未来可以使得人工智能突破数据瓶颈,开启新一轮增长。
近几年来,由于缺乏可用的数据,人工智能的发展遭遇瓶颈。
一方面,政府和个人对于数据隐私保护的需求日渐增强。随着数据价值的凸显,以及信息泄露丑闻的频发,公众明显感觉隐私泄露的弊端远超过AI本身带来的便利和智能。
另一方面,企业将数据要素作为核心资产,不愿意在公开透明的环境下共享流通。因此,人工智能企业缺少可用数据优化模型,阻碍了模型精度的进一步提升。
隐私计算技术成为破局之道,可以为AI模型提供多样化的数据资源。
(二)隐私计算对其他产业的影响
对于那些产生大量数据,而又迫切需要数据交换与融合应用的领域,包括金融、医疗及政务等领域,隐私计算技术将带来深入影响。
1、对金融行业的影响
在金融领域,目前隐私计算主要应用于风控和营销两个方面。
在金融机构金融信贷业务的风控环节,隐私计算可以帮助金融机构将自身和外部数据联合起来进行分析,从而有效识别信用等级、降低多头信贷、欺诈等风险,也有助于信贷及保险等金融产品的精准定价;同样,内外部多方数据的共享融合也有助于提高金融机构的反洗钱甄别能力。
在金融机构的产品营销环节,通过应用隐私计算技术,可以利用更多维度的数据来为客户做更加精准的画像,从而提升精准营销的效果。
但是,隐私计算对金融领域的影响不止于这两个方面。隐私计算与区块链技术结合之后,可以改变更多的金融场景。
比如,在支付场景下,传统的支付过程中,支付的服务方和中间参与者都可以获取交易双方的身份和交易金额,存在严重的信息泄露风险。而通过隐私计算技术,可以将交易双方的敏感信息“隐匿”。这种隐匿支付技术应用在供应链金融领域,能够防止信息泄露带来价值损失,同时保护了各方隐私,有利于打破供应链金融中的信息孤岛和互通困难等问题。在跨境支付领域,隐匿支付能够提高用户对支付行为的信任,有利于降低跨境支付成本,提升支付效率。[ 微众银行《WeDPR方案白皮书》,2020年1月。]
2、对医疗行业的影响
目前隐私计算的商业落地较多地集中在金融行业,而医疗是非常有潜力的一个领域。医疗领域聚集了大量的诊疗数据,而这些数据具有很强的隐私性,是各方实现数据共享的一大障碍。隐私计算的切入对于这些数据的融合应用在分级诊疗、医疗资源共享、医药研究以及辅助诊疗提高准确度等方面发挥作用提供了保障,有助于整体上提高公共卫生服务水平。
3、对政务领域的影响
以往,各政府机构的信息管理系统建立在部门内部,相互之间缺少横向联通,同时出于数据安全及隐私保护,对于数据分享相对谨慎,政务数据的共享及融合应用与数字经济发展的需求之间仍存距离。
隐私计算的切入,能够在保护数据安全和个人隐私的前提下,实现政府不同部门之间的互联互通及数据共享,包括司法数据、社保数据、公积金数据、税务数据、水电燃气数据、交通数据等等,从而促进政府不同部门的协同,提高政府的效率以及决策质量。
同时,隐私计算加持下,政务数据可以向社会开放,为企业或学界所用,释放更多价值;同时,民间的数据源也可向政府开放,提高政府在决策以及政务流程等方面的效率。
隐私计算的技术路径
本章将简明扼要地为大家梳理隐私计算的概念、主要技术流派和应用标准,以使得大家对隐私计算技术本身有更清晰的认识。
(一)隐私计算的定义
隐私计算是“隐私保护计算”(privacy-preserving computation)的中文简称,根据“大数据联合国全球工作组”(Bigdata UN Global Working Group)的定义,这是一类技术方案,在处理和分析计算数据的过程中能保持数据不透明、不泄露、无法被计算方以及其他非授权方获取。
大数据联合国全球工作组成立于2014年,由31个成员国和16个国际组织组成。早在2018年,工作组就致力于促进各国多个统计局相互进行敏感大数据协作,是最早研究隐私计算的国际组织之一。2019年,该工作组出台了《联合国隐私保护计算技术手册》,以方便各国统计局以安全适当方式访问新的 (敏感)大数据源。
需要注意的是,隐私计算不是指某一个具体的技术,而是一个范畴和集合。可信执行环境、多方安全计算、联邦学习等都属于隐私计算技术。
(二)隐私计算的技术流派
隐私计算技术是在保护数据本身不对外泄露的前提下,多个参与方通过协同对自有数据处理、联合建模运算、分析输出结果、挖掘数据价值的一类信息技术。 作为跨学科技术,隐私计算涉及密码学、机器学习、神经网络、信息科学,同时可与人工智能、云计算、区块链分布式网络等前沿技术融合应用,为数据保护和价值融合提供技术可行性。
从技术实现原理来看,隐私计算有两种分类方式。
一种是将隐私计算技术分为两个方向——可信硬件和密码学。可信硬件指可信执行环境(TEE),主要依靠硬件来解决隐私保护问题;密码学以多方计算、联邦学习为代表,主要通过数学方法来解决隐私保护问题。
另一种是将隐私计算分为三个方向。由于联邦学习是密码学、分布式计算、机器学习三个学科交叉的技术,目前更常见的是三分类法,即分为密码学、可信硬件和联邦学习三个流派。以密码学为核心技术的隐私计算以多方安全计算、同态加密为代表;可信硬件以可信执行环境为主导;“联邦学习类”泛指国内外衍生出的联邦计算、共享学习、知识联邦等一系列名词,是指多个参与方联合数据源、共同建模、提升模型性能和输出结果准确性的分布式机器学习。
1、多方安全计算
多方安全计算(Secure Muti-Party Computation,MPC)理论,是1982年时任加州大学伯克利分校计算机系教授姚期智为解决一组互不信任的参与方在保护隐私信息以及没有可信第三方的前提下的协同计算问题而提出的理论框架。后经Oded Goldreich、Shafi Goldwasser等学者的众多原始创新工作,多方安全计算逐渐发展为现代密码学的一个重要分支。多方安全计算能够同时确保输入的隐私性和计算的正确性,在没有可信第三方的前提下通过数学理论保证参与计算的各方输入信息不暴露,而且同时能够获得准确的运算结果。
多方安全计算通常借助多种底层密码框架完成,主要包括不经意传输(Oblivious Transfer,OT),混淆电路(Garbled Circuit,GC),秘密共享(Secret Sharing,SS)和同态加密(Homomorphic Encryption HE)等。
不经意传输是指数据传输方发出多条信息,而接收方只获取其中一个。由于传输方不确定最终到达的信息是哪一条,接收方也无法得知未获取的其他信息,从而双方的数据都处于隐私状态。
混淆电路是最接近“百万富翁”解决方式的思路。多方参与者利用计算机编程将输入的计算任务转化为布尔值,对输入的具体数值加密,因此多方在互相不掌握对方私人信息时,可共同完成计算。
秘密共享是对加密信息的随机切分过程,将信息的片段分散至多个参与方保管。因此除非超过一定数量的多方协同合作,否则无法还原完整的数据并进行解密。
由于多方安全计算通常使用前三种框架便能实现,同态加密也被部分人士认作独立于安全多方计算而基于密码学的技术。同态加密指能实现在密文上进行计算后对输出进行解密,得到的结果和直接对明文计算的结果一致。该概念最早在1978年由 Ron Rivest、 Leonard Adleman和 Michael L. Dertouzo提出。按照支持的功能划分,目前大致可以分为全同态加密和部分同态加密。全同态加密可以在加密态密文的状态下对数据进行各种运算,而部分同态加密只能对密文进行无限次同态加法或无限次同态乘法操作。
多方安全计算技术通用性高、准确性高,行业内也肯定了算法的理论价值和应用前景。即使密码和开发的难度导致其性能中等,密码学领域也有一半以上的学者研究多方安全计算的相关话题。作为发展历史最长、相对更成熟的技术,多方安全计算技术成为了各科技大厂和新秀的技术路径之一。
2、可信执行环境(TEE)
可信执行环境作为易开发、高性能的隐私计算技术,与硬件提供方存在强依赖关系。其实践路径表现为:在CPU内划分出独立于操作系统的、可信的、隔离的机密空间。由于数据处理在可信空间内进行,数据的隐私性依赖可信硬件的实现。
3、联邦学习
联邦学习(Federated Learning)从技术层面上涉及隐私保护、机器学习和分布式领域,能有效地满足数据在不出本地的情况下,实现共同建模,提升模型的效果。
根据特征空间和样本ID空间的不同,联邦学习分为横向联邦、纵向联邦和联邦迁移学习。
横向联邦学习适用于特征重合较多、样本重合较少的联合计算场景。但通过构建联邦生态,参与者可以聚合更多的数据样本,从而解决单边建模数据不足的情况。例如,某银行在不同区域设立分行,由于商业模式相同,数据拥有重合度较高的特征,但各行服务不同地区的客户,样本重合较少,这种情况就可以应用横向联邦学习。
纵向联邦学习适用于样本重合较多、特征重合较少的联合计算场景。通过建立联邦生态,参与者可以丰富样本特征,实现更精准的样本描述。例如,服务同一群体的银行与电商平台就可以采用纵向联邦学习。
联邦迁移学习是对横向联邦学习和纵向联邦学习的补充,适用于特征、样本重合均少的场景。例如,不同地区的银行和商场之间,用户空间交叉较少,并且特征空间基本无重叠。
联邦学习在国内隐私计算赛道得到了广泛的应用,如微众银行FATE开源平台,平安科技“蜂巢”、百度开源框架PaddleFL、字节跳动Fedlearner平台。此外,一些隐私计算创业公司也在通过联邦学习技术的探索与应用,积极入局,如星云Clustar。
(三)隐私计算的技术标准
[ 这里,阶段的划分参考了富数科技合伙人黄奉孝的文章《说说国内隐私计算行业标准的三个阶段》https://zhuanlan.zhihu.com/p/366155666。]
按照标准内容和参与机构,国内的隐私计算标准大致能够分成三个阶段。从理论层面、测评层面到互联互通层面,三个阶段下隐私计算标准的实用性和覆盖范围逐渐提高。隐私计算标准的参与和发布机构由企业和行业机构也逐渐转向国家和国际层面的机构。值得注意的是,隐私计算相关的技术标准仍在制定中。
1、第一阶段
第一个阶段标准在定义和框架上给出了解释,这个阶段更加关注理论,主要满足科研性实验性课题。此外,参与制定标准的机构主要为企业和行业机构。
2、第二阶段
第二阶段的标准在性能和工程化安全方面给出了测评标准,让隐私计算从理论框架层面过渡到支持测评的实践方面,从企业实践方面提升了隐私计算标准的可用性。其中,“可信隐私计算”产品测评体系作为对隐私计算产品的功能和性能进行评测的标准,受到广泛的认可。
3、第三阶段
第三阶段的标准强调互联互通,主要针对隐私保护措施带来的数据孤岛问题。这个阶段还伴随着国际和国家层面机构参与到隐私计算的标准制定。其中,《隐私保护机器学习技术框架》是首次通过隐私计算技术领域的国际标准;《隐私保护的数据互联互通协议规范》是隐私计算互联互通的首个国家标准。
隐私计算产业图谱与商业模式分析
目前,隐私计算市场尚处于发展的初期。
从服务对象来看,在中国国内,隐私计算市场目前主要是一个面向企业的市场。但是在美国,已经出现了通过为企业提供隐私计算服务从而间接为个人提供隐私保护服务的模式,未来很有可能出现直接为个人提供隐私保护服务的应用。
从行业发展成熟度来看,在中国国内,隐私计算市场的刚刚开始启动,应用刚刚落地,一切都正在尝试和探索当中。
零壹智库在调研中发现,入局隐私计算的厂商背景相当多元化,这也从一个侧面印证了隐私计算这项技术将有可能影响到许多相关技术领域。
(一)隐私计算的To B市场与To C市场
如本报告前文所述,目前,在国内外,隐私计算主要是用在企业与企业之间的数据交互方面。因此,在现阶段,在全球范围内,隐私计算主要是一个To B市场。隐私计算厂商主要是通过为企业提供服务,起到保护个人隐私的作用。
未来,隐私计算有出现To C市场的可能性。
目前,个人数据主要是被分散存储在各种各样的场景应用中。比如,个人用户使用信用卡贷款,个人身份信息、贷款和还款的信息就会被存储在银行的信用卡中心。个人用户在网上购物,个人姓名、手机号、家庭住址、购买的物品和价格信息就会被存储在电商账户中。
因此,目前的个人隐私保护在很大程度上要依赖各类企业对个人信息的保护。如果信用卡中心、电商公司、打车App、各级政府的信息系统没有保护好个人信息,个人信息就有泄露的可能。
未来,有可能出现新的为个人提供信息保护的应用。这一预测来自零壹智库对加州大学伯克利分校教授、Oasis Labs创始人兼首席执行官宋晓冬的访谈。宋晓冬用“Data Vault(数据金库)”来描述未来可能出现的这一类新的应用。她认为隐私保护将逐渐落实在每个人身上,让个人成为数据的主人、并且从隐私的保护和分享中受益是大势所趋,要实现这一进程可能耗时不会超出10年的时间。
(二)隐私计算产业图谱
1、隐私计算产业生态
隐私计算的产业生态当中,包含甲方、乙方和丙方三方。
甲方指的是数据使用方。目前,这些机构集中在金融、政务、医疗、零售等几个领域。金融机构包括银行、保险等机构,其中银行数量最多。政务,各地政府部门,主要是实现政府不同部门之间的互联互通及数据共享,从而促进政府不同部门的协同,提高政府的效率以及决策质量。医疗机构,包括各地各级医院、药厂等。
乙方,指的是数据源。目前金融类数据主要集中在政府、运营商、银联、互联网巨头手中。医疗数据在各地各级医院、医药公司、医保机构的系统里。政务数据主要包括是工商、司法、税务、海关、学历学籍等各政府职能部门日常运行积累的数据。政务数据,部分省市有政务数据共享平台和政务数据开放平台,但大多数数据往往散见于各地政府的各职能部门,难以互联互通,只有少数部门的数据是全国性的,其他数据都较为分散,即使是已经公开的信息很多也并不完整。
丙方,指的是不拥有数据的服务机构,比如隐私计算厂商、云服务商、大数据服务商等。他们可能服务于数据源或者数据使用方,数据可能存放在他们的系统里,但是数据不属于他们。
图:隐私计算产业生态
制图:郑乔丹、陈丽姗、张艳茹
2、隐私计算厂商图谱
在业界,目前提供隐私计算服务的厂商大致可以分为几类:
第一类,互联网巨头。
目前,阿里巴巴、蚂蚁集团、微众银行、腾讯集团、百度集团、华为集团、京东集团、字节跳动等都互联网巨头都已经开始在隐私计算方向发力,旗下多个业务板块都推出了隐私计算产品。
第二类,云服务商。
目前,阿里云、腾讯云、百度云、京东云、金山云、华为云、优刻得等云服务商都推出了隐私计算服务。
第三类,人工智能背景的公司。
比如瑞莱智慧、医渡云、三眼精灵、渊亭科技。
第四类,区块链背景的公司。
比如矩阵元、Oasis、ARPA、趣链科技、零幺宇宙、宇链科技、翼帆数科、熠智科技、算数力、同济区块链等。
第五类,有大数据背景的公司。
比如星环科技。
第六类,有安全背景的公司。
比如阿里安全、腾讯安全、百度安全、安恒信息、神州融安、瓶钵科技、沙海科技等。
第七类,软件服务商。
比如普元信息、神州泰岳。
第八类,有金融科技背景的公司。
比如同盾科技、百融云创、富数科技、天冕科技、金智塔科技、冰鉴科技、甜橙金融等。
第九类,供应链金融背景的公司。
比如联易融、纸贵科技等。
第十类,从隐私计算出发的初创公司。
如华控清交、星云Clustar、数牍科技、蓝象智联、洞见科技、锘崴科技、翼方健数、冲量在线、光之树、融数联智、摩联科技、隔镜科技、神谱科技、同态科技、凯馨科技、煋辰数智等公司。
图:隐私计算厂商图谱
制图:郑乔丹、陈丽姗、张艳茹
(三)隐私计算公司商业模式与业务方向差异
1、商业模式
据零壹智库调研了解,隐私计算公司目前有三种商业模式:
第一,硬件销售。目前在隐私计算领域,有两种硬件,一种是FPGA加速卡,一种是隐私计算一体机,都是使用硬件提升隐私计算性能,更加符合实际应用场景需求。比如星云Clustar隐私计算软硬件一体机、蚂蚁摩斯隐私计算一体机等。
第二,软件销售。就是销售隐私计算系统软件,大多数有隐私计算业务的公司都有这样的系统软件,比如蚂蚁摩斯多方安全计算平台、华控清交PrivPy 多方安全计算平台、同盾科技智邦平台iBond、瑞莱智慧隐私保护机器学习平台RealSecure、金智塔科技的“金智塔”隐私计算平台、天冕科技的天冕联邦学习平台WeFe、富数科技阿凡达安全计算平台、洞见科技INSIGHTONE洞见数智联邦平台、蓝象智联GAIA平台等。
第三,平台分润。隐私计算公司软件销售积累了一定数量的客户之后,客户通过软件平台调用数据,获得收益之后,隐私计算公司可以获得这方面的收入。
分润有三种方式:
其一,数据源测分润。即根据数据调用量,在数据源收益中分润。
其二,数据应用场景分润。在金融应用中,隐私计算主要应用于金融业务的风控和营销场景,可以从场景取得的收益中分润。
其三,类数据代理模式。向数据源采购数据,加工成评分之后进行销售,整个过程中应用隐私计算技术。销售评分的价格,是在数据采购成本的基础上进行加价。
但是,目前开源正在成为潮流,这使得在未来可能出现新的隐私计算商业模式。
在中国,隐私计算的开源是从微众银行的隐私计算系统FATE开始的。2019 年 7月,微众银行一共发布了10款开源软件,其中就包括FATE——第一个开源联邦学习系统,开创了隐私计算系统开源的先例。
当下,零壹智库了解到,在隐私计算领域,还有更多的公司已经或者正在加入开源的行列。比如,2020年初,字节跳动联邦学习平台 Fedlearner 开源。2020年5月,矩阵元隐私AI开源框架Rosetta发布。星云Clustar在FATE开源社区内开源了解决针对FATE平台自身存在的一些问题的方法,如解决FATE进程间通信问题的经验、技术、研究成果等。天冕科技联邦学习平台WeFe开放了全部源码,包含用户操作中心Board、网关GateWay、算法Kernel以及联邦基础设施Union等核心技术,共约30万行代码。富数科技也在考虑开源计划,并且倡导开源项目之间也要采用开放的、兼容的、公共的技术协议。
对于B端,开源也在市场上逐渐发展为成熟的商业模式。主要的三种商业模式有:第一,在软件开源提供后,以软件后期的运维、部署、咨询、升级等技术手段盈利;第二,发行企业版与开源社区版双版本,企业版以服务于一些特点企业应用场景进行盈利;第三,通过将开源软件部署在云端服务器,需求方通过订阅的方式向提供方付费使用,同时这种模式也免去了实地部署等线下的过程与以及安装费用。
因此,以后如果有更多的隐私计算平台开源,将可能发展出更多的商业模式。
2、不同的愿景与方向
在市场发展初期,各公司的商业模式非常相像。据零壹财经了解,目前巨头和隐私计算创业公司在隐私计算业务上的收入来源,都是前文所述商业模式的不同组合,并无特别明显的差异。
但是他们各自的身份、愿景、目标和技术特点并不完全相同,在未来的发展中,行业格局和这些公司在市场上各自的定位分工很有可能会据此产生变化。
2.1 数据底座
致力于做数据底座的公司,业务的重点在于为数据流通建立安全的技术和设施底座,为数据安全流通“修路架桥”,主要不是提供其上层的风控建模、营销等方面具体应用产品和服务。他们更加倾向于通过合作为其他公司提供底层技术平台,而非自己去提供具体的应用开发和服务。
华控清交致力于做数据流通基础设施建设,是这一方向的典型代表。
基于多方安全计算等密码学理论的隐私保护计算和数据流通技术、标准和基础设施的技术和产品体系是华控清交的核心,能够满足广泛用户群体保护多方数据隐私且实现协同计算的基本需求。在此基础上,用户可以结合实际场景以及自身实际需求,通过增加相关模块(包括存证模块、研发辅助模块、AI计算模块、缓存模块、SQL模块、明密文协同计算模块等功能模块)对标准平台进行补充以实现更全面的功能。
在华控清交的商业模式中,有一个突出的特点:华控清交不碰数据。在公司发展初期,华控清交的收入主要来源于项目收入,项目收入主要是技术和解决方案的销售收入。目前,华控清交已经进入了产品销售阶段。未来,预计华控清交的收入主要来自于技术和产品赋能以及数据流通生态建设和服务。但是,目前商业模式尚未完全成熟,需要在未来的商业实践中进行不断探索。
华控清交之外,也有更多的公司在这一方向进行探索。比如,翼帆数科等。
2.2 与场景深度融合
更加注重与场景深度融合的公司,在提供隐私计算软件系统之外,在为场景方提供服务方面有更多的积累。并且,其在服务全程中需要配置更多的资源来服务这一战略方向。在未来的收入结构中,他们从场景方的收益中获得的分成也将占比不低。
洞见科技是这一方向的典型代表。
在资源积累、技术发展、市场推广方面,洞见科技的行动都展现出与场景深度融合的能力与倾向。
首先看资源积累。对于数据资源,在市场化数据、生态数据、政府数据方面,洞见科技都有较为深厚的积累。
其次看技术发展。洞见科技在技术与场景进行深度融合方面走得更远,这主要体现在数据处理和场景应用两个方面。
在数据处理方面,结合多年的数据挖掘经验,洞见科技正在让数据的预处理更加自动化和智能化,从而提高数据在隐私计算环节的计算效率。
在场景应用方面,洞见科技将隐私计算技术与其他金融科技进行了深度融合。
再次看市场推广。洞见科技的市场推广策略也是与对场景的服务相配合的。
为了以更少的人力投入触达更多的金融机构,不少隐私计算厂商会依靠合作伙伴来进行部分市场推广。这些合作伙伴大多是与金融机构此前有业务合作的公司,比如金融IT服务商等。
洞见科技的做法则完全不同。除了少数政企客户之外,大多数情况下,洞见科技都会依靠自己的市场人员与客户直接接触。这样做是因为,在金融机构购买洞见科技的隐私计算软件之后,洞见科技后续要通过这个软件平台,为金融机构提供智能风控、智能营销、反洗钱、资产风险扫描等方面的服务。洞见科技需要与客户直接接触,深入了解客户的业务,帮助客户解决问题。
2.3 隐私计算叠加数据运营
此类隐私计算公司,初期是从某一场景切入,但是其最终目标并非专注于场景服务,而是致力于打通数据流通链路,为数据流通提供平台服务。
蓝象智联是这一方向的典型代表。
蓝象智联首先进入的是金融行业。在金融机构一侧,不少机构对如何应用互联网大数据的能力还有待提升。蓝象智联会在业务开展过程中,帮助金融机构了解不同的数据源在金融业务中应当如何使用。在数据源一侧,数据源机构掌握的数据维度非常多,但是数据源不做金融业务,也不知道金融机构需要哪些数据,蓝象智联也会帮助数据源对数据进行处理和封装,使得杂乱无章的数据变成符合金融机构应用需求的标准化的数据资产。
这些行动的目标在于,打通数据交易的链路,使得数据源和数据使用方的需求能够真正对接起来,数据在蓝象智联的平台上能够被越来越多地应用,从而使得蓝象智联的系统吸引越来越多的数据源和数据使用方,成为一个真正的平台。
2.4 开放平台
致力于走向这一方向的公司,隐私计算只是其业务的一环,其整个商业体系还有其他更多的设计目标。隐私计算在整个设计体系当中,主要是帮助实现数据的安全交互。在此基础之上,整个商业体系应用数据分析来实现其他的业务创新。
同盾科技是这一方向的典型代表。
同盾科技建立了可信AI生态平台的基础设施——智邦平台(iBond)、开放互联参考模型 (FIRM)、和天启可信AI开放操作系统 (InceptionAI)。
智邦平台(iBond),是可以帮助数据源和数据使用方之间实现数据安全交互的一个平台。
开放互联参考模型 (FIRM)是为了解决不同联邦系统的互联互通问题,以及在更大范围内建立联邦生态网络。其中,FLEX (Federated Learning EXchange)协议是一套标准化的联邦协议,是可信AI的HTTPS,能够合规安全使用数据而不改变数据的所有权。它是FIRM体系中数据交换层的一种实现范例。
天启可信AI开放操作系统,不仅可以实现用户和各种传统硬件资源之间的交互,更可以管理知识联邦中各种任务联盟进程和安全合规的虚拟大数据。
不同于许多提供隐私计算技术的厂商,同盾的天启可信AI开放操作系统面向实际应用,提供数据、算法、模型及应用商店。所有隐私计算的开发者、使用者,都可以在这个平台上安全交流和交易数据、算法、模型、应用。
这样一套基础设施的建设,其主要目标是面向下一代人工智能,建立可信AI生态平台,汇集数据、算法、模型和各种应用,一方面推动人工智能技术的进步,另一方面利用应用人工智能技术来推动更多的创新。
同盾科技的案例,我们还将在第六章中作为代表案例详细介绍。
2.5 “区块链+隐私计算”基础平台
这是零壹财经在调研中发现的全新的业务方向。这一方向的典型代表是微众银行的WeDPR平台和Oasis Network。
WeDPR是将区块链技术与隐私计算技术结合起来建立的平台。它使得实际商业场景中的敏感数据在区块链上可以得到更好的隐私保护。
具体来说,WeDPR是一套场景式隐私保护高效技术解决方案,依托区块链等分布式可信智能账本技术,融合学术界、产业界隐私保护的前沿成果,兼顾用户体验和监管治理,针对隐私保护核心应用场景提供极致优化的技术方案,同时实现了公开可验证的隐私保护效果。
WeDPR由微众银行自主研发,致力于使用技术手段有效落实用户数据和商业数据的隐私保护,提供即时可用的开发集成体验,助力全行业合法合规地开拓基于隐私数据的核心价值互联和新兴商业探索,同时让数据控制权真正回归数据属主。
WeDPR为“区块链+隐私计算”的融合发展探索出新路径,助力落地更多的应用场景,可应用于支付、供应链金融、跨境金融、投票、选举、榜单、竞拍、招标、摇号、抽检、审计、隐私数据聚合分析、数字化身份、数字化资质凭证、智慧城市、智慧医疗等广泛业务场景。
场景式隐私保护解决方案WeDPR由微众银行区块链团队基于多年在技术领域的沉淀而研发。该团队自2015年开展联盟链领域技术研究和应用实践以来,已研发一整套含括底层技术、中间件、分布式数字身份、数据隐私保护、跨链、消息协作、数据治理等在内的技术方案支撑产业应用,实现全方位国产化,公开专利申请数位居全球前列,参与制定国际国内多项标准,牵头建成最大最活跃的国产开源联盟链生态圈,生态圈内汇集4万余名社区用户、2000多家企业及机构共建区块链产业生态,数百应用项目基于FISCO BCOS研发,其中超120个应用已在生产环境中稳定运行。同时,开源极大地推动了行业落地应用的发展。
图:微众银行WeDPR应用场景矩阵
来源:微众银行
Oasis Network于 2020 年 11 月 19 日正式上线,是全球首个具有隐私保护功能和可拓展性的去中心化区块链网络。
技术创新方面,Oasis 网络采用独特的分层网络架构,将区块链分为共识层和 Paratime 层,实现更高的性能和更强的可定制性,进一步解锁区块链的新用例和应用程序。
共识层由去中心化验证节点组成,具有可拓展、高吞吐量、安全等特点;
ParaTime是智能合约层,托管许多ParaTime,每个运行时代表具有共享状态的复制计算环境,用户可根据自身需求进行复自定义创建。
在隐私保护方面,Oasis采用了英特尔的SGX扩展指令集「TEE可信执行环境」实现隐私保护,数据进入TEE安全「黑盒子」「黑盒子」后会进行加密处理,输出结果为加密处理后的数据,任何没有权限的人甚至底层操作系统本身都不能非法调用,整个过程保护了数据隐私性,确保敏感数据不会泄露给计算节点或软件开发者。
与此同时,Oasis 网络还创新提出了“数据代币化”概念,用户不仅能够完全掌握自己的隐私数据,还能通过共享隐私数据获得收益,进一步实现隐私保护,推动构建有责数据经济。
隐私计算投融资与专利分析
(一)隐私计算投融资分析
[本报告对于未披露具体金额的融资处理方式为:未透露=0,数十万=50万,数/近百万=100万,数/近千万=1000万,数/近亿/亿元及以上亿,数十亿亿;为了方便统计,在进行货币换算时,本报告按1美元=6.5元来计算。]
随着数字技术的飞速发展,新平台、新模式、新算法不断出现,数据安全的重要性日益凸显,需求与政策的驱动也吸引了众多风险资本的涌入。
2016年前后,隐私计算领域初创公司开始迎来风险资本的投资,至2021年9月累计融资规模超过56亿元。
考虑到互联网巨头、第四范式、医渡云、联易融等较为成熟的公司在融资之后仅将部分资金用于隐私计算产品研发和推广,前述融资规模应在数百亿元级别。下文仅以零壹财经目前已知的隐私计算初创公司以及隐私计算业务占比较大的公司为统计对象,做一些维度的分析。
1、融资数量节节攀升,融资金额在2018年达到峰值
据零壹智库不完全统计,截至2021年9月底,隐私计算初创公司累计获得63笔股权融资,公开披露的融资总额达到56.1亿元(12笔未透露金额)。近年来,隐私计算领域融资活跃度整体向好,融资规模受少数公司影响波动较大。
从数量上看,2013—2015年仅有同盾科技和星环科技2家公司获得零星的投资[ 这里需要补充说明的是:目前进入隐私计算领域的公司,有些在初创之时业务方向并非隐私计算,而是在2018、2019年之后逐渐涉足隐私计算业务,但是在数据统计当中,难以完全剔除此类数据进行统计,因此,他们最初获得融资的时间会比进入隐私计算领域的时间更早。同盾科技初创时的业务方向更偏向金融科技,星环科技初创时的业务方向更倾向大数据。再例如,趣链科技最初的业务方向为区块链,因此其融资金额并非全部投向隐私计算。];2016—2018年开始增多,每年达到5~6笔,2019年后攀升到12笔以上。从金额上看,每年波动较大,2016年开始超过5亿元,2018年高达16.1亿元创下年度最高融资记录,2019年回落到13.5亿元左右,2020年则不足3亿元。究其原因,主要是少数明星公司获得较大数额融资:2018年,趣链科技在获得15亿元B轮融资;2019年,星环科技获得6亿元D轮系列融资,同盾科技获得1.1亿元D轮系列融资。
图:2013-2021年隐私计算初创公司融资情况
数据来源:零壹智库
注:*数据统计截至2021年9月30日,下同。
2、八成融资处于早期阶段,4家公司完成C轮融资
整体而言,A轮及其之前的融资数量为40笔,公开披露的融资总额约为7.4亿元;B轮融资11笔,对应的金额高达26.3亿元。早期阶段(B轮及其以前)的融资数量占81.0%,大多数企业尚未形成成熟的商业模式。C轮和D轮融资各4笔,融资总额分别为9.1亿元和13.2亿元。
图:2013—2021年隐私计算初创公司各融资阶段数量及金额分布
数据来源:零壹智库
注:A轮包含Pre-A、A、A+,其他同理,战略投资均发生在种子/天使轮或Pre-A轮后;下同。
从时间维度上看,2017年有2家隐私计算公司进入C轮融资阶段:星环科技和同盾科技,它们在2019年又各自完成了2轮D系列融资。时隔近四年,趣链科技和富数科技相继在2021年完成数亿元C轮融资。早期融资持续活跃,中后期融资陆续出现。
图:2013—2021年隐私计算初创公司各融资阶段数量走势
数据来源:零壹智库
3、隐私计算公司聚集在北上杭,杭州和上海发展更为成熟
获投隐私计算初创公司的注册地主要在北京、上海和杭州3个城市,其次是深圳和西安。北京有7家公司获得融资,但融资总额仅0.5亿元;上海有7家公司获得20轮融资,杭州有6家公司获得19轮融资,二者融资总额分别为18.3亿元和34.3亿元。杭州互联网基因强大,同盾科技、趣链科技等数据服务类公司起步早、发展快,整体发展更为成熟。
图:各地隐私计算初创公司融资数量及金额分布
数据来源:零壹智库
4、IDG资本和启明创投投资最多
从投资机构来看,IDG资本投资次数最多,达到6次,但只投了同盾科技和冲量在线;启明创投投资5次,投了星环科技、同盾科技和锘崴科技;基石资本投资4次,也只投了2家公司:星环科技和星云Clustar。投资达到3次的有红杉资本、华创资本、宽带资本等6家机构,详见表1所示。
此外,腾讯领投了星环科技2.35亿元C轮融资,上市公司新湖中宝旗下智脑投资在趣链科技15亿元B轮融资中投入约12.3亿元。
表:隐私计算领域活跃投资机构(投资次数>=3)
数据来源:零壹智库
表:隐私计算初创公司融资记录(金额>=1亿元)
数据来源:零壹智库
(二)隐私计算专利分析
隐私计算作为一个新兴的技术领域,目前初创公司居多。即使在发展较为成熟的互联网巨头和上市公司当中,隐私计算也是新的业务板块。因此,可用于衡量一家公司技术实力强弱的公开可用的数据较少。
在目前的状况下,专利数据是可衡量一家公司实力的有力参照系。因此,零壹智库对隐私计算的专利数据进行了专门的分析。
根据零壹智库专利数据统计结果显示,截至2021年10月1日,全球有28个国家和地区、3000家公司参与了隐私计算相关专利的申请,合计1.72万件。
从专利申请情况来看,目前中国隐私计算技术领先美日韩等其他国家,在全球TOP50企业中,中国有23家公司进入榜单。其中蚂蚁集团和华为分别位列全球第1和第3。
从技术方案来看,申请可信执行环境专利的公司数量远高于多方安全计算和联邦学习。
从行业应用情况来看,隐私计算技术正不断渗透各个行业和场景,除了在金融、医疗、政务等常见场景,一些公司还探索隐私计算技术在电网、审计、出行、酒店、民航、招聘等场景中的应用。
中国目前有超过2000家公司参与隐私计算专利申请,但是成功推出相关产品的仅部分公司。在相关政策和行业法规的推动下,未来可能有更多的隐私计算产品被推出。
1、国内外隐私计算专利申请情况
早在20世纪80年代,以MPC为代表的密码学理论就已经被提出,长期以来处于实验室研究阶段。根据零壹智库专利数据显示,隐私计算相关专利首次于1986年由英国的电信公司Plessey提出申请。
之后的30多年,来自中、美、日、韩、法等28个国家和地区的公司相继开展了对隐私计算技术的研究,并参与了专利申请。截至2021年10月1日,全球有2,966家公司参与了隐私计算相关专利申请,合计17,170件。
其中,中国、美国和日本是隐私计算专利申请数量最多的3个国家,专利申请数量分别是8784件、4151件和1298件,占比分别为61.16%、24.18%和7.56%。
图: 全球隐私计算专利分布情况
数据来源:零壹智库,智慧芽
2、中国隐私计算专利申请情况
截至2021年8月,中国已经有超过2,000家公司参与了隐私计算专利申请,合计8784件。
纵观中国在隐私计算领域的专利申请情况,大致可以分为3个阶段。
阶段一(2011年之前),中国每年申请的隐私计算专利不超过100件,每年参与专利申请的公司不超过60家。在这个阶段,虽然隐私计算相关概念还未提出,但是相关密码学技术已经出现。
阶段二(2012~2015年),中国每年隐私计算专利申请数量超过100件,参与专利申请的公司数量也开始突破100家。
阶段三(2015~至今),中国每年隐私计算专利申请数量呈现爆发式增长,在2019~2020年每年专利申请数量保持在1,000件以上,参与公司规模也均在400家左右。
尽管中国在隐私计算领域的研究晚于美国等发达国家,但在政府相关政策的加持和企业及个人对隐私安全的愈加重视,中国隐私计算技术在近两年获得快速发展,并在全球已初具竞争优势。
图:2001~2021H1中国隐私计算专利申请情况
数据来源:零壹智库,智慧芽
3、中国隐私计算技术应用情况
目前,隐私计算核心技术主要包括联邦学习、可信执行环境和多方安全计算。
由于可信执行环境具有通用性高、开发难度低、算法实现上更加灵活等特点,该技术专利申请受到众多科技公司的青睐,数量明显高于其它两个。根据零壹智库专利数据统计,截至2021年10月,中国有181家公司申请了相关专利,合计815件,是隐私计算领域公司参与度最高、专利申请数量最多的技术。其次,联邦学习和多方安全计算,参与专利申请的公司分别有108家和105家,专利申请数量分别为396件和416件。
图: 中国隐私计算各技术领域专利申请情况
数据来源:零壹智库,智慧芽
从专利申请情况来看,同态加密和零知识证明在中国关注度明显高于其他加密技术。截至目前,同态加密有182家公司参与相关专利申请,专利合计544件;其次是零知识证明,有124家公司参与专利申请,专利合计376件;其他4项密码学技术参与公司数量均在10~50家公司之间,专利申请数量在20~110之间。
图:密码学在隐私计算领域应用情况
数据来源:零壹智库,智慧芽
4、中国隐私计算行业及场景应用
在近几年,隐私计算技术和产品逐渐成熟,伴随着中国数字经济的发展,数据安全和个人隐私安全受到政府、企业及个人的关注,除互联网科技公司之外,金融机构、医疗、电信、电网、大消费等多个行业公司相继探索隐私计算的应用。
从专利申请情况来看,隐私计算主要应用场景有金融、医疗、电网、政务等多个行业。
4.1 金融+隐私计算
从专利申请情况来看,金融行业是隐私计算技术专利申请数量最多、参与公司规模最大的行业。截至目前,中国有129家公司申请了相关专利,合计408件。在这些公司当中,专利申请数量最多的3家公司分别是蚂蚁集团、阿里巴巴和平安集团。除此之外,金融机构当中建设银行、平安集团、阳光保险、泰康保险、中国银联、兴业证券等金融机构均有相关专利申请。
表: 2021年中国金融机构申请隐私计算专利情况
数据来源:零壹智库,智慧芽
注:数据截至2021年10月1日公开的专利数量
从应用场景来看,隐私计算技术在金融行业中的应用场景包括供应链金融、资产管理、保险理赔、风险管理、反洗钱、金融身份认证、征信评估、财务审计等。
4.2 医疗+隐私计算
医疗行业,医学研究、临床诊断、医疗服务等对数据分析和应用挖掘有着强烈需求。但是,现阶段医疗大数据搜索、共享、数据挖掘服务尚处于不成熟阶段,缺乏对数据的深度可信挖掘和权限认证,尚未形成有体系的标准和保护措施。严格的法律,缺失的保护体系和标准,造成大量医院,医疗研究机构等医疗数据拥有者不愿或不敢分享其拥有的数据资源,从而严重影响了医疗数字化的进步和发展。
为此,一些科技公司采用隐私计算技术构建相关系统或平台,各节点的医疗机构在不需要共享原始数据的情况下进行联合建模和联合数据分析,有效推动医疗行业数据高效利用。
据零壹智库不完全统计,截止目前,中国有41家公司申请了隐私计算+医疗相关专利,并且这些公司专利申请数量保持在1~3件。在这些公司当中,腾讯、荣泽科技、医渡云等公司均有推出自己的隐私计算产品。
4.3 电网+隐私计算
目前,我国经济和网络科技的飞速发展,我国对电力系统各方面的需求在不断提高,智能化进程也在不断推进。与此同时,智能电网的安全问题也日益得到重视。其中,装备在电网中的各种传感器和智能电表负责实时监测电网的运行状态和收集用户用电数据,并将这些信息及时地提交给控制中心处理。但目前的大多数智能电表都是以明文的形式与控制中心进行交互,数据的安全性并未得到应有的保障,用户的隐私信息容易被泄露。
为此,一些企业在近几年开始探索隐私计算技术在智能电网中的应用。根据零壹智库专利数据统计,截至目前,我国有30家公司申请了电网+隐私计算相关专利。其中,专利申请数量最多的两家公司分别是国家电网和南方电网,专利申请数量分别是31件和16件,其余28家公司专利申请数量保持在1~3件之间。
除此之外,根据专利申请情况,隐私计算应用场景还包括出行、智能汽车、酒店、民航、招聘等。很显然,各行业对于隐私计算技术均有不同程度的需求,但是大部分场景处于研发阶段,未来发展还需更多投入。
5、全球隐私计算专利榜单TOP50
根据专利申请数量,零壹智库发布了2021年全球隐私计算专利榜单TOP50。其中,专利申请数量最多的3家公司分别是蚂蚁集团(1,1857件)、Intel(780件)和华为(780件)。
按照公司注册地,这50家公司分别来自中国、美国、日本、英国、韩国、芬兰、荷兰、瑞典、法国和德国10个国家。其中,中国数量最多,有23家公司进入榜单;其次是美国和日本,各有9家公司上榜。
表: 2021年全球隐私计算专利榜单TOP50
数据来源:零壹智库,智慧芽
注1:专利数据通过隐私计算相关计算关键字和密码学IPC专利分类号检索获取,数据结果可能会与实际情况存在差异
注2:数据截至2021年10月1日公开的专利数量
隐私计算在金融领域应用
金融领域,是当下隐私计算技术应用落地最为活跃的领域。
究其原因,是因为近年来金融科技的发展对金融业的发展形成了实质性影响,为隐私计算技术的落地打下了良好的基础。
近十年来,通过应用云计算、大数据、人工智能、区块链技术,面向个人和小微企业的零售金融正逐渐成长为商业银行的主流业务,同时金融业的基础设施经历了更为深刻的数字化、智能化升级换代。
在此基础之上,应用隐私计算技术,能够迅速为金融机构带来效益的提升。这也使得金融机构有动力投入更多的预算来应用隐私计算技术。也是由于预算充足,金融领域成为大多数隐私计算技术应用落地的首选领域。
目前,金融领域是在早期Fintech1.0时代的金融电子化及Fintech2.0时代的互联网金融的落地实施后,金融科技逐步步入Fintech3.0时代。Fintech3.0时代将以传统金融科技化为核心方向,而Fintech3.0的重要特征就是智能金融,数字化、智能化、开放化将是其核心要素。因此,数据资产将是智能金融建设的核心支柱。未来,如何充分实现数据价值挖掘释放、避免出现数据鸿沟及信息孤岛、完善数据应用的隐私保护,将是智能金融的重要议题,隐私计算将是实现上述目标的重要技术支撑。
(一)隐私计算在金融领域应用的开端
在中国,金融领域对隐私计算的应用,最早是从以蚂蚁集团和微众银行为代表的一批金融科技领域的先行者开始的。
最早是2016年,从蚂蚁集团开始。根据公开资料[ 《蚂蚁金服共享智能实践》,来源于知乎号“蚂蚁共享智能”,https://zhuanlan.zhihu.com/p/146954520。原文首发于期刊《中国计算机学会通讯》(CCCF)2020年第5期。],为了更好地应对形势的变化,解决数据共享的需求与隐私泄露和数据滥用之间的矛盾,蚂蚁集团2016年提出了希望通过技术手段,在多方参与且各数据提供方与平台方互不信任的场景下,能够聚合多方信息进行数据分析和机器学习,并确保各参与方的隐私不被泄漏,数据不被滥用,蚂蚁集团当时称之为“共享智能”。
蚂蚁集团最初在可信执行环境(TEE)和多方安全计算(MPC)两个方向进行探索。在实践中,蚂蚁集团逐渐发现,不同技术都有各自的优势,同时在业务发展的不同阶段用户对隐私保护的需求是不同的。把不同的技术融合到一起,发挥各自技术的优势,往往会达到一个更为理想的效果。因此,在实际的应用中,基于用户的需求,蚂蚁集团逐渐尝试灵活应用多种技术提升实际应用效果。
此后,在不同的应用场景中都逐渐出现对隐私计算的需求和思考。
区块链技术的探索和应用,也引发了对隐私计算的需求和思考。2017年7月31日,深圳前海微众银行股份有限公司、上海万向区块链股份公司、矩阵元技术(深圳)有限公司联合宣布,将区块链底层平台BCOS(取Be Credible, Open & Secure涵义命名)完全开源,致力于打造一个深度互信的多方合作共同体,进一步推动分布式商业生态系统的形成。之后,三家都在这个联盟链技术的基础上做了大量应用,在生产环境中不断验证区块链应用。
万向区块链董事长肖风曾在公开演讲中介绍,BCOS开源之后,其对隐私计算也日渐关注。因为区块链除了性能、安全性、互操作性、易用性等技术尚未成熟之外,另外一个十分重要的课题就是:区块链应该带来的是隐私保护之下的数据共享。因此, 2017年开始,万向便着手准备隐私计算方面的工作。[《万向肖风:隐私计算是世界级的话题》,2018年12月5日,来源于矩阵元官方微信公众号。]
与此同时,2018年微众银行人工智能团队也开始关注到隐私计算技术。[ 《对金融领域而言,联邦学习的实际价值是如何体现的?》,来源于InfoQ访谈,载于FATE开源社区微信公众号。]2018年,在业务实践和行业观察中,微众银行人工智能团队发现训练AI所需要的大数据实际上很难获得,数据的控制权分散在不同机构、不同部门,“数据孤岛”问题严重,加之政策法规对数据隐私和数据安全的要求让数据共享和合作更加困难。
针对实际的业务痛点,他们发现联邦学习是一种行之有效的解决方案,并开始进行研究和探索。从2018年到2019年初,微众银行发表了多篇联邦学习相关论文,对于联邦学习的概念、分类、基本原理等基础理论进行系统性研究。同时,2018年起,微众银行人工智能团队基于联邦学习理论研究进行相关开源软件研发。经过探索,微众银行搭建起了理论研究、工具软件、技术标准、行业应用的多层级联邦学习生态框架,并且开始有腾讯、华为、京东、平安等生态合作伙伴加入。
2019年初,微众银行正式开源全球首个工业级联邦学习框架FATE(Federated Learning Enabler),并开始尝试将联邦学习应用于金融业务中。FATE的开源,使得联邦学习的应用门槛大幅降低。2020年初,针对金融应用中联合风控、匿踪查询等业务需求,微众银行进一步给出了场景式隐私保护解决方案WeDPR,并基于WeDPR在2021年5月发布多方大数据隐私计算平台WeDPR-PPC。WeDPR方案组合了多种隐私保护策略,融合安全多方计算、同态加密、零知识证明、选择性披露等算法,满足多变业务流程。
(二)创业公司涌现
在金融科技巨头进行隐私计算探索之时,隐私计算创业公司也开始涌现。
2017年至2019年间,最早进入隐私计算领域的创业公司有矩阵元、翼方健数、零知识科技、华控清交、富数科技、同盾科技、星云Clustar、天冕科技、零知识科技、数牍科技、融数联智、锘崴科技等公司。2020年之后,隐私计算领域创业公司数量越来越多,洞见科技、光之树、蓝象智联、冲量在线等越来越多的创业公司涌现。(注:以上公司按照进入隐私计算领域时间先后顺序排名)
表:进入隐私计算领域的创业公司情况
这些创业公司背景各异,但都是基于各自的业务看到了市场需求,或者凭借所掌握的技术进入了隐私计算领域。
(三)隐私计算落地金融机构
2021年,隐私计算技术开始在金融机构落地。
1、工商银行[ 《联邦学习在工行的实践》,https://www.163.com/dy/article/GC04ACG4055219FH.html。]
据零壹智库调研了解,工商银行已经开始探索联邦学习技术在金融业务中的应用。
目前,在联邦学习方面,工商银行主要在推进以下三方面的工作:
第一,构建联邦学习技术能力。首先,通过引进成熟产品、完成工商银行联邦学习技术平台的建设。适配工商银行PaaS 平台,并与行内现有模型运营、监控管理组件融合。同时,引入FATE开源技术,并加入FATE TSC,打造联邦学习场景建设专业团队。
第二,试点联邦学习业务场景。目前,主要是在数据和模型驱动力强、有对外合作需求的信贷、风控等关键业务领域上,逐步试点联邦学习技术在业务场景上的实践应用。
第三,推进联邦学习生态建设。主要是联合制定金融业联邦学习标准,推进建立联邦学习对外合作的常态化机制和联合场景合作建设模式。
目前,工商银行的联邦学习已应用于多个场景。比如引入北京金控的不动产数据,与行内贷款企业的时点贷款余额、注册资本、账户余额等数据联合建立企业贷中预警监测模型,此联邦模型提升准召率约4%,从而提升了工商银行风险监测业务能力。另外,工商银行也通过联邦学习与互联网公司的客户特征数据完成了联合建模,并将信用卡申请反欺诈模型的K-S值提升了25.1%。此外,工商银行还基于联邦学习在保险营销场景中的应用打造相应的联邦建模方案,通过验证联邦迁移技术挖掘集团的潜在客户实现集团客户向子公司的导流。
图:工商银行北京分行探索应用联邦学习技术案例
资料来源:工商银行
未来,工商银行在探索联邦学习应用方面有两方面的计划:
第一,进行开源技术研究。工商银行计划在行内搭建FATE平台,验证开源技术对亿级数据的支持能力。同时,利用开源FATE平台推进行内实际业务建模场景的测试验证,对其核心算法分别从论文、源码进行分析,完成推进图联邦相关场景的验证落地。
第二,计划将联邦学习技术应用于更多的场景。
首先,是智能风控场景。引入政务、运营商、企业等多数据源,共同完成风控数据分析、风控模型训练和风险决策的任务,以节约信贷审核成本,提升信贷风控能力。
其次,是智能营销场景。融合集团内子公司之间、以及行外数据,在“获客-促活-留存-转化-挽留”等核心运营环节实现多维度精准获客、数据化画像分析。
再次,是反洗钱场景。在不泄露各自样本的前提下,充分利用多家合作方的反洗钱样本,建立训练效果更好、更稳健的联邦反洗钱模型,降低罚款和声誉受损等业务风险。
2、交通银行
2020年12月15日,上海富数科技有限公司与交通银行总行正式签署技术服务合同,富数科技将成为交通银行金融科技战略合作伙伴。双方将联手建设具有交行特色的多方安全计算系统平台、积极参与行业技术标准论证和修订,解决金融大数据内外融合协作中的隐私保护和数据安全问题,为普惠金融、数字金融等业务场景提供安全可控的联合建模、联合计算和联合查询统计。
3、招商银行
到目前为止,零壹智库得知的招商银行在隐私计算方面的探索,主要集中在落地的产品上。
例如,2021年5月11日,招商银行深圳分行发布“深信贷”产品,这也是招商银行首个运用联邦学习技术的贷款产品。“深信贷”是深圳市场监督管理局和招商银行深圳分行专门面向小企业推出的融资产品,旨在运用信用信息促进解决小企业融资难、融资贵难题。企业只要符合“三有”条件,即“有诚信、有经验、有纳税”,就可以在招商银行官网、深圳信用网等线上渠道申请深信贷。这款产品的风险控制,是由招商银行深圳分行与深圳市公共信用中心对接系统和模型数据来做的,联邦学习技术可在招商银行深圳分行和深圳市公共信用中心部署子模型,无需各数据方披露底层数据即可进行联合运算。
4、光大银行
2021年8月,光大银行成为国内金融业首个把企业级数据流通基础设施平台 — 多方安全计算平台投入生产使用的银行,积极探索数据安全流通与融合应用的新实践。
该平台由华控清交承建。基于隐匿查询、联合统计、联合建模等平台功能。光大银行多方安全计算平台可以有效推动集团内数据、行内数据、以及外部企业数据的安全融合,解决上述过程中明文数据获取困难、数据保护困难和数据使用合规困难等棘手问题。
应用方面,平台可以用于联合营销、联合风控、统一授信、业务合规等多领域,如帮助光大银行与合作机构开展多方数据安全联合建模,提升精准营销能力;在不暴露客户信息的情况下进行联合统计,开展客户综合管理;在保护银行查询意图和客户信息安全的情况下,向数据服务方查询数据,获得匹配结果等。
5、平安银行
平安科技的蜂巢联邦智能平台。它由平安科技联邦学习技术团队完全自主研发,围绕联邦学习、联邦数据部落、联邦推理、联邦激励机制为核心而建设的联邦智能生态体系,是数据隐私安全保护的商用级解决方案,帮助解决当下数据难题与隐私保护。
蜂巢联邦智能平台的核心是保证参与各方的原始数据始终不出本地,通过传输模型的梯度和参数的聚合计算来进行共享模型的训练和迭代,可以大幅度优化模型效果。它允许从跨数据所有者分布的数据中构建集合模型,可被广泛应用于各种领域,具有安全性、隐私性、合法性的特点,这样既兼顾了AI的训练也避免了数据泄露的风险。
与此同时,平安银行还与京东金融云进行合作探索。双方联合开发出跨平台联邦建模数据合作安全保护方案,应用于不同联邦学习平台之间的实时通信。双方基于联邦学习技术进行联合开发和方案部署,在平安银行的汽车金融业务的场景实践中,两方数据特征无需出库的前提下,较单方模型效果提升30%以上。
(四)隐私计算在金融营销领域应用
在金融营销场景中,隐私计算技术主要被用来合规调用更多的金融机构外部数据,从而将内外部数据结合起来,做更精准的营销,提升转化率,这可以帮助金融机构大大节省获客成本。目前,实践中已经积累了不少案例。
1、星云Clustar在某大型股份制银行的营销项目案例
某大型股份制银行在其个人信贷营销业务中,希望达到降低信贷风险的同时合理分配营销资源的目的,为客户提供精准信贷服务,并提高客户的产品体验。
星云Clustar依托海量安全可信的数据源为该行搭建了联邦学习模型,并根据该算法模型为客户评级打分,由此合理分配营销资源,使该行个人信贷业务的当月营销转化率达3.5倍以上,联邦模型AUC达到0.73,极大地提高了营销精准率和客户转化率。
2、天冕科技助力互金公司提升营销效果案例
在营销场景案例上,天冕科技助力某头部互金公司提升营销效果,因为其存在单独使用现存自有数据特征或者对方评分只能达到收支平衡,而且使用线下联合建模方式容易泄露用户数据的风险。在使用联邦学习方式进行联合建模之后,应用所得模型对已注册但未曾进件的老客户进行综合评分,对前10%评分高的用户营销后,模型KS提升11%,每期营销收入增加65万。
图:天冕科技助力某头部互金公司联合营销案例
资料来源:天冕科技、零壹智库
(五)隐私计算在风控领域应用
在金融风控场景中,基于同样的原理,由于可以应用隐私计算技术将金融机构内部和外部的数据联合起来进行价值挖掘,金融机构就可以更好地识别风险,从而提升风险控制的效果,降低风险、提升收益。
1、天冕科技与金融机构联合风控案例
目前,在用户侧,天冕科技已经与10多家金融机构建立了合作,合作的内容主要是联合数据提供方,在各方数据不出私域的情况下,进行联合风控建模和联合营销。
比如,在风控场景上,WeLab汇立集团采用线上联邦学习系统,筛选了多家数据征信公司相关性较高的特征,进行联合建模,建立一个泛化能力更强的模型,取得了更好的效果。KS提高5%,坏账有所下降。
图:天冕科技联合风控案例图
资料来源:天冕科技、零壹智库
在场景应用中,天冕科技的显著优势在于场景经验丰富。比如,在金融风控场景中,隐私计算技术的提供商首先需要让金融机构合作伙伴知道,哪些数据和算法对业务是最有用的。此外,在应用方面还有很多操作细节,比如在数据方面,不仅需要知道哪些类型的数据最有用,还需要知道哪些数据提供商的数据最好用,这些数据应该用在什么地方。这是需要用长时间的实践和教训才能换来的经验。丰富的场景经验,可以让合作伙伴将时间和资金投入最能提升业务效果的方向,从而真正让业务跑起来,见到实效。
2、瑞莱智慧应用隐私计算帮助银行提升反欺诈效果案例
(1)业务背景
近年来,基于机器学习的大数据反欺诈风控技术迅猛发展,大部分银行均构建了交易实时反欺诈系统,通过结合专家规则与机器学习模型来甄别欺诈交易与行为。但随着黑产行业的智能化与集团化,跨行业欺诈逐渐成为常态,单次欺诈行为贯穿社交媒体、银行多个环节,各机构基于自身数据无法应对,例如在社交欺诈场景中,社交企业掌握黑客针对用户的撒网、信任欺诈等行为的特征,银行侧掌握受害者向黑客转账以及后续资金转移等特征,但两方的特征数据均不足以对欺诈行为进行有效识别。
在此背景下,如何在有效保护数据隐私的前提下,帮助企业合法合规地利用内外部数据,丰富样本数据特征维度,构建更加精准的反欺诈风控模型,提升反欺诈能力,是当前各类银行机构亟待解决的问题。
(2)解决方案
为了应对以上痛点,瑞莱智慧提供了“数据+平台+模型”的一体化隐私计算解决方案,帮助银行安全合规的实现与外部机构的跨行业数据链接,基于金融特征、交易特征、行为特征和干系人特征等信息构建反欺诈模型,实现更精准有效的欺诈甄别。
图:瑞莱智慧RealSecure平台银行部署解决方案
具体实施中,银行方通过部署RealSecure平台节点,快速接入包括运营商、设备、支付类数据等在内的多类外部数据源,极大的丰富了样本特征维度。同时通过纵向联邦的方式,基于行方准备的反欺诈样本数据,首先通过RealSecure的PSI功能(不同企业之间持有各自集合的两方来共同计算两个集合的交集运算,在协议交互的最后,一方或双方得到正确的交集数据,而不在交集里的一方数据,另一方无法得到任何信息,这样就保证了双方的数据安全)与外部数据源进行隐私求交,获取多方的交集客户信息,在银行客户三要素信息不出库的同时,完成银行与数据源之间的样本对齐。然后,运用RealSecure提供特征工程与模型训练模块,完成反欺诈模型训练与调优工作。
图:RealSecure平台纵向联邦示意图
(3)方案效果
效果方面,该方案帮助银行安全合规地引入支付行为、设备信息、社交习惯等多类外部数据,大幅提升了模型的准确性和效率,隐私计算模式下构建的反欺诈模型AUC可达到0.82,KS达到0.48,效果较大提升。
同时基于编译器引擎,隐私保护算法构造速度指数级提升,系统整体运行速度达到业内典型架构模式的20~40倍,在实施难度、系统效率、安全可视等方面满足工程、业务、运维、安全等各方面综合需求,具备成熟的商用推广模式。
3、金智塔科技在小微、科创企业授信方面取得突破
2015年前后开始,金融科技领域的应用更多集中于面向个人消费者的消费金融应用,在小微金融方面的尝试从2019年起刚刚起步,现在仍在探索阶段。目前,应用隐私计算技术,金智塔科技在小微金融的风控方面目前已经开始取得突破。
在数据隐私保护的背景下,银行对科技型中小企业的信贷支持工作受到挑战。与大型企业相比,中小微企业往往规模小、资金少,尤其是科创型企业,其“重智力、轻资产”的特点使得抵押资产较少,因此,银行对科技型中小企业授信必须得到更多维度的数据支持。政府数据、企业数据成为授信业务最可靠的数据补充,然而行政部门虽然存储了丰富的企业数据,但基于隐私保护的要求,无法将原始数据对银行输出,信贷支持工作面临困局。
以杭州市某区域内小微、科创企业特点痛点为例,区内存续企业122940家,其中小微企业10万余家,科创企业6000余家,大量企业均面临金融服务困境。困境主要由以下原因造成:第一,企业财务不规范、信息分散,银行不能直接通过数据获取企业真实经营情况,致使贷款申请难;第二,企业资金少、净资产不足、规模小,企业基于生产需要申请贷款,银行主要以企业净资产来进行授信,致使贷款额度满足难;第三,科创企业重智力,轻资产;经营团队学历高能力强,拥有多项专利,银行缺少评估方法和手段,致使有效资产评估难;第四,企业抵押资产较少,银行发放贷款需要担保,致使贷款担保难。
针对域内小微企业以及小微企业融资产品的发展实际,某商业银行基于“金智塔隐私计算平台”,融合政府部门开放数据、行内数据、第三方商业数据,通过联邦学习与多方安全计算解决数据孤岛和用户隐私保护难题,研发了面向全域小微、科创企业的在线智能授信解决方案。该方案基于多方数据,实现企业智能分类;通过数据驱动,实现在线、多维度建模,智能化授信;优化信贷流程,贷款线上一键申请,线下便捷用信,有效解决小微、科创企业贷款申请难、资产评估难、额度满足难等问题,并提升企业贷款可获得性和便利性。
图:金智塔隐私计算平台智能授信应用场景示例
在该智能授信项目实践中,基于“金智塔隐私计算平台”的联合智能授信方案设立准入评估、成长力评估、风险评估、授信额度估算等各类模型。小规模纳税人授信模型以企业实际应税销售额、实有净资产和纳税额为基础,结合行业特点,充分考虑企业发展需求,合理配置参数,实现对小规模纳税人的在线智能授信。一般纳税人授信模型则以企业实际应税销售额、实有净资产和纳税额为基础,结合企业流动资产周转率、资产负债率等指标,合理配置参数,实现对一般纳税人企业的在线智能授信。
为解决对科创企业重智少资的授信难题,国内各银行处于起步探索阶段等问题,金智塔自主研发了以企业生命周期模型、企业成长力模型、知识产权估价模型为核心的授信模型,实现数据驱动的科创企业智能授信。
图:金智塔科技数据驱动的科创企业智能授信模型
在功能完善的基础上金智塔联合智能授信平台展示出四大特色:全域、数字、智能、便捷。全域是指覆盖所有的小微和科创企业,全面普惠;数字是指贷款申请及授信全流程采用线上化,数字驱动;智能是指利用大数据和人工智能技术,实现智能决策;便捷是指线上一键申请、线下一次签约、最多跑一次。
该平台通过试点小微及科创企业大数据智能授信服务场景,打通数据部门、银保机构、第三方数据服务商等多家单位,完成小微及科创企业联合授信、联合风控及联合营销建模。实现科创企业成长力评估、中小企业风险评估、行业景气指数、房产估值等多个应用,目前已覆盖近20余万家企业数据,为企业实现智能在线授信、用户便捷用信,授信额度提升百万元,帮助企业降低50%以上融资成本,推动金融机构与企业数字经济发展。2020年起在金融领域实践中,在省有关部门指导框架下相继完成多个银行重大开发项目。
隐私计算金融应用典型案例
(一)同盾科技
在零壹智库调研中接触到的隐私计算厂商当中,同盾科技的理论和产品体系是最为系统的。
同盾科技的隐私计算战略不仅仅聚焦于隐私计算的技术发展,而是构建面向下一代可信AI平台,提出了全新的理论体系,并且形成了系统的产品架构和技术生态。
1.1 同盾科技知识联邦理论体系
同盾科技提出“知识联邦”的框架体系,作为一个统一的、层次化的框架体系,它支持安全多方检索、安全多方计算、安全多方学习(联邦学习)、安全多方推理等技术方案。以层次化的方式,将隐私计算的几个主要流派都融合在知识联邦中。
知识联邦是打造数据安全的人工智能生态系统的基础,也是未来通向下一代可信人工智能的必由之路。2019年末,同盾科技发布《知识联邦白皮书》,对知识联邦的背景、定义、平台、挑战、场景应用以及未来发展前景进行了全方位、全景式剖析。
图:同盾科技知识联邦理论体系示意图
(1)知识联邦的四大层次:
知识联邦是一个国产原创、自主可控、国际领先的框架体系。知识联邦的领先之处在于,它是面向下一代人工智能技术发展的理论创新。现有的人工智能技术主要是将数据联合起来进行分析,而知识联邦主张不仅将数据联合起来进行分析,还要将更多的认知、知识联合起来进行分析,从而推动人工智能技术的进步。
在理论层面,知识联邦包含四个层级:信息层、模型层、认知层和知识层。在每个层级中,联邦的对象不同,应用目的也不相同。
信息层:主要发生在联邦的数据转到第三方的服务器之前,需要先把所有数据加密,或通过某种形式转换成为有价值的信息。信息层更多应用在联邦计算的过程中,比如金融经常出现的多头共债问题,比如A/B test,都可以在信息层完成。
模型层:发生在模型训练过程中,跟之前提到的联邦训练的过程实际上是一致的。用本地数据训练本地模型,把模型参数变化加密之后,传送到第三方进行聚合。
认知层:也发生在模型训练过程中,但并不把模型参数聚集在一起联动,而是把局部训练之后产生的粗浅认知进行联邦,变得更合理。即在每一个参与方训练本地的数据,提取本地的模型的特征表达,加密之后上传到第三方服务器,实现集成。
知识层:前面形成很多认知结果之后,把它存成知识库。这种知识库其实每一家机构都有,能够组成一个知识网络。如果在知识网络上不断推理和演绎,挖掘出更有价值的知识,能提前预判事情的发生,最终形成合理决策。
(2)同盾科技知识联邦技术特点
生态完备:拥有包括数据提供者,数据使用者,模型使用者,模型提供者,还有整体服务的提供者和服务使用者多个参与主体;拥有各种服务平台和生态:公有云、私有云、专有云和本地部署。
高度开放性:为了把知识联邦能够最大化的普及和采纳,采取全面开放的方式,并率先提出多项领先的开放性协议。
1.2 同盾知识联邦产品体系
承载知识联邦理论体系的商业化落地产品,就是同盾科技所建立的可信AI生态平台的基础设施——智邦平台(iBond)、开放互联参考模型(FIRM)和天启可信AI开放操作系统(InceptionAI)。
1.2.1 工业级应用产品智邦平台(iBond)
智邦平台,能够把数据要素方保护起来,安全地使用这些数据、能够切断数据的转移,不需要原始数据的转移、也不需要汇聚到科技公司或者互联网巨头。
在平台中同盾还实现了数据接入标准化和数据安全交换协议,可以让数据提供者轻松地进行联邦合作。
1.2.2 开放互联参考模型(FIRM)
开放联邦系统互联参考模型,即FIRM (open Federated system Interconnection Reference Model),该系统分为五层:平台层、通信层、数据交换层、算法层和应用层。
FIRM将每层的功能定义与实现细节区分开来,使它具有普遍的适应能力。理论上,FIRM中每一层都建立在它的下层之上,向它的上一层提供一定的服务,而把如何实现这一服务的细节对上一层加以屏蔽。为此,需要针对每一层定义标准化的协议规范,并在协议中详细描述该层所提供的服务和动作,以保证提供有效的服务。
其中,FLEX (Federated Learning EXchange)协议是一套标准化的联邦协议,是可信AI的HTTPS,能够合规安全使用数据而不改变数据的所有权。它是FIRM体系中数据交换层的一种实现范例。
未来,同盾科技也将发布FIRM体系算法层和应用层的参考实现:咖啡因算法库Caffeine和联邦信使应用接口SAFE(Service Ambassador for Federation)。
1.2.3 InceptionAI天启可信AI开放操作系统
为了更好的服务知识联邦各环节的开发者、服务提供者和使用者,更全面地支持互联互通、协同发展,同盾进一步提出了“InceptionAI天启可信AI开放操作系统”。这一系统不仅实现了用户和各种传统硬件资源之间的交互,更管理了知识联邦中各种任务联盟进程和安全合规的虚拟大数据。
作为可视化、易使用的业务操作系统,除了用户熟悉的Mac或视窗桌面,天启InceptionAI具备三个显著特点:
首先,它构建了一个开放互联的知识联邦生态。“开放互联参考模型(FIRM)”中的通信层、数据安全交换层、算法层、应用层中的模块都可以替换,开放给第三方开发。
第二,为了繁荣生态,天启开放联邦市场,提供数据商店(数据要素市场)、算法商店、模型商店和应用商店。这些开放市场极大的方便了数据生产要素的充分流通、使用、定价;也极大的方便中小企业利用天启的系统功能,快速开发丰富、有特色的服务和应用,可以类比移动App的广泛普及。同时,它通过开放协议,开放标准来确保安全的数据交换是可信AI的最基础功能,不可或缺。
第三,天启内嵌监管中心,提供一系列基础工具和可视化应用,为监管科技的发展与落地提供支撑。第三方中小企业也可以开发天启App提供各个领域的专有监管工具,满足各个行业各个层次的监管需求。
高度开放的天启操作系统,通过开放联盟、开放标准、开放协议、开放互联、开放源码,希望打造一个开放社区,建立可信AI生态。
1.3 同盾发起成立开放联盟:知识联邦产学研联盟(AKF)
2020年10月,由同盾科技牵头成立了知识联邦产学研联盟。同盾希望通过开放联盟方式,将知识联邦通过产学研联盟的方式,把产业界学、术界联合起来,力图将从学界产生的想法,反哺给企业界,企业界也能把一些需求和场景开放给研究院研究,双方共同打造可信AI。
1.4 同盾隐私计算商业价值及未来布局
(1)同盾隐私计算产业布局
首先在金融领域,同盾积极探索更多的落地场景。金融场景中所有需要多方参与建模、知识共享的场景都可以应用知识联邦。尤其是针对个人的贷前风险防控、反欺诈、反洗钱和多头共债中。
其次,在国家关注的政务大数据上,通过知识联邦可以帮助政府实现安全的数据虚拟融合,实现数据联邦检索,在保护个人信息的情况下,建立政府数据向社会开放的安全渠道。同时,可以为各部门行政审批事项梳理和业务流程再造提供支持。
此外,在智慧城市建设发展中,知识联邦同样可以发挥重要的作用。例如在车联网,通过知识联邦可以保护车主行为习惯的前提,让每辆车辆与周边车辆保持安全的信息交流,为自动驾驶形成助力。在社区监控、疫情普查或智能门禁中,利用知识联邦可以将区域或家庭监控系统与公安的犯罪嫌疑人数据库连通,通过本地计算分析,在保护过往行人的隐私情况下,对发现的潜质嫌疑人及时报警等。
部分落地情况:同盾与电网企业通过智邦平台合作,在保护数据隐私的基础上分析企业的电力使用情况,为中小微企业提供征信判断依据,帮助银行做好中小微企业的信用风险分析;保险金融营销领域,帮助某银行从海量客群中挖掘潜在保险用户,有效提升银保营销转化率,提高保险销量产品和渠道的多样性。
(2)同盾隐私计算海外布局:
目前同盾隐私计算已经落地东南亚、北美、南美等多个地区。同盾在美国硅谷设立认知实验室,在加拿大设立北美智能风控实验室,探索风控及相关领域产业应用和商业创新的路径。
(二)星云Clustar
星云Clustar是国内率先开展隐私计算技术实现与应用探索的公司,专注金融场景提供隐私计算全栈技术服务,以IEEE联邦学习标准工作组秘书长单位牵头完成联邦学习首个国际标准认证发布,其算力加速能力处于行业领先地位,核心产品星云隐私计算平台已实现商业化。星云Clustar目前与招商银行、建设银行、微众银行等技术实践领先的金融机构达成深度合作,共同解决金融场景的数据安全及数据价值共享难题。
星云Clustar创始人陈凯为香港科技大学教授,香港人工智能与机器人学会副理事长、网络及AI系统领域世界权威专家,核心团队来自香港科技大学、北京大学及中科院等知名院校,以及腾讯、阿里巴巴、微软、IBM等知名企业的行业专家。
目前,星云Clustar研发人员占比超80%,均来自于全球各大知名院校或企业。研发团队先后在IJCAI、IEEE等顶会和期刊上发表了多篇论文,并形成了一系列专利成果。截至2021年7月,星云Clustar累计申请专利多达91项。根据专利检索平台incopat数据,星云Clustar 隐私计算技术专利申请量(包含隐私计算&联邦学习&同态加密)在全网排名第9(含各大高校及大型互联网公司),作为独立技术公司排名第1 。
2021年5月,星云Clustar宣布完成1100万美金A+轮战略融资。在该轮融资后,星云Clustar将持续加大技术研发投入并深耕金融服务场景。
在产品方面,为满足数据应用流通与隐私保护需求,星云Clustar基于联邦学习与各类创新技术,形成了包括星云隐私计算平台、安全数据网络、数融天鉴系统、FPGA加速卡等软硬件产品在内的一系列创新成果。可提供从海量可信安全数据接入、多源数据融合隐私计算、权限管理以及数据通信存证审计、数据加密与算力加速的软硬件“一站式”服务,解决机器学习框架环境配置、IT部署能力要求高,数据资源申请周期长、数据必须明文传输,模型训练操作门槛高、模型结果复杂难于查看以及训练过程中审计存证难等问题。整个产品体系,可以进一步提升隐私计算在实际应用场景中的效果、安全性与性能。
图:星云Clustar隐私计算全栈解决方案逻辑架构图
1、星云数融天枢数据安全网络(SDN)
星云数融天枢数据安全网络SDN(Security Data network)为数据应用方和数据源方提供安全、合规、高效的数据安全网络。由底层安全计算框架和软件应用层构成,分为数据源方客户端和数据应用方客户端,帮助B端企业实现基于隐私计算的联邦学习建模任务,提升业务效能;同时帮助数据源企业激活数据资产,实现数据价值运营。SDN的搭建,使得数据应用方通过隐私计算技术合法合规地调用到更多的外部数据,提升业务效果。
2、数融天鉴系统,创新“联邦学习审计”
目前,联邦学习的应用对安全性的需求与日俱增。联邦学习中,参与方具有审计所有出入通信/流量的需求,以进一步确保通信和计算的安全性。然而,市面上尚未出现专门用于联邦学习审计的软件或产品。
具体地说,联邦学习任务可能受到控制流、算法流、数据流三个层次的攻击。这些攻击有可能导致联邦学习算法执行停止、模型训练被破坏或者泄露隐私。
为了解决联邦学习中缺乏用于审计的软件的问题,星云Clustar提出了一种用于联邦学习审计的软件架构——数融天鉴系统。天鉴系统将会布署在联邦学习参与方的通信模块上。在联邦学习的任务中,天鉴系统会抓取所有出入当前参与方的数据流量并进行审计,并报告给管理员,进一步确保通信和计算的安全性。
3、星云隐私计算算力解决方案
星云隐私计算算力解决方案采用了自研的高性能加速网络技术与自研业界首个异构加速方案,大幅强化分布式计算的通信效率与计算能力,突破传统网络通信中算力在多点间不能有效横向扩展的瓶颈,实现50-70倍的单点算力提升,将计算节点之间的延迟缩短3倍以上,功耗节约70%以上,解决隐私计算因使用同态加密而产生的计算压力与时延问题。
在隐私计算领域,星云Clustar是算力提升的高手。星云Clustar创始人陈凯预计,未来通过软硬件的进一步优化,可使这个倍数变为100倍以上,从而使隐私计算技术进入更多的应用场景。
作为开源联邦学习生态FATE一员,微众银行人工智能部副总经理、FATE技术指导委员会主席陈天健曾评价,技术委员会中,“星云Clustar是性能担当”。
在深厚的技术积累的基础上,星云Clustar还在落地布署上进行了优化——星云FPGA加速卡支持云端布署。这在应用中有几个方面的优势:
第一,FPGA云上环境完备,包括算力、带宽、存储等,能方便快捷地布署及应用。
第二,云端海量数据能直接在云端训练,无需本地存储和传输,能大大提升训练效率。
第三,FPGA云能耗比相较于GPU提升45%以上 (FPGA单卡对比Tesla V100 GPU)。
第四,在中美贸易的战的大环境下,自研设备难度和时间成本过大,使用云上算力加速无需置备昂贵的服务器以及相关设备,节约成本。
从技术维度上讲,算力将成为隐私计算后续发展的最核心的竞争之一。以后的隐私计算行业会吸纳越来越多的机构进场,随着市场规模的扩大,对算力的需求也必要会增加。而且只有在算力层面上取得了突破,AI领域中的很多不可能才能变成可能。
未来,星云将继续深耕金融行业,在底层技术上极大投入,构建数据安全连接的新一代基础设施平台。
4、产业应用案例
(1)某国有大行合作项目案例
在某大型国有银行的落地项目中,星云Clustar深度结合业务需求,为其搭建了基于联邦学习的多方安全建模平台,满足了业务方联合查询、联合建模、联合运算等场景的数据合规流动,同时对数据资产、流程日志、加密中间结果进行安全审计以确保流程可追溯,以“可用不可见”的方式帮助该银行打通全行内外部的数据共享,优化流程标准与降低管理成本的同时,为该银行未来进行更大规模的数据开放提供了技术基础。
(2)某大型互联网银行合作项目案例
某大型互联网银行为打通数据安全交换路径提供联邦学习系统方案,该联邦学习系统需要对敏感数据进行同态加密计算,因而带来计算量和传输量的剧增,使其联邦学习系统面临巨大的算力压力。
星云Clustar依托隐私计算算力解决方案助力该行实现联邦数据网络算力加速,通过自主研发的隐私计算加速卡,使同态加密算力提升50-70倍,联邦学习框架效率整体性能则提升2倍以上,成功推动其联邦学习系统高效运转落地。
(三)瑞莱智慧
瑞莱智慧是零壹财经在调研中发现的一家具备硬核科技创新实力的公司,在隐私计算技术方面取得了重大的创新突破。
瑞莱智慧成立于2018年7月,孵化自清华大学人工智能研究院,是全球领先的安全可控人工智能基础设施和解决方案提供商。团队由中国科学院院士张钹、清华大学人工智能研究院基础理论研究中心主任朱军共同担任首席科学家。目前,公安部、多家股份制银行、头部城商行等都是瑞莱智慧的合作伙伴。
2020年12月,瑞莱智慧首次发布了隐私保护计算平台RealSecure。
1、RealSecure技术特点
隐私保护计算平台RealSecure是一款数据安全共享基础设施,通过将计算移动到数据端,打通数据孤岛,实现数据可用不可见,解决跨机构数据合作过程中的数据安全和隐私保护问题,驱动联合风控、联合营销等金融场景业务增长。平台主要包括安全多方计算、联邦学习与匿踪查询三大功能模块。
图:瑞莱智慧隐私计算平台RealSecure
RealSecure平台具备以下优势:
首先,RealSecure是业内首个“活字印刷”级隐私计算平台,搭载了瑞莱智慧自主研发的联邦AI编译器。一般开发过程中,大部分隐私计算的技术栈在遇到不同机器学习算法时,需堆人力逐个进行安全加密改写,被视作一项“劳动密集型”工作。瑞莱智慧通过对人工智能和密码学底层原理的融合突破,实现“一键改写”,首创“底层数据流图”实现自动编译,集成新机器学习算法(例如SVM, Matrix-Factorization)时,无需针对每个参与方编写对应的计算逻辑,同时支持适配上层多种机器学习算法,极大提高了易用性与可扩展性。
第二,RealSecure革命性地使用了全同态加密技术,实现性能和安全性的双重提升。一般来说,全同态在加密和计算方面比半同态会更耗时,但瑞莱智慧利用SIMD(全称Single Instruction Multiple Data,单指令多数据流)技术对多条数据进行同时处理,在整体上实现比半同态方案更快的效果。通过编译器驱动高效加密算法的优化,隐私保护下完成全流程建模,总耗时从日级别缩短到小时级别,领先业内平均水平数十倍。同时基于格密码的加密方案能够对抗量子攻击,比传统半同态方案具有更高的安全性。
第三,直观可验证的安全性。传统隐私计算模式的安全性依赖于“专家验证”,无法做到自动验证。RealSecure则通过把联邦算法协议抽象为中间层表示(IR),以数据流图的形式直观展示加密过程,底层执行的计算公开可审计,同时深度结合密码学证明,支持完整证明联邦算法协议的安全性。基于此,瑞莱智慧也构建了严谨且可论证的“事前”“事中”“事后”安全体系,提供“协议模型及安全性假设、技术实现原理、数据抓包监测、运算日志打印审计”全方位的安全评估验证。
2、RealSecure应用案例
2.1横向反欺诈建模及黑名单共享案例
(1)业务背景
银行的风控能力一直被视为核心能力,但相较于大型银行,中小型银行在风控技术和经验上一直处于劣势。一般来说,各银行在自身业务的开展过程都会积累沉淀黑名单,用来在前置风控环节识别并剔除不良用户,但对中小银行来说,因为其业务开展的时长及覆盖的客户有限,积累的黑名单普遍较为局限,难以用于精准高效的识别不良客户。而且中小行积累的欺诈样本不足,无法支撑其构建效果优良的交易反欺诈模型,导致行方反欺诈工作开展的效果一般。
在此背景下,中小银行迫切希望能够获得其他金融机构尤其是同类银行的黑名单以及欺诈样本数据,实现自身风控能力的提升。但随着《数据安全法》、《个人信息保护法》等政策的相继出台,银行机构之间的数据输出与共享受到限制。
(2)解决方案
为应对以上痛点,瑞莱智慧基于RealSecure平台提供了“横向反欺诈建模及黑名单共享”解决方案,帮助各家中小银行在安全合规的前提下实现黑名单的共享、金融联盟风控反欺诈共建。
1)横向联邦反欺诈
具体实施中,参与的银行方需部署RealSecure平台节点,实现互联对接。项目前期以银行A和银行B作为试点进行方案的落地。
图:RealSecure横向联邦交易反欺诈示意图
基于RealSecure平台,银行A和银行B分别准备相关反欺诈样本数据,包括标签和特征,上传至隐私保护计算节点,通过横向联邦的方式,基于双方银行准备的反欺诈样本数据进行特征对齐及建模。在双方数据可用不可见的情况下,构建效果更优的反欺诈模型。
2)黑名单共享
具体实施中,由某大型股份制商业银行牵头,与N家银行分别各自部署RealSecure平台节点,基于匿踪查询技术分别为对方提供隐私黑名单查询服务,如下图所示。
图:银行间基于匿踪查询技术查询黑名单示意图
匿踪查询是在发起方不暴露查询ID的前提下,能够获得该ID在其他机构的信息。在黑名单共享场景中,ID为用户三元组,待查询的信息为是否在黑名单中,通过同态加密技术,对ID和信息进行加密,并对外提供黑名单服务。查询方可获得黑名单信息的密文结果,并且仅能解密查询方发起请求的用户ID的黑名单标签值。
在实际业务中,银行一要判断一个用户是否是黑名单用户,首选会以用户ID作为Key,在本地查询该用户是否在黑名单内,若命中,则返回。若未命中,则通过匿踪查询技术,向银行一、银行三、银行四查询用户ID是否在在黑名单内,返回结果。业务流程如下图所示:
图:运用匿踪查询技术查询黑名单业务流程图
(3)方案效果
表:应用RealSecure前后银行反欺诈效果差异
模型效果方面,在横向联邦反欺诈场景中,银行A、银行B在本地构建的模型,AUC值分别为0.71和0.72,KS值为0.31和0.32,而通过RealSecure平台构建的模型AUC和KS分别是0.74和0.35,一定程度上为行方反欺诈业务带来了显著的指标提升。性能方面,银行A和银行B分别提供百万级别的训练样本,平台每进行一次联邦建模的总耗时仅在分钟级别内,接近模型本地训练的性能。
(四)金智塔科技
在零壹财经调研接触的案例当中,金智塔科技的隐私计算产品是屈指可数的由国家重点研发项目转化的成果。金智塔科技由浙江大学人工智能研究所和浙江大学互联网金融研究院联合孵化的国家高新技术企业,是国内领先的隐私计算行业服务商,致力于大数据和隐私计算领域的技术攻坚,为金融机构、政府、大型企业提供数字化转型解决方案,拥有三十余项专利和软著并先后通过CMMI3、ISO9001、ISO27001、工信部隐私计算评测等资质认证。公司由斯坦福大学访问学者、浙江大学人工智能研究所博导创立,核心团队来自浙大、阿里、蚂蚁、网新、同花顺、挖财,具有丰富的实践运营经验。
1、金智塔隐私计算解决方案
“金智塔”隐私计算平台是国家重点研发项目“大数据征信及智能评估技术(2018YFB14030003 )落地成果。
金智塔科技作为早期得到国家重点研发项目支持,开展多源多模态数据融合与跨域联合建模的企业,与浙大、清华、北邮、中科院、国家计算机网络与信息安全管理中心、浙江省农信联社等共同研发打造“大数据征信服务平台”,平台已汇聚包括征信、房产、发票、知识产权、移动运营商等海量权威数据合作伙伴,同时结合公司丰富的行业经验,平台内嵌了支持多应用场景的常用联邦学习和多方安全计算模型,实现了数据分级分类管理、数据质量审计、模型效果审计、数据应用存证等数据安全与隐私保护全流程管理。具有节点扩展成本低、部署迭代便捷、运算效率高、算法扩展灵活等优势。经工信部信通院最新评测结果表明,全部指标位于行业头部,部分指标位居第一。
目前该平台已在金融智能风控与智能营销、政务数据合规共享、传统产业数据资产建设与数字化转型等领域实施运营,助力数智化应用,推动数字经济发展。
图:金智塔隐私计算平台框架
此外,由于学术背景深厚,金智塔科技在基础研究方面实力较强。金智塔科技目前为2021年人民银行杭州中心支行研究课题《金融科技伦理发展背景下的数据治理问题研究》。项目研究成果将推进央行金融数据综合应用试点,推动金融科技伦理体系建设及数字治理高质量发展。
2、金融科技实战经验丰富
在进入隐私计算领域之前,金智塔科技在金融科技的实际应用方面积累了丰富的经验,这也为金智塔科技的隐私计算产品在金融场景中更好地落地打下了坚实的基础。
2019年5月,金智塔科技推出“知他”一站式大数据分析建模服务平台,运用大数据、人工智能技术,深入业务场景,实现在营销、风控、运营等方面的智能化应用,推动金融机构数字化转型。这是金智塔科技在为多家银行提供建模的经营积累基础上搭建的平台,提供营销和风控两大类模型。
基于这个平台,金智塔科技推出一些列产品,包括“知他”企业贷款、“知他”房产贷、“知他”房产贷、“知他”智能营销、“知他”智能建模、“知他”大数据建模平台。
3、落地成果与未来展望
金智塔隐私计算平台经过多年技术积淀,不仅服务于金融领域,同时也在智慧政务、智慧产业等领域产出丰富落地应用效果。
金融智能领域,已将基于金智塔隐私计算的联合智能授信推广到数十家农商行、城商行和股份制银行,取得了良好的社会效益和经济效益。同时,还为多家机构开发了联合智能营销解决方案,受到了金融机构的欢迎。
智慧政务领域,金智塔隐私计算平台通过与省市数据管理部门和业务管理部门合作,在政务部门内部数据共享、数据交换、数据校验等方面提供隐私保护技术支持,同时为政务数据的社会开放提供解决方案。
智慧产业领域,金智塔隐私计算平台依托其技术优势,积极赋能传统产业转型升级,近年来在零售企业智慧选址、销售预测、智能营销推荐等领域逐步积累经验,助力企业数据资产建设,赋能企业数字化转型。
(五)天冕科技
天冕科技是金融科技集团WeLab汇立集团旗下一站式金融科技服务商。在入局隐私计算的厂商当中,天冕科技是有深厚智能风控业务积累的非常典型的厂商。
金融科技集团WeLab汇立集团创立于2013年,运营亚洲首批持牌虚拟银行——WeLab Bank(汇立银行)以及提供其他纯线上消费金融服务。在过去八年中,WeLab汇立集团自主研发的多维度风控系统WeDefend在业界已经颇有声望。
早在2017年,天冕科技的前身、WeLab汇立集团旗下一站式金融科技服务商“天冕大数据实验室”已经开始密切关注隐私计算的进展,并于2019年启动研究,2020年下半年开始尝试将隐私计算产品落地。
天冕科技的隐私计算服务有几个显著的特点:
第一,有硬核科技支撑。隐私计算技术的应用,技术难度较大,需要硬核科技的支持。厂商要在场景中做好服务,是对自身科技实力的考验——因为在场景应用中,有不少复杂难题需要解决,要解决这些问题,必须将技术中的难点攻克。
天冕科技的隐私计算业务一直坚持自主研发和创新,目前在隐私计算方面已经积累了11项专利。
表:天冕科技隐私计算相关专利列表
资料来源:天冕科技
这些专利聚焦于解决技术应用过程中的复杂难题。这些难题主要分布在三个方向上,即如何提高产品的安全性、性能和效果。
天冕联邦学习平台就应用了多项业界首创技术,譬如支持轻量级、一键部署的计算框架——函数计算。具体来说,市面上现有的联邦学习产品,其计算框架层大部分集成的都是计算引擎Spark(Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎),使用Spark可为建模过程中提供高效的运算,但是部署一套Spark集群相对来说,比较耗时、耗力,且大部分情况是使用云服务器,从而导致联邦成本比较高。WeFe平台另辟蹊径首创支持在为用户提供Spark集群的基础上,还可选择使用函数计算,从而实现弹性计算,动态扩展资源,节省成本、提高效率。
再比如,其中一项专利是“基于联邦学习的建模数据集推荐方法”。
联邦学习是由多方参与进行联合建模,在建模过程中需要联邦成员去根据各方的数据集简述,选择各方都认可的数据去进行联合建模。这种数据集简述比较片面,只能反馈一个大概,没有建模成功的案例参考,在双方认可后需要反复去建模尝试才找到自己满意的数据集,这样导致参与各方建模效率不高。
“基于联邦学习的建模数据集推荐方法”,通过对用户自身画像和每次建模后的结果记录以及反馈进行权重划分,计算出一个用户评分,根据用户所属领域、数据类型等条件进行评分排序,将评分较高的可用数据集推荐给需要进行联邦建模的参与方。这样做可以使建模各方能够快速找到需要去建模的数据集,并且能够快速的达到建模效果,减少建模的尝试次数。
这种方法可以将匹配率高的数据集推给参与方进行建模,方便各参与方选择匹配的数据集,提高建模效率。
第二,有丰富的智能风控经验。
过去八年,WeLab汇立集团已经拥有近5000万用户以及超过700家企业客户。WeLab汇立集团自主研发的大数据风控系统WeDefend在业界已经树立了品牌。中国邮储银行的首个互联网信贷产品“邮e贷”正是与天冕科技合作推出。
目前,在用户侧,天冕科技已经与10多家金融机构建立了合作,合作的内容主要是联合数据提供方,在各方数据不出私域的情况下,进行联合风控建模和联合营销。
下沉市场是金融机构未来拓展新客户的关键,而对下沉市场风控的把握正是WeDefend的强项。
风控经验在金融隐私计算的应用中非常关键。数据在金融风控领域的应用非常复杂,哪些数据和算法对提升实际业务价值最大,这些数据和算法应当如何运用,只有通过大量的实际业务运行才能掌握。同时,在实际应用中,如何从大量的数据提供商中挑选中真正优质的供应商,也是必须用真金白银和长时间的经验教训去换取的。
第三,“开包即用”,采用低学习成本、简易的可视化操作。
早期的隐私计算产品,使用起来比较复杂,需要编写代码。但是天冕科技的隐私计算平台实现了可视化操作,极大地降低了产品的使用和操作门槛,使得许多初级的算法和建模人员也能很方便地应用产品。
图:天冕联邦学习平台WeFe操作界面
资料来源:天冕科技
第四,将性价比做到极致。
在让产品好用的同时,天冕科技穷尽一切努力降低产品的价格。要将产品的性价比做到极致,是对厂商巨大的考验,这需要隐私计算厂商将那些经过实践检验最有用的产品功能做到最好,同时还要舍弃产品的很多设计,将价格降到最低。
比如,现在有隐私计算厂商开发出许多看上去非常酷炫,然而在风控实战中不一定能用到的算法,因为其大幅度提高了产品的价格。天冕科技则主要输出那些在风控实践中被验证过的最有效的算法。
再比如,现在要优化隐私计算的性能,有非常多的途径可以做到这一点。其中,用加速卡和专用芯片提升性能的成本较高,天冕科技优先采用了成本更低的通过GPU加速的方法。
隐私计算在金融市场的推进节奏
2021年,隐私计算开始在真实商业场景中全面落地。但是,这距离隐私计算市场的全面爆发还有距离。
根据零壹智库的调研,我们目前看到的原因有如下几个方面:
第一,是隐私计算技术自身的原因。
首先,性能的提升需要时间。
对隐私计算的大规模商业化应用来说,隐私计算性能的提升至关重要。因为它决定着隐私计算的数据处理效率,进而决定着隐私计算进入实际应用场景的可行性。
但是,性能的提升不是一蹴而就的。一方面,性能的提升需要大量的资金投入,对许多团队来说,需要兼顾商务落地与技术提升,即边赚钱、边研发,因此这将是一个根据实际需求的渐进的过程;另一方面,性能的提升也是由需求拉动的。隐私计算目前尚处于市场开拓初期,应用场景比较简单,处理数据量还不大,未来应用越来越多,需要处理的数据规模越来越大,对算力、性能的需求会更强。
其次,隐私计算的安全性要建立标准、赢得市场信任还需要时间。对于隐私计算的安全性,目前行业内缺乏统一的标准。目前,市场上已经出现一些不规范的操作,这有可能使得隐私计算在赢得信任方面走一些弯路。
再次,从业务效果来说,由于数据流通市场尚未成熟,所以数据的开放程度仍然有限,导致具体业务场景中可应用的数据资源也有限,这使得应用隐私计算技术为业务带来的提升效果目前还没法充分体现出来。
第二,是隐私计算产品价格与市场接受度的原因。
首先,目前隐私计算产品落地速度缓慢。虽然今年隐私计算平台开始规模化落地,但是总体来看尚处于初期,大多数厂商目前还处于一对一地为客户提供解决方案的阶段,产品还没达到可以大批量复制的程度。
其次,因为目前大多为一对一提供解决方案,所以隐私计算产品成本较高,这使得价格一时无法降下来。价格要降下来,需要产品达到可以标准化复制的程度才可以。
再次,隐私计算产品要被市场接受,需要经历一个市场教育的过程。零壹智库在调研中发现,不少金融机构的风控部门目前并没有意识到隐私计算能给业务带来多少提升。许多机构对隐私计算产品的采购,需要考虑其能带来的业务增量收益,要对比成本与收益。目前隐私计算的产品价格相对于收益来讲,对一些业务体量不大的机构还不太划算。因此,许多机构对是否采购隐私计算产品仍处于观望状态。
第三,从市场宏观环境来看,要分析隐私计算市场的发展,首先要看数据流通市场的发展,目前数据流通市场的发展尚未成熟。
目前,隐私计算厂商的收入主要是软件系统的销售收入,这只是隐私计算市场极小的一部分。未来,隐私计算更大的收入来源于数据的流通使用。因此,数据流通市场的成熟度,对隐私计算市场的发展至关重要。