浙大教授杨小虎万向峰会演讲:「区块链 + 隐私计算」赋能数据要素流通
2023-09-21 11:55
万向区块链
2023-09-21 11:55
订阅此专栏
收藏此文章
今后对于区块链最大的应用场景就是 AIGC 面临的数据问题。


演讲:杨小虎,浙江大学区块链与数据安全全国重点实验室副主任、杭州高新区(滨江)区块链与数据安全研究院院长



大家上午好!刚刚的圆桌大家感觉像是在国外,我的演讲会把大家拉回到国内。我从另外一个维度,让大家感受下国内政府和研究机构在关注什么事情。在 2019 年以后,区块链已经成为了国家的战略。另外一方面,数字经济发展非常迅速。最近这几年又强调数据要素的流通,希望能赋能实体经济。那在这个当中,区块链可以干什么?


数据已经成为越来越多关注的话题,成为土地、劳动、资本、技术之后的第五大生产要素,中国也已经成为全球最大的数据体,每天会产生大量的数据。从最近多年的经济来看,数字经济已经成为了我们国家主要的经济形态,今后还会占据更主要的作用,发挥更大的作用。但是要让数据充分流转,发挥它的价值和作用不是那么容易。首先它面临数据的确权和定价困难,在座都是做区块链,肯定有深刻的体会。这个数据值多少钱,如何确权,这很麻烦。然后数据的流转和交易,也面临很大的困难。大家相互之间不可信,而且给了你一份数据后,我还有。第三,有大量的数据安全和隐私泄露风险,在这里已经有很多的实际案例,有公开报道,还有滴滴被罚事件,去年中国公民数据在暗网上的销售。这些问题都是数据要素流转面临的挑战难题。


在国家层面,也已经颁布了《数据安全法》、《个人信息保护法》,这些法律的发布也很明确划定了法律的边界,就是什么事情可以做,什么事情不可以做。如果数据要素要流转,必须能保证在法律体系框架内。我们根据前面的背景,问题和法律框架,我们是一个学术研究机构,叫区块链与数据安全全国重点目前实验室,是在国内唯一的有国家中央政府设立的全国重点实验室,在区块链领域。我们分析了前面的问题以后,认为要保障数据安全的前提下,实现数据高效的共享、有序的开发利用,就是数据要用起来,但是一定要保证数据安全和隐私安全,但面临着很多矛盾。


数据是开放的,开放带来非竞争性、非稀缺性、非排他性、非耗竭性。数据跟原有的四大要素很不同。要把它用起来,必然要解决两大问题,安全问题和资产化问题。安全的话,有很多法律条文要求。另外一方面,又要把它变成资产,如果不完成资产化,数据要素流转就面临很多问题。只有解决这两大问题,才能真正实现数据的高效共享,便捷地流转,低成本低开发立法。找了半天,我们发现区块链是一个很好的技术。因为区块链天生具有数据透明、不可篡改、不追溯等特性。之前是用来做数字货币,现在发现在数据要素的确权、流转和隐私保护上,是一个很好的支撑技术。我们探讨了一个路径,用区块链加隐私计算实现数据要素流转。


在数据要素流转过程中,从生命周期来看,包括数据的采集、治理、定价,最后是流转环节。这一系列环节中,存在很多技术问题需要解决。其中区块链可以全方位数字身份、任务协同、确权、授权、建权、追溯、溯源,这一系列事情是区块链非常擅长的事情。除此之外,特别是在流通环节,它和隐私计算结合起来,可以实现数据的流转,就是前面讲到的保证数据安全的前提下实现流转,同时可以保障市场化的要求。流转有两种场景,一种场景是明文流传,就是流通的双方和多方可以看到数据的明文。另外一种场景,数据不会让使用方看到,但同时又要发挥出数据的价值,这种场景单独靠区块链有困难,所以要把两种场景结合起来。


第一种是明文场景。


(一)、现在国内已经有很多解决方案了,用区块链已经可以做得非常到位了。通过区块链首先进行线上目录管理,比如一个区域里或组织里面,大家需要共享、交流的数据进行目录管理,这样用区块链做和用中心化系统做,有很大的不同。


(二)、是产权和确权,通过区块链来确权。


(三)、数据本身的流转还是通过链下点对点流转,但是这里的点对点流转跟传统意义上做法不一样,通过链上目录的管理和链上产权的确权,让它受到保护。


(四)、整个流传过程在链上会留痕,可以追溯。保障了如果数据出现了隐私泄露或数据非法利用时,可以进行追溯,找到其中不合规的地方。


这是第一种做法,也是比较成熟的解决方案。


后面几种做法,都是数据是不可以看到的,是隐私安全,是内文流转。一种是采用多方计算,隐私计算的技术发展,主要是三类技术。第一,多方计算 MPC,第二,可信硬件或可信计算环境。第三,联邦学习。这三类跟区块链结合起来,都有它应用的价值和可发挥的场景。


第一种,通过多方计算和区块链进行结合,因为通过多方计算,双方在不泄露所拥有数据的情况下,可以知道问题的答案,这是一个常见的多方计算的做法。多方计算的成熟算法和区块链结合起来,可以实现多方数据。当然数据可以通过区块链确权,也可以经过授权,一个是通过链上任务的协调,一个是通过线下任务的高效可信执行,可以实现数据的可用不可见。


第二种,技术是可信的计算环境。在数据流转环境地,我们称之为可用的数据沙箱。这类在政府系统用得比较多,因为很多地方政府设立数据局和大数据局,中央政府马上也会设立数据局。数据局可以做一个事,把各个部门、各个地区的数据集中在可信的计算环境里,数据在其他地方是看不到的。因为政府各个部门对数据的要求各不相同,公安的数据是绝对不可能提供给其他部门,但没有公安的数据,很多任务根本开展不起来。所以通过建立一个可信数据沙箱,建立一个数据可信流通的环节。在这里通过区块链来实现沙箱合约,有什么好处呢?知道你在沙箱里运行的计算任务是什么,因为大家知道你上了区块链和合约就不能随便改了,因为代码是可信的,另外还可以在里面实现安全的计算,这是第二种。


第三种联邦学习。联邦学习是随着机器学习的发展出现的。就是数据是分布的,模型是分布的,最后通过联邦学习给聚合起来。分布在各个地方的数据的真实性、原始性和确权,模型要进行可信的保护,如果模型被攻击,也会存在问题。在这个过程中用区块链可以实现多方可信训练,现在训练过程非常重要。如果训练过程存在安全漏洞,就会被攻击。模型参数的加密聚合,因为模型在训练过程中的参数,如果涉密,被别人知道,这也是有安全隐患的。


最后当然存在分润。因为联邦学习的数据、模型在各个地方,最典型的就是医疗场景。各家医院的 CT 数据不可能共享,不可能汇聚到卫健委,但是 CT 片是做模型训练和深度学习训练非常有价值的数据,怎么办呢?通过联邦学习。在联邦学习之前,通过区块链来实现数据的可信、模型的可信,最终实现收入的分润。


前面介绍了把区块链和隐私计算结合起来,提供的技术解决方案。下面看一下国内已经有的应用场景和案例。


第一,跨省域的政务数据的共享。在长三角的上海、江苏、浙江三个省市的交汇处,青浦、吴江和嘉善这三个地方经常发生治安案件,逃犯在上海,就跑江苏和浙江了,省与省之间的数据协调很困难,而且存在可信的问题。现在通过区块链实现三地数据的可信共享,来解决这个问题。


第二,外贸行业,外贸行业也是一个典型的多方参与,让数据实现可信共享。在浙江省通过商务厅牵头,建立了海关、税务、保理金融机构和市场监督局,再把企业管理起来,实现订单、保单等一系列数据的可信的协同共享。有两个方面,企业希望得到授信,获得贷款,银行在控制风险的前提下进行贷款。另外一方面,也可以进行风险的防控,不要出现其他问题。这些都可以通过区块链和 MPC 结合起来进行实现,而且比较好的效果,年的融资额达到了数千亿。这是典型的数字技术赋能实体经济的场景。


第三是金融行业,金融行业是区块链和隐私计算的典型场景,也容易取得效果。在金融行业有一个大场景就是查黑名单,防范风险。每个银行都有黑名单,或者也不一定到黑名单,比如会名单。黑名单会到央行,灰名单是还没到黑名单的程度,可能是拖欠的账款,可能要防范,但这个名单各个银行之间涉及到商业机密,不会共享。比如一个刚毕业的学生到我这里贷款,我非常想知道他在其他银行有没有不良记录。银行希望知道,但又不可能以明文的方式在银行的圈子里问。说不定把这个客户推给其他银行了,因为有可能这个客户是个富二代,家里有矿。最理想的情况是这样的,我在圈子里发出提问,但是别人是看不到这个客户的身份信息。别的银行看到这个请求以后,通过查询返回一个结果,就是 Yes 和 No,就是这个人有没有不良记录。提出请求的人得到了答案以后,也不知道是哪家银行给的答案,这是最佳结果。就是我提出请求,处理请求的银行业不知道是哪个人。它回答以后,看到结果的银行,也不知道是哪家银行提供的结果。这看起来好像不合理,但是在区块链隐私计算下完全可以完成,隐私计算就是通过密码学的方法来解决这个问题,现在已经做到了。就是通过区块链构建一个联盟在于这个上面再加上隐私计算的方法,银行与银行之间可以实现灰名单的共享,在完全没有泄露个人隐私的前提下,这已经取得了很好的效果。

最后一个案例也是在金融行业,如何通过金融数据的共享,实现多方数据共享以后,银行对优质客户或好客户更容易贷款,虽然这个客户没有东西抵押,没有人担保,对于不好的人可以防控。这是浙江省的案例。


前面的例子都是传统行业,相比峰会上讲的行业来说,比较传统。


那未来的机会在哪里呢?我们经过进一步分析认为,未来的机会非常大,就是 AIGC 的时代。这两张照片大家比较熟悉。这是用 Midjourney 生成的照片里,这两张广泛传播,第一张是中国情侣的照片,第二张是特朗普被带走的照片。在 AIGC 时代,峰会的主题叫 Web3。在这样的时代,数据的真实性、原始性是个很大问题,如果数据的真实性、原始性有问题,训练出的数据可信吗?你得到的大模型是可信的吗?大模型告诉你的答案是可信的吗?这都是问题。今后对于区块链最大的应用场景就是 AIGC 面临的数据问题。如果这些都可信,还面临资产化的要求。资产化要求就是我怎样可以获得收益,我提供了一个真实的数据,我怎样获得收益,这是另外一个话题。我们感觉到如果再进一步发展下去,这肯定是一个很好的方向。


我的报告就到这里,谢谢大家!

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

万向区块链
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开