黄益平:大数据如何共享?
2022-09-01 09:04:57
2022年4月,我在博鳌亚洲论坛期间主持了一场关于数字经济的讨论,在会上博鳌亚洲论坛副理(lǐ)事長(cháng)、中方首席代表,中國(guó)金融學(xué)会会長(cháng)周小(xiǎo)川提出用(yòng)安全算法手段克服國(guó)际间数据难以完全自由流动的矛盾,借用(yòng)他(tā)的话,可(kě)以理(lǐ)解為(wèi)“数据不出境,但分(fēn)析结果可(kě)以出境”。这个思路对我有(yǒu)很(hěn)大的启示,当前欧美國(guó)家正积极推动國(guó)际数字贸易规则的制订,提出了数据跨境自由流动的主张,但这对包括中國(guó)在内的其它一些國(guó)家来说构成了挑战。如果基于國(guó)家安全等考虑做不到数据自由流动,就可(kě)能(néng)会对这些國(guó)家参与國(guó)际数字贸易形成制约。周小(xiǎo)川的思路為(wèi)化解这个矛盾提供了一个解决方案,就是用(yòng)分(fēn)析结果的流动替代原始数据的流动。这个思路也打开了我对國(guó)内大数据共享问题的思考空间。
“数据是数字经济时代的石油”,现实中大数据应用(yòng)的成功案例已经非常多(duō),包括产品的精准营销、服務(wù)的个性化方案以及信用(yòng)风险的有(yǒu)效评估等。大数据分(fēn)析可(kě)以帮助提高经济效率,改善用(yòng)户體(tǐ)验,扩大经营规模,促进经济与社会的创新(xīn)与发展。大数据已经成為(wèi)当前经济中十分(fēn)重要的生产要素。到目前為(wèi)止,大数据多(duō)是在大科(kē)技平台上产生的,因而大科(kē)技公司是大数据分(fēn)析的主要实践者。
如果大数据可(kě)以共享,大数据分(fēn)析的红利就会更大。可(kě)能(néng)就是出于这个考虑,最近几年政府在一些领域推动数据共享。设立几家大数据征信公司的目的,应该就是為(wèi)了让更多(duō)的商(shāng)业银行利用(yòng)大数据信用(yòng)风险评估的手段。不过,作為(wèi)特殊的生产要素,并非所有(yǒu)的大数据都是可(kě)以拿(ná)出来共享的。在这个前提下如何达成数据共享的效果,确实需要做创新(xīn)性的思考。
讨论数据共享,首先要面对数据权属的问题,即数据归谁所有(yǒu)?传统生产要素如资本和土地的有(yǒu)效利用(yòng)都是基于一个前提,就是清晰地界定产权。但这个做法很(hěn)难简单地套用(yòng)到大数据,直接的原因是一些大数据的权属很(hěn)难被清晰地界定。比如用(yòng)户在平台上点外卖、看短视频的数据,既包含个人的一些信息,但同时也有(yǒu)平台支持的線(xiàn)上活动。显然,在这个实例中,要在用(yòng)户和平台之间划清楚数据的所有(yǒu)权界線(xiàn),难度非常大。一个合理(lǐ)的解决方案是涉及个人特性的数据归个人所有(yǒu),用(yòng)户在平台上活动留下的数字足迹可(kě)以归个人和平台共同拥有(yǒu),与个人基本上没有(yǒu)关系的数据则可(kě)以归平台所有(yǒu)。
在现实生活中,数据确权还面临一个挑战,就是要在权益保护与使用(yòng)效率之间取得一个平衡。中國(guó)和欧盟的实践提供了两个对应的典型案例。过去中國(guó)缺乏有(yǒu)效的数据治理(lǐ)政策,既没有(yǒu)确权,保护也不足。这样,一方面,利用(yòng)大数据分(fēn)析的创新(xīn)活动十分(fēn)活跃,但另一方面,各种违规、违法的行為(wèi)也十分(fēn)普遍。因此,最近几年政府采取了许多(duō)措施,加大数据保护的力度。欧盟在数据保护方面一直做得比较早、也比较好,美中不足是由于限制比较多(duō),基于大数据分(fēn)析的经济创新(xīn)相对不活跃。因此,数据治理(lǐ)特别是确权需要秉承一个原则,就是既要保护权益,也要支持创新(xīn)。对数据确权要特别重视平台的贡献和权益。
讨论数据共享还要面对适合性的问题,什么数据可(kě)以共享、什么数据不能(néng)共享?从原则上说,起码有(yǒu)三类数据不能(néng)共享:一是个人隐私,二是商(shāng)业机密,三是國(guó)家安全。个人的姓名、年龄、性别、教育水平、家庭住址、联系方式等均属于个人隐私,应该明确归属于个人所有(yǒu),当然也不能(néng)轻易分(fēn)享。业内常见的做法是对行為(wèi)与交易数据做脱敏处理(lǐ),分(fēn)析师无法追溯到具體(tǐ)的个人或者人群。同样,如果事关商(shāng)业机密和國(guó)家安全,数据也不能(néng)随便披露。就这些大的原则达成共识并不难,难的是在执行过程中如何把握。以國(guó)家安全為(wèi)例,如果范围划得宽泛一些,那也许可(kě)以认定绝大部分(fēn)数据都有(yǒu)一定的敏感性,即便像公众打車(chē)、叫外卖甚至看短视频这样的数据,也不排除能(néng)分(fēn)析出一些人群行為(wèi)方式的变化。所以,如何恰当地把握这个度,同样是一个极大的考验。如果标准设定得不够严格,可(kě)能(néng)会造成不少隐患。但如果标准卡得太严,大数据分(fēn)析也就无从做起。
讨论数据共享,最后需要回答(dá)的问题是,如何共享?大数据其实有(yǒu)非常适合共享的特点,就是可(kě)以无限制地复制。这是数据要素与传统生产要素的一个根本差别,无论是资本还是土地,如果已经有(yǒu)一家企业在使用(yòng),别的企业就无法同时使用(yòng)。但大数据不一样,如果需要,一套数据可(kě)以供无数家企业同时使用(yòng),或许这也正是大数据分(fēn)析能(néng)够产生超常回报的原因。但这个优点也会引发一个缺点,就是数据的拥有(yǒu)者如何保证購(gòu)买者不会复制数据给其他(tā)人使用(yòng),如果不能(néng)保证,那么拥有(yǒu)者也就只能(néng)出售一次,大数据共享所产生的回报很(hěn)难完全内部化。这样,拥有(yǒu)者就很(hěn)难有(yǒu)足够的激励和资源去从事费时费力的搜集、清理(lǐ)和分(fēn)析工作。大数据若没了生产,共享也就无从谈起。
在现实生活中已经有(yǒu)公共数据共享的实例。所谓公共数据,主要是指由公共部门积累的大量静态数据,典型的例子是税收、社保、司法甚至水電(diàn)等数据。这些数据已经形成,也不需要相关部门再做额外的投入。目前一些地區(qū)通过建立地方性的数据平台,整合已有(yǒu)的公共数据,支持商(shāng)业银行的信用(yòng)风险评估,為(wèi)中小(xiǎo)企业提供贷款,取得了不错的效果。广东省、浙江省、苏州市和淄博市等尝试建立的平台形态不同,主导机构也不一样,甚至覆盖的数据也有(yǒu)很(hěn)大的差别,但这些实践有(yǒu)一个共同的地方,就是向商(shāng)业银行共享公共数据,支持普惠金融业務(wù)。
特别需要指出的是,即便是这类共享公共数据的平台,其实也没有(yǒu)共享原始数据。平台的功能(néng)只是提供一个接口,让获得授权的银行算法工具进入不同的公共数据库进行运算,获得结果。换句话说,这些金融信息服務(wù)平台所做的,实质上就是周小(xiǎo)川所提出的思路,“原始数据不出系统,但分(fēn)析结果可(kě)以出系统”。“公共数据”不能(néng)出系统,有(yǒu)权益的考虑,也有(yǒu)安全的考虑。但这个理(lǐ)由对于大科(kē)技平台上的大数据则更加突出。因為(wèi)大多(duō)数公共数据是静态的,什么时候交过多(duō)少税、交过多(duō)少水電(diàn)费,在系统内使用(yòng),还是在系统外使用(yòng),差异不大。但大数据是动态的,如果分(fēn)割之后离开系统,可(kě)能(néng)就很(hěn)难产生同样的大数据分(fēn)析功效。
最近有(yǒu)一种观点,既然大数据是一种新(xīn)的生产要素,既重要、又(yòu)敏感,因此最好能(néng)由政府部门或者國(guó)有(yǒu)企业掌握。这种想法有(yǒu)一定的合理(lǐ)性,因為(wèi)在现实中,民(mín)营企业在数据处理(lǐ)方面的不合规、不合法行為(wèi)确实非常多(duō)。当然,几乎所有(yǒu)的大科(kē)技公司都是民(mín)营企业,这也是事实。但解决合规合法问题的有(yǒu)效途径是加强监管,而不是把数据集中到國(guó)有(yǒu)部门。数据如何才能(néng)集中到國(guó)有(yǒu)部门,这个技术问题就不好解决。即便能(néng),國(guó)有(yǒu)部门行為(wèi)的合规性比较高,但创新(xīn)性却普遍比较低,这样大数据分(fēn)析的活力也就丧失了。最佳甚至唯一的解决方案是加强对民(mín)营大科(kē)技公司的监管,事实上,最近两年,数据保护的法律、制度频频出台,大科(kē)技公司的数据保护意识已经大大加强。即便學(xué)者从事學(xué)术研究,获取数据的难度也明显提高了。
总之,千万不要套用(yòng)传统生产要素的管理(lǐ)方法去管理(lǐ)数据生产要素。无论是确权,还是共享,都需要适应数据特性的思路,根本目的是在保护相关方权益和发挥大数据效用(yòng)之间取得平衡。大数据共享是一个值得向往和努力的方向,但在实施中要避免简单粗暴的做法,尤其不能(néng)只是把数据分(fēn)享给大家。事实上很(hěn)多(duō)原始数据是不能(néng)拿(ná)出来的,这其中有(yǒu)个人隐私、商(shāng)业机密和國(guó)家安全等方面的考虑,也是因為(wèi)数据复制的成本非常低,更重要的是很(hěn)多(duō)数据一旦离开其原生的平台系统,其价值就会大打折扣甚至变得一分(fēn)不值。所以,推动共享的合理(lǐ)做法是建立数据共享平台,需要使用(yòng)大数据的机构可(kě)以通过平台提供的接入口,利用(yòng)大科(kē)技平台的原始数据进行运算,然后输出结果,即“原始数据不出系统,运算结果出系统”。这就是我从周小(xiǎo)川在博鳌亚洲论坛提出的思路获得的启示。
来源:北大國(guó)发院网/黄益平 (北大國(guó)发院副院長(cháng)、数字金融研究中心主任)
相关热词搜索:大数据
上一篇:杨涛:金融科(kē)技发展需把握好三大要素
下一篇:李文(wén)红:支持具备资质外资机构参与北交所股票承销、交易产品设计