股票跟投平台 可信数据空间是“有围栏的数据沙箱” 机械制造、汽车等行业有望率先建设

发布日期:2025-02-21 23:26    点击次数:134

股票跟投平台 可信数据空间是“有围栏的数据沙箱” 机械制造、汽车等行业有望率先建设

大企业股票跟投平台,想开发数据又担心数据泄露?

小企业,想用数据却不会用,还没有渠道?

别担心,可信数据空间将有效解决这些问题。国家数据局发布《可信数据空间发展行动计划(2024~2028年)》,这是国家层面首次针对可信数据空间这一新型数据基础设施进行系统布局,将实施可信数据空间能力建设行动,开展可信数据空间培育推广行动。

为什么要加快发展可信数据空间?它可以解决哪些问题?跟我们普通人又有怎样的关系……带着这些问题,《每日经济新闻》记者(以下简称NBD)专访了中国工程院院士、中国工程院原副院长邬贺铨。

作为我国通信与信息系统领域的杰出专家,邬贺铨是中国最早从事数字通信技术研究的骨干之一,多次参与了中国通信发展的决策。

在邬贺铨看来,可信数据空间就是一个“有围栏的数据沙箱”,数据使用方以数据“可用不可见”的方式互惠或有偿使用数据。建设可信数据空间就是要解决多个难题,包括数据流通、共享和利用的问题,同时消除对数据泄露、网络安全和个人隐私保护的担忧,并且可以解决跨境数据流动中的合规性问题。

他表示,目前可信数据空间在国际上尚无体系化部署和应用的经验,德国的汽车行业在做,但也尚未大规模推广,中国也会先做一些试点。可信数据空间建成后,对企业来说,有利于数字化转型;对政府数据来说,可以更好地开放利用。

很多企业在数据使用上存在不会用等难题

NBD:您提到,目前可信数据空间在国际上尚无体系化部署和应用的经验,那我国提出来发展可信数据空间是出于什么考虑?它主要是为了解决什么问题?

邬贺铨:近年来,人工智能发展迅速,其发展需要算力、数据、算法来共同支撑,人工智能的快速发展更进一步凸显了数据的重要性。中国高度重视数据,并首先提出数据是生产要素。过去支撑经济增长的主要生产要素是土地、劳动力以及全要素生产率(即科技贡献)等,这几年传统的全要素生产率和劳动力的贡献均有所下降。因此,我国提出了数据驱动的数字化转型战略,旨在发挥数据的作用。

中国拥有庞大的人口和全球最多的工业门类,从这个意义上说,我们生活和生产的数据量巨大。因此,发挥数据作为生产要素的作用是一个正确的方向,也是我国未来经济发展的希望所在。

然而,很多企业尽管有数据,但在数据使用上存在几个问题:首先是不敢用,由于担心数据泄露,大企业认为其数据与国民经济密切相关,不能随意使用。而且许多大型央企拥有大量数据,但在数据挖掘能力上仍然不足。本来正确的方向是与具有这种能力的信息技术企业合作,但又担心数据拿出来会泄密。

其次是不会用,特别是很多中小企业,有一些数据,但是不知道怎么用。即便政府开放了一些数据,但开放的数据真正被利用的比例仍然很低,因为要充分利用好这些数据,也有技术门槛。

第三,一些单位不一定不会用,也不一定不敢用,它拥有的数据本来应该是可以开放的,但是它想垄断,以不安全为借口不去共享,这是“不愿用”。

另外就是没数据。很多企业的数字化改造尚未达到较高水平,没有数据可用。当然,没数据不等于不想用行业的数据和社会的数据,是缺乏获取这些数据的途径。因此,尽管中国表面上拥有全球最多的工业行业数据,但实际上利用率很低。有资料表明,中国每年产生的数据只有不到3%被存储,被利用的比例更低。

尽管语言数据很多,但存储下来的不多,能够被公开检索的更是少之又少。中国的语言数据库,一些高校和研究机构中有,但并不开放,开源的很少。ChatGPT训练时需要全球各种语言的数据,其中中文数据仅占千分之一,比例非常低。因此,很多国内公司在开发大模型时使用的是美国开源数据库的数据,这其实存在价值观对齐的风险,他们的数据并不一定都是安全的。

所以,可信数据空间的提出就是要解决数据流通、共享和利用的问题,同时消除对数据泄露、网络安全和个人隐私保护的担忧。此外,在未来跨境数据流动中,还需确保合规性。这是可信数据空间提出的愿景。

可信数据空间是“有围栏的数据空间”

NBD:文件中明确了可信数据空间的定义,如何通俗地理解可信数据空间?在这个空间里可以干什么?

邬贺铨:可信数据空间实际上可以被视为一个“有围栏的数据空间”,在这个空间内,可以放入加密和非加密的数据,但访问这些数据需要经过接入认证。在这个空间内,相关主体可以利用算力支持,引入大模型进行计算,提取有用信息,计算结果可以带走,但数据本身无法带走。这是一个“有围栏的数据沙箱”,数据不出域,相当于一个货物的保税区或自贸区,货物放入其中,在这里可以有很多工人进行生产加工,加工的最终成品可以拿出去,但最原始的东西是拿不走的。

可信数据空间有什么用处:第一种,比如大企业自己有数据,但未能充分利用,那么大企业就可以和互联网企业或者具有大模型能力的企业合作,与其签订合同,你可以进入我的数据空间,用你的大模型按我的要求帮我分析这些数据。比如石油企业拥有大量地下探矿得到的地震测绘图形和视频数据,要想知道哪里有油、有多少,人工分析效率很低,企业就希望使用大模型来分析数据,并给出明确结论,比如这个井有没有油、大概有多少油。

这些数据在空间内无法带走,企业不必担心数据被泄露。同时,分析过程中的数据可以是加密的,企业可以与合作伙伴共享密钥,但未经允许,合作伙伴无法再次使用密钥,下次密钥又变了。比如采用同态加密技术,合作企业可以进来对加密数据进行计算,其计算的结果与对不加密的原始数据进行计算是一样的,这种即使合作企业知道了加密密钥,但是没有大企业的密钥配合也无法使用。所以这完全是一种可控的、可以放心地将数据与他人进行合作计算的方式。

第二种,比如产业链的龙头企业希望掌握上下游企业的生产和库存数据,“全线拉通”就可以实现整个供应链的精准生产,我需要多少你生产多少,这样就可以做到上下游企业零库存、少库存,也能更准确地知道资金的需求量,进而提高整个产业链的效率。但是对产业链上下游的企业来说,要把所有数据都告诉这个龙头企业,很多企业也很担心,因为这一家企业可能同时是几个不同龙头企业的供应链企业,一家龙头企业掌握了是不是其他家也会掌握?利用可信数据空间就可以解决这种问题,所有企业的数据都可以放入空间,我只是要得出一个优化排产的方案,这对产业链上的企业都有利,而并不会泄露上下游企业的原始数据。

第三种,政府拥有大量高质量数据,比如户口信息。这些数据非常重要,比如一个小区有多少老人、有多少适龄儿童,这对安排学校、养老院和医疗机构非常有用。当然,政府在公开数据时,需要进行脱敏处理,以保护个人隐私。

尽管政府数据现在公开不少,但是能用的很少。要会用这些数据,也有一定门槛。普通人即便看到这么多数据也不会用,所以将数据放到可信数据空间,不但要解决脱敏问题,还要提供很多附带的开发数据的软件。

例如政府公布了北京市某个区的相关数据,我如果想要查看不同年龄段的人口比例,再跟全市不同区域老龄人口、学龄儿童、学龄前儿童的比例及相对应的养老机构、小学、托幼机构分布等结合,靠人去算工作量很大,如果这里面有一些工具软件,只要使用者提出需求,就可以自动生成相应的图表。比如我要买房子,位置选在哪里合适?最近各个片区房价怎样?这些都可以分析,从而帮购房者作出决策。这也是可信数据空间的一个作用。

第四种,企业在进行国际贸易时,需要跨境传输数据。国家对出境数据有管理要求,特别是涉及个人信息和隐私的数据。企业要跟境外通信,但是又担心不合规,因为目前对出境数据的要求是即便数据不包含机密信息,接收方经过审查是合格的,但是出境以后的数据仍然要可控。接收方不能把数据再转给别人,并且只能为其商业目的应用,而不能用于其他目的。

通过可信数据空间就可以解决类似问题,数据可以加密传输,接收方可以解密使用。一旦违规,企业可以远程更改数据密钥,使接收方无法访问。这样,即使数据出境,也能实现“长臂管辖”,满足跨境数据合规的要求。因此,可信数据空间既能促进数据流通应用,同时又能保证数据安全,避免泄露隐私,并符合跨境数据合规要求。

有加密和解密计算等八个功能

NBD:可信数据空间有哪些功能?

邬贺铨:概括来讲,可信数据空间有以下八个功能:

一是数据源和数据接入者的身份验证。进入这个空间要进行审查,不是谁都能进来。

二是数据目录。这个空间里有哪些数据要有个目录,方便查找。现在政府开放了很多数据,实际上没有给目录,所以使用者是不好查找的。

三是数据脱敏处理。举例来说就是只能让大家知道这个小区的群体数据,而不涉及具体的个人。

四是数据格式转换。数据有文本、图表、照片、视频、PDF文件、Excel文件等不同类型和格式,空间里可以提供格式转换工具,方便数据应用。

五是提供数据开发工具。比如通过低代码方法可实现仅用鼠标拖拉软件就可以生成一些简单的分析,一般人是不具备这些工具的,空间里可以提供。

六是提供加密和解密计算。

七是提供数据安全软件。可信数据空间也要防止外部攻击、窃取数据等。

八是有偿应用时要进行一些结算、清算。

通过提供这些功能,可信数据空间就可以免除大企业的后顾之忧,同时能辐射到很多没有数据的中小企业,从而更好地激活数据。所以国家推动发展可信数据空间,就是要落实发挥数据作为生产要素的作用,真正驱动数字化转型。

当然,要实现这些目标,需要一些体制机制的配合,但可信数据空间提供了一种技术手段,可以让大家免除不敢用、不会用和没有数据的担忧和难题。

要对数据的提供者和使用者认证

NBD:刚才您提到并非任何人都能进入可信数据空间,需要对数据进行认证,那是谁来对数据进行验证呢?

邬贺铨:这个数据空间将来要有标准,不是对数据进行认证,而是对数据的提供者和使用者进行认证,进入空间需要登记。我们不核对数据是否准确,因为没有这个能力,比如工业上的数据怎么能核查里面哪个对哪个不对?数据源提供者需要对其提供的数据负责,不能放入错误或虚假的数据。因此,放入的数据将有标记,比如A公司提供的数据,具体存在哪个位置会有标记,如果使用A公司提供的数据计算结果总是错误,说明A公司有问题,最后可以追溯到A公司。另外,A公司提供的数据,大企业要请互联网企业进来帮助计算,企业信任并与之签订合同的互联网企业可以进入,未签订合同的企业不能进入,这是可以识别的。

NBD:所以并不是有一个专门的机构(独立的第三方)来进行认证?

邬贺铨:不需要。企业之间的数据存在供方和需方,有协议、合约关系,没有协议的第三方就不能进来。当然,政府的数据是开放给公众的,那就不需要有接入认证,只要登记即可使用。

NBD:可信数据空间是不是类似于一个“数据超市”,只要在超市内的数据就是合法的、受保护的,只要花钱就能用?

邬贺铨:不完全像超市,政府的数据面向社会公开,只要登记一下就可以用,这有点像超市,但是企业的数据不是超市,不是敞开的,谁进来是要有协议的,必须得是跟我这个企业签了合同的,你才能用我的数据。

NBD:以后是不是只要用这些数据就需要付费?

邬贺铨:可能付费,也可能免费。比如一个垂直行业的企业请一个互联网企业进来,这个企业反而要给互联网企业付费,因为互联网企业要利用他的知识、大模型等帮垂直企业进行计算。另一种情况,供应链的上下游企业,大家在一起,那是互利的,不存在付费问题。

但如果是行业内的联盟建设此类数据空间,把行业共性数据放进去,则涉及收费问题。比如机械制造行业很多零部件是通用的,完全可以把相关数据都放在空间内,将来只需要对不同零部件进行组合,相当于“工业淘宝”,行业中的企业可以在该平台上随便选用。这种方式可能收费,也可能不收费。如果零部件公司愿意展示相关零部件信息,以供大家选择,这样可以扩大市场,那零部件公司甚至要给平台付费。另外,零部件公司也可能提供一些设计图纸和软件工具,如果行业中的其他企业要调用这些图纸工具以简化其设计工作量,那可能就需要付费。所以根据不同的应用场景,收费也会有不同的模式。

可信数据空间是一个大模型计算的过程

NBD:《计划》提出主要布局企业、行业、城市、个人、跨境五类可信数据空间建设和应用推广。这五类可信数据空间的建设有没有优先级?

邬贺铨:政府应当带头。其次企业是主体,无论企业还是行业,都更有利于推动经济发展。我不太赞同将“个人”作为一个独立的类别,企业、行业和政府是可信数据空间的建设者,而个人不会建可信数据空间,此处提到的“个人”实际上是指专门提供个人数据的平台,这类数据需要特别重视脱敏处理。实际上,政府的数据就包含个人数据了。

跨境数据有特殊场景,对于有跨境需求的企业,他们需要进行跨境数据处理,但需求量不会很大。很多时候,企业自建的数据平台可能就已经包含了跨境管理能力,因此是否有特定必要一定建立跨境可信数据空间也是值得商榷的。

NBD:政府在可信数据空间的建设中扮演什么样的角色?

邬贺铨:掌握公共数据资源的相关部委以及地方政府,按照国家规定,在确保国家机密、企业秘密、个人隐私的前提下,原则上能够开放的数据都应开放。从另一个角度,国家在政策上鼓励和引导可信数据空间的建设,并进行规范管理。同时,还要督促建设可信数据空间的机构承担保障可信数据空间数据安全的责任。

NBD:企业参与可信数据空间建设的动力是什么?会不会增加它的成本?企业能否从建可信数据空间的过程中实现盈利?

邬贺铨:我刚才提到,许多垂直行业的企业拥有数据,但不会挖掘。他们现在需要建立可信数据空间,以吸引外部公司参与挖掘,而不是依赖可信数据空间来盈利,这是他们实现数字化转型的一个重要环节,数据盘活以后会直接提升企业的生产效率、降低成本,这些足以弥补企业的投资成本。至于在供应链中,如果能够在可信数据空间中实现零库存或小库存,所有参与者都能获益,因此并不需要单纯依赖可信数据空间来获得直接的投资回报。政府建立可信数据空间是出于义务,而不是直接追求回报。只有行业组织建立的可信数据空间,类似于“工业淘宝”,可以面向使用方或提供方收费,类似于阿里、京东这样的平台,也能运营得很好。

NBD:所以对企业来说,并不是建可信数据空间就有一个明确的商业模式。

邬贺铨:不是,绝大多数企业不是靠可信数据空间直接收回投资回报。除非行业的联盟可能需要从中回本。

NBD:建设可信数据空间成本会很高吗?

邬贺铨:对于许多大企业来说,它们已经拥有云,包括私有云、公有云等。实际上,可信数据空间主要涉及一些软件、网络安全能力的配套以及算力支持,在现有的基础设施上并不需要过多的投入。小企业是建不起的,因为它们能够投入的资源有限,并且缺乏影响力,作为供应链上的小企业,不可能让所有大企业都参与到其发起的可信数据空间建设中。

NBD:有没有一个大概可以量化的成本?

邬贺铨:这取决于空间的规模,可信数据空间规模有大有小,如果只放入少量数据来计算,现有的云平台算力就足够了,刚起步时也没必要非要建很大。比如垂直行业的大企业有私有云,在云平台上就可以做,无需额外的投入。实际上很多大企业已经自建了一些算力平台,虽然最初不是为可信数据空间建的,但是可以支持做可信数据空间。

NBD:所以可信数据空间里面是要进行大量的数据计算,其实是会消耗很多算力的,它消耗的算力跟大模型消耗的算力比如何?

邬贺铨:它就是大模型。企业有这么多数据,它可能会有大模型,也可能没有,需要让互联网公司带进来,企业有的模型基本上是跟企业所在行业相关的模型,而互联网企业带进来的是基础大模型,比如语言大模型、视频大模型等,这些模型企业是没有的。带进来以后,用企业的数据来进行优化、微调,所以可信数据空间就是一个大模型计算的过程,只不过吸引了外部公司来共同参与。如果企业什么都懂,那就不需要请互联网公司进来。

汽车等行业有望率先建设可信数据空间

NBD:在行业可信数据空间方面,文件提到了科技创新、农业农村、工业、服务业等领域,这些领域可信数据空间的建设重点有哪些?

邬贺铨:行业可信数据空间主要是由行业龙头、行业联盟或者行业中领先的研发机构来发起建设的可信数据空间,它们能够号召行业中供需双方的参与。显然现在有一些比较强势的行业联盟在这些领域中将发挥重要作用。像能源石化行业,中石油、中石化等企业规模都很大,它们完全可以自行建设,不需要联合建设。而像机械制造行业通用性比较强,制造行业本身比较分散,所以这种行业联盟发挥作用可能更大。包括汽车行业,以及目前比较热的风电、太阳能等产业,这些产业的上下游供应链很长,它们可能会率先行动。

NBD:刚才您也提到个人的可信数据空间,您怎么看个人数据在可信数据空间当中的应用前景?

邬贺铨:单一个体的数据属于隐私,但是无数个体的数据就构成了社会数据、公共数据,对国计民生具有重大影响。通过这些数据,可以了解人们的需求、年龄段分布、日常消费品的消耗量等,这些数据对市场分析等都十分有用。政府掌握的这些数据,在脱敏处理后应当且必须公开。

我不认为需要单独建立一个个人数据的可信数据空间,但可以理解为它是政府建设的个人数据空间的一部分,专门提供个人数据,为社会所用。

NBD:个人数据跟公共数据的关系是怎样的?

邬贺铨:个人数据就是公共数据。我刚才提到,脱敏后的数据不再涉及个人隐私,那就是社会数据、公共数据。个人数据是政府掌握的公共数据,无数的个人数据的集合就是公共数据。

NBD:普通人用这些数据是免费的吗?

邬贺铨:政府的公共数据都是免费的。即便个人不会直接利用这些信息来决策,公共服务机构也总会充分利用这些信息。比如发现某个地区不能做到15分钟生活供应,那就可以尽快建一个生活超市;分析某条城市公交线路什么时段乘客最多或最少,哪个站点上下站乘客多,交管部门就可以优化公交线路等。

NBD:在建设可信数据空间的过程中,会带动哪些产业的发展?

邬贺铨:建设可信数据空间直接服务于整个经济社会股票跟投平台,同时也会带动算力、算法、网络安全等相关产业的发展。