首页 > 共享知识库

2021年的大数据趋势——数据融合与价值挖掘

本文2600字,阅读时间约4-6分钟。

2020年“新基建”将“大数据中心”定义为数字新基础设施的重要建设内容。2020年底,上海市发布了《关于全面推进上海城市数字化转型的意见》,鲜明提出要“再造数字时代的社会运转流程”,特别是引导企业实现基于数据的“决策革命”,引导市场重塑数字时代的认知能力与思维模式,推动政府以数据驱动流程再造。

根据中国信通院的《大数据白皮书(2020)》:企业运营中的数据只有56%能够被及时捕获,而这其中仅有57%的数据得到了利用、43%的采集数据并没有被激活,也就是说仅有32%的企业数据价值能够被激活。未来两年,企业数据将以42.2%的速度保持高速增长。

数据融合与数据价值挖掘

数据融合对于数据价值挖掘来说,具有重要的意义。数据融合利用需要标准规范先行,实现数据可见性、数据易理解性、数据可链接性、数据可信性、数据互操作性、数据安全性。同时其面临着建立数学模型的挑战,大数据挖掘面临算力与算法、数据样本准确性、小数据、人与数据融合的挑战

通过数据挖掘开发数据价值,发挥数据作为生产要素的作用,需要面对海量处理能力、云边端协同、建模、小数据、人与数据融合、数据自身安全、隐私与商密保护等的挑战

在跨企业数据融合时,还要保证数据能共享但敏感数据不外泄,需要建立新的数据隔空分析机制,以虚拟的黑箱使得数据既不脱离所在单位的管理又能被授权的其他单位调用,现有基于黑盒子的可信计算环境方式,但仍需证明第三方的可靠性。

在创新数据流通技术手段方面,联邦学习是一种重要的机器学习框架。联邦学习是针对“数据孤岛”和数据共享中的隐私安全问题而提出的机器学习框架,传统的方式是需要将数据硬拷贝移动到授信的第三方,而联邦学习则希望达到各个企业和机构的自有数据不出本地,通过加密机制下的参数交换方式,建立一个虚拟的共有模型,数据本身不移动也不泄露隐私或影响数据合规。

知识图谱与决策职能

 

随着大数据的发展,企业和公共机构越来越需要将不同的数据进行有效链接,从而形成新的动态知识,以辅助企业和公共机构的决策。这就需要运用图数据库、图计算引擎和知识图谱,其中知识图谱是图数据库和图计算引擎的重要应用场景。

图数据库关注热度在2013年到2020年间增长了10倍,关注度增长排名第一,远远高于其它数据库或数据引擎。用户画像和信用档案等,是知识图谱的新应用场景。

目前,国内的阿里云、华为、腾讯、百度等大型云厂商以及一些初创企业都在布局图数据库、图计算引擎和知识图谱,特别是知识图谱已经开始深入应用到金融、工业、能源等多个行业和领域。知识图谱正在成为企业决策的重要技术平台与工具。

产业物联网提速

物联网是大数据的一个重要来源。传统观念认为消费物联网是物联网大数据的主要来源,但随着产业物联网的飞速发展,产业物联网正在超越消费物联网而成为物联网大数据的主要来源。

产业物联网设备的联网数将在2024年超过消费物联网的设备数。在中国,2019年中国物联网连接数中,产业物联网与消费者市场各占一半,预计到2025年中国物联网连接数的大部分增长来自产业市场,产业物联网的连接数将占到总体的61.2%。智慧工业、智慧交通、智慧健康、智慧能源等领域,将最有可能成为产业物联网连接数增长最快的领域。

产业物联网的大数据处理涉及到边缘计算。未来超过50%的数据需要在边缘侧进行存储、分析、计算,到2024年全球边缘计算市场将达到2506亿美元。在中国市场,2020新基建中的5G、AI、智慧交通、新能源汽车充电桩、工业互联网等都是与边缘计算相关的技术或场景。

运用AI技术进行边缘数据处理正在面临挑战:AR、VR、互动直播、视频监控等场景下非结构化数据为主,挑战在于数据量大、资源用量大、实时要求高、数据标注困难等;工业场景下IoT结构化数据为主,挑战在于样本少、冷启动和要求模型可解释和可靠性。边云协同AI框架的关键技术包括:增量学习、联邦学习、联合推理等。

数据安全

 

数据共享与流通是释放数据价值的重要方向。数据“科学”发展经历了数值计算、数据工程、数字社会的过程。网络空间已经成为继陆、海、空、天之后的第五大主权领域空间,没有网络安全就没有国家安全

大数据、数字经济要通过相应的法律制度以及相关措施来保障健康发展。

一是改变计算方式,边计算边保护;

二是构建免疫系统,改变安全体系结构;

三是网络系统安全要构建“安全办公室”“警卫室”“安全快递”这“三重”防护框架;

四是对人的操作访问策略四要素(主体、客体、操作、环境)进行动态可信度量、识别和控制;

五是对“风险分析、准确定级”“评审备案、规范建设”“感知预警、应急反制”“严格测评、整顿完善”等环节进行全程管控,技管并重;

六是达到非授权者重要信息拿不到、系统和信息改不了、攻击行为赖不掉、攻击者进不去、窃取保密信息看不懂、系统工作瘫不成等“六不”防护效果。

基于隐私计算的数据流通技术成为实现数据联合计算的主要思路。在数据合规流通需求旺盛的环境下,隐私计算技术发展火热。隐私计算在保护数据本身不对外泄露的前提下,实现了数据融合,为安全合规的数据流通带来了可能。

总结而言:进入2021年,大数据已经从单纯的技术体系,向着与实体经济结合、真正挖掘和发挥数据价值的方向发展。特别是新冠疫情和新基建,加速了大数据与实体社会基础设施的快速融合,而5G与物联网等的快速发展也进一步加大了大数据与实体经济的深度融合。随着数博会即将进入第6个年头,大数据将真正深入到社会经济的方方面面,推进下一轮经济长周期。

作者文川,CSDN资深作者。