如何高效、安全、可信地利用互联网上的数据资源,从数据融合碰撞中得到更多价值,是学术界亟须处理的难题。
近日,这个难题有了一个很有潜力的技术解决途径。11月9日,北京大学计算机学院黄罡教授团队主持研发的“基于数字对象架构的数联网及大数据互操作技术”,入选2022年世界互联网大会“世界互联网领先科技成果”。
这一技术在复杂、开放、动态、难控的互联网上,实现了可信可管可控的数据互联互通互操作,蕴含着以数据为中心的数联网的重大技术变革和全新应用生态,在推动网络空间衍生出数据空间方向上迈出了一大步。
2022世界互联网领先科技成果发布现场
欢迎进入“数联网”宇宙
数字对象从何而来?
你听说过数联网么?它是在互联网上的虚拟网络,目标是将数据从机器和应用中释放出来形成独立的数字对象,进而解决数据使用不可信、不可管、不可控的问题。数联网的数据地址独立于互联网IP地址和域名系统(DNS),同一个数据不论跑到哪台机器,地址都不变。
当数据成为互联网上独立于机器的实体,这就给数据的资产化、流通、交易、隐私保护等数字经济的关键难题提供了新的技术途径。
“万物数联”是数联网勾勒的宏图,其首先解决的问题,便是如何释放互联网上的海量数据资源。但是,信息技术近30年的网络化发展,形成了数百万计的信息孤岛系统,即相互之间在功能上不关联、信息不共享互换以及信息与业务流程和应用相互脱节的信息系统。每个信息孤岛都蕴藏了富含价值的海量数据。只有打破信息孤岛,才能实现其业务数据和功能与第三方系统的高效互操作,这是大数据发展的重大需求,也是公认的世界级挑战。
北京大学梅宏院士、黄罡教授带领团队经过十余年的基础研究和关键技术攻关,研发的“云-端融合系统的资源反射机制及高效互操作技术”,通过对系统客户端的外部监测与控制来实现系统业务数据和功能的高效互操作,消除了系统源码、数据库表、后台权限、原开发团队等依赖,相较传统方案将信息孤岛的数据开放效率平均提升两个数量级,获得了2018年国家技术发明奖一等奖,这也是国内计算机领域首次获得该奖。高效打破信息孤岛之后,也就为数联网的构建提供了充足的数字对象。
海量数据在眼前
“大数据互操作”技术
互操作指的是独立的信息系统之间相互通信并使用彼此功能的能力。在信息孤岛被打破后,互操作在技术与伦理层面,都遇到了新的问题。
技术层面上,海量的数据使得处理难度大大增加。在研究中,黄罡团队遇到了不少困难。其中,大规模数据的跨域使用问题给黄罡留下的印象尤为深刻。经过持续的钻研,团队选择“以结构创新为突破点,揭示了数据调度和数据应用可分离的数据语用机理,实现了跨辖域万级节点每秒百万次的数据应需调度能力”,终于突破了这一技术瓶颈。
伦理层面要面临的问题更为关键。数据被使用才能产生价值,但就使用者个人而言,则不得不警惕个人信息的公开限度。当身份信息成为一份数据,要去除个人信息被陌生人随意使用的可能,尊重数据所有者的意愿,让所有数据可信、可管、可控,是数联网能够被推广使用的重中之重,这也倒逼着原有的互操作技术不断升级。
基于数字对象架构的数据互操作模型
基于此,黄罡团队针对数据溯源及数据使用的管控问题,攻克了代码分析、智能合约和分布式账本等方面的一系列关键技术,支持了数据使用过程中的“事前审计、事中管控和事后追责”,并突破了互联网环境下万级节点百亿数字对象跨域使用和可信管控的性能瓶颈,实现了覆盖数字对象接入、标识、发现、交换、使用及管控等基本功能的整套数联网基础系统软件,最终形成了以数字对象架构为核心、国际先进、全球普适的数联网中国方案。
技术驱动+应用牵引之后
从产学研协同创新到产学研融合创新
信息不能以孤岛形式存在,技术同样如此。依托技术进步,持续推动技术在国家和行业关键领域的应用推广,是黄罡团队一直坚持的路径。
中国电子信息产业集团有限公司2019年开始与北京大学合作,全面引进了北大的科研成果,并据此形成了中国电子云数联网服务平台、信创领域支撑平台、数联网一体机等关键产品与解决方案。2020年2月,又与北大一起合作,共建了国家级新型实体科研机构——北京大数据先进技术研究院(AIBD),推动数联网基础设施的建设和规模化应用。
目前,黄罡团队已经与全球上百家高校、科研机构和领军企业合作打造出了数联网中国方案,支撑和推动了山西省广域数联网、国家电网能源数联网、中国工业互联网数据要素登记(确权)、药品现代化监管、国家科学数据发现与共享等多个关键领域的示范应用。黄罡团队也已经摸索出了贯穿“产学研用”协同创新链条的经验和模式,在软件技术研究领域为服务国家战略贡献了“北大方案”。
技术驱动+应用牵引之后
从“北大方案”出发,发出“中国声音”
在黄罡团队开展数联网研究的过程中,有一位合作者尤其引人注目。这位学者是罗伯特·卡恩(Robert E. Kahn)。卡恩是互联网协议TCP/IP的共同发明人,2004年获得了有计算机领域“诺贝尔奖”之称的ACM图灵奖,被誉为“互联网之父”,也是数字对象概念最早的提出者和倡导者。2018年起,黄罡团队和卡恩开始了深度合作;2019年,卡恩受聘北京大学名誉教授。
黄罡团队与卡恩的合作,不仅源于共同的学术愿景,也是努力让中国方案站立世界舞台中央的尝试。2020年,数字对象体系架构应用技术与标准促进组织(ATSD)全球秘书处在北京大学成立;同年,黄罡团队牵头成立了DOIP标准开发和应用工作组,制定了数字对象架构两大核心协议之一的DOIP国际团体新版标准,并实现了DOIP协议开源软件栈。这标志着黄罡团队初步掌握了数联网具有影响力技术体系的国际话语权,让“北大方案”代表“中国方案”,在世界发出中国声音。
黄罡教授与Kahn合照
数字经济和数字社会的发展将形成支撑社会经济各类数据开发利用的数据空间。类似网络空间由互联网等通信网络及其上层应用组成,数据空间则是由数联网等数据网络及其上层应用组成。由于数联网本质上是建立在互联网等通信网络之上的虚拟数据网络,因此数据空间本质上是网络空间从“计算为中心”向“数据为中心”转型的一种新形态,蕴含着变革性的重大科技问题和换道超车创新机遇。
黄罡团队将在现有研究基础上,聚焦数联网和数据空间的建设发展面临的技术发展路径受制、应用基础理论薄弱、核心系统软件缺失等“卡脖子”问题,开展数据空间技术体系、标准规范、核心系统、试验环境、应用示范与开源生态的研究,建立自主原创、适用实用、世界一流的数联网和数据空间技术体系“中国路线”。