• 简体版 | 繁體版
  • 联系我们
  • 加入我们
  • 关于我们
  •  
  • 首页
  • 快讯
  • 价值号
  • 视频
  • 专题
  • 深度
  • 入驻价值号
  • 碳链APP
    微信公众号

    扫码下载App

  • 登录
  • 微信公众号

    微信公众号

导航
  • 首页
  • 快讯
  • 区块链+
  • 价值号
  • 视频
  • 专题
  • DeFi优选
碳链价值APP
专注服务于金融科技和区块链
立即打开

数据科学与计算智能:内涵、范式与机遇

中国科学院院刊中国科学院院刊  •  2021-01-15
在未来的发展中,我们该如何把握时代机遇,重点关注哪些关键科学挑战,优先解决哪些关键问题?

本文刊载于《中国科学院院刊》2020年第12期“战略与决策研究”

作者:程学旗 梅宏 赵伟 华云生 沈华伟 李国杰

如何理解、测试并评估现有计算智能的能力边界?人脑、复杂社会系统、自然进化系统等自然智能,往往具备比现有计算智能更加高效的“计算思维”和更加简洁优美的智能推演与决策能力,是否可以借鉴这些自然智能探索新的人工智能范式?

大数据已成为信息社会的普遍现象,是数字经济的关键资源。以深度学习为代表的大数据驱动的人工智能技术在很多行业和领域获得了成功,这类人工智能本质上源于计算能力,故可将其归为计算智能。

与此同时,大数据是这类人工智能成功的重要因素,这类智能也被称为数据驱动的计算智能,从这个意义上讲,当前数据和智能是一体两面的关系。虽然大数据与计算智能技术在大规模工程化应用方面取得了长足进步,但支撑技术进步的理论基础和技术体系尚处于早期阶段。

当前,大数据“红利”效应在逐渐减弱,计算智能技术的单点突破难以为大数据驱动的智能应用提供持续支撑,亟待对数据科学和计算智能的基础问题进行深入思考,重构其理论基石,从而推动技术与工程应用持续进步和跨越式发展。

本文基于香山科学会议第 667 次学术讨论会与会专家学者的集体智慧,探讨并总结了 4 个方面的问题:

1. 在数据科学的内涵和外延尚缺乏严谨定义和学界共识的情况下,如何深入认知反映客观世界的数据空间的共性规律?数据科学在本体论和方法论 2 个层面上需要回答的基础问题是什么?

2.如何理解、测试并评估现有计算智能的能力边界?人脑、复杂社会系统、自然进化系统等自然智能,往往具备比现有计算智能更加高效的“计算思维”和更加简洁优美的智能推演与决策能力,是否可以借鉴这些自然智能探索新的人工智能范式?

3.在探讨数据科学和计算智能的同时,有哪些值得关注的牵引性应用?新的智能范式对解决复杂的社会问题是否是一个很好的机遇?

4.在未来的发展中,我们该如何把握时代机遇,重点关注哪些关键科学挑战,优先解决哪些关键问题?

1、数据科学的内涵

基于方法论视角的数据科学内涵

关于数据科学的内涵,一种流行的看法认为数据科学就是图灵奖得主吉姆·格雷(Jim Gray)提出的第四范式(the fourth paradigm),即在实验观测、理论推演、计算仿真之后的数据驱动的科学研究范式。

第四范式的基本思想是把数据看成现实世界的事物、现象和行为在数字空间的映射,认为数据自然蕴含了现实世界的运行规律;进而以数据作为媒介,利用数据驱动及数据分析方法揭示物理世界现象所蕴含的科学规律。这是一种类似方法论视角来定义的数据科学的内涵,即数据驱动科学发现。

第四范式将数据科学从其前的 3 个科学研究范式中分离出来,带来了科学发现和思维方式的革命性改变。

借用美国谷歌公司研究部主任皮特·诺维格(Peter Norvig)的话来说,“所有的模型都是错误的,进一步说,没有模型你也可以成功(all models are wrong, and increasingly you can succeed without them)”。

海量的数据使得我们可以在不依靠模型和假设的情况下,直接通过对数据进行分析发现过去的科学研究方法发现不了的新模式、新知识甚至新规律。

第四范式的一个典型研究案例是关于帕金森病的起因研究 。通过对 160 万份病历的大数据分析,研究人员发现帕金森病的起因与人的阑尾有关。这是基于大数据统计帕金森病患病率与切除阑尾的相关性得出的结论。

第四范式通过大数据分析能够发现数据中蕴含的大量相关关系,为科学发现提供了新视野。但是,第四范式本身无法从大量的相关关系中甄别出事物的本质规律。

在发现了帕金森病和阑尾的相关性后,有些对第四范式十分执着的学者召集了更大量的帕金森病患者,以彻查他们的基因,调查他们的生活环境和生活习惯,以期从中发现一些共性;然后去找那些也有这些共性但是没有得帕金森病的人,看他们做了什么,有什么共性;如果这种共性存在,可能就是防治帕金森病的解决方案。

但是,其结论却不尽人意。可以想象,人体的器官何止一个阑尾,且帕金森病患者的生活习惯何其繁杂,单独靠第四范式的数据驱动方法做漫无边际的相关性分析,不仅要消耗大量的计算资源,也难以真正预测未来的趋势与变化。因此,从方法论来看,第四范式在揭示事物本质规律方面存在固有的局限性,数据科学需要在方法论上突破第四范式。

基于本体论视角的数据科学内涵

数据科学另外一种值得探讨的内涵是基于“本体论”视角,认为数据是反映自然世界的符号化表示。既然自然世界是客观存在并具备共性科学规律的,那么反映自然世界的数据空间也可能具有独立于各个领域的一般性规律。因而,数据科学应该是“用科学方法来研究数据”,数据科学也应该有类似“信息论”这样的学科基础理论。

更具体来看,当我们把世界看成是由物理世界、机器世界和人类社会组成的三元世界时,新型的“感知、计算、通信、控制”等信息技术使三元世界相互影响和融合,形成了一个平行化(孪生)的复杂数据空间。

这样的数据空间,除了映射物理世界,其本身是否具有独特的一般性规律?如何用科学的方法来研究数据的一般性规律,揭示其内在机理?这些是数据科学更基本的问题。例如,数据科学中的一些常数规律(对称性、黄金分割、长尾分布等)和更广意义上的大数据非确定性、数据广义关联、时空演化、数据复杂性等。

数据科学是方法论和本体论在数据价值实现目标下的统一

数据科学到底应该从哪些视角来定义其独有的内涵与特征?一般认为,作为一门学科的定义,至少应该从其研究对象、方法论和学科目标 3 个维度去界定。

数据科学的内涵应该既包括本体论内容和方法论内容,还包括其独特的价值实现目标(图 1)。基于这一认知,可以定义“数据科学是有关数据价值链实现过程的基础理论和方法学,它运用基于分析、建模、计算和学习杂糅的方法,研究从数据到信息、从信息到知识、从知识到决策的转换,并实现对现实世界的认知和操控”。

图 1 数据科学的内涵:方法论和本体论在数据价值实现目标下的统一图 1 数据科学的内涵:方法论和本体论在数据价值实现目标下的统一

这“三个转换、一个实现”是数据科学的学科目标。而实现这一目标的方法论来自多个学科方法的融合,包括数学(特别是统计学)、计算机科学(特别是人工智能)、社会科学(特别是管理学)等。

数据科学与相关学科的关系

目前,关于数据科学的基本内涵和基础问题还没有像数学、物理学和计算机科学那样成体系、有共识。但是,数据科学的多学科交叉特征及大数据自身的价值特性已经成为共识。我们可以借助相关学科来探讨当前数据科学研究需要关注的基础问题。

数据科学与统计学

然而,在大数据面前,统计学也面临着诸多问题和挑战。统计学将数据作为研究对象,致力于收集、描述、分析和解释数据,其为数据科学提供了重要基础和工具。

例如:统计假设在复杂大数据分析中难以满足、数据自身及分析结果的真伪难以判定、端到端的大数据推断缺乏基础理论支撑等。统计学针对这些问题目前基本上是束手无策的;而统计学所依赖的一些传统强假设(如独立同分布假设、低维假设等),也都无法适用于目前多源异质的真实数据。

因此,数据科学虽然在研究对象上和统计学是相同的,但在研究问题的范畴上却是超越统计学的。

譬如:数据科学该如何深入认识数据固有的共性规律?是否能建立一套数据复杂性理论体系?数据规模、数据质量和数据价值有什么定量关系?如何刻画大数据所表现出来的多层面的非确定性特征?

数据科学与网络科学

那么在数据科学中,数据的共性规律是什么?在现实世界中是否有完全不同的两个数据集之间存在某种共性?数据科学的发展可以借鉴网络科学的发展历程,以类似的方法寻找研究对象的共性规律。网络科学发现了物理世界中广泛存在的网络所呈现出的共性规律(如幂率分布、小世界现象等),从而促进了其从图论和随机图论中分离出来独立发展,实现了其研究对象从作为数学工具的图到作为物理对象的网络的转变。

一方面,一下子找到所有领域的共性规律可能是不现实的,因而可以先从几个关键领域出发,寻找部分领域的共性规律;

另一方面,寻找数据的共性规律需要能够问出合适的基础性问题,类似网络科学中关于度分布、聚集系数、网络直径、网络脆弱性、网络适航性等方面的问题。

目前,尚不明确各个领域的数据是否存在统一的规律。因此,数据科学还需要在应用领域进行一定时间的探索,从领域知识中汲取养分,并逐步发现规律、寻找共性。

数据科学与计算机科学

简单而言,从研究对象的角度来说,计算机科学是关于算法的科学,而数据科学是关于数据的科学。从计算机科学到数据科学,研究手段从传统计算机领域的算法复杂性分析,转变为对数据的复杂性和非确定性等特性进行分析研究。数据科学的起源与发展离不开计算机科学,但这两个学科由于研究对象和研究方法的不同,未来也许会平行发展。

如何对非确定边界的数据,在有限时间空间下进行计算?数据复杂性、模型复杂性与模型性能之间是什么关系?解决某个问题所需要的大数据的量的边界如何确定?是否能发展一套理论,为基于大数据的计算模型提供其能力上、下界的保证?这些都是数据科学独立于计算机科学之外所需要解决的问题。

数据科学目前尚处于发展的早期阶段,其研究方法也应该与传统科学有所区分。数据科学,正处于“无知”到“科学”的中间状态。它目前还没有形成一门完整的学科——信息是不完备的,环境也是非确定的。

因此,不能完全按照传统学科来思考和要求数据科学;而应该在这样不完备、非确定的环境下,重新思考和定义数据科学及数据科学亟待关注的基础问题。

2、计算智能的发展与新型智能范式的探索

计算智能的发展

人工智能(AI)概念在1956年由麦卡锡等学者提出,其发展几经浮沉。基于对智能产生机制的不同理解,人工智能发展至今学派众多,且相互借鉴,形成了一系列代表性成果。

无论是早期符号计算(以数理逻辑为基础)、进化计算、支持向量机、贝叶斯网络,还是当前在工业界获得巨大成功的基于多层神经网络的深度学习方法,从模型的本质上来看都是建立在图灵机的基础上,基本都符合邱奇-图灵论题(Church-Turing thesis),即“任何在算法上可计算的问题同样可由图灵机计算”。

换句话说,现有的人工智能模型本质上都是与图灵计算模型等价的,故可归为计算智能。计算智能一般以计算机为中心,以算法理论为基础,充分利用现代计算机的计算特性,给出了解决实际问题的形式化模型和算法。

近 10 多年以来,大数据的使用、算力的提升和深度模型的发展,为计算智能带来了新的契机。大数据、大算力、大模型三者结合,极大地推动了计算智能的工业化应用。

例如,计算智能在以围棋为代表的人机对弈、机器翻译、人脸识别、语音识别、人机对话、自动驾驶等应用中均取得了巨大的成功。

值得注意的是,大数据在给计算智能带来发展的同时,其复杂性和非确定性也给计算智能带来了非常大的挑战。现有的计算智能在面临大数据环境下的复杂问题和复杂系统时,依然很难给出满意的答案。

我们需要探索当前计算智能的能力边界问题,从理论上探寻这类智能所能解决的问题类型和能力边界。

譬如,通过建立深度学习和统计力学的关系,回答深度学习的相关基础问题:

1.表达能力方面,模型做深为什么是必要的,到底深度为多少层是合理的?

2. 模型学习方面,崎岖的目标函数如何高效优化?

3.泛化能力方面,如何实现计算智能技术从专用到通用的转变?如何实现模型的跨领域、跨任务、跨模态的泛化?

上述一系列基础问题将进一步成为计算智能未来发展的关键“瓶颈”。其原因是,当前的计算智能是大数据工程化驱动的,其能力的提升主要依赖于数据规模的增加和计算速度的增长。如果缺乏数据科学化理论的支撑,大数据驱动的计算智能难以形成从量变到质变的提升。

那么另一种思路是,我们也许可以考虑发展与当前计算智能不一样的智能范式,以便更加简洁高效地解决更复杂、更普适的现实问题。

新型智能范式的探索

事实上,自然界中存在大量具备智能的自然系统。这些自然系统比现有人工智能系统具备更加简洁、高效的逻辑推理和自我学习能力,如脑神经系统、社会系统、自然生态系统等。

那么,自然系统的智能模型是什么?我们能否借鉴自然系统中的智能行为,将其形式化为可计算的智能范式?实际上,已有 4 类智能范式在此方面做出了一些初步的探索。

脑启发计算

脑启发计算(brain-inspired computing)正是借鉴了人脑存储、处理信息的基本原理所发展出来的一种新型计算技术 。与传统图灵计算机的计算模式相比,脑启发计算是通过增加空间复杂度来保留计算单元之间的结构相关性,从而构造基于神经形态工程的高速、新型计算架构。人类的大脑皮层具有 140 亿—160 亿个神经元,且每个神经元会连接 1 000—10 000 个其他神经元,借此人类发展出了比其他物种更高级的智慧。

脑启发计算的目标是构造一套非“冯 · 诺依曼”架构、可实时处理复杂非结构化信息、超低功耗的高速新型计算架构。脑启发计算的发展,也许能为数据科学提供新的计算架构和高性能的计算能力,支撑通用人工智能的发展。

目前,脑启发计算仍处于起步阶段,我们需要进一步思考如何在不完全了解人脑机制的情况下发展脑启发计算模式,以及如何基于这种脑启发计算为科学研究提供新思路和新范式。

演化智能

例如,人脑是经过数百万年的演化逐步形成的。从这个角度来讲,现有的智能模型在依靠人类设计之外,是否也能通过演化过程去自动发现最佳的模型结构?传统的遗传算法是一种基础的演化计算模型;而从演化计算到演化智能,以及实现模型自动演化的智能范式,还有很长的路要走。未来,交互驱动的强化学习、开放环境下的人工智能是值得探索的方向。学习和演化是生物适应环境的基本方式。现有的计算智能基本都拥有从数据中学习的能力,但对智能模型的演化能力缺乏关注。

复杂系统模拟

是否可以通过模拟复杂系统的组成特点和交互方式来构造新型智能范式?如何通过大量简单智能体之间的交互作用,产生可预期的、具有高度复杂性的群体智能?这样的智能范式也许会从根本上改变传统的单智能体的智能上限。自然界存在大量的复杂系统,如人类社会系统、自然生态系统、人体免疫系统等。从控制和计算的角度来看,模型化的复杂系统是“由大量相互作用、相互依赖的单元构成的一个整体系统;一般在没有中央控制情况下,这个整体系统可通过简单的运作规则实现复杂的信息处理,进而产生复杂的集体行为,并能通过学习和进化产生自生长和自适应能力”。

人机混合智能

在这样的环境下,人在回路的人机混合智能具备了基本的物理条件。目前,人工智能技术所具备的感知、认知能力,基本上是模型与数据结合,并以机器为中心所形成的计算智能,故也称为机器智能。随着互联网、物联网及新一代通信技术的发展,万物泛在互联成为现实。未来,大量物理设备、无人系统、人脑,通过泛在网络实现“上线”和“互联”。

这种机器智能在存储、搜索、感知、确定性问题求解等方面性能表现优越,但在高级认知和复杂问题决策方面与人类智能相差很远。虽然脑启发计算取得了一些进展,但在可预期的未来,机器智能很难完全模仿和构造出人类智能或其他自然智能。

换一个思路,如果将人的智能引入到机器智能的系统回路中,将充分融合人类智能和机器智能的优势,从而形成更高级的智能水平。在未来较长的一段时间内,这种人机混合智能也许是一些复杂问题求解的有效途径。

那么,在基于机器的计算智能基础上,人作为具备智能的自然系统,如何参与到机器智能的系统回路中是一个关键问题。人机混合智能需要重点解决思维融合或决策融合的问题。

具体而言,传统的人机接口往往是单向的;在人机互联情况下,人脑如何参与到机器智能的系统回路当中?如何同时让人理解机器思维和让机器理解人的思维,从而实现思维的无缝互动?

目前,一些探索和挖掘思维潜力的工具,如思维导图、思维地图、概念图等,其理论基础与形式化模型并不清晰。一些新型的脑机接口技术进展迅速 ,但缺乏对人脑在直觉、意识、情感和决策方面的机理认知。也许,从技术上构建有效的人在回路智能通道,是当前人机混合智能亟待解决的关键问题之一(图 2)。

图 2 人机混合的新型智能范式图 2 人机混合的新型智能范式

上述 4 类智能范式的研究,在现有图灵等价的计算智能基础上,或多或少地引入了人类智能或自然系统智能的部分机制,从而为未来智能系统的发展注入新的活力。

但是迄今为止,这些智能范式在可形式化、可计算、可构造等方面还存在诸多基础性问题挑战。如果这些模式是未来新型智能范式,那么它们是否还是图灵等价的?这些问题值得我们从本源上进行探讨。

数据是人类社会、物理世界和机器世界之间的桥梁,同时数据也是人类社会和物理世界的符号化映射。因而,从数据入手是探索和实现上述新型智能范式的基本途径。数据科学基础理论,不仅对当前数据驱动的计算智能起到提质增效的作用,也将为未来新型智能范式研究提供理论支撑。

3、引领数据科学与计算智能研究的应用

作为一门实践性强的学科,数据科学的发展离不开实际需求牵引与技术应用驱动。随着感知、计算、通信、控制等技术的发展及综合集成应用,“人-机-物”三元世界高度融合,在线形成了一个网络化的大数据系统,其内部包含了互联网、物联网连接而成的各类数据。这是一个高度复杂、强不确定性、持续动态演化的复杂系统,是“系统的系统”。

它既是智慧城市、智能制造、健康医疗等各个领域应用的空间载体,也为国家安全、社会治理、数字经济等领域的科学化、智能化发展提供了重要的数据资源供给。

前文已提及,这个现实存在的大数据系统,除了具备高度复杂性、强不确定性等特性,人在回路也是其显著特征。针对这一现实系统的研究与应用,将有可能为数据科学的理论与技术发展带来机遇。

针对这一复杂系统的典型场景展开研究,不仅有利于揭示数据的基本规律,也有可能因此而牵引未来新型智能范式的研究。其典型的应用场景有如下 4 种。

1、基于非确定数据的社会认知

在社会系统中,我们搜集到的数据通常与真实的情况存在一定的偏差,大量的虚假内容、非确定性内容混杂在这些数据当中。

如何能基于这样不完备的、非确定的大数据进行社会认知是一个非常有挑战的问题。社会认知具体包括真假判定、社会心理计算、舆情判定与导向等。

而面向非确定数据的社会认知,其中一大关键在于如何对大量复杂的非确定数据进行假设建模,如何建立复杂社会系统中个人行为与群体社会认知之间的关联。演化智能、复杂系统仿真与模拟也许是解决这一问题的突破口。

2、基于开放环境的群智决策

互联网极大地方便了信息、知识和智慧的互联互通。在互联网中,已经有许多复杂问题可以通过群智决策的方式加以有效解决,如众包计算、人本计算等。

那么,一方面,未来我们该如何设计或改进群智决策中的内部个体交互、融合与反馈方式,以人工构造的群体智能方式进一步提升互联网群智决策的智能上限?

另一方面,从计算机的视角来看,该如何利用或者模拟这种人类的群智决策方式,来解决一些复杂的决策问题?考虑到智能系统的演化及复杂系统的仿真与模拟,对单个智能体及智能体之间复杂交互进行建模,也许是未来复杂问题求解的一个可能方向。

3、人机融合的智慧医疗

智慧医疗是医学、计算机科学、公共卫生学等学科相互交叉的新兴领域。随着信息技术的普及发展,医疗领域产生了大量的数据(如电子病历、PB 级基因数据等),也催生了诸多与智慧医疗相关的应用需求。如何根据患者的电子病历及临床影像等数据对疾病诊断提供辅助决策支持?如何根据人类的基因数据,提前进行疾病的预测,为疾病的早期发现、新生儿的先天缺陷预测提供帮助?

需要注意的是,智慧医疗需要强大的可靠性,但目前的人工智能还难以替代医生。一种比较好的提高思路是,考虑人(医生)在回路的新型智能范式;通过这样人机混合的方式,使得机器的智能与人的智能相辅相成,使医疗从传统的“个体经验决策”转向“智能辅助决策”的新模式,进而为医疗系统的革新带来新的可能。

4、重大公共安全问题与社会治理

重大公共安全问题指对社会和公民所需的稳定环境有严重影响的重大问题。公共安全问题涉及多方复杂因素,包括人类社会、自然环境、突发事件等,是典型的人在回路的复杂应用问题,急需应用大数据技术手段进行预测、预警和防控。

以新冠肺炎疫情为例,大数据分析技术手段和人机混合智能,为疫情走势预测、传播链排查、谣言传播溯源和意图研判等人在回路的复杂问题提供了有力帮助,支撑疫情精准防控。

4、数据科学与计算智能的关键问题

数据科学的发展,将帮助我们厘清数据科学的理论边界,为计算智能的持续发展提供新的可能与机遇;与此同时,计算智能的发展与新型智能范式的兴起,也将为大数据在各行业和各领域的应用提供新的契机。

在本节,我们从数据科学的基本内涵与边界、新型智能范式与智能能力测试、数据评价体系与共享利用 3 个方面出发,基于香山科学会议第 667 次学术讨论会与会专家的讨论,提炼形成数据科学与计算智能领域的七大关键问题,以期得到相关领域研究者的共同关注,从而把握时代的机遇,推动数据科学与计算智能的持续发展。

大数据中的相关关系与因果关系

因果关系指一个变量的发生会导致另一个变量的发生。而相关关系则指一个变量发生变化时,另一个变量也会规律性地发生变化。

一般情况下,因果关系往往也是相关关系,而相关关系并不一定是因果关系。大数据的存在,使得人们可以广泛寻求相关关系,Mayer-Schönberger甚至在其书中说道,“大数据时代最大的转变就是放弃对因果关系的渴求,而取而代之关注相关关系”。相关关系确实能在商业和实际应用中带来巨大的成功,但这种成功从科学角度尚需谨慎看待。

从科学研究的角度来看,相关关系研究是可以替代因果分析的科学新发展,还是因果分析的补充?从实际应用看,从数据中挖掘出的相关关系能否看作是一种近似因果关系帮助人们进行预测或决策?对此,不同的学者有不同甚至相反的看法。

建议未来重点研究方向:相关关系能够逼近因果关系的程度,相关关系和因果关系的边界,是否可以利用反事实推断从相关关系中推断出因果关系,以及如何保证大数据分析的结论可信等问题。

数据科学的复杂性问题

在计算机科学中,算法的计算复杂性是一个基本问题,包括时间复杂性和空间复杂性。而数据科学除了对计算复杂性的研究外,还需要探索数据自身的复杂性及模型复杂性。数据科学不能一味地靠增加数据量或者模型的参数规模来提升其性能。

给定一个具体问题,到底需要多大规模的数据或多复杂的模型才能获得有效解?一个复杂模型判定能力的提升到底有没有尽头或界限?数据规模和模型复杂度之间是什么关系?这些问题在大数据工程化应用中也许可以有经验性的判定,但是在数据科学研究中需要弄清楚其基本内涵和规律。

建议未来重点研究方向:从数据科学理论出发,给出数据复杂性、模型复杂性和模型性能之间的关系(上下界或渐进理论),为大数据的科学化研究和高效率应用奠定重要基础;当然,要对所有领域给出一个共同的数据科学基础理论,可能比较困难,但可以考虑先从某些重要领域或典型问题出发进行探索。

有限时空约束下的无限数据计算

在很多场景中,解决问题所需要的数据可能是大量流动的,甚至是无限的——无法确定其边界。例如,真实的自动驾驶技术需要在任意环境、道路上都确保其有效性,理想情况下我们需要通过搜集大量的数据来不断训练自动驾驶模型,促使自动驾驶水平的提升;但问题在于,在实际操作中我们无法在有限时空资源下搜集、处理所有的数据。现有的自动驾驶技术,也基本都是在有限的实验室环境下或者固定的道路上进行学习训练,以期能够实现在任意环境和非确定道路上的自动驾驶。

建议未来重点研究方向:面向上述边界不确定的数据,到底多大的数据量对问题而言是足够的,以及什么样的数据采样机制才能保证逼近数据整体分布;或者说,该如何在有限时空资源限制下来处理边界不确定的数据。

强不确定性复杂系统环境下的新型智能范式

大数据空间融合了“人-机-物”三元世界,其交互方式、运行方式极其复杂。复杂系统中跨域高维稀疏的大数据具有很强的时空分布不确定性和价值规律不确定性。

在这样一个强不确定性的复杂环境下,能否形成形式化、可计算的新型智能范式?如果存在这样的智能范式,是否还需要依靠大规模数据驱动?

现有的脑启发计算、演化智能、复杂系统模拟等主要还是依赖计算机的计算能力,未来还需要进一步探索能够突破计算机计算能力边界的智能范式。人在回路的人机混合智能是一个可能的发展方向,其目标是打通人类智能与机器智能的融合通道,通过有机融合方式实现人机混合智能。

建议未来重点研究方向:人机混合的智能通道构建及其方式(近几年发展迅速的脑机接口技术、思维融合范式等);探索这类新型智能范式的主要特征是什么,是否图灵计算等价,是对当前计算智能的改良还是颠覆,以及数据科学在其中发挥什么样的作用等。这些开放性问题研究将为数据科学和计算智能带来新的视野和机会。

图灵测试以外的通用人工智能测试

图灵测试是早期普遍被接受的人工智能测试准则,主要通过测试者(人)与被测试者(机器)在隔离情况下的问答来测试机器的智能。这是一种非常巧妙的思想实验,但并非工程实验。图灵测试的 3 个开放特点——问题开放、测试者开放、语言开放,导致真正可重复的图灵测试很难实现。而在一般的计算智能设计中,一个重要准则就是需要可重复且有效的评价方式。

建议未来重点研究方向:探寻图灵测试之外更加科学有效的通用人工智能测试方法,以及探索以人作为标准答案和参照系之外的可重复且有效的智能评价标准。

领域无关的数据分类体系与评价指标

数据科学研究中的数据常常来自各个不同的领域,领域之间的数据类型、数据完整性、数据规律等具有非常大的差异性。我们不能只针对某个特定领域的数据来谈论数据科学,而应该对所有领域的数据建立一套共同的话语体系和统一的度量标准。换句话说,需要对不同领域的大数据,进行领域无关的科学分类,构建跨领域、可泛化的数据评价指标和体系。

建议未来重点研究方向:可以从数据质量、多样性、复杂性、不确定性或价值密度等多个维度出发,定义数据的统一评价指标。这样的评价指标可以使不同领域的研究者对数据拥有共同话语体系,有利于以数据作为研究对象开展持续的科学化研究。

可信任的数据共享与流通

大数据是数据科学的研究基础和研究对象,数据科学的发展离不开良性的数据治理和大数据基础环境建设。其中一大挑战问题是可信任的数据共享与流通。数据不同于传统商品,可能会存在无限复制和无限使用的问题,因而造成数据流通价值失效。

建议未来重点研究方向:如何用技术手段来确保数据共享和流通的有效与安全,其中数据供给和数据使用是 2 个关键环节。

1. 在数据供给方面,可以考虑数据的有限供给,通过技术的手段对数据进行限量发行。例如,通过对使用数据的工具增加保护机制,实现数据的有偿服务。也可以利用区块链等技术,保证数据的单方持有。

2. 在数据使用方面,需要考虑数据的有界使用,保证数据的使用不涉及用户隐私等问题。具体来说,可以利用密码学、联邦学习等手段,在保证隐私的前提下加密数据的传输,通过确立数据类型或关系而非获得数据本身作为数据使用的主要方式。数据的共享和流通是数据开放研究的基础,期待未来有更多的人关注数据开放的技术手段研究。

5、未来展望:开启“第五范式”科学研究

在过去十几年间,随着可获得和可使用的大数据持续增长,第四范式作为一种新的科学研究范式,受到科学家越来越多的关注;同时,也暴露出了很多不足。

譬如:数据不确定性问题、数据复杂性问题、数据的维数爆炸问题、数据的尺度边界问题等。目前,网络科学、脑科学、社会科学等领域面临的重大问题都是极其复杂且动态变化的难题,采用经典物理一样的简单实验(第一范式)、基于公理和假说的理论推演(第二范式)、基于模型的计算机模拟(第三范式)和数据驱动的相关性分析(第四范式)都无法解决。为此,科学家开始寻求更接近数据和智能本质、更有效认识复杂性和不确定性的新科学研究范式。

目前,这类新的科学探索方法论尚未形成定论,大体上看,这类新的科学研究范式是以智能为研究目标的浸入式具身研究,我们暂时称之为“第五范式”。

基于数据科学本体论认识,我们猜测“第五范式”和第四范式一样都会以数据为对象,不同的是“第五范式”更侧重于人、机器及数据之间交互,强调人的决策机制与数据分析的融合,体现了数据和智能的有机结合;“第五范式”强调从本体论的角度看待数据,认为数据本身蕴含自然智能的规律,也是新型智能的载体和产物,期望在数据驱动智能的同时突破现有计算智能的能力边界,借助自然智能构造新型智能范式。

目前,针对“第五范式”的探索刚刚起步,从方法论上还归纳不出它的基本特征;但可以肯定,它的一个重要特征是“融合”,既要融合前四种范式,又要融合统计学、网络科学、脑科学等前沿研究中涌现的新方法。

第三范式和第四范式都用到计算机:第三范式是“人脑+计算机”,人脑是主角;第四范式是“计算机+人脑”,计算机是主角。第五范式既强调人脑与计算机的“有机融合”,也可能更进一步从社会系统和人脑系统借鉴其中的计算与决策机制,从而更重视人和社会在科学研究回路中的形式化建模与计算融合。

数据科学和计算智能的发展催生“第五范式”;“第五范式”发展离不开对数据科学内涵的丰富和计算智能能力边界的突破。

从研究对象看,“第五范式”是科学研究从对物理世界、人类社会的研究拓展到“人-机-物”融合的三元空间;

从研究目标上看,“第五范式”不仅仅是传统的科学发现,更是对智能系统的探索和实现;

从研究方法上看,“第五范式”强调人在回路的浸入式具身研究。目前,还难以给出“第五范式”的清晰界定,也许再过 10—20 年,“第五范式”的特征就明朗了,可能逐步成为科学研究的主流范式之一。


作者:程学旗1 梅宏2,3 赵伟4 华云生5 沈华伟1 李国杰1*

1 中国科学院计算技术研究所

2 北京大学

3 北京大数据先进技术研究院

4 阿联酋沙迦美国大学

5 香港中文大学

展开全文
打开碳链价值APP  查看更多精彩资讯
声明:本文内容为作者独立观点,不代表碳链价值立场,且不构成任何投资理财建议。
0 0
数据科学计算智能大数据人工智能金融科技区块链

扫一扫,分享到微信

相关推荐

MistTrack 案例二:Wasabi Coinjoin 提款分析 价值号

MistTrack 案例二:Wasabi Coinjoin 提款分析

慢雾科技 2023-06-01 价值号
区块链提款
欢迎体验:https://misttrack.io/
全球区块链加密人才之争,美国正面临着巨大挑战 价值号

全球区块链加密人才之争,美国正面临着巨大挑战

链集市ChainMarket 2023-05-31 价值号
区块链
数字时代技术主导地位的竞争。
ZKML:迈向可验证人工智能的未来 深度

ZKML:迈向可验证人工智能的未来

Gwei Research 2023-05-30 深度
人工智能
通过将可验证和无需信任的属性注入机器学习模型,区块链和 ZK 技术可以形成 AI 对齐的框架。

碳链快讯更多 ›

2023-06-03

美共和党人提出新的加密草案,为 SEC 和 CFTC 规定明确的监管角色

2023-06-03

Dune Analytics:5 月份超50万个独立钱包在Uniswap上交易,创历史新高

2023-06-02

路透社:马斯克在狗狗币集体诉讼案中被投资者指控进行内幕交易

2023-06-02

携程集团孵化首个 NFT 系列「Trekki」,将于第三季度进行盲盒销售

2023-06-02

Galaxy Digital 创始人:机构投资者购买放缓导致了加密市场近期的低落

2023-06-02

微软与 CoreWeave 签署一项价值数十亿美元的多年期协议

2023-06-02

Meta发布新款VR头戴式装置Meta Quest 3

2023-06-02

百域资本:不再以任何方式参与火必工作

2023-06-02

Silvergate Bank 同意美联储命令,将在 10 天内提交自我清算计划

2023-06-01

Bitcoin Magazine Ventures 推出比特币生态系统基金,已超额认购 9000 万美元

2023-06-01

矿企 CleanSpark 以 4050 万美元购买 1.25 万台比特大陆矿机

2023-06-01

微信搜索已支持显示比特币汇率查询服务

2023-06-01

数据:5 月份 ETH 质押数量为 382 万枚,创单月历史最高

2023-06-01

橄榄油生产商 Lamar Olive Oil 使用 Obligate 发行首个链上债券

2023-06-01

香港数字资产平台 OSL 已向 SFC 申请牌照升级

2023-06-01

河北保定市财政预算单位已于 5 月底实现数字人民币工资发放

2023-06-01

新火科技中期财报亏损 2.32 亿港元,因 FTX 事件损失 1.02 亿港元

2023-06-01

香港虚拟资产交易平台指引于今日生效,证监会开始接受虚拟资产交易平台牌照申领

2023-06-01

香港证监会发布虚拟资产交易平台发牌制度过渡安排通函

2023-06-01

香港数字资产信托机构 First Digital 推出美元稳定币

2023-06-01

LSD 协议 unshETH 的合约部署私钥被泄露,已紧急暂停提款并联系黑客

2023-06-01

Circle 储备资金中已不含美国国债

2023-06-01

私募公司 STEP 旗下 StepStone VC 已为两个区块链私募股权基金筹集 9654 万美元

2023-05-31

首个区块链技术领域国家标准正式发布

2023-05-31

英特尔联合蚂蚁链发布可信计算平台MAPPIC

2023-05-31

离岸人民币稳定币CNHC发行方失联,或因涉案被司法部门带走

2023-05-31

百度创建 1.4 亿美元基金支持类 ChatGPT 的初创企业

2023-05-31

日本全日空航空公司推出 NFT 市场,计划推出 NFT 产品

2023-05-31

香港虚拟资产评级机构 HKVAC 成立,将推出虚拟资产指数及交易所评级

2023-05-31

谷物早餐和零食巨头家乐氏为旗下12个子品牌申请NFT商标

2023-05-31

香港证监会行政总裁:虚拟资产交易平台指引以保护投资者为首要考虑

2023-05-31

Optimism 代币解锁前夕,做市商 Wintermute 已向币安转入 265 万枚 OP

2023-05-31

链游 Illuvium 已从 Framework Ventures 筹集 1000 万美元

2023-05-31

消息人士:加密支付公司 MoonPay 联创等高管曾在融资中套现 1.5 亿美元

2023-05-31

亚洲数字银行在 everPay 中完成数字资产 ACNH 发行

2023-05-31

区块链数据平台 Nansen 裁员 30%

2023-05-30

Upbit 运营商 Dunamu Q1 财报:营业利润约 1.6 亿美元,同比下降逾 26%

2023-05-30

英伟达市值突破万亿美元

2023-05-30

欧洲央行敲定数字欧元原型,年内将决定是否以新格式进行开发

2023-05-30

FTX投资方之一Tribe Capital设立2.5亿美元印度专项基金

2023-05-30

香港警方利用元宇宙平台打击加密货币犯罪

2023-05-30

赵长鹏:中东和欧洲正在实施最有前途的加密法规

2023-05-30

彭博社:欧洲金融公司正在争夺合规人员,以应对加密市场的下一波需求

2023-05-30

拜登政府 30% 的比特币挖矿税提案在债务上限协议中被取消

2023-05-30

数据:比特币 NFT 协议 Ordinals 累计铸造数量超 1000 万枚

2023-05-30

日本央行 CBDC 试点项目已于 4 月启动

2023-05-29

俄罗斯将放弃创建国家级加密货币交易平台的计划

2023-05-29

数字资产市场Blocktrade完成450万欧元私募轮融资

2023-05-29

Worldcoin:World App 使用 Safe 的账户抽象堆栈提高钱包安全性

2023-05-29

渣打与普华永道中国联合发布白皮书:央行数字货币有望加速开启可编程银行新纪元

推荐文章

  • 5月Web3.0创投月报:全球融资总额环比下降24.91%

    2023-06-02

  • 腾讯首次投资大模型?Minimax被曝完成2.5亿美元新融资

    2023-06-02

  • 深层解析美国银行危机的成因、影响与解决方案

    2023-06-02

  • 在给 AI 贴上「灭绝风险」的标签前,还请具体澄清担忧

    2023-06-02

  • Meta抢在苹果之前发布MR头显,元宇宙又热闹起来了?

    2023-06-02

价值号更多 ›

深潮TechFlow
深潮TechFlow
文章: 301
  • 删除官网加密货币表述,进军 AI,Paradigm 范式转移为哪般?
  • 解读 a16z:6 亿美元游戏基金募资 Deck,为什么选择下注游戏?
  • Flashbots、MEV 和激励重构:构建去中心化金融系统的追求
区块链骑士
区块链骑士
文章: 1343
  • Coinbase内幕交易案结案:已达成和解,对行业带来哪些影响?
  • Reddit NFT头像集合如何创造市场奇迹?
  • Meme在Web3营销中如何发力?
TinTinLand
TinTinLand
文章: 51
  • Move 系公链出师不利,模块化区块链正强势崛起
  • 对话头部 Layer2 Polygon,开发者有何发展机遇?
  • 以太坊扩容之选, Polygon 为何获得众多开发者的青睐?
换一批

热门标签

新基建 比特币 以太坊 DeFi 共识对话 区块链+ 美联储 央行数字货币 加密衍生品 AI 云计算 大数据 5G 政策 交易所 稳定币 电子支付 Libra 算力产业 联盟链 公链 区块链 加密货币 Nervos Cosmos EOS BCH STO 数字货币 去中心化

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

App内打开

邮件订阅

及时、全面、专业、准确的资讯与数据,致力于为区块链爱好者以及数字货币投资者提供最好的服务。

Moshou

碳链价值是集资讯、行情、数据于一身的区块链信息服务平台,我们追求及时、全面、专业、精确的资讯与数据,致力于为区块链创新者和数字货币投资者提供优质的服务。

关于我们 加入我们 联系我们 隐私条款
微信公众号

扫一扫关注微信公众号

Copyright © 2018-2020 碳链价值 京ICP备18046423号
下载碳链App

下载碳链App

微信公众号

微信公众号

微信公众号

微信公众号

打赏文章作者

支付宝打赏二维码 支付宝扫一扫打赏
微信打赏二维码 微信扫一扫打赏

# 热门搜索 #

CBDC 比特币 DeFi 以太坊 区块链