千家信息网

朱松纯:走向通用人工智能——从大数据到大任务

发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,10 月 31 日,由北京智源人工智能研究院主办的 2019 北京智源大会在国家会议中心开幕,本次大会围绕人工智能基础研究现状及面临的机遇和挑战、人工智能技术未来发展的核心方向等话题,回归 AI 技术
千家信息网最后更新 2025年12月01日朱松纯:走向通用人工智能——从大数据到大任务

10 月 31 日,由北京智源人工智能研究院主办的 2019 北京智源大会在国家会议中心开幕,本次大会围绕人工智能基础研究现状及面临的机遇和挑战、人工智能技术未来发展的核心方向等话题,回归 AI 技术本身,开展深入研讨,探索人工智能前沿科技发展趋势。

在第一天的主论坛上,美国加州大学洛杉矶分校的朱松纯教授带来了《走向通用人工智能:从大数据到大任务》的主题演讲,并提出了任务是智能中心的观点。

以下是朱松纯演讲内容实录,AI科技大本营(ID:rgznai100)整理:

关于通用人工智能,每个人都有自己的想法,有人认为不可能,有人认为马上就要到来,而且会很可怕。不管哪一种观点,我们都要扎扎实实地去研究问题,今天我给大家分享一个从大数据到大任务的思路。

第一,人工智能的两种范式之争:大数据VS 大任务;第二,智能的中心核心是任务,每时每刻都被各种各样的任务驱动;第三,如何通过构建一个大任务的平台,来研究通用人工智能。

两种AI范式之争:"大数据"对"大任务"

首先是两个范式之争。如果你问大部分人工智能的研究者,他们会告诉你AI = B+C+D,也就是人工智能等于大数据加上算力加上深度学习,这是被普遍接受的观点,但是我一直在反对这个观点。几年前我反对把深度学习作为人工智能之解时,很多人还很不满,但是今天很多人已经同意这个观点了。

目前以大数据驱动的人工智能,在产业落地的过程中遇到了很多问题,这个问题其实一早就可以预想到。比如只能做特定的、人类事先定义的任务,而不能做通用任务,或者自己定义任务。第二,每项任务需要大量的数据,成本非常高,而且模型不具有解释性,知识表达与人不同。

其实我们是最早做大数据的一个团队。2005年,我们带领了一批国际学者,包括后来在斯坦福标注 ImageNet 的人,以及后来的 MIT 实验室主任等,在中国湖北莲花 山标数据。当时大数据刚刚兴起,我们雄心勃勃地想标数据,制定了200 多页的数据标注手册,包括莲花如何分解,花蕊、花瓣以及生活环境等。

标了几年之后,我发现这里面有问题。一些学生刚开始问我如何标注时,我还能回答,但是后来我就答不出来了。于是我发现这条路走不通,所以2009 年左右,我就转型去做认知科学。

我之前写过一篇文章,介绍了两种人工智能的模式。

一种称之为"鹦鹉范式",鹦鹉可以与人类对话,但是不理解你在说什么。比如你说林黛玉,它也说林黛玉,但是它并不知道林黛玉是什么。

还有一种是"乌鸦范式"。乌鸦找到核桃之后,会把核桃扔在路上,让车去压,压碎了再吃。但是因为路上车太多乌鸦吃不到核桃,于是乌鸦把核桃扔到斑马线上,因为这里有红绿灯,绿灯亮时车都停住了,它就可以去吃。这个例子是非常惊人的,因为乌鸦既没有大数据,也没有监督学习,却完全可以自主地研究其中的因果关系,然后利用资源完成任务,而且功耗非常小,小于 1瓦,这给了我们很大的启发。

但是乌鸦能做到的不仅是这些,它们还知道如何利用工具,我相信直到今天,很多机器人的规划能力都远达不到乌鸦对物理的理解。

假设我们要定义一个人工智能系统,我可以认为任何一个动物、机器都是 AI 系统,它往往决定了三个要素:第一是构架,你的脑袋里缺一块,就永远进化不到一个层次,人的智能90% 多都是天生的;第二是环境数据;第三是任务。

第一种层次的解法是用大数据给一个任务,比如人脸识别。给一个构架,比如深度学习有多少层,这就是目前通用的大数据系统。我认为人类走了另外一条路,就是有很小量的数据,但是有很大量的任务,不过人类有很高级的构架,这就成了另外一个系统。

举个例子,怎么教计算机学会识别椅子?用大数据的办法很简单,也非常暴力。就是搜索大量的例子,用人工标注。你需要搜集各种材质、各种摄像头角度的椅子,穷举后拿去训练,训练之后系统记住这些特征。但是艺术家总是设计新的椅子出来,总是有特例,机器总是搞不清楚,所以不可泛化,不可解释什么是椅子,这就是它的核心问题所在。在自动驾驶、视频监控等领域都存在这样的问题,即不能穷举所有的例子。

第二种层次的解法是什么呢?假设我们要理解椅子,定义什么是椅子。首先获得人的经典坐姿,之后用坐姿拟合图像,各种位置、各种朝向、各种姿态的坐姿,能够坐舒服的就是椅子,这就是一个任务。

椅子变成了一个任务的等价类,不管什么物体能够坐,坐得舒服的就是椅子。这代表了一种想象,我要想象这把椅子怎么坐,这和深度学习不同:regression是统计,拿特征去拟合,simulation 是用我的身体去想象,这是两者根本的区别。

第三个层次,什么是坐得舒服?首先这个椅子要坐得稳,物理稳定是神经系统里非常敏感的感知。

我做了一个简单的实验,把各种各样的椅子放在办公室和实验室里,看学生进来时先坐哪儿、后坐哪儿,这时人会有一个偏好。

另外一件我们感同身受的事是,我们可以感觉这个人是如何用力,如何受力的,这都可以映射,这是人类非常强的能力。映射过来之后,我就知道你如何坐得舒服,从中学到你的价值观。

理解这点之后,就不需要任何数据了。我知道椅子是为了让人坐得舒服,从根本出发,我根本不需要数据。这就是我说的小数据、大任务。

以任务为中心的智能

以任务为中心的智能是大家经过漫长的时间之后才体会到的。

第一层的表达是以图像为中心。我们看到了一张图像,然后以图像为中心抽取各种特征,理解各个部件。第二层变成了以场景和物体为中心,即几何表达。

第一层是深度学习,即把图像看成图像,没有几何、物理和功能的理解。第二层开始以三维的几何来表达场景,比如三维场景的桌子、椅子等。

最后,我认为真正的表达是以任务为中心的 task-centered representation,因为我们先有任务,才有世界上各种各样的物体,这些物体都是被设计出来是为了满足人的需求和完成某种任务。以任务为中心的表达,比如功能、因果、价值观、物理、社会常识,我们统称为physical and social common sense,这些常识是小孩在 18 个月之前获取的。

什么是以任务为中心的表达?我们考虑世界不是从某个物体类别的角度出发。比如开酒瓶,并不是只有开瓶器能开酒瓶,任何东西都能开酒瓶,砸核桃也隐藏着一个物理原理。我们知道物理原理之后,并不需要固定的东西开酒瓶,只要能完成开酒瓶任务都可以。我认为这种就是通用的人工智能。

这个问题怎么解?最近的研究发现,人脑里大部分的知识表达并不是按照物理的类别来组织的,比如椅子是一类,桌子是一类,车子是一类,而是按照如何使用它们来组织,大概可以分成两个尺度:身体的尺度和手的尺度。

其实这一点不新鲜,因为我们汉字中超过 1/3 的汉字都是与人有关的偏旁部首。我们之所以发明汉字,是因为汉字里有一些任务,任务就是要把人放进去,一起来考虑,比如手、脚、耳朵、身体等。

还是以砸核桃为例,乌鸦用车轮碾核桃,如果在一个新的环境中,工具被拿走,但是你还是能完成砸核桃的任务,这是小学教育很重要的事情,就是教会你具有基本的常识。

砸核桃虽然只有一个例子,但是人要从上万个选择中选择一个方案,在这个过程中有大量的simulation。我看到了核桃和几种工具,大脑会快速地想怎么做,可能你的大脑出现了上万种选择迅速。这是大量计算的过程,但不是深度学习的计算,而是一种 simulation 的计算。

还有时空因果的推理,现在这种情况要达到各种各样的目标,中间有各种各样的动作,然后形成一个因果方程,在物理上统一。

另外一点是 Causal Learning 和 Reinforcement Learing。RL现在也非常火,但是据神经科学研究者称,RL 是老鼠这类的低等动物用的,要用大量的例子反复实验。而人使用的是因果学习,只需要有两三个例子。

砸核桃的任务转换到机器人不能只是简单的转换,必须是一个物理因果的等价,要推理物理的功能。

这是一个从一两个例子中学习的过程。一个比较聪明的人可以从几个简单的选择里就悟出坐椅子的价值观,从一个简单的砸核桃的动作悟出本质。一旦悟出来还要数据做什么呢?所以,这是一个核心问题。

以铲土为例,如果让你用工具铲土,你就会想象如何去铲。如果没有工具,用家里的工具同样你也能铲土。经过自动计算,机器的第一个选择是锅,第二个选择是杯子。

当人类或猿人走过石器时代时,神经系统已经学习了工具和物理知识,他理解的是本质。

现在回到如何定义任务?图像有多少个像素可以很清楚地定义,但是任务如何定义呢?定义任务是以符合因果的方式,改变场景中的流态。"流态"是牛顿发明的一个词,包括时变的物理状态、内心状态、社会关系等,可以简单分类为物理流态和社会流态。

如果定义了这些原子的任务空间(atomic space),就可以组合产生复合的数学空间,这就是任务。这个事情说清楚,人工智能的问题就解决了一大半。

目前人工智能之所以遇到了很大的困难,是因为大家说不清楚到底要做什么任务。任务定义不清楚,是很多产品卖不出去,或者卖出去后被投诉的原因。比如扫地机器人产品定义不清楚应该吸和不该吸的东西有哪些,给机器的任务本身就没有清晰的定义。监控也一样,到底什么人该抓,什么人不该抓,或者什么样的环境都无法准确定义。

前面谈到了一些基本的物理任务和常识,物理常识是目前人工智能面临的主要障碍。比如自然语言理解,自然语言最多也是符号对符号,比如什么叫"玩水",如果没有三维数据的体验,没有物理常识,其实很难搞懂这个词的含义,所以物理常识是关键。

中国有一则寓言故事"盲人辨日"。一个从未见过太阳的盲人,无法解释什么是太阳,这就是自然语言的尴尬。自然语言必须和认知科学、计算机视觉、机器人联系在一起,否则没法研究清楚,这是我的观点。

另外一种智能是社会的常识和任务。人类幼儿 12 个月之后开始指东西,他认识一个东西,但认为你不知道,所以他指给你看,这是一种非常强的智能。要实现这种智能,首先要有视角的转换,即推理他人所见所想,这是智能基本的东西。人类在对话时要有context,要知道上下文是什么,共同知道哪些东西。

一个人从第三视角看,是他真正看到的东西。然后我们从第三人称想他看到了什么,这是计算机推理,相当于我大概知道你在看什么,你突然问我问题时我就知道如何回答。这其中还有我们达成的共识,我知道你知道,你也知道我知道,这样才形成了一个共同的任务。

人的认知构架是什么?要形成对话,对话和语言是很重要的问题。每个客观的世界用一个圆圈表示,其中每一个点都代表一个状态。红色是我脑中所想,蓝色是机器人看到的。

首先,机器人看到的是不完整、不确定的世界,人类看到的是共享的世界,因为看问题的角度一样。我们彼此从对方的角度看问题,双方互相了解对方看到的东西。有了共同的东西,才能建立模型。

决策函数,即我知道你在这种状态下应该如何做,我应该如何做。价值函数,即我大概知道你应该怎么做,以及我认为你会怎么做,以及你认为我怎么做,有共同的情境和知识,就会有共同的价值观。最后通过交流的过程,我们达成了共识。

Christopher Manning 讲到人和人之间的通信只有 10 个 bit,很慢,跟 5G 相比差太远了,但是通信很快,为什么?就是因为我们有这些东西。

我总结一下 AI 的乌鸦模式。

用少量的例子,但是有功能、因果、价值观等以后,就可以举一反百,从初心出发来理解这个世界。我称之为 智能暗物质。你看见了这把椅子,想象身体如何去坐,这叫做暗物质。其中95%都是认知推理,只有把这 95% 搞定了,才能去理解剩下的 5%,否则就只能穷举所有的情况。

这是一个简单的演示,机器人如何与人类进行交互。机器人看到人进来了以后,它要理解人的意图,知道意图之后可以帮人打开冰箱,知道要把食物放到冰箱里。在整个过程中不仅有语言的交流,还有动作、表情的交流,使得双方能够达成一个共识,即猜测你的意图是什么,这是一个基本的方式。

这是我们刚做出来的桌面机器人,它能够进行三维场景的重建。三维场景重建可以使用一些基本的计算机视觉方法。然后想象在这个场景中人能够做什么,才能定义家具的用处。

这其中包括 top-down 的 inference,但永远无法识别小物体,必须要通过场景 context。这是一个非常致命的问题,现在所有的深度学习都没有 top-down,只有 bottom-up。

这时我们要做一个统一的系统,融通六大领域,即计算机视觉、认知科学、语言对话、机器学习、机器人学习等,融合了才能有一个像样的计算机系统。

如何构建"大任务"训练与测试平台?

如何构建大任务呢?我的目标是,在一个系统中训练出一只具有通用人工智能的"乌鸦",这是一个核心问题。

当然,只在一个物理场景中训练是不够的。第一步要根据人的需求,生成大量的数据库中的三维物体。这是生成的各种例子,生成以后可以在各种环境中测试。现在做的大数据拟合,大家都可以测试,这是其中一种玩法。

我的玩法不同,智能系统来了以后,我用一个全新的系统给你看,看你能不能完成各种各样的任务,而不是事先规定的任务。

在这个系统里面必须要做物理逼真的东西,比如可以倒酒、倒水、挤牙膏、玩沙子、玩水,这是非常费劲的,我们已经做了好多年。

先定义基本的任务,人可以接进去,机器可以接进去,然后可以身临其境地共同完成任务。

我们做了一个手套,它可以精细化地记录一些感知和运动行为。我进入了以后就知道有一些基本的操作,就是Learing from demonstration。

这是一个虚拟的机器人智能体,让它完成鲜榨果汁。比如说它要先找橘子,然后把橘子切了,再到榨果汁的地方去压,它要有训练的过程。比如做饭、做面条,这都是非常大的任务。一般的日常生活中,你们看不起的东西越难。

人可以在里面与机器进行交互,也就是人机协作完成一件事情。

最后人也可以教机器人,比如说这个男的演示怎么砸核桃,这个动作背后其实有很大的工程量。

机器人会去想,怎样在一个新环境下完成砸核桃,整个推理的过程都可以在这个地方完成。

最重要的事情,我可以随时把机器叫停,然后问它,你现在知道什么,你知道我在干什么,或者叫它解释,打算做什么,为什么要做,这就是Explainable AI。

智能体的核心就是把自然语言对话、计算机视觉、机器人等结合在一起,就像教小孩一样,怎么样用小数据教会他。

总结

第一,"大数据"对"大任务"两种范式之争,99%的人都是押注大数据,但是10年前我就押注大任务。

第二,我认为任务是智能中心。我们有task-orientated操作系统、编程语言和体系结构。

第三,如何构建大任务的平台。我要能在里面训练出"乌鸦",通过自主的任务去驱动它。这里面有很多数学问题、理论问题和工程问题要解决,中美必须合作来解决这个问题。

https://www.toutiao.com/i6754302467501982212/

任务 智能 数据 机器 这是 人工 人工智能 物理 问题 就是 椅子 机器人 核桃 系统 东西 学习 乌鸦 人类 例子 场景 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 关于数字化数据库的不足 明光工业软件开发技术大概费用 数据库结构同步 增量 株洲net软件开发专业 公安网络安全建议 数字媒体为什么学数据库 软件开发及实现论文题目 一梦江湖钟灵毓秀在哪个服务器 有数据库电脑如何防攻击 方舟服务器多长时间可以做出来 服务器安全启动按键 排行榜的数据库设计 静安区管理网络技术供应 网络安全大数据在哪里查 浙江软件开发驻场价格 北京数据软件开发价格监测中心 如何判断服务器可以连接 英国检测网络安全的公司 网络安全集中化运营 免费游戏代理服务器 sql数据表录入数据库 旺苍县网络安全事故应急预案 重要的工程数据库 王牌竞速为什么连接不了服务器 方舟eu是那个服务器 数据库中为项目表添加列 网络技术展会价格定位 服务器电源风扇不转 软件开发进阶系列为什么要编码 严阵以待服务器怎么进
0