周志华：关于机器学习的一点思考

2018-09-23 21:54:36

周志华：关于机器学习的一点思考 [原创文章：www.11jj.com]

新智元 AI World 2018 世界人工智能峰会

[原创文章：www.11jj.com]

全程回顾

新智元于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会，邀请机器学习教父、CMU教授 Tom Mitchell，迈克思·泰格马克，周志华，陶大程，陈怡然等AI领袖一起关注机器智能与人类命运。

爱奇艺

上午：http://www.iqiyi.com/v_19rr54cusk.html

下午：http://www.iqiyi.com/v_19rr54hels.html

新浪：http://video.sina.com.cn/l/p/1724373.html

新智元AI WORLD 2018

演讲：周志华

整理：肖琴、闻菲

【新智元导读】机器学习如今大获成功的原因有哪些？如何才能取得进一步的突破？南京大学周志华教授在AI WORLD 2018大会上分享他关于机器学习的一点思考：我们需要设计新的、神经网络以外的深度模型；让智能体在弱监督条件下也能够学习，，以及考虑开放动态任务环境下的学习。

点击播放视频

震撼！AI WORLD 2018世界人工智能峰会开场视频

南京大学计算机系主任、人工智能学院院长周志华分享了他《关于机器学习的一点思考》。周志华教授表示，当前机器学习成功的背后，实际上离不开三点：1）有效的深度模型，现阶段基本上就是深度神经网络；2）存在强监督信息，也即数据都要有标注，而且越精准越好；3）学习的环境较为稳定。

因此，如果未来机器学习要取得进一步突破，就必须：1）设计新的、多样化的深度模型；2）让智能体能够在弱监督条件下学习；3）考虑开放动态任务环境下的学习。

周志华教授说，机器学习界早就很清楚，“没有免费的午餐”，也即任何一个模型可能只适用于一部分的任务，而另外一些任务是不适用的。例如，Kaggle竞赛中有各种各样的任务，但在图像、视频、语音之外的很多任务上，比如订机票、订旅馆之类，还是传统机器学习技术（如随机森林或XGBoost）表现更好，尤其是涉及符号建模、离散建模、混合建模等问题。

周志华教授着重介绍了他带领团队提出的“深度森林”，这是一种以决策树为基础构建的深度模型。深度森林在超大型互联网金融企业的非法..检测任务中，近2亿的真实交易数据实测上，性能超越了包括深度神经网络在内的其他模型。这也验证了周志华教授及其团队的猜想——在很多其他任务上，非神经网络的深度模型能找到用武之地。

不过，周志华教授也表示，任何一个理论的提出，都需要经过长时间的发展与完善。深度森林目前尚处于初级阶段，好比打开了“深度学习”这间小黑屋的一扇门，还有更多需要去探索。

周志华：关于机器学习的一点思考

以下是南京大学计算机系主任、人工智能学院院长周志华教授在AI WORLD 2018世界人工智能峰会上发表的演讲。

周志华：各位朋友，大家上午好！谢谢新智元杨总的邀请，前面一直没有机会参加，今天很高兴有这个机会。我本人从事的是机器学习方面的研究，今天就和大家汇报一些关于机器学习方面粗浅的看法，谈一谈机器学习发展取得了哪些成功，后面会有哪些问题值得进一步关注。

周志华：关于机器学习的一点思考

大家都知道，这一轮的人工智能热潮很大程度上是由于机器学习，特别是其中深度学习技术取得了巨大的成功。可以说今天每个人、每天都在谈机器学习，机器学习已经无所不在，各种各样的智能应用当中如果离开了机器学习，基本上是不可想像的。

周志华：关于机器学习的一点思考

我们可能要问这样一个问题：

机器学习取得了这么多的成功，这些成功的背后到底是什么呢？

大家常说，现在成功的智能应用后面有三个重要的条件：一是现在有大数据了，二是现在有很强大的计算能力了，三是我们在算法方面取得了很多突破。

这三个因素都特别重要，但今天我们将主要聚焦于机器学习技术本身，谈一谈机器学习技术本身取得这些进展，背后到底有哪些原因。

周志华：关于机器学习的一点思考

其实，无外乎就是三个因素：

1、能找到有效的深度模型

2、存在很多很强的监督信息

3、任务都是比较稳定的环境

现在所有成功的机器学习应用背后都离不开这三者，下面我们分别来看。

周志华：关于机器学习的一点思考

天下没有免费的午餐，深度神经网络必然有不适用的任务

首先是深度模型。

现在深度学习在图像、视频、语音这些数字信号建模任务当中取得了巨大的成功。如果我们问一问大家，“深度学习”是什么？我想从绝大多数人那里得到的答案都会是：

深度学习就是深度神经网络，甚至认为“深度学习”就是“深度神经网络”的同义词，谈到深度学习就要从深度神经网络或者从神经网络谈起。

周志华：关于机器学习的一点思考

事实上，神经网络并不是新事物，我们已经研究了半个多世纪，只不过以前我们通常研究的是有一个隐层或两个隐层这种比较浅的神经网络，其中每个计算单元都是非常简单的模型。早在1943年，我们就已经把它抽象成了这样一个非常简单的数学公式，就是从外界收到输入X，经过W放大，总的输入如果要比θ高，我们就会用激活函数处理进行输出。这样的模型到今天依然在沿用。

深度神经网络带来的最大区别是什么呢？虽然有各种各样的模型，各种各样的算法，但是最根本的差别就是现在我们用了很多很多层。

深度神经网络最著名、最早的成功来自2012年，在计算机视觉领域最著名的ImageNet比赛上获胜。当时这个获胜的模型用了8层，2015年获胜的模型用了152层，2016年就用到了1207层，今天几千层的模型比比皆是。

实际上，这样的模型当中有大量参数需要计算，所以需要非常复杂、非常庞大的计算系统。虽然现在我们有了很强的计算设备和很巧妙的算法，但是我们能够做到这一切，根本的原因之一是神经网络中基本计算单元激活函数是连续可微的。原来浅层神经网络用的是左边的函数，也是连续可微的，深度学习的年代我们通常会用右边这样的函数或变体。

不管怎么样，可微性给我们带来了非常重要的结果，就是可以很容易地计算出梯度，基于梯度的调整就可以用著名的BP算法来训练整个模型。

这一点非常重要，因为如果不是从事机器学习研究的朋友会觉得，神经网络半个世纪之前就有了，到了今天我们之所以能够做更深的神经网络，只不过是因为计算能力强，现在能够训练了。实际上不是这样的。

2006年之前，可以说我们都不知道怎么训练出5层以上的神经网络，根本原因是一旦层数高了以后，用BP算法梯度就会消失，然后就不知道怎么学习下去。所以，2006年的时候Geoffrey Hinton做了很重要的工作，通过逐层训练来缓解梯度消失，使得深层模型能够被训练出来。后来有了一系列深度学习的工作，包括到今天为止的很多前沿研究，都是在防止深层网络中梯度消失，使得梯度更新搜索能持续下去使训练能够完成。

周志华：关于机器学习的一点思考

神经网络取得了非常大的成功，但任何一个模型都必然存在缺陷，神经网络也是这样。

常用神经网络的朋友知道，现在深度神经网络有很多问题。大家经常说的一件事情就是要花大量的精力调整参数，参数实在太多了。不仅如此，这还会带来另外一个严重的问题：哪怕我告诉你同样的算法、用同样的数据，如果不告诉你参数是怎么调的，可能就没有办法得到同样的结果。

此外，还有很多别的问题，比如我们现在用的神经网络模型的复杂度是固定的，一旦先确定了一个模型，就把这个模型用下去。问题是，在解决一个现实问题之前，我们怎样才能知道什么样的模型是最恰当的呢？我们不知道，所以通常会用一个过度复杂的模型来做问题，做的过程当中不断把它简化。

最近如果大家关心深度学习方面的一些前沿研究，可能就会发现现在有大量的论文是关于模型压缩、模型简化等等，事实上都是由这个原因导致的。我们能不能在使用模型的最初不要使用那么复杂的东西？先使用一个比较简单的，然后随着数据和训练的过程让它自适应地、自动地提升复杂度呢？很遗憾，我们对神经网络很难做到这一点，因为我们一旦用BP算法基于梯度搜索来做这件事情，如果事先结构都完全不知道，那么求梯度的对象也就不知道了。

这里有很多的问题，更不用说还有其它的缺陷，比如大的训练数据、理论分析很困难、黑箱模型等等。

有些工业界的朋友可能会说，前面你们谈到的这些缺陷都是从学术角度来说的，我关心实践，只要性能好就行，至于学术上有什么缺点我不关心。实际上就算从这个角度来看，可能也还有很多的需求希望我们去研究其它的模型。

如果我们真正看一看今天的深度神经网络到底在哪些任务上取得了成功，其实我们可以看到无外乎主要就是图像、视频、语音，涉及到这些对象的任务。它们非常典型，都是一些数值信号建模的任务。而在很多其他的任务上，深度神经网络表现并没有那么好，比如可能有的朋友接触过Kaggle这个数据分析竞赛的网站，上面每天都有很多数据分析的任务，有订机票的，有订旅馆的，到今天为止，虽然深度学习网络这么成功，很多这样的任务上我们可以看到获胜的通常还是一些相对传统的机器学习技术，而不是深度神经网络。

周志华：关于机器学习的一点思考

事实上，机器学习界早就很清楚这件事情了，我们有一个经过严格证明的定理，叫做“没有免费的午餐定理”，也就是任何一个模型可能只有一部分任务是适用的，另外一些任务是不适用的。

所以，虽然深度神经网络在有些任务上很成功，但对别的应用来说，我们有没有可能设计出新的模型，在这些任务取得以往没有取得的效果？这可能也是非常值得关注的一件事情。

基于非可微构件、非神经网络的深度模型，是下一步很值得探索的方向

周志华：关于机器学习的一点思考

如果我们重新审视深度模型自身的话，会发现今天我们所谈的深度模型其实都是指深度神经网络，而用更学术的话来说，这是由多层参数化可微的非线性模块搭建起来的模型，而它本身能够用BP算法去训练。

上一篇：抄袭“有利”不能成为抄袭“有理”丨心理杂货铺
下一篇：引发“员工期权保卫战”的美团到底能走多远？

小编推荐

1
飞花令含秋字的诗句有哪些（飞花令带秋字的诗句1000句）
大家好，小豪今天来为大家解答飞花令含秋字的诗句有哪些以下问题，飞花令带秋字的诗句1000句很多人还不知道，现在让我们一起来看看吧！1、01、
2
「门头沟读书日阅读打卡活动」快上车~文创好礼等您来拿！
04/1304/20世界念书日阅读打卡百花渐开风渐暖恰是念书好时节4·23世界念书日即将到来让我们在门头沟区藏书楼+镇、街藏书楼分馆和部门实体书店来一
3
【每日一穴】腰背疼痛怎么办？腿上就有“止痛穴”，每天按一按，理气止痛效果好！
中医保健理疗中，很多都与穴位有关，我们能够经由对体内经脉和穴位进行按摩刺激、艾灸熏蒸等体式来疏通我们的经脉和穴位，调骨气血，从而达
4
销售费用率计算公式是什么（销售费用率ttm）
大家好，小美今天来为大家解答销售费用率计算公式是什么以下问题，销售费用率ttm很多人还不知道，现在让我们一起来看看吧！1、费用率的计算公
5
闻鸡起舞的主人公是谁的答案（闻鸡起舞的主人公是谁的意思是什么）
大家好，小娟今天来为大家解答闻鸡起舞的主人公是谁的答案以下问题，闻鸡起舞的主人公是谁的意思是什么很多人还不知道，现在让我们一起来看
6
武汉二手房网签备案合同查询（武汉二手房交易网签系统）
大家好，小丽今天来为大家解答武汉二手房网签备案合同查询以下问题，武汉二手房交易网签系统很多人还不知道，现在让我们一起来看看吧！1、在
7
狗狗细小病毒的症状与治疗方法（狗狗细小病毒的症状与治疗方法视频）
大家好，小娟今天来为大家解答狗狗细小病毒的症状与治疗方法以下问题，狗狗细小病毒的症状与治疗方法视频很多人还不知道，现在让我们一起来
8
2024年庄浪县人工影响天气作业公告
人工影响天色功课（简称：人影功课）也叫防雹增雨功课，是一项利国利民、办事经济社会成长的公益事业，多年来在人工增雨抗旱和防雹减灾等方

周志华：关于机器学习的一点思考

热门文章

小编推荐