天天看点

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

来源:Coursera吴恩达深度学习课程

作为deeplearning.ai课程的一部分,Andrew希望除了教授技术理念之外,同时介绍一些深度学习的先驱给大家认识。在这个视频中,Andrew也希望问问这些先驱们,能不能给一些工作上的建议,关于如何入门深度学习,如何做课题研究或者如何在深度学习领域找一份工作。作为这个采访的开头,很荣幸先展示Geoffrey Hinton的采访视频。

吴恩达:欢迎你Geoff,在此非常感谢您接受deeplearning.ai的采访。

Geoffrey Hinton:谢谢你的邀请。

吴恩达:我想你是至今为止整个地球上发明最多深度学习核心理念的人,很多人都称呼你为“深度学习教父”(the godfather of deep learning),尽管我是直到和你聊了几分钟之后才发现我是第一个这样称呼你的人,对此我深感荣幸。不过我想问的是,许多人把你看作传奇(legend),我更想知道一些传奇背后的私人故事(personal story behind the legend),所以你是怎样在很久之前就投身于人工智能,机器学习以及神经网络之中的呢?

Geoffrey Hinton:当我还在高中时,有一个什么都比我强的同学,他是个才华横溢的数学家(brilliant mathematician),有天他来学校并且问我,你知道大脑是用全息图运作的吗?(did you know the brain uses holograms?)那时应该是1966年,我反问他:全息图是个啥?他就解释了一下,在全息图中,你可以切掉它的一半,但依然了解得到全貌,还有大脑中的记忆可能是分布于整个大脑中的,我大概猜到他可能是读过关于Karl Lashley的实验,其中讲到切掉老鼠几个小部分的脑子,然后发现很难找到哪一部分存储哪种特别的记忆,那是第一次让我对大脑,怎么储存记忆产生兴趣的时刻,然后当我去上大学的时候,我就开始学习生理学(physiology)和物理学(physics),当我在剑桥(Cambridge)的时候我是唯一一个在学生理学和物理学的本科生,之后我放弃了这个选择并且尝试学哲学(philosophy),因为我觉得那可能会给我更多的深入了解,但是后来我又觉得缺乏真正能够辨别错误说法的方法,然后我就转去学了心理学(psychology),而在心理学中有着非常非常过于简单的理论,对我个人来说用来解释大脑的运作看起来无可救药的不充分,之后我花了点时间做一个木匠(carpenter),然后我又决定想去试试看人工智能,于是就跑去爱丁堡(Edinburgh)跟Longuet Higgins学人工智能,他已经做了很棒的关于神经网络的研究并且刚刚决定放弃于此,转而对Terry Winograd的学说表示赞赏,我刚去的时候他觉得我做这个(神经网络)已经过时了,应该开始搞符号主义人工智能(symbolic AI),关于这个我们有很多争论,但我还是坚持做自己相信的事情。

吴恩达:然后呢?

Geoffrey Hinton:最终我拿到了人工智能博士学位(PhD in AI)。但我在英国找不到工作,但我注意到了一个很不错的加州Sloan奖学金的广告,我拿到了这个奖学金,我去了加州(California),那里感觉很不一样。在英国,“神经网络”(neural nets)看上去很愚蠢,而在加州Don Norman和David Rumelhart对于神经网络的观念非常开放,在那里我第一次开始考虑大脑是怎么运作的,和心理学会有什么联系,看上去是一个积极的方向,这其中有很多乐趣,特别是和David Rumelhart一起工作相当棒。

吴恩达:我懂了,很好,1982年你在UCSD和Rumelhart在一起工作,最后写出了反向传播(backprop)的论文.

Geoffrey Hinton:事实上,比这还要复杂点.

吴恩达:什么情况呢?

Geoffrey Hinton:大概在1982年初,David Rumelhart和我,还有Ron Williams我们开发了反向传播算法,这主要是David Rumelhart的想法,我们发现不少人都发明过。David Parker发明过,可能比我们晚,但发表比我们早,Paul Werbos发表了好几年的,不过没人注意到。还有其他人也做出了类似的算法,但不能清晰地表述出“反向传播”的含义,用链式法则求导(chain rule)并不是很新的想法。

吴恩达:明白,为什么你会认为你们的论文极大地帮助大家理解了“反向传播”呢?似乎你们的论文被认为是让大家去接受这个算法的一个里程碑。

Geoffrey Hinton:最后我们的论文上了《自然》,为了论文被接受,我做了不少人事工作,我想到其中一个审稿人(referees)可能会是Stuart Sutherland---英国一位很有名的心理学家,我跑去和他聊了很久,跟他解释这到底是怎么一回事,给他留下了很深刻的印象,因为我们给他展示了反向传播法可以学习字元表示,你可以看到这些表示都是一些向量,你可以理解每一个特征的意义,实际上我们训练了三个名字的家族树模型,比如Mary的妈妈是Victoria,你给出前面两个名字,它能预测到最后的名字,训练过后你可以看到每一个名字的所有特征,比如某个人的国籍,是第几代,在家族树中的哪一旁枝等等,这震惊了Stuart Sutherland,我想,这是论文被通过的原因。

吴恩达:这是十分早期的关于词向量的尝试,并且你已经在接触在训练算法中出现的能被学习的语义特征了。

Geoffrey Hinton:是的,所以从一个心理学家的角度来说,真正有趣的是它能把两股完全不同的知识概念统一起来。曾有一些心理学家认为,知识概念是一大束特征(a big bundle of features),对此也有很多相关证据。之后又出现了现代AI的观点,也就是正式的结构主义观点(a formal structurist view),意思即是任何一个概念都有许多其他概念与其相关,为了理解一个概念,你会需要一个图形结构或是一个语义网络,然后这个后向传播的例子展示了你可以把信息传给它,信息会变成图形结构——在这个特殊情况是一个族谱,然后输入信息会用这样的方式变成特征,然后它能够使用这些特征来得到新的前后一致的信息,也就是归纳总结化。但是真正重要的是这样来回往复的图形或树形的表现族谱方式,把里面的人变成特征向量这种形式,事实上从图形状的表现手法(graph-like representation),你也能够得到特征向量,从特征向量你又可以得到更多的图形陈述。

吴恩达:那时候是1986年?

Geoffrey Hinton:90年代早期Bengio就已经展示过,你可以把真实的数据,比如你可以拿来英文文本,然后使用这些技巧得到文本的词语向量,这曾经惊艳了许多人。

吴恩达:最近我们在聊的都是计算机变得有多快,比如使深度学习不断提高的新的GPU和超级计算机(supercomputers),这些工具在1986年到90年代并不存在,听起来你和Bengio那时就已经开始引发了这个潮流。

Geoffrey Hinton:是的,在当时的确是很大的进步。在1986年,我曾经用一个速度小于十分之一秒百万次浮点运算的列表机(list machine),大概1993年左右,人们才逐渐开始见到十秒百万次浮点运算,所以曾经都是100的倍数,在那时也许还挺好用的。因为计算机才刚刚开始变快。

吴恩达:原来如此,前几十年的时候,你就已经发明了这么多神经网络和深度学习相关的概念,我其实很好奇,在这么多你发明的东西中,哪些是你到现在为止依然还是保持热情的?

Geoffrey Hinton:我认为最具学术之美的是我和Terry Sejnowski做的Boltzmann机器,我们发现它能用非常非常简单的学习算法去应用到密度很高的连接起来的网络,这些网络中只有一些节点能被看到,那么隐藏表示方式,能够用非常简单的算法学习,看起来也是一种你应该能够应用大脑的东西,因为只需要知道直接和每一个突触(synapse)相连接的两个神经元所被传播的信息应该都是一样的,这里有两个不同的时期,我们也可以称为唤醒和睡眠,但是在这两个不同时期传播信息的方法都是一样的,不像在后向传播中有前后向两种,方法不同,因为发送不同种类的信号,这就是我觉得它的魅力所在,很多年以来都看似只是好奇心所向,因为运行速度很慢,不过后来,我去繁为简,开始只在简单些的网络用一个循环,于是就有了受限Boltzmann机,实际中反而更有效,在Netflix的比赛中,举个例子,受限Boltzmann机是第一名所用的算法之一。

吴恩达:事实上,很多最近复苏的神经网络和深度学习(recent resurgence of neural net and deep learning),从2007年开始,受限Boltzmann机和解除限制Boltzmann机,你和你实验室做了很多贡献。

Geoffrey Hinton:这是另外让我做得很开心的工作,你能仅用一层的隐藏特征训练受限Boltamann机的想法。只学一层特征,然后你可以重复把特征当成数据,然后再把新的特征当成数据,再重复,直到你想要的次数,实际能够应用,的确很不错。然后Uy Tay(音)发现这全部过程,可以想成是一个模型,虽然有点奇怪,这个模型顶部是一个受限Boltzmann机,往下是个sigmoid形置信网(belief net),这发明很超前,这是个有向图模型,并且我们想要能训练这些受限Boltzmann机,能有效地适用于sigmoid形置信网,那时,已经有人在做神经网络了,在用高密度连接的网络,但是没有足够好的概率标记(probabilistic imprints),也有人在做图模型(graphical models),不像我的孩子们能做合适的推断(do inference properly),虽然也只能用在稀疏连接的网络,我们展示了训练深层置信网络的方法,使大致上的推理变得非常快,只需要一个前向推进(forward pass),结果就能很美丽。你可以保证,每次学一层新的特征,都有新的带,每次都是这样,每个新的带都会比旧的好。

吴恩达:变分带(variational bands)显示你是否新加了层数,对,我记得那个视频。

Geoffrey Hinton:这也是第二件我始终很感兴趣的东西,第三个是做过的一些变分法(variational methods),统计学者们也做过类似的东西,不过那时我们并不知道,我们让EM变得更有效,通过证明你不需完美的E步骤,而只需要个大约的对于隐变量后验分布的初始值,EM当时在统计学很有分量,我们证明了它能被泛化用于神经网络,特别是我在 1993年 和Van Camp写了篇论文,是第一篇变分贝叶斯的论文,并且证明了可以只用一个版本的贝叶斯学习(Bayesian learning),更容易处理。因为能用a来估算真正的后验概率,也可以用在神经网络中,我对此非常兴奋。

吴恩达:原来如此,哇,真牛。对,我记得提到的所有论文,你和Hinton(口误)在论文上花了很多时间,我认为一些现在用的算法或大多数人几乎每天用的一些算法,比如dropout 或来源于你团队的激活函数。

Geoffrey Hinton:对,但不完全是,那么其他人可能也做过ReLU,我们在受限Boltzmann机上花功夫证明了ReLU几乎完全等同于一叠logistic单元,这是推进ReLU前进的其中一种力量。

吴恩达:我对此非常好奇,这论文的价值是,用了大量数学证明此函数能被复杂公式估算,你是为了发表论文做的数学,还是真的为了影响0和x的最大值的发展。

Geoffrey Hinton:并不是为了发论文的情况,数学对推进这个想法,真的很有影响力。我显然已经知道ReLU还有logistic单元,由于我花了心血在Boltzmann机上,全都是用的logistic单元,那时候面临的问题是,这个学习算法可能用在ReLU吗,证明完ReLU几乎等同一叠logistic单元后,我们展示了所有的数学证明。

吴恩达:原来如此,它为无数现在使用ReLU的人们提供了灵感,也不需要特别懂得每个细节。

Geoffrey Hinton:对,那么其中之一的发现在我到Google之后,是2014年我在Google讲ReLU的用法以及怎么用单位矩阵初始化。因为ReLU的一大优点是,如果不断复制隐藏层,又用单位矩阵初始化,它会复制下层的模式,我展示了你可以训练一个300个隐层的网络,并且用单位矩阵初始化,会很有效率。但是我没有继续研究下去,也很是后悔,我们只发了一篇论文,能证明你可以初始化,可以初始化重复发生,我应该继续研究的,后来却搁置了。

吴恩达:很多年以来我都听到你谈论大脑,我听到过你谈论后向传播和大脑的关系,现在你对此是什么想法。

Geoffrey Hinton:我现在正好有论文在准备中,主要想法就是这个:如果后向传播是个好的学习算法,那进化过程肯定会从中干扰,有些细胞会变成眼球或是牙齿,如果细胞能做这些,就一定能应用后向传播了,这样假设会造成极大的选择性压力,所以我觉得,毫不怀疑这种想法的神经科学家有点犯傻。可能有比较微妙的应用,我想大脑可能不会完全用后向传播,但是足够相似。这么多年以来,我想出很多可能的理论,在1987年我和Jay McClelland做出了循环算法(recirculation algorithm),核心想法是你发送信息并循环,并在循环之中保持它所包括的信息。最简单的版本是,你有输入和隐藏单元,然后你从输入发信息到隐藏单元,再回到输入,再到隐藏,再回到输入,以此类推,那么你想要训练一个自动译码器(autoencoder),但是你想绕开后向传播,你只要训练,并且去掉所产生的变化,核心想法是神经元突触的学习方式,通过改变突破前的输入权重比重,同时按比例改变突破后的输入,在再流通时,你需要突破后的输入,旧的比较好,新的较差,这是比较理想的情况。我们在神经科学家发明尖峰时序依赖可塑性(spike-timing-dependent plasticity)之前,发明了这个算法。尖峰时序依赖可塑性,是个相同的算法,但是,相反,需要新的东西较好,旧的较差,所以,用预先设定前景活动的权重比例,乘以新的,再减去旧的。后来我在2007年发现,如果你用一叠,受限Boltzmann机来训练,训练完,你会有完全正确的条件,来重建并实现后向传播。如果你关注重建时期(reconstruction era),重建时期实际会告诉你偏差表现的导数。在2007年的第一个深度学习专题讨论中,我曾做过相关演讲,那是几乎被完全遗漏的部分,后来 Yoshua Bengio重拾这个想法,下了很多功夫,我自己本人也做了很多相关研究,如果你有一叠自动解码器,就可以通过后向传送活动(send activity backwards)和重建点定位(locate reconstructionaires),得到导数,这个有趣的想法也是大脑工作的原理之一。

吴恩达:另一个据我所知,你正在研究的,怎么在深度学习中解决多个时间技巧,能分享一些你的想法吗?

Geoffrey Hinton:没问题,这要回溯到我研究生第一年,我第一次展示了怎么用快速权重,也就是适应很快,衰退也很快的权重。所以只有短期记忆。我在1973年展示了一个很简单的系统,可以用这些权重做真实循环(true recursion)。真实循环的意思是,用到的神经元来表示循环核心的东西用到的权重,实际也是在循环核心被重复利用的知识。引导出的新问题是,当你突出循环核心时,怎么记得已经是在过程中了,这个记忆从何而来,因为你用过了重复核心的神经元,答案是你可以把记忆放入快速权重中,这些活动神经元可以从快速权重中复原和Jimmy Ba最近的研究中,我们已经有了篇关于,这样来用快速权重复原的论文,这个空缺非常大,1973年的第一个模型没有被发表,接下来就是2015或2016年Jimmy Ba的模型,前后相隔40年。

吴恩达:另一个你酝酿了约五年之久的“胶囊”(capsules)概念,目前进展如何?

Geoffrey Hinton:我回到之前所在的状态,就是我非常笃定地相信,所有人都不信的东西,我提交了一些论文都会被拒稿。但是我真的相信这个想法,我也会继续研究,在转移中有一些很重要的概念,其一是如何表示多维个体,你可以用些借壳活动,表示多维个体,只要你知道其中的任何一个。在图片中任何一个区域,你会假设至少有一个特别的特征,之后你会用一堆神经元,以及它们的活动来表示特征的不同方面,比如x,y坐标具体在哪,在哪个方向,移动速度是多快,是什么颜色,什么亮度,类似等等,你可以用一堆神经元,来代表不同维度的同一个东西,假如只有其中一个,这种做法很不一样,相比于普通方式,普通来说在神经网络中就只有一个很宏观的层,所有的单元和作用都在里面,但是你不会想到把它们结合成一个个小组,来用不同的坐标表示相同的东西,另一个想法是我们应该去掉多余的结构。

吴恩达:在真实的表示方法中,对不同特征分段表示,对不同子集分开表示。

Geoffrey Hinton:我把这些子集叫做胶囊,胶囊是能够表示一个特征的,存在且唯一存在的情况,它能表示特征的所有不同性质。胶囊比一般的神经元能表示更多性质,因为一个普通的神经网络,只能表示一个度量上的属性。

吴恩达:原来是这样。

Geoffrey Hinton:当你能这么做之后,你还能做到普通神经网络表现很差的是,我称为常规协议(routine by agreement)。假设你想要分层(segmentation),然后图片中有一张嘴,一个鼻子或是别的东西,你想知道你该不该尝试组合成一个东西,这个想法就可以用胶囊。比如一张嘴,有关于嘴的参数,还有鼻子的胶囊,也有关于鼻子的参数,再确定该不该把它们拼起来,你会有来决定能不能拼成脸的参数。要是嘴、鼻子有对的空间关系,它们就会对应上,在统一层面有两个相应的胶囊,能组成到下一个层面,就可以决定应该组合起来,因为在高维度能对应上很难得,这过滤方法很不同寻常,相比普通情况的神经网络,常规协议会变得至关重要,特别是用有限数据总结概括时,这个观念上的改变会帮助完成分段,我希望统计角度也更有效,对比我们现在的神经网络,如果你想要改变观点,你就得尝试做,并且全都训练一遍。

吴恩达:好的,相比FIFO学习,监督学习,还可以做点不一样的。

Geoffrey Hinton:我还是计划做监督学习,但是前向路线会很不一样。不同之处在于里面还有些循环过程,比如你觉得找到个嘴,找到个鼻子,之后用几个循环去决定,它们能不能组成一张脸,用这个循环可以做后向传播,也可以有偏重地试试看,我在多伦多的小组正在研究这个,在多伦多我有一个Google小组,是Brain组的一部分,现在我对此非常兴奋。

吴恩达:的确很棒,很期待论文的发表。

Geoffrey Hinton:哈哈对,假设能发表的话。

吴恩达:你研究深度学习都几十年了,我很好奇你的想法,关于AI有什么改变吗?

Geoffrey Hinton:我用了很多时间在反向传播算法上,比如怎么使用它,怎么释放它的力量。刚开始,80年代中时,我们在做判别式学习(discriminative learning),结果很不错,然后到90年代早期,发现大多数人类学习都应该是无监督学习,然后我对无监督学习产生浓厚兴趣,开始研究Wegstein算法。

吴恩达:那时候你的探讨对我个人影响也很大,我在领导Google Brain团队时,第一个项目就在你的影响下研究了好多无监督学习。

Geoffrey Hinton:是呢,我可能误导你啦,虽然长期来说,无监督学习绝对会变得很重要,但是面对现实,近十年以来所做的都是监督学习,判别式学习都有标签,你想预测一个系列的下一个东西,也就是标签,结果惊人的好,我仍相信无监督学习会很重要,当我们真正搞明白一些东西以后,结果会比现在好得多,不过目前还没到。

吴恩达:嗯,深度学习里的高级研究人员,包括我自己对此依然很是激动,因为我们中没有一个人知道该怎么办,可能你知道,但是我不行了。

Geoffrey Hinton:变分法改变代码(Variational altering code)是你会用到更新参数化的地方,这想法看起来很不错,生成对抗网络(generative adversarial nets)也是很棒的想法,生成对抗网络我认为是深度学习中最新最重要的想法,我希望胶囊也能这么成功,生成对抗网络目前是很大的突破(breakthrough)。

吴恩达:稀疏,缓慢的特征上有发生什么吗?其他两个无监督建模的原则是什么。

Geoffrey Hinton:我从未像你一样看重稀疏性,但是慢速特征,我认为,是个错误,不应该说慢。基本想法是对的,但不应该只考虑不变的特征,而是可预测改变的特征。建任何模型的基本原则大概是,先记录测量值,对其应用非线性变换(applying nonlinear transformations),直到状态向量成为表达式,这项活动变得线性时,不能像做普通渗透一样,假设线性应该找一个从观察转换,到潜在变量的转换,线性操作,比如潜在变量的矩阵乘积。即是如此,举个例子:如果你想改变观点,如果你想从另一个观点产生图像,需要从像素(pixels)转化到坐标(coordinates),当你有坐标表示后,希望胶囊也能做到如此。你就可以做矩阵乘法来改变观点,再投射到像素中。

吴恩达:这就是为什么这是个非常宏观的原则,也是你做面部人工合成的原因,对吗,即是把脸压缩成低维度向量,再生成其他的脸。

Geoffrey Hinton:我曾有个学生研究这个,我自己本人没怎么做。

吴恩达:你应该常常被问到,如果有人想要入门深度学习,该做什么,你有什么建议吗?之前应该有很多一对一的情况,但对于全球范围都在看这个视频的观众,对于要学深度学习的人们,你有什么样的建议。

Geoffrey Hinton:好,我的建议是多读论文,但别读太多(my advice is sort of read the literature, but don’t read too much of it.)。我从导师(advisor)那里得到这个建议。并不像大多数人说的,大多数人会告诉你尽量多读论文,然后开始自己的研究,对一些研究人员应该是正确的,但是对有创意的人应该读一少部分论文,然后发现一点你认为所有人都错了的东西,在这点我一般都逆着来,你看到它,感觉不太对,然后想怎么才对。当人们反对你时,要坚持自我,我支持人们坚持自我的原则,是判断直觉的对错,你直觉还不错的话,就该坚持,最后一定会成功,要是你直觉一般的话,做啥都无所谓。

吴恩达:我懂了哈哈,鼓舞人心的建议,就坚持下去。

Geoffrey Hinton:该相信直觉,不相信就没意义了。

吴恩达:我懂了,是的。我通常建议人们不要只看,而是要重现发表了的论文,自然而然限制了你做的数量,因为重现结果很耗时间。

Geoffrey Hinton:对,当你重现发表的论文时,会发现所有使之成功的小技巧。另一个建议是,永远不要停止编程(never stop programming)。因为如果你给学生布置任务,他们三天打鱼两天晒网,回头就会告诉你看,没做成,没做成的原因,往往是他们所做的小决定,当时不觉得很重要。举个例子,如果你给一个好学生任务,你可以给他们好学生中任何人任务,他都会做成,我记得曾经有一次,我说:诶,等等,我们上次讨论时,因为某某原因,是不可能成功呀,学生回答说:“对呀,你说完我就发现了,就假设不是你真的觉得做不出”。

吴恩达:哈哈,原来这样,那很厉害,还有其他关于AI和深度学习的建议吗?

Geoffrey Hinton:我认为基本上,开始锻炼直觉(intuitions)时要读够,然后相信直觉,自己动手,不要担心别人有反对意见。

吴恩达:你也没法证明,他们说的对不对,除非亲自做了,才能知道。

Geoffrey Hinton:对,但还有一点,如果你有个绝好的想法,别人都觉得完全荒谬,那你就找对东西了。举个例子,当我刚想出来变分法时,我给之前一个叫Peter Brown的学生写了封信,他懂得很多EM相关知识,他就拿去给一起工作的人看,叫(未听清)brothers,可能是双胞胎吧。然后他说,俩兄弟说了,你要么是你喝多了,要么是傻,俩兄弟当真认为是荒谬之论,部分原因可能是我用的解释方式。因为我只解释了直觉,但当你有个很不错的想法时,其他人觉得完全是垃圾,就是个好想法的信号了。

吴恩达:好的,研究课题的话,新研究生们应该多研究胶囊,无监督学习,还有其他吗?

Geoffrey Hinton:对新研究生的一个好建议是,找一个和你意见一致的导师(you can find an advisor who has beliefs similar to yours)。因为如果你做的东西,导师也深深赞同,你会得到很好的建议,要是做你导师不感兴趣的东西,你会得到没啥用的建议。

吴恩达:好的,最后对于学习者的建议,有什么建议给想攻读博士的人,或去顶级公司工作,或顶级研究团队。

Geoffrey Hinton:这问题复杂。我认为现在,在大学中没有足够的深度学习学者教育有求知欲的人,就没有足够的教职人员。不过应该是暂时性的,发生的事是这样,大多数部门很少有真正懂得这场革命的人,我几乎同意,这并不是二次工业革命(second industrial revolution),但是规模接近。有如此巨大的改变,基本是因为我们和计算机的关系改变,不再只是编程序,而是让它们有能力自动解决问题,从根本上改变了计算机的用法。计算机科学系,却是在之前基础上建立起来的,他们暂且不懂,训练计算机会和编程一样重要,系中一半的人,得实际去试过训练计算机。我所在的系就拒绝承认,应该放手让很多人去做,他们觉得有几个就够,可不能放太多人去。这种情况下,你就得建议大公司多花点时间训练员工,Google培养的人们,我们叫他们作brain居民,我很怀疑最后大学们能赶上他们。

 吴恩达:嗯,没错,实际上,很多学生都发现了,实际上前50的学校超过一半的申请者,只想训练计算机而不是真正编程,是,归因齐宗(to give credit where it’s due),深度学习AI的微专业课程,据我所知,最初都是你在Coursera上教授的,还得回溯到2012年。奇怪的是,也是你发表RMS算法的时候,也还挺难的。

Geoffrey Hinton:你邀请我去做,大型开放网课,我可是很怀疑的,但你一直逼我,我很庆幸我那么做了,尽管工作量极大。

吴恩达:是的,感谢你做到了,我还记得你发牢骚,说要做的这么多,你还老是熬夜,但我觉得很多很多的学者都受益于你的课程,我也非常感激你真的做到了。

Geoffrey Hinton:很棒,对。

吴恩达:这些年来,我也目睹你被卷入AI界模范的辩论中,以及是否有过AI的变更,你可以分享一下你的想法吗?

Geoffrey Hinton:我很乐意,早期时,大概50年代,像Von Neumann之类的人,都不相信符号化AI,他们灵感更多来源于大脑,不幸的是,他们都英年早逝,未能使自己的想法面世。AI早期时,人们完全被说服,智力的表示该是某种符号表达或比较整洁的逻辑,而不完全是逻辑,但是类似逻辑,智力的本质是推理(reasoning)。现在发生的是,有种完全不同的观点,就是无论想法是什么,都是一个很大的神经活动向量,对比符号化的表示,我认为那些把想法想成是符号表达的人,大错特错,输入是一串字符,输出是一串单词。因此,单词的字符串显然能作为表达式,他们觉得一定是字符串,或其他类似字符串的东西,我却不认为是这样,我觉得想法该是某种语言,简直和把想法置于空间层面(spatial scene)理解,必须得是像素进,像素出,一样傻,要是我们能与点矩阵打印机相连,那像素就会出来,但中间的并不是像素。所以我认为想法该是一个大向量,有因果能力的大向量,能引发出其他大向量,这与AI的主流观点——符号化表达完全不同。

吴恩达:好的,AI是肯定会改变到新的视角的。

Geoffrey Hinton:起码一部分,大多数人还是认为,AI是符号式的。

吴恩达:非常感谢你愿意接受采访,能听到深度学习进化的全过程很棒,还有你依旧在带领它前进,很感谢你Geoff。

Geoffrey Hinton:感谢你给我这个机会,谢谢你。

总结:(1)Geoffrey Hinton的建议是多读论文,但别读太多(my advice is sort of read the literature, but don’t read too much of it.)(2)另一个建议是,永远不要停止编程(never stop programming)。

说明:记录学习笔记,如果错误欢迎指正!转载请联系我。