天天看点

“深度学习之父”Geoffrey Hinton:深度学习可完全复制人类的智能创造性思维GLOM 的架构将哲学融入工程学GLOM 的设计听起来在哲学上很合理。但它会成功吗?

作者:DeepTech深科技

计算机科学家和认知心理学家杰弗里·辛顿(Geoffrey Hinton)是深度学习之父,他去年11月做出了预测。经过半个世纪的尝试 - 其中一些已经取得了巨大的成功 - Hinton对大脑如何工作以及它如何在计算机中复制有了更深入的了解。

在新的皇冠流行期间,Hinton与他的多伦多家庭办公室隔离开来。"这是我现在能想到的最好的主意,"他说。如果这个想法得以实现,它可能会激发下一代人工神经网络。

这个数学计算系统受到大脑神经元和突触的启发,是当今人工智能的核心技术。正如Hinton所说,他的"基本动机"源于好奇心。然而,真正的动机 - 理想的结果 - 是设计一个更可靠和值得信赖的人工智能系统。

Hinton是谷歌研究员,也是矢量人工智能研究的联合创始人,他断断续续地写下了他的想法,并于2月下旬在Twitter上宣布,他已经在arXiv预印本服务器上发表了一篇44页的论文。

"这篇论文不是关于实践中的系统,而是关于一个虚构的系统,"Hinton在免责声明中写道。他称之为"GLOM",而"GLOM"源于"聚集"和短语"聚在一起"。

Hinton认为,GLOM可以在机器中恢复人类的感知系统,这为在神经网络中处理和呈现视觉信息提供了一种新的方法。从技术上讲,该系统是类似向量的集合。

向量是神经网络的基础,向量是一组包含信息的数字数组。最简单的例子是点的 xyz 坐标,其中三个数字表示点在三维空间中的位置。

六维矢量包含三个附加信息,可能表示点颜色的红色、绿色和蓝色值。在神经网络中,数千个维度的矢量表示整个图像或文本。Hinton认为,在处理更高维的问题时,我们的大脑活动涉及"与神经活动相关的大向量"。

通过类比,Hinton将相似向量的聚集与回声室效应进行了比较 - 这种效应放大了相似的视角。"回音室效应对政治和社会来说是一场彻底的灾难,"Hinton先生说。但对于神经网络来说,这是一件好事。"

他将回声室效应的概念映射为"同一向量的岛屿"或更简单的"共识岛"的神经网络 - 当向量在基本信息上达成一致时,它们指向同一方向。

从本质上讲,GLOM也在追求实现模拟直觉的难以捉摸的目标。根据Hinton的说法,直觉对于感知活动至关重要。他将直觉定义为人类轻松进行类比的能力。从小到大,我们通过类比推理来感知世界,并将相似的对象,想法或概念映射到另一个对象,或者,正如Hinton所说,从一个大向量到另一个大向量。

"大向量的相似性解释了神经网络如何进行直观的类比推理,"他说。在更广泛的层面上,直觉捕捉了人类大脑产生想法的难以形容的方式。Hinton的作品遵循直觉和科学,所有这些都是由直觉和类比引导的。他关于大脑如何工作的理论都是关于直觉的。"我一直很坚定,"Hinton先生说。"

Hinton希望GLOM可以成为人工智能真正灵活地解决问题之前的众多技术突破之一 - 像人类一样思考,同时理解以前从未见过的东西,从以前的经验中寻找相似之处,思考想法,概括,推断和理解。

"如果神经网络更人性化,那么至少它们可以像我们一样犯错误,这样我们就可以理解是什么让他们感到困惑,"Hinton说。"

然而,就目前而言,GLOM只是一个想法。"这是一团雾,"Hinton说。他承认GLOM的首字母缩略词与"杰弗里的最后原始模型"完全吻合。至少,这是Hinton的最新研究。

< ><h1类"pgc-h-right-arrow"data-track"中的创造性思维。</h1>

Hinton对人工神经网络的热情(诞生于20世纪中叶)可以追溯到20世纪70年代初。到1986年,他在这个领域取得了很大的成就:尽管最初的网络只由几层负责输入和输出的神经元层组成,但Hinton和他的同事们提出了更先进的多层网络技术。然而,计算能力和数据容量花了26年的时间才赶上并利用深度架构。

2012年,因在深度学习方面的突破而声名鹊起的Hinton与两名学生合作开发了一个多层神经网络,可以训练它来识别大图像数据集中的物体。

神经网络已经学会了反复改进分类和识别物体的方法,比如蜱虫、蘑菇、滑板车和马达加斯加猫。系统显示意外的精度。

深度学习彻底改变了最新的人工智能,并改变了整个计算机视觉领域。Hinton认为,深度学习几乎可以完全复制人类的智能。

尽管这一领域发展迅速,但仍然存在重大挑战。神经网络在面对不熟悉的数据集或环境时可能显得相对脆弱和不灵活。

自动驾驶汽车和文本语言生成器令人印象深刻,但它们也可能出错。人工智能视觉系统也可能令人困惑:它们可以从侧面识别咖啡杯,但未经培训就无法从角度识别它们,并且通过一些像素偏移,熊猫可能会被误认为是鸵鸟甚至校车。

GLOM解决了视觉感知系统领域的两个主要挑战:从物体及其自然部分的角度理解整个场景,以及从新的角度理解事物(GLOM专注于视觉,但Hinton希望它也可以应用于语言领域)。

以Hinton的脸为例,疲惫但充满活力的眼睛,嘴巴,耳朵和一个突出的鼻子笼罩在更干净的灰色中。从他显眼的鼻子里,即使你第一次看到Hinton的照片,你也很容易认出他。

在Hinton看来,这两个因素——部分和全部——对人类视觉系统至关重要。"如果GLOM能够发挥作用,它将比今天的神经网络更像人类来感知事物,"他说。"

然而,对于计算机来说,将零件集成到整体中是一个挑战,因为有时零件的概念是模棱两可的。圆圈可以是眼睛、甜甜圈或轮子。

正如Hinton所解释的那样,第一代人工智能视觉系统主要通过部分和整体之间的几何关系来识别物体——部分之间以及部分与整体之间的空间方向。

另一方面,第二代系统依赖于深度学习 - 使用神经网络训练大量数据 - Hinton在GLOM中结合了这两种方法的优势。

"我喜欢谦逊,"Robust.AI 的创始人兼首席执行官加里·马库斯(Gary Marcus)说,他是对深度学习的强烈依赖的着名批评家。"

马库斯称赞辛顿愿意挑战自己,再次出名,并承认这没有奏效。"这是一个勇敢的想法,"他说。而'我试图使用创造性思维'这句话是一个非常好的纠正措施。

<>GLOM<h1级"的架构"pgc-h-right-arrow"data-track"。</h1>

在构建GLOM时,Hinton试图模拟人类用来感知世界的一些心理捷径,例如直觉策略或启发式方法。Nick Frost是多伦多一家语言初创公司的计算机科学家,他还与Hinton合作开发Google Brain。

"GLOM和Geoffrey的大部分工作都是研究人类拥有的启发式方法,并构建可以学习它们的神经网络,然后证明神经网络更适合视觉分析,"Frost说。"

通过视觉感知,一种策略是分析物体的各个部分 - 例如不同的面部特征 - 以了解整体。如果你看到一个特定的鼻子,你可能会认出它来自Hinton的脸,这是一个部分到整体的层次结构。

为了建立一个更好的视觉系统,Hinton说:"我有一个强烈的直觉,我们需要使用部分到整体的层次结构。人脑通过构建"解析树"来理解部分到整体的组成。

解析树是一个分支图,用于显示整体、部分和次要部分之间的层次结构关系。脸在解析树的顶部,而眼睛,鼻子,耳朵和嘴巴在下面的树枝上。

hinton使用GLOM的主要目标之一是在神经网络中重现解析树,这是将GLOM与以前的神经网络区分开来的特征。从技术角度来看,构建系统是很困难的。

"很难做到的是,每个人都用一个独特的解析树来解析每个图像,我们希望神经网络也这样做,"Frost说。对于系统看到的每一个新图像,很难使用神经网络(新结构)来解析像树这样的静态结构。"

Hinton进行了各种尝试,GLOM是他2017年试验的修订版,结合了该领域的其他相关先进技术。

设想GLOM架构的方法通常是这样的:感兴趣的图像(例如,Hinton的脸部图片)被网格分割。网格上的区域表示图像上的"位置" - 该位置可能包括虹膜,而另一个位置可能包含鼻尖。

网络中的每个位置都有大约五层或五层。系统进行逐层预测,并使用矢量来表示内容或信息。在下层附近,矢量表示预测的鼻尖的位置:"我是鼻子的一部分!在下一个层次上,通过构建更合乎逻辑的视觉表示,矢量可能会预测:"我是侧脸图像的一部分!"

然而,那么问题就出现了:同一层次结构中的相邻向量会一致吗?当达成协议时,矢量指向同一个方向:"是的,我们都属于同一个鼻子。"或者指向后面的解析树。是的,我们都属于同一张脸。"

在寻求对物体性质的共识时 - 物体的最终精确定义 - GLOM的向量均匀地重复分布,逐地,逐层分布,彼此相邻的向量相邻,以及上层或下层的预测向量。

然而,Hinton先生表示,该网络不会与附近的矢量"任意划分"。这是一个选择性的平均分布,相邻的预测显示相似性。

他补充说:"这在美国非常有名,通常被称为回音室效应。您只会接受那些同意您观点的人的观点。通过这种方式,形成了一个回声室,每个人都共享相同的观点。事实上,GLOM积极地利用了这种现象。Hinton系统中的类似现象是"共识岛"。

"想象一下,一群人在一个房间里大声谈论一些不同相似的想法,"弗罗斯特先生说。或者将它们视为大致指向同一方向的向量。随着时间的流逝,所有的想法都融合为一体。他们会觉得这个想法越来越有影响力,因为它已经得到了周围人的证实。这就是GLOM矢量如何加强和放大图像的协作预测。

GLOM使用这些共识向量岛来研究神经网络中解析树的工作方式,虽然一些神经网络最近使用向量到向量共识来激活它们,但GLOM使用共识来呈现结果-以构建网络中事物的表示。

例如,当多个向量同意它们是鼻子的一部分时,小尺度识别向量共同表示网络中面部分辨率树的鼻子。另一组较小的身份向量可能表示解析树中的嘴,而解析树顶部的大型集合可能表示新结果 - 整体图像是 Hinton 的脸。

Hinton解释说:"解析树在这里以这样一种方式呈现,即对象层次结构表现为一个大岛,而对象的部分是较小的岛屿,次要部分是一个较小的岛屿,所以向下。"

“深度学习之父”Geoffrey Hinton:深度学习可完全复制人类的智能创造性思维GLOM 的架构将哲学融入工程学GLOM 的设计听起来在哲学上很合理。但它会成功吗?

GLOM论文中的Hinton图表显示,每个层次结构中具有相同向量(相同颜色的箭头)的岛屿代表一个分析树(来源:Hinton)

蒙特利尔大学的计算机科学家Joshua Bengio是Hinton的老朋友和同事,他说,如果GLOM能够解决在神经网络中表示解析树的工程挑战,那将是一项伟大的成就,对于使神经网络正常工作至关重要。

他补充说:"杰弗里在他的职业生涯中做出了许多重要的预测,其中许多已经得到验证。所以我要密切关注这些预测,特别是当杰弗里振作起来的时候,就像他现在对GLOM的感觉一样。"

Hinton的坚定态度不仅来自回声室效应的类比,还来自数学和生物学的类比,这些类比启发并展示了GLOM新的工程设计决策过程。

麦克马斯特大学(McMaster University)的计算认知神经科学家、Hinton的学生苏·贝克(Sue Baker)说:"杰弗里是一位非常不寻常的思想家,他能够通过使用复杂的数学概念并将生物学理论融入其中来发展他的理论。人机学习原理和思维方法的挑战性问题很难解决,这仅限于数学理论或神经生物学理论的研究人员。"

<h1级"pgc-h-arrow右转"数据轨道""31">将理念融入工程</h1>

到目前为止,Hinton的新想法已被广泛接受,特别是在举世闻名的回音室中。"在Twitter上,我得到了很多喜欢,"他说。YouTube上的教程还声称保留了一次"MeGLOMania"的所有权。

Hinton是第一个承认目前的GLOM在哲学上有点冥想的人,他在进入实验心理学之前参加了为期一年的哲学本科课程。

"如果一个想法在哲学上听起来不错,那么它就是,"他说。一个听起来像垃圾的哲学观点如何成为现实?从哲学的角度来看,它不能通过这个标准。"

相比之下,他说,"很多科学的东西听起来像是垃圾",但它们做得很好——比如神经网络。

<>h1级"pgc-h-right-arrow"数据轨道""31"的设计听起来很哲学。但它会成功吗?</h1>

爱丁堡大学信息科学学院机器学习教授克里斯·威廉姆斯(Chris Williams)希望GLOM能带来一系列伟大的创新。

然而,他说,"人工智能与哲学的区别在于,我们可以使用计算机来验证这些理论。通过这些实验,不可能找出想法中的缺陷或修复它们。他补充说:"虽然我相信这项研究很有希望,但目前我认为我们没有足够的证据来评估一个想法的真正重要性。"

在多伦多的谷歌研究院,Hinton的一些同事正处于实验GLOM的早期阶段,而使用新神经网络架构的软件工程师Laura Karp正在使用计算机模拟技术来测试GLOM在理解物体部分和整体的概念时是否可以产生Hinton所说的共识岛。 即使输入不明确。

在实验中,这些部分是10个不同大小的椭圆形,可以形成一张脸和一只羊。

“深度学习之父”Geoffrey Hinton:深度学习可完全复制人类的智能创造性思维GLOM 的架构将哲学融入工程学GLOM 的设计听起来在哲学上很合理。但它会成功吗?

图|在GLOM测试模型中输入的10个椭圆形,形成绵羊和面部(来源:Laura Karp)

通过随机输入一个或另一个椭圆,模型可以预测椭圆是属于人脸还是羊,或者它是羊腿还是羊头,卡普说。即使在发生任何干扰的情况下,该模型也可以自我校正。

下一步是建立一个基准,以指示标准深度学习神经网络是否会被这个任务所混淆。到目前为止,GLOM已经受到严格的审查 - Cap已经生成了一些数据并对其进行了标记,促使模型在很长一段时间内进行校正以实现正确的预测。无监督版本被称为GLUM - "这是一个笑话,"Hinton先生说。"

在这种初始状态下,现在得出任何重要结论还为时过早。卡普正在等待更多数据出现。然而,Hinton给业界留下了深刻的印象。

"GLOM的简单版本可以查看10个椭圆,并根据椭圆之间的空间关系识别人脸和绵羊,"他说。这是一个令人困惑的问题,因为从单个椭圆中看不出它属于哪个对象或它属于对象的哪个部分。"

总的来说,Hinton对反馈感到满意。"我只是想把它上传到社区,这样每个感兴趣的人都可以尝试一下,或者把这些想法放在一起,"他说。然后,哲学将被转化为科学。"