Hinton万字访谈:用更大模型「预测下一个词」值得全力以赴

新闻资讯2024-06-07 20:49小乐

Hinton万字访谈:用更大模型「预测下一个词」值得全力以赴

机器之心编辑部

“这次采访的每一秒都是精华。”近日,一段图灵奖得主Geoffrey Hinton的采访视频受到网友好评。

视频链接:https://www.youtube.com/watch v=tP-4njhyGvot=660s

采访中,Hinton 谈到了很多话题,包括当前大模型的技术路线图、多模态学习、数字计算和共享知识的重要性、智能系统的意识和情感,以及他的合作者和优秀学生……

Hinton 认为,大型语言模型通过寻找不同领域的共同结构进行编码。这种能力使他们能够压缩信息并形成深刻的理解,发现现实世界中人类尚未发现的一切事物之间的联系,这是创造力的关键。来源。他还提到,通过预测下一个符号,模型实际上必须执行某种程度的推理,而不是像很多人所说的大型模型无法推理。随着模型规模的增大,这种推理能力会越来越强。这是一个值得追求的方向。

在回忆与伊利亚的老师和学生一起工作时,Hinton 提到伊利亚有很好的直觉。他很早就预见到增加模型的大小会很有用,尽管Hinton 当时对这个想法并不热衷。事实证明,伊利亚的直觉是准确的。

整个采访时间比较长。为了方便理清故事背景,我们可以先回顾一下Hinton的职业生涯:

辛顿1947年12月6日出生于英国温布尔登。 1970年,他获得了剑桥大学实验心理学学士学位。 1976年至1978年,担任苏塞克斯大学认知科学研究项目研究员。 1978年,他获得爱丁堡大学人工智能博士学位。 1978年至1980年在加州大学圣地亚哥分校认知科学系做访问学者。 1980年至1982年,担任英国剑桥MRC应用心理学系科学经理。 1982年至1987年在卡内基梅隆大学计算机科学系担任助理教授、副教授。 1987年至1998年,担任多伦多大学计算机科学系教授。 1996年,他当选为加拿大皇家学会院士。 1998年,他当选为英国皇家学会会员。 1998年至2001年,他担任伦敦大学学院盖茨比计算神经科学系的创始主任。 2001年至2014年,担任多伦多大学计算机科学系教授。 2003年,当选为认知科学学会会员。 2013年至2016年担任谷歌杰出研究员。 2016年至2023年,他担任谷歌副总裁兼工程研究员。 2023年,从谷歌辞职。以下为采访内容:

,期间

45:46

起点:了解大脑如何工作

Hinton:我记得我第一次从英国来到卡内基梅隆大学时。在英国的研究机构里,每个人六点钟都会去酒吧喝一杯。但在卡内基梅隆大学,几周后的一个周六晚上,当我没有任何朋友并且不知道该做什么时,我决定去实验室和项目。由于我有一台单机,所以这个东西不能在家里编程。所以我在周六晚上九点左右去了实验室,实验室里挤满了人,所有的学生都在那里。他们之所以这样,是因为他们所做的事代表着未来。他们都相信他们接下来所做的事情将改变计算机科学的进程。这与英国的情况有很大不同,非常令人耳目一新。

Hellermark:让我们回到我们开始的地方,剑桥的—— You。当你试图了解大脑如何运作时,感觉如何?

Hinton:那是一段非常令人失望的时期。我主要学的是生理学。在夏季学期,他们教我们大脑是如何工作的。他们所教的只是神经元如何传导动作电位,这很有趣,但它并没有告诉你大脑是如何工作的。所以这非常令人失望。然后我转向哲学。这个想法是,也许哲学可以告诉我们思维是如何运作的。结果同样令人失望。我最终去了爱丁堡大学学习人工智能,这更有趣。至少你可以模拟事物,这样你就可以测试理论。

Hellermark:您还记得是什么让您对人工智能感兴趣吗?你读过某篇论文吗?或者是否有特定的人向您介绍了这些想法?

Hinton:我认为唐纳德·赫布(加拿大心理学家、认知心理生理学先驱)写的一本书对我影响很大。他对如何在神经网络中学习连接强度非常感兴趣。我还读了冯·诺依曼(计算机之父)的书,他对大脑如何计算以及它与普通计算机有何不同非常感兴趣。

Hellermark:在爱丁堡的那些日子里,你是否相信这些想法会成功?或者你当时的直觉是什么?

Hinton:在我看来,大脑肯定有一种学习方式。大脑的学习并不依赖于对各种事物进行预先编程,然后应用逻辑推理规则。 —— 这种方法从一开始就显得过于疯狂。因此,我们必须解开大脑如何学习调整神经网络中的连接以处理复杂事物的谜团。冯·诺依曼和图灵也是如此。冯·诺依曼和图灵都非常擅长逻辑,但他们并不相信这种逻辑方法。

Hellermark:你如何区分做神经科学的想法和仅仅做看起来不错的人工智能算法?您从早期的经历中汲取了多少灵感?

Hinton:我在神经科学方面没有做太多研究。我总是受到对大脑如何工作的理解的启发,大脑中有一堆神经元执行相对简单的操作。它们是非线性的,但它们接受输入,对这些输入进行加权,然后输出取决于这些加权输入。问题是,如何改变这些权重,以便整个系统发挥作用。这似乎是一个相当简单的问题。

Hellermark:你还记得当时的合作者吗?

Hinton:我在卡内基梅隆大学工作的主要同事都不是卡内基梅隆大学的人。我与巴尔的摩约翰·霍普金斯大学的泰伦斯·塞诺斯基(Terrence Sejnowski)进行了很多互动。大约每月一次,要么他开车去匹兹堡,要么我开车去巴尔的摩。两地之间的距离为250英里(约402公里)。我们会在巴尔的摩一起度过一个周末,在机器上工作。这是一次很棒的合作。我们都相信这就是大脑的工作原理。这是我做过的最令人兴奋的研究,并产生了许多技术上非常有趣的结果,但我不认为这就是大脑的工作方式。

我还与Peter Brown 进行了很好的合作,他是一位非常优秀的统计学家,曾在IBM 从事语音识别工作。他作为一名成熟的学生来到卡内基梅隆大学获得博士学位。事实上,他已经知道很多了。他教了我很多关于语音的知识,教给我隐马尔可夫模型。我觉得我从他身上学到的东西比他从我身上学到的东西还要多。这是每个人都想要的学生。当他教我隐马尔可夫模型时,我正在使用隐藏层进行反向传播。当时它还不被称为隐藏层。我认为马尔可夫模型中使用的这个名称对于您不知道它们做什么的变量来说是一个很好的名称。所以这就是神经网络中“隐藏层”名称的由来。

关于伊利亚:他有很好的直觉

海勒马克:让我们回到伊利亚出现在你办公室的时候。

Hinton:那可能是周日,我正在编程,有人敲门。不是随便敲,而是有点急。然后我去开门,门口站着一个年轻的学生。他说他整个夏天都在炸薯条,但他宁愿在我的实验室工作。我说,要不你约个时间我们聊聊吧?然后伊利亚说:“现在谈谈怎么样?”这就是伊利亚的性格。

我们聊了一会儿,我给了他一篇论文,是发表在Nature 上的一篇关于反向传播的论文。我们安排一周后举行另一次会议。他回来后说他听不懂,我很失望。我觉得他看起来是个聪明人。我给他的论文只涉及链式法则,不难理解。他说:“不,我理解那部分。我只是不明白为什么你不将梯度提供给合理的函数优化器。”这个问题让我们思考了好几年。这就是伊利亚的特点,他有很强的直觉,他的想法总是好的。

海勒马克:你认为是什么给了伊利亚这样的直觉?

辛顿:我不知道。他总是为自己着想。他从小就对人工智能感兴趣,也擅长数学。

Hellermark:你们两人的合作是如何产生的?你扮演什么角色,伊利亚扮演什么角色?

Hinton:和他一起工作很有趣。我记得有一次我们试图以一种复杂的方式绘制数据图,我有一个混合模型,您可以在其中绘制具有同一组相似性的两个图。因此,在一张图像上,银行可能非常靠近绿色空间,而在另一张图像上,银行可能非常靠近河流。因为在图表上,你不能让它同时接近两者,对吗?因为河流和绿地距离较远。

我们在MATLAB 中完成了此操作,其中涉及大量代码重组以执行正确的矩阵乘法。然后他就厌倦了。因此有一天,他说:“我要为MATLAB 编写一个界面。我要用这种不同的语言进行编程,并且我有一些东西可以将其转换为MATLAB。”我说,“不,伊利亚,这将花费你一个月的时间。我们必须继续这个项目。不要因此分心,”伊利亚说。 “我今天早上就做。”

海勒马克:这太不可思议了。这些年最大的转变不仅仅是算法,还有规模。多年来您如何看待规模?

Hinton:伊利亚很早就有这种直觉。所以伊利亚总是说,你只要把它做得更大,它就会更好。我总觉得这有点逃避现实,你也必须有新的想法。事实证明,他的直觉大多是正确的。新想法有帮助。像Transformer 这样的东西有很大帮助,但真正的问题是数据规模和计算规模。当时,我们并不知道计算机的速度会快十亿倍。我们认为速度可能会快100 倍。我们试图通过提出一些聪明的想法来解决问题,但如果我们有更大的数据和计算规模,这些问题就会得到解决。

2011 年左右,Ilya、我和另一位名叫James Martins 的研究生发表了一篇使用字符级预测的论文。使用Wikipedia,我们尝试预测下一个HTML 字符。结果效果非常好。我们总是对它的运作效果感到惊讶。那是在GPU 上使用了一个奇特的优化器,我们永远无法相信它能理解任何东西,但看起来确实如此,这似乎令人难以置信。

“预测下一个词”也需要推理

Hellermark:这些模型如何预测下一个单词?为什么这是一种错误的思考方式?

Hinton:我不认为这是错误的做法。事实上,我认为我使用嵌入和反向传播制作了第一个神经网络语言模型。数据非常简单,只是三元组,它将每个符号转换为嵌入,然后让嵌入交互以预测下一个符号的嵌入,然后从那里预测下一个符号,然后通过整个过程进行反向传播来学习这些三元组。我证明了它是可以推广的。

大约10 年后,Yoshua Bengio 使用了一个非常相似的网络,并表明它可以处理真实的文本。大约十年后,语言学家开始相信嵌入。这是一个缓慢的过程。

我之所以认为这不仅仅是预测下一个符号,是因为如果你问,预测下一个符号需要什么?具体来说,如果你问我一个问题,而答案的第一个单词是下一个符号,那么你必须理解这个问题。所以我认为预测下一个符号与老式的自动完成有很大不同。在老式的自动完成中,您需要存储三元组的单词。然后,如果您看到一对单词,您会看到不同单词出现在第三个位置的频率,因此您可以预测下一个符号。这就是大多数人认为的自动完成。现在情况已经完全不同了。

为了预测下一个符号,您必须理解所说的内容。所以我认为通过让它预测下一个符号,你就迫使它理解。我想这和我们理解的方式是一样的。很多人会告诉你这些东西不像我们,他们只是预测下一个符号,而不像我们一样推理。但实际上,为了预测下一个符号,它必须进行一些推理。我们现在已经看到,即使你不添加任何特殊的推理元素,只是制作大型模型,它们也已经可以进行一些推理了。我认为当你让它们变得更大时,它们可以进行更多推理。

Hellermark:在你看来,除了预测下一个符号之外,我现在还在做什么?

Hinton:我认为这就是你学习的方式。您正在预测下一个视频帧,您正在预测下一个声音。但我认为这是一个非常合理的大脑学习理论。

Hellermark:是什么让这些模型能够学习如此广泛的领域?

Hinton:这些大型语言模型的作用是寻找共同的结构。他们可以使用通用的结构来编码事物,这样效率更高。

例如,如果你问GPT-4,为什么堆肥堆像原子弹?大多数人无法回答。大多数人并不认为原子弹和堆肥堆是截然不同的东西。但GPT-4 会告诉你,它们处于非常不同的能量尺度,它们处于非常不同的时间尺度。但它们的共同点是,当堆肥堆变得更热时,它产生热量的速度更快;当原子弹产生更多中子时,它产生中子的速度就会更快。这给了我们连锁反应的想法。我相信它理解这两种连锁反应,并利用这种理解将所有这些信息压缩到它的权重中。如果它真的这样做了,它就会对我们还没有见过的一切做同样的事情。这就是创造力的来源—— 看到这些看似不同的事物之间的类比关系。

所以我认为随着GPT-4 变得越来越大,它最终会变得非常有创意。认为它只是重复你所学的东西,只是将你已经学到的东西粘贴在一起的想法是完全错误的。它将比人类更有创造力。

海勒马克:你说它不仅会复制我们迄今为止开发的人类知识,而且可能会取得更大的进步。我认为我们还没有看到足够的情况。我们开始看到一些例子,但在更大范围内,它仍然停留在当前的科学状态。您认为如何才能超越这个水平?

Hinton:我们已经看到这种情况在更有限的情况下发生。例如,在AlphaGo与李世石的著名比赛中,第37步,AlphaGo下了一个所有专家都认为肯定是错误的棋,但后来他们意识到这是一个精彩的棋步。这是在有限的领域内的创造力。我认为随着模型变得越来越大,我们会看到更多这样的情况。

Hellermark:AlphaGo 的不同之处在于它使用强化学习,这使得它能够超越当前的状态。它从模仿学习开始,观察人类如何下棋,然后通过自我对弈远远超出这个水平。您认为这是标准组件中缺失的部分吗?

Hinton:我认为这可能是缺失的部分。 AlphaGo 和AlphaZero 的自我对弈是他们能够做出这些创造性举动的重要原因。但我认为这并不是完全必要的。

很久以前有一个实验,你训练神经网络来识别手写数字。我真的很喜欢这个例子。您提供的训练数据中有一半标签是错误的。问题是它的学习效果如何?这些错误标签是固定的,每次它看到一个特定的样本时,它都会与相同的错误标签配对,因此它不能通过多次看到相同的样本但有时使用正确的标签,有时使用错误的标签来平均这些错误。训练数据有50% 的错误标签,但如果使用反向传播训练神经网络,其错误率可以降低到5% 以下。换句话说,即使从错误标记的数据中,它也可以获得更好的结果。它识别训练数据中的错误。就像聪明的学生比他们的导师更聪明一样。导师告诉了他们很多事情,但有一半的信息是错误的。学生可以辨别哪些是错的,只听正确的一半,最终比导师更聪明。所以这些大规模的神经网络实际上能够比它们的训练数据做得更好,而大多数人并没有意识到这一点。

Hellermark:那么您认为这些模型将如何融入推理?我的意思是,一种方法是在模型之上添加启发式方法,现在有很多研究正在进行,您可以在模型中加入一些思考,并将推理反馈给模型本身。另一种方法是增加模型尺寸。你的本能是什么?

Hinton:我的预感是,当我们扩展这些模型时,它们的推理能力会变得更好。如果你问人是如何工作的,粗略地说,我们有这些直觉,我们可以用推理,我们用推理来纠正我们的直觉。当然,我们在推理中也会运用直觉。但如果我们的推理结论与我们的直觉相冲突,我们就会意识到我们需要改变我们的直觉。这很像AlphaGo 或AlphaZero 中的情况,你有一个评估函数,只需查看棋盘并说,这对我来说有多好?但是当您进行蒙特卡罗模拟时,您会得到更准确的想法,并且可以修改您的评估函数。所以你可以训练它与推理结果一致。

我认为这些大型语言模型必须开始这样做。他们必须开始训练他们的原始本能来推理下一步该做什么,并意识到这是不对的。这样,他们可以获得更多的训练数据,而不仅仅是模仿人们的行为。这正是AlphaGo 能够构思出这个创造性步骤37 的原因。它拥有更多的训练数据,因为它使用推理来确定下一步要做什么。

模型可以从语言中学习很多东西,但从多种模式中学习更容易

Hellermark:您对多模态有何看法?当我们引入图像、视频和声音时,您认为这会如何改变模型?

Hinton:我认为这将会产生很大的影响。我认为这将使模型更好地理解空间事物。例如,仅从语言来理解一些空间事物是相当困难的,尽管令人惊讶的是,GPT-4 在成为多模态模型之前就能够做到这一点。但当GPT-4 成为多模态模型时,如果让它同时进行视觉和触觉,伸手去抓东西,它就会更多地了解物体。

因此,虽然你可以从语言中学到很多东西,但如果它是多模态的,学习起来会更容易。事实上,你需要的语言甚至更少。例如,YouTube 上有很多视频可以预测下一个场景。所以我认为多式联运模式显然将占据主导地位。这允许更多的数据并且需要更少的语言。所以这是一个哲学观点,你可以仅从语言中学习一个好的模型,但从多模态系统中学习它要容易得多。

Hellermark:您认为这会如何影响模型的推理?

Hinton:我认为这会让模型在空间推理方面变得更好。例如,推理如果拾起一个物体会发生什么。如果你真的尝试拿起物体,你将获得各种训练数据。

关于“认知”的三种看法

海勒马克:你认为人类大脑的进化是为了与语言很好地配合,还是语言的进化是为了与人脑很好地配合?

Hinton:我认为这是一个非常好的问题,关于语言是否进化到与大脑一起工作,或者大脑是否进化到与语言一起工作。我认为两者都发生了。

我曾经认为我们做很多认知活动根本不需要语言,但现在我改变了主意。我对语言及其与认知的关系提出三种观点。

第一种是老式的符号观点,认为认知由一些符号串组成,这些符号串采用经过净化的逻辑语言,没有歧义,并且适用推理规则。因此,认知只是对语言符号串等事物的符号操作。这是一种极端的观点。

另一个极端的观点是,一旦进入大脑,一切都是向量。符号进来,你将这些符号转换成大向量,所有的见解都是通过大向量完成的。如果你想产生输出,你将再次产生符号。因此,在2014 年的机器翻译领域,人们使用循环神经网络,单词不断进入,它们将具有隐藏状态,信息将在这种隐藏状态中不断积累。因此,当到达句子末尾时,有一个很大的隐藏向量捕获了句子的含义。然后它可以用来生成另一种语言的单词,这些单词被称为思想向量。这是语言的第二种观点。

还有第三种观点,我现在相信的是,大脑将这些符号转换为嵌入,并使用多层嵌入。所以你将获得非常丰富的嵌入。但嵌入仍然与符号相关联,因为符号具有其相应的大向量。这些向量相互作用产生下一个单词的符号向量。因此,理解意味着知道如何将符号转换为向量,以及向量的元素如何相互作用以预测下一个符号的向量。这就是理解在大型语言模型和我们大脑中的运作方式。您保留该符号,但将其解释为一个大向量。所有的工作和所有的知识都在于使用哪些向量以及这些向量的元素如何相互作用,而不是符号规则。但这并不意味着您完全摆脱符号,而是意味着将符号转换为大向量,但保留符号的表面结构。这就是大型语言模型的工作原理。现在我认为这似乎也是一个更合理的人类思维模型。

“黄仁勋给了我一个GPU”

Hellermark:您是最早考虑使用GPU 的人之一。我知道詹森因此爱你。早在2009 年,您就提到您告诉Jensen,使用GPU 可能是训练神经网络的一个非常好的主意。

Hinton:实际上,2006 年左右,我有一个研究生,名叫理查德·塞利斯基(Richard Szeliski)。他是一位非常优秀的计算机视觉专家。我在一次会议上与他交谈,他说你应该考虑使用图形处理单元,因为它们非常擅长矩阵乘法,而你所做的基本上就是矩阵乘法。

所以我想了一会儿。然后我们了解到Tesla 系统配备了四个GPU。最初,我们尝试使用游戏GPU,发现它们使速度提高了30 倍。然后我们买了一个带有四个GPU 的Tesla 系统,我们在它上面进行了语音处理,它运行得非常好。

然后在2009 年,我在NIPS 上做了一次演讲,我告诉1000 名机器学习研究人员,你们都应该购买Nvidia GPU。 GPU 是未来。您需要GPU 来进行机器学习。然后我实际上给Nvidia 发了一封电子邮件,说我告诉1000 名机器学习研究人员购买你们的产品,你们能免费给我一个吗?他们没有说不。事实上,他们没有回复。但当我告诉詹森这个故事时,他免费给了我一个。

数字系统具有人类无法比拟的优势

海勒马克:那太好了。我认为有趣的是GPU 的发展与该领域的发展是一致的。您认为我们在计算领域下一步应该走向何方?

Hinton:我在Google 的最后几年,我一直在思考如何尝试进行模拟计算。也就是说,您可以像大脑一样使用30 瓦的功率在模拟硬件中运行大型语言模型,而不是使用1 兆瓦的功率。

我从来没有实现过这一点。但我开始真正欣赏数字运算。如果您要使用低功耗模拟计算,每个硬件都会有所不同,您将需要利用硬件的特定属性。这就是发生在人类身上的事情。我们都有不同的大脑,所以我们不能把你大脑中的重量转移到我的大脑中。硬件不同。各个神经元的确切特性各不相同。

当我们死亡时,我们的大部分知识和经验都会随之消失,因为人类传递知识的方式通常涉及口头交流,效率相对较低。然而,数字系统不同,可以通过共享权重(即学习的数据和参数)来传输知识。一旦数字系统学习到一些东西,这些权重就可以保存并在任何其他类似配置的系统中重复使用。这种方法不仅保证了知识的准确复制,而且大大提高了学习和知识共享的效率。因此,数字系统在共享和传播知识方面比人类具有更大的能力。

需要认真对待的快速举重

Hellermark:许多已经在实际应用中部署的人工智能系统的想法都源自早期的神经科学理论,而且这些想法已经存在很长时间了。现在的问题是,还有哪些其他未充分利用的神经科学理论可以应用于我们开发的系统?这就需要我们探索神经科学中尚未探索的理论,并将其转化为技术,以推动人工智能技术的进一步发展。

Hinton:在人工智能与神经科学方面,我们仍然需要赶上的一个重要方面是变化的时间尺度。在几乎所有神经网络中,活动中都会出现快速的时间尺度变化—— 输入数据后嵌入向量发生变化。还有一个是慢时间尺度,就是权重的变化,这和长期学习有关。大脑里也有这两个时间尺度。

例如,如果我突然说出一个意想不到的词,比如黄瓜,你五分钟后戴上耳机,在嘈杂的环境中,如果有很轻微的说话声,你会更容易识别这个词黄瓜,因为我晚了五分钟。几分钟前就说过了。那么这些知识存储在哪里呢?在大脑中。这种认知显然是通过暂时的突触变化而不是特定的神经元来保存的。—— 我们大脑中没有足够的神经元来做到这一点。这种临时权重变化,我称之为快速加权,在我们当前的神经模型中并未使用。

我们在模型中不使用快速权重的原因是,如果权重的临时变化取决于输入数据,那么我们就无法同时处理许多不同的情况。目前,我们通常将多个不同的数据批量堆叠在一起并并行处理它们,因为这样可以更有效地执行矩阵乘法。正是这种对效率的需求阻碍了我们使用快速的重量。然而,大脑显然利用快速权重来进行临时记忆存储,并且可以通过这种方式实现许多我们目前无法做到的功能。

我对GraphCore(一家英国半导体公司,开发人工智能和机器学习加速器,引入大规模并行智能处理单元,在处理器内保存完整的机器学习模型)等技术寄予厚望。如果他们采取顺序方法并且只在线学习,那么他们就可以使用快速权重。但这种方法尚未成功。我认为当人们开始使用电导作为权重时,这种方法最终会成功。

乔姆斯基的一些理论是无稽之谈

Hellermark:了解这些模型的工作原理以及大脑的工作原理如何影响您的思维方式?

Hinton:我认为影响很大,而且是一个相当抽象的层面。长期以来,在人工智能领域,人们普遍认为,庞大的随机神经网络不可能仅仅依靠大量的训练数据来学习复杂的事物。如果你与统计学家、语言学家或大多数人工智能领域的人交谈,他们会说这只是一个白日梦,没有大规模的架构你就无法学习真正复杂的知识。

但实际情况却彻底推翻了这个观点。事实证明,通过用大量数据训练一个巨大的随机神经网络并使用随机梯度下降不断调整权重,你可以学习复杂的东西。这一发现对于我们理解大脑的结构具有重要意义,表明大脑并不需要生来就拥有所有的结构知识。当然,大脑确实有很多先天节点

构,但它显然不需要依赖这些结构来学习那些容易获得的知识。 这种观点也挑战了乔姆斯基的语言学理论,即复杂的语言学习必须依赖于先天就编织在大脑中的结构,并且要等待这种结构成熟。这种想法现在显然是无稽之谈。 Hellermark:我相信乔姆斯基会感谢你称他的观点为无稽之谈。 智能系统也能拥有情感 Hellermark:你认为要使这些模型更有效地模拟人类的意识,需要做些什么? Hinton:我认为它们也可以出现情感(feeling)。我们常常倾向于使用「内部剧场模型」来解释感知(perception)和情感。比如我说我想打 Gary 的鼻子,让我们试着把它从内部剧场模型的概念中抽象出来。这通常被解释为一种内部情感体验。然而,这种模型可能并不准确。实际上,当我表达这种情感时,我的真实意图是,如果不是因为我的前额叶的抑制作用,我可能真的会采取这样的行动。因此,所谓的情感,实际上是我们在没有限制的情况下可能会采取的行动。 事实上,这些感觉并非人类独有,机器人或其他智能系统也有可能体验情感。例如,1973 年在爱丁堡,我见过一个机器人表现出情感。这个机器人有两个抓手,可以在绿色毛毡上组装玩具汽车,只要将零件分开放置。但如果你把零件堆在一起,由于它的视觉系统不够好,无法分辨情况,它会显得困惑并将零件击散,然后再进行组装。如果这种行为发生在人类身上,我们可能会认为他因为不理解情况而感到恼怒,并因此摧毁了它。 Hellermark:这让人印象深刻。你之前说过,你将人类和大型语言模型描述为类比机器(analogy machines)。你认为你一生中发现的最有力的类比是什么? Hinton:在我的一生中,一个对我影响很大的、虽然有些牵强的类比是宗教信仰与符号处理之间的相似性。我出生在一个无神论家庭,当我还很小的时候,上学时首次接触到宗教信仰,对我来说那完全是无稽之谈,直到现在我仍然这么认为。当我了解到符号处理被用来解释人们的行为时,我觉得这和宗教信仰一样荒谬。但现在我不再认为它完全是无稽之谈,因为我确实认为我们进行了符号处理,只不过我们是通过为这些符号赋予嵌入向量来处理的。但我们实际上是在进行符号处理,只是方式与人们原本想象的完全不同。人们曾认为符号处理只是简单地匹配符号,一个符号只有一个属性:要么与另一个符号相同,要么不相同。我们根本不是这样做的。我们利用上下文为符号提供嵌入向量,然后利用这些嵌入向量的组件之间的相互作用来进行思考。 但谷歌有一位非常优秀的研究人员,名叫 Fernando Pereira,他曾表示我们确实有符号推理。我们拥有的唯一符号是自然语言。自然语言是一种符号语言,我们用它进行推理。我现在相信了。 对于问题保持怀疑,然后证明它 Hellermark:你已经完成了计算机科学史上一些最有意义的研究。能否向我们介绍一下,例如,如何挑选正确的问题进行研究? Hinton:我和我的学生做了很多最有意义的事情。这主要归功于与学生的良好合作以及我挑选优秀学生的能力。这是因为在上世纪 70 年代、80 年代、90 年代以及进入 21 世纪,很少有人研究神经网络。所以从事神经网络研究的少数人能够挑选到最优秀的学生,还需要依靠一点运气。 但我挑选研究问题的方式基本上是这样的:你知道,当科学家谈论他们的工作方式时,他们会有一些关于工作方式的理论,这些理论可能与事实并无太大关联。但我的理论是,我会寻找一个大家都认同的观点,但感觉上似乎有些不对劲的地方。通常是有一种微妙的直觉,觉得某处有问题,只是有一点点感觉不对劲。然后我就会研究这个问题,试图详细解释为什么它是错误的。也许我能用一个小型计算机程序做一个小演示,显示它的工作方式并不像你可能预期的那样。 让我举一个例子。大多数人认为,如果你给神经网络添加噪声,它的效果会变差。实际上,我们知道如果这样做,它的泛化能力会更好。这可以通过一个简单的例子来证明,这就是计算机模拟的好处。你可以展示你原先的想法 —— 添加噪声会使效果变差,让一半的神经元停止工作会使其效果变差 —— 在短期内确实如此。但如果你像这样训练它,最终它的效果会更好。你可以通过一个小型计算机程序来演示这一点,然后你可以仔细思考为什么会这样。这就是我的工作方法:找到一个听起来可疑的东西,然后研究它,看看你是否能用一个简单的演示来说明它为什么是错误的。 Hinton 想继续研究的未解之谜:大脑运作方式 Hellermark:最近,什么东西引起了你的怀疑? Hinton:我们不使用快速权重,这看起来有些问题。我们只有这两种时间尺度,这显然是错误的。这与大脑的运作方式完全不同。从长远来看,我认为我们将需要更多的时间尺度。 Hellermark:如果你现在带领一组学生,他们来找你,说到我们之前讨论过的问题,你所在的领域中最重要的问题是什么?你会建议他们接下来研究并工作什么?我们谈到了推理的时间尺度。你建议的最优先的问题是什么? Hinton:对我来说,现在的问题和我过去大约 30 年一直关注的问题相同,那就是大脑是否进行反向传播?我相信大脑在获取梯度。如果你没有获取到梯度,你的学习效果会比获取到梯度时差很多。但大脑是如何获取梯度的?它是否在实现某种近似版本的反向传播,或者是采用了一种完全不同的技术?这是一个很大的未解之谜。如果我继续从事研究,这就是我将要研究的内容。 Hellermark:当你现在回顾你的职业生涯时,你在很多事情上都是正确的。但假如当时用很少的时间来决定的方向后来被证明是错误的? Hinton:这里有两个单独的问题。1、你做错了什么?2、你希望自己少花点时间吗?我认为我对玻尔兹曼机的看法是错误的,我很高兴我在它上面花了很长时间。关于如何获得梯度,有比反向传播更美丽的理论,它只是普通且合理的,它只是一个章节。这两个机制都很聪明,这是一种非常有趣的获取梯度的方法。我希望大脑是这样运作的,但我认为事实并非如此。 Hellermark:您是否花了很多时间想象系统开发后会发生什么?如果我们能让这些系统运行得很好,我们就可以实现教育的民主化,我们可以让知识更容易获得,我们可以解决医学上的一些棘手问题。或者对你来说更重要的是了解大脑运行的机制? Hinton:是的,我确实觉得科学家应该做那些能帮助社会的事情。但实际上,这不是你做出最好的研究的方式。当你的研究被好奇心驱动时,你才能做出最好的研究。你只需要理解一些事情。更近地,我意识到这些东西可能会造成很多伤害,也会带来很多好处。我变得更加关注它们对社会的影响。但这不是动机。我只想知道大脑是如何学会做事的?那就是我想知道的。而我在试错的过程中,我们得到了一些不错的工程结果。 Hellermark:是的,这对世界来说是一个有益的失败。如果从可能带来巨大正面影响的角度来看,你认为最有前景的应用是什么? Hinton:我认为医疗保健显然是一个大领域。在医疗方面,社会可以吸收的数量几乎没有限制。对一个老人来说,他们可能需要全职的五位医生。所以当 AI 在做事上比人类更好时,你会希望你在这些领域出现更多的资源 —— 如果每个人都有三位医生,那就太好了。我们将达到那个地步。 还有新的工程,开发新材料,例如更好的太阳能电池板、室温超导或仅仅是理解身体的工作原理。这些都会有很大的影响力。我担心的是坏人利用它们做坏事。 Hellermark:你有没有担心过,放慢这个领域的发展速度也可能会放慢积极的一面? Hinton:当然。我认为这个领域不太可能放慢速度,部分原因是它是国际性的。如果一个国家放慢速度,其他国家不会放慢速度。之前有一个提议说我们应该暂停大模型研究六个月。我没有签名,因为我认为这永远不会发生。我可能应该签字,因为即使它永远不会发生,它也表明了一个观点。有时为了表明立场而使用它也是好事。但我不认为我们会放慢速度。 Hellermark:你认为拥有(ChatGPT)这样的助手将如何影响 AI 研究过程? Hinton:我认为它将使 AI 研究变得更加高效。当你有这些助手来帮助你编程,也帮助你思考问题,可能会在方程式上帮助你很多。 挑选学生,更看重直觉 Hellermark:你有没有深思熟虑过选择人才的过程?这对你来说大多是凭直觉的吗?就像当 Ilya Sutskever 出现在门口时,你会觉得「这是一个聪明人,让我们一起工作吧」。 Hinton:对于选择人才,有时候是很明显的。在交谈后不久,你就能看出他非常聪明。进一步交谈你会发现,他显然非常聪明,并且在数学上有很好的直觉。所以这是轻而易举的。 还有一次我在 NIPS 会议上,我们有一个 Poster,有人走过来问我们关于 Poster 的问题。他问的每个问题都是对我们做错了什么的深刻洞察。五分钟后,我给了他一个博士后职位。那个人是 David McKay,他非常聪明。他去世了,这非常令人难过,但他显然是你想要的那种人。 其他时候就不那么明显了。我学到的一件事是,人是不同的。不仅仅有一种类型的好学生。有些学生可能不那么有创造力,但从技术角度来看非常强大,可以让任何事情都运转起来。还有一些学生技术上不那么强,但非常有创造力。当然,你想要的是两者兼备的人,但你并不总是能得到。但我认为实际上在实验室里,你需要各种不同类型的研究生。但我还是跟着我的直觉走,有时你和某人交谈,他们真的非常聪明,他们就是能跟得上思路,那就是你想要的人。 Hellermark:你认为你对有些人有更好的直觉的原因是什么?或者说你如何培养你的直觉? Hinton:我认为部分原因是,他们不会接受无意义的东西。有个获得糟糕直觉的方法,那就是相信你被告知的一切,那太致命了。你必须能够... 我认为有些人是这样做的,他们对理解现实有一个完整的框架。当有人告诉他们某些事情时,他们会试图弄清楚这如何适应他们的框架。如果不适合,他们就拒绝它。这是一个非常好的策略。 试图吸收他们被告知的一切的人最终会得到一个非常模糊的框架。他们可以相信一切,那是没有用的。所以我认为实际上拥有一个对世界的坚定观点,并试图整合输入的事实以适应你的观点,这可能会导致深刻的宗教信仰和致命的缺陷等等,像我对玻尔兹曼机的信念,但我认为这是正确的。 如果你有可靠的好直觉,你应该信任它们。如果你的直觉不好,怎么做都没用了。所以你不妨信任它们。 全力以赴,用多模态数据训练更大的模型 Hellermark:这是一个非常好的观点。当你看正在进行的研究类型时,你认为我们是不是在把所有的鸡蛋放在一个篮子里。我们是否应该在领域内更多样化我们的想法?还是说你认为这是最有希望的方向,所以我们应该全力以赴? Hinton:我认为拥有大型模型并在多模态数据上训练它们,即使只是为了预测下一个词,这是一个非常有希望的方法,我们应该全力以赴。显然,现在有很多人在做这件事,还有很多人在做一些看似疯狂的事情,这是好事。但我认为让大多数人走这条路是没问题的,因为它运作得非常好。 Hellermark:你认为学习算法真的那么重要吗,还是说规模更重要?是否有数百万种方法可以让我们达到人类级别的智能,还是有一些我们需要发现的特定方法? Hinton:是的,关于特定的学习算法是否非常重要,是否有很多学习算法可以完成这项工作,我不知道答案。但在我看来,反向传播在某种意义上是正确的事情。获得梯度,这样你就可以改变参数让它工作得更好,这似乎是正确的事情,而且它取得了惊人的成功。可能还有其他的学习算法,它们以不同的方式获得相同的梯度,并且也能工作。我认为这都是开放的,并且是一个非常有趣的问题,即是否有其他你可以试图最大化的东西,会给你好的系统。也许大脑正在这样做,因为它很容易。反向传播在某种意义上是正确的事情,我们知道这样做非常有效。 一生最自豪的成就:玻尔兹曼机的学习算法 Hellermark:最后一个问题。回顾你几十年的研究,你最自豪的是什么?是学生?还是研究? Hinton:玻尔兹曼机的学习算法。它非常优雅,可能在实践中没有希望,但这是我最享受的事情,我与 Terry 一起开发了它,这是我最自豪的,即使它是错误的。 论文链接:https://www.cs.toronto.edu/~fritz/absps/cogscibm.pdf Hellermark:你现在花最多时间思考的问题是什么? Hinton:在 Netflix 上下个剧该看什么。

猜你喜欢