专访乔治亚理工终身教授蓝光辉:开创随机加速梯度法助力深度学习

新闻资讯2024-08-13 08:15小乐

专访乔治亚理工终身教授蓝光辉:开创随机加速梯度法助力深度学习

机器之心原版

作者:李泽南

兰光辉教授毕业于佐治亚理工学院,获博士学位。目前在佐治亚理工学院H. Milton Stewart 工业与系统工程学院任教。他还担任《Computational Optimization and Applications》、Top Journal of Optimization Algorithms 《Mathematical Programming》 和《SIAM Journal on Optimization》 的副主编。是国际机器学习和深度学习算法领域的顶级专家。兰光辉教授专注于计算机科学领域的基础研究。他的研究领域包括:随机优化和非线性规划的理论、算法和应用,包括随机梯度下降和加速随机梯度下降,以及随机凸和非凸问题的解决方案。优化问题。

近日,机器之心对这位顶尖学者进行了专访,谈论了他的科研生涯,“Geoffrey Hinton 在随机加速梯度方法方面的开创性进展启发了他训练深度学习模型”,并谈到了优化算法在业界的作用。应用程序中的展望。

优化算法研究

机器心:兰教授,您能先介绍一下您最近的研究吗?

兰光辉:我最近主要发布了两部作品。一是去中心化随机优化和机器学习(参见论文:去中心化和随机优化的高效通信算法)。主要用于解决数据分散在网络上、无法集中处理的机器学习和统计推理问题。我们设计的算法可以最大限度地减少网络上的通信传输量,同时保证其达到类似于集中式处理的随机优化或机器学习效果。

另一项工作是关于多阶段随机优化和决策(参见论文:多阶段随机优化的动态随机近似)。主要用于支持随机环境下的动态决策,例如金融领域如何确定一段时间内的最优资产配置等。我们设计新的算法来保证多阶段决策的最优解- 制作的同时确保需要收集或存储的数据(样本)量最少。

机器之心: 兰老师关于深度学习优化的课程非常好。可以介绍给我吗?

兰光辉:我主要讲一些基本的成果。很多人对深度学习感兴趣,但可能对算法了解不多。我的这个课程就是告诉大家算法的真相以及它能解决什么样的问题。那么深度学习模型能解决到什么程度呢?理论上我们还没有完全理解深度学习,我们应该更深入地研究这些不太理解的领域。

我们将深度学习(包括机器学习)视为一种随机优化模型,将大量数据视为随机向量的样本,然后根据样本解决预测未来的随机优化问题。我们需要设计理论上最优的好算法来解决随机优化模型。

我的课程主要围绕我和我的团队在随机优化和机器学习算法方面的一些研究工作。当我还是一名博士生时,我就开始研究和设计一系列这样的算法。之前的一些算法,比如经典的随机梯度法,只针对一些非常狭窄(比如强凸)的问题,在实际应用中不稳定。因此,在我们工作之前,大多数研究人员认为随机梯度算法对于解决随机优化问题并不可靠,因此基本上放弃了此类算法。

博士期间做的第一个工作就是在导师Arkadi Nemirovski(现代凸优化理论创始人、美国科学院院士)的指导下研究鲁棒随机梯度法(参见论文:Robust Stochastic Approximation for Stochastic Planning)工程)。我们研究的随机图像下降方法后来成为机器学习的驱动力之一。同时,我独立研究了一种新型的随机加速梯度算法,它是Nesterov加速梯度法的随机版本(参见论文:An Optimal Method for Stochastic Composite Optimization)。在此之前,虽然大家都知道加速梯度法对于解决确定性问题非常简单有效,但没有人(包括涅斯特罗夫本人)能够证明这种方法可以用来解决随机优化问题。这些新的随机算法的出现从根本上改变了大家对随机梯度方法的理解,使我们能够非常稳健有效地解决随机优化问题。这两部作品基本上是我博士论文的主体部分。我的博士论文还包括关于增强拉格朗日经典算法的复杂性分析的工作。

我关于随机加速梯度法的论文后来荣幸地获得了三个奖项,INFORMS计算学会最佳学生论文一等奖,INFORMS乔治·尼克尔森奖二等奖,几年后,我的博士论文获得了Informs计算学会的Finalist数学优化协会塔克奖。

当时,我们并没有完全意识到它们后来在机器学习中的巨大用途,尽管从数学角度来看我们已经有了很好的理论和实验结果。我在出国读博士之前做了三年的软件工程师,学到的编程经验帮助我更好地实现这些算法。在我们实现这些算法之后,我们发现它们比以前解决随机优化问题的工具快了几十倍。那时,我们感到充满希望和鼓舞。一群机器学习研究人员也非常聪明。看到这一进展后,他们很快使用这些算法来解决大规模机器学习问题,并发现它们在数据量很大的情况下非常有用。

我前期研究的算法比较偏向于随机优化中的凸问题。但2009年毕业后,我意识到很多随机优化问题不是凸的,而是非凸的。所以在2012年左右,我做了一个随机梯度法来解决非凸问题,这在当时也是一个比较困难的问题。由此,本文很荣幸获得INFORMS青年教授论文第一名(参见论文:Stochastic First and Zeroth-orderMethods for Nonconvex Stochastic Planning)。

后来,我们做了一系列工作来完善解决非凸问题的随机梯度法的理论体系(参见论文:Accelerated GradientMethods for Nonconvex Nonlinear and Stochastic Planning)。现在深度学习出现了,正好是一个非凸问题,所以上面的文章就变得重要了。

目前业界用于训练大规模机器学习模型的随机梯度方法主要基于鲁棒性和加速性,尤其是在大量优秀研究人员对这些基础算法进行改进之后。值得注意的是,Geoffrey Hinton(深度学习巨头之一)在2013年的一篇文章(参见论文:论深度学习中初始化和动量的重要性)中建议使用随机加速梯度方法来训练深度学习模型,从而极大的促进了该类算法的应用。该算法现在称为随机动量梯度,基本上是我之前研究的随机加速梯度方法的变体。

该领域仍在快速发展,新的研究成果将不断发布。因此,未来的课程内容将会更加丰富。

Heart of the Machine:加州大学伯克利分校提出AdaGrad的论文(参见论文:Adaptive SubgradientMethods for Online Learning and Stochastic Optimization)也引用了您的研究成果?

兰光辉:是的,它是在我们原来的随机图像下降法(镜像下降随机近似)的基础上进行的改进(参见论文:Robust stochastic approximation method to stochasticprogramming)。在机器学习领域,论文提交和发表速度很快,但在基础研究领域,发表研究普遍存在延迟。我们这个领域一般都会延迟两年。我们的论文于2007年在线发表,并于2009年正式发表在SIAM Journal on Optimization上。John Duchi(AdaGrad论文的第一作者)和他们的论文于2011年左右被ICML和Journal of Machine Learning Research接收。

我博士期间做的随机加速梯度法(见上一篇文章)于2008年发表在网上(www.optimization-online.org)。文章于2010年被Mathematical Planning接受,直到2012年才正式发表。

现在作为这些杂志的副主编,我希望尽我所能,加快这篇文章的发表进程。同时,我们希望通过机器之心,让每个人,尤其是初学者,以及优化和机器学习应用工作者,能够意识到不同学术圈之间的“文化”差异。机器(包括深度)学习研究人员非常重视文章的实用性和时效性,因此发表了大量的会议文章(如ICML和NIPS等)。当然,一些顶级会议期刊也很难选择。最优化、统计领域的基础研究工作者往往更注重文章成果的突破性、理论推导的严密性和完整性,会注重在顶级期刊(如《上述MathematicalProgramming、SIAMJournalonOptimization和AnnalsofStatistics等)。由于前者周期短,易于阅读、使用和跟进,这些会议文章往往被引用较多,而后者则因其所谓的“高水平”和高尚的品格,也会导致被引用。金额相对较小。但我们不能因此而贬低基础研究工作的价值。事实上,这些基础研究工作往往会推动甚至引导该领域的发展,值得更多关注。单纯注重文章的被引用和热度而忽视作品本身的内在价值,会导致不良的学术生态环境,甚至对下一代研究人才的培养产生负面影响。

机器之心:我们了解到您对梯度滑动有非常有趣的研究。您能给我们介绍一下吗?

兰光辉:是的,这个很有趣。这应该是我最新的研究方向之一。

在数据处理中,一般问题有两个要求: 1、要求模型与数据(data)很好地匹配(fit); 2、要求模型的参数具有一些特征,如稀疏性或群体稀疏性。等待。正是由于这些要求,求解模型变得非常缓慢。非常缓慢地求解模型意味着多次访问数据。在大数据环境中,访问数据是一项相对昂贵的任务,尤其是当涉及矩阵和向量乘法时,速度会非常慢。

我想知道我们是否可以避免数据或矩阵和向量乘法的运算,而不影响解决整个问题的速度。我发现理论上证明这是可以做到的,即梯度滑动,就是在一个梯度方向上走很多步,而不需要重新计算梯度。

我们在该领域发表了两篇论文,即《数学编程》和《Siam Journal on Optimization》。

最近的一些工作,比如前面提到的如何在去中心化随机优化和机器学习中减少通信量,也深受这个思想的影响。

机器之心:你对《Accelerated Algorithms for a Class of Saddle Point problems and Variational Inequalities》也有研究

兰光辉:这个工作就是如何将上述过去只能用于解决简单优化问题的加速算法扩展到鞍点问题和变分方程(变分不等式)。这些问题比优化问题更广泛,尽管它肯定不如优化问题那么直观。例如,在优化中最小化目标函数相当于找到鞍点。然而,鞍点问题和变分方程不仅涵盖优化,还涵盖均衡和博弈论中的一些问题。这些问题的解决方案与优化问题的解决方案有很多共同点。我们的工作是扩展优化算法的一些最新成果来解决这些鞍点和变分方程问题。

我也做了一些行业研究。例如,我们将加速算法应用于大规模图像重建。我们现在还与上海财经大学合作开发可用于工业界的大规模优化和机器学习问题的求解器。因为上海财经大学的几位老师有自己创业公司的打算,所以我们的研发成果应该有机会进一步直接应用到不同的行业,比如物流、电商、金融等。

机器心:二阶算法有哪些值得追求的方向?

兰光辉:我做的比较多的是一阶算法和随机算法。现在对于是否应该使用二阶算法也存在意见。不同的人会有不同的看法。其实2005年之前大家就一直在做二阶算法。1984年到1995年间,甚至2000年左右,一群优化领域的顶尖科学家做了很多二阶算法。中国科学家中,像叶寅予教授这样的人在这些领域做出了非常突出的贡献。

至于现在是否有必要做二阶算法,可能对于某些问题是有必要的。一些以前没有探索过的问题可以进一步探索,也有一些开放性问题值得继续研究。最近这些领域也出现了一些有趣的进展。

机器之心:您认为二阶算法在机器学习中的潜力是什么?

兰光辉:二阶算法的优点是可以获得高精度的解,但一般来说,机器学习并不需要高精度的解。

因为我个人喜欢探索新的研究领域。所以可能不太关注二阶算法,但我相信会有人去做,因为总会有新的东西。我可能会做更多原本认为很难但我们无法接触或理解的问题。现在随着新思想的出现和计算平台的改进,这些难题可能会变得不那么困难。就像随机优化一样,以前很难,但是因为新思想、新计算平台的出现,现在没那么难了。所以我可能会做一些这样的工作,这在机器学习方面也可能有很大的潜力。

Heart of the Machine:机器学习有很多思想流派,比如优化,还有Bass 的统计观点。你属于哪一类?

兰光辉:我所在的方向其实是同时从两个角度看问题,比如随机优化,它完全把统计和优化结合起来。

比如我以前的两位老师,一位是前面提到的Arkadi Nemirovski,他既是优化领域的领军人物,也是非参数统计的创始人之一。我的另一位老师亚历山大·夏皮罗(Alexander Shapiro)既是一位统计学家,也是优化领域的顶尖学者。因此,在基础研究工作中,优化和统计之间不存在竞争关系,尽管我们不一定从贝叶斯角度描述统计特性。我们将使用统计语言和优化语言来描述问题的本质及其解决方案,因此该领域称为随机优化。

或许在网上的一些科普读物中,有些人将优化局限于解决确定性问题(比如所谓的经验风险最小化),这是不准确的。在优化领域,特别是随机优化领域,我们不仅会研究如何设计有效的算法来求解机器学习模型,还会研究求解这个模型后得到的解会满足哪些统计性质。

优化算法和机器学习

机器之心:当你刚开始研究这些算法时,机器学习和深度学习还没有那么流行。后来深度学习开始流行。您与这个领域的交流多吗?

兰光辉:其实美国之间的交流还是比较频繁的。当我研究前两个算法时,一群机器学习人员已经联系了我。例如,伯克利的一些研究随机优化算法的人会联系我讨论算法本身的一些问题。别说深度学习,我觉得深度学习的理论还不清楚。

此外,我们还将研究机器学习问题。机器学习研究人员也在研究优化算法,两个领域正在融合。我也觉得美国有一批非常优秀的人才,包括中国、印度和美国的年轻人,他们在不断地产出新的成果。你们互相追逐,非常非常活跃。

机器之心:您能介绍一下您的工作对于当前机器学习的意义和价值吗?

兰光辉:我早期做的一些工作,比如随机加速梯度算法(或者随机动量梯度法),现在更多地用在机器学习中。由于加速梯度算法需要极大的步长,以前人们认为这类算法不可能解决随机问题,更不用说非光滑问题了。

我是第一个尝试并证明这个算法不仅可以用来解决光滑问题,也可以用来解决随机问题,甚至可以用来解决非光滑问题。后来我们也证明了它可以解决非凸问题。更重要的是,我们证明了无论解决什么问题,理论上都是最优的(理论上收敛速度无法提高)。

这些工作,包括我们现在获得的其他研究成果,为机器学习提供了一些有效的算法工具。因为以前如何加速机器学习模型的训练是一个瓶颈,现在可能会变得更加有效。当然,机器学习不仅仅是我们这边推动的。它是在计算架构、深度学习、分布式计算等多个领域科学家的共同努力下取得的进步,各司其职。我们只做算法。工作的核心方面。

个人研究方法

机器之心:您还获得了NSF 职业奖。获奖后对您的研究方向有什么影响吗?

兰光辉:NSF CAREER Award主要用于奖励年轻教授未来(五年)的科研计划。我在2012年7月写了这个提案,英文标题是Reduced-orderMethodsforBigDataChallengesinNonlinearandStochasticOptimization。这是关于如何设计新算法来处理大数据的非线性和随机优化。挑战。然后我在2013年1月获得了这个奖项。

2012年,大数据这个名字可能刚刚问世。我感觉美国国家自然科学基金会认可我的科研判断,这当然为我提供了良好的荣誉和职业发展平台。

机器心:您曾经提到过“研究人员的责任”。您能解释一下您对此的解释吗?

兰光辉:我自己就是一名研究员,研究员必须清楚自己的研究职责是什么。研究人员不能只是推广一个概念而不了解其更深层的含义,例如它何时有效、何时无效、为什么有效以及无效后的解决方案。

如果我们不理解这些深层次的问题,我们最终就会像过去的机器学习或人工智能一样回到这个循环。因此,为了避免这种情况,必须有一群致力于理论的人。更多的人会做理论、算法,并理解“为什么”。

机器之心:可能中国有这个想法的人还是太少了。许多人正在研究什么是机器学习以及如何使用它。

兰光辉:是的,另一方面,我觉得中国学生的背景是挺好的,但是社会可能需要培养一种氛围,让研究人员和年轻学生觉得做这些事情是有价值的,或者说,从一个角度来说,做这些事情是有价值的。从精神上、媒体报道乃至物质利益等各个方面,我都觉得做这些工作是有前途的。

为什么美国会有这样一群人?一个很重要的方面是美国人选择他们喜欢的职业。他们不只是追随流行的那一种。比如,机器学习流行了,就做机器学习,互联网流行了,就做网红。

因此,我认为应该鼓励研究者去追求自己喜欢的方向,无论是理论还是应用。正是因为美国有两批研究人员,做理论的和做应用的相互促进,所以美国在科学研究上始终走在前面。

机器之心:兰教授好像在2016年初从佛罗里达州回到了佐治亚理工学院(你的母校),原因是什么?

兰光辉:我更多的是从研究的角度来思考。佛罗里达州也很好,但首先,佐治亚理工学院是我的母校;第二,佐治亚理工学院拥有一批在优化和机器学习领域非常优秀的人才,都是世界顶尖的人才,有着深厚的理论基础;而且,我还可以找到最优秀的学生,我们一起研究。

到目前为止,似乎这对于我自己的职业生涯来说是值得的。

机器之心:你觉得学习和理解你所从事的技术对数学的要求高吗?

兰光辉:总体来说,我认为中国大学生的数学水平还是不错的。只要在大学里认真学过基础数学课程,比如数学分析、线性代数、统计和概率等基础知识,我想应该就够了。

机器心:正如您所说,国内该领域的研究团队也在不断壮大。一些中国学生可能对攻读博士学位更感兴趣。作为一名教师,您对博士学位有什么要求吗?

兰光辉:如果说中国学生有哪些需要提高的地方,我觉得他们首先要做的就是在大学甚至更早的时候就知道研究是什么。因为很多学生可能只是上课,并不知道什么是研究。例如,美国学生从小学开始就会自己寻找相关信息并提出研究想法。

当然,中国也有伟大的人。比如我去年在北大发现,北大很早就允许本科生参与研究工作。我觉得这个非常好。

其次,一般来说,中国学生可能需要提高英语写作能力。可能是因为学生在大学学习期间的考试主要以考试为主,比较简单。引入学生写作训练(如研究报告、论文等)是解决这一问题的一种方法。

机器的心脏:佐治亚理工学院的科学和工程学科非常强大。它和MIT、CMU、Stanford最大的区别是什么?比如学校的气质、风格。

兰光辉:我觉得这些学校都很好,但是又各有不同。我认为佐治亚理工学院非常保守。有时,当我们取得世界一流的成果时,我们只是谦虚地说出来。这可能符合美国南方人的特点(笑)。我认为像斯坦福大学和麻省理工学院这样的公司也敢说他们也有这个资本。

猜你喜欢