2024年的诺贝尔物理奖颁给了美国普林斯顿大学的约翰·霍普菲尔德(John J. Hopfield)和加拿大多伦多大学的杰弗里·辛顿(Geoffrey E. Hinton),以表彰他们“为推动利用人工神经网络进行机器学习作出的基础性发明和发现”。
这次的物理奖既让人意外,也让人觉得在情理之中。
意外在于,很多人知道,这两位人士都是AI算法领域里的鼻祖——霍普菲尔德创立了变分自编码器(VAE),辛顿创立了深度神经网络算法(AlexNet)。于是大家很自然地要问,这和物理奖有什么关系?
而说他们获奖在情理中是因为,最近两年各种突破如果只选一个颁奖的话,那自然是人工智能上的突破。不夸张地说,这个突破很可能在最近100年都是最重要的。诺贝尔奖评奖委员会如果对此熟视无睹,那简直是对诺贝尔奖的侮辱。尤其是诺贝尔遗嘱中对成果是不是有现实价值非常看重,所以人工智能领域绝不应该错过。
只是诺贝尔奖中并没有计算机科学或者数学这样的学科,偏巧上面两位获奖者表面上看是算法上的成就,但其实两个算法之所以诞生,最初是依照两个物理模型建立起来的——其中变分自编码器(VAE)背后的物理基础是伊辛模型(Ising model),深度神经网络背后的物理基础是玻尔兹曼分布。
伊辛模型与变分自编码器(VAE)的关系,咱们先说伊辛模型与变分自编码器(VAE)的关系。
伊辛模型(Ising model)是物理学家恩斯特·伊辛在1924年提出的,当时就给出了一维伊辛模型的解析解。我们熟悉的杨振宁先生早在西南联大读书时,就通过导师王竹溪关注了二维伊辛模型的解法,也曾经在博士阶段试图把三维伊辛模型当作自己的博士学位论文,只不过因为难度过大而暂时放弃。
伊辛模型是用来描述磁性材料的磁性的获得、增强和减弱的。假如我们有一块磁铁,它由许多微小的磁性粒子组成,我们把这些粒子简化成一个个小箭头,每个箭头只能向上或下。在伊辛模型中,有以下几个规定:
1. 这块磁性材料由很多立体的小格子构成,每个小格子里有一个小箭头。
2. 相邻的小箭头之间会相互影响。如果两个相邻的箭头指向相同方向,它们会“很开心”,于是系统的能量就会降低。
3. 温度会影响这些小箭头的行为。温度越高,小箭头就越容易随机改变方向。
4. 我们可以施加一个外部磁场,使小箭头倾向于指向某个特定方向。
在我们设定好格子的结构和规模、小箭头的方向、温度和外部磁场后,可以根据量子力学原理对小箭头的分布做预测。通过这些预测就可以计算出磁性材料的一些重要特性,比如:
1. 相变现象:当温度降低到某个临界点时,原本杂乱无章的小箭头会突然变得整齐划一,就像磁铁突然获得了磁性。
2. 自发磁化:即使没有外部磁场,在低温下,这些小箭头也会自发地排列整齐。
3. 临界行为:在临界温度附近,系统会表现出一些特殊的数学规律。
那么,伊辛模型又是怎么可以作为一种神经网络算法的呢?原因是,它们的基础假设高度相似。
1. 相似的结构
我们可以想象一下,神经网络就像是大脑中的神经元。每个神经元占据一格。神经元之间通过突触连接,互相影响来判断是否激活。伊辛模型中相邻的小箭头也会相互影响。
2. 状态的二元性高度类似
在最简单的神经网络模型中,神经元的状态可以用1(激活)或-1(未激活)表示。这与伊辛模型中小箭头指向上(+1)或下(-1)的状态完全对应。
3. 都存在能量最低原理的概念
伊辛模型中,系统总是倾向于降低能量。在神经网络中,也存在“能量函数”。网络会在训练中自动调整,使这个能量最小化。当能量最低时,状态就稳定了。这个过程对应了神经网络的学习或者记忆。
4. 都存在温度对系统的影响
伊辛模型中,温度的变化会影响系统的行为。类似的,在神经网络的学习过程中,我们也可以引入一个“温度”的参数来控制学习的速度和方式。这种方法叫作“模拟退火”,可以帮助网络更好地找到参数。
今天都有哪些应用在使用理论基础是伊辛模型的变分自编码器(VAE)呢?比如,医学图像的分析、数据的压缩和特征学习、合成数据。今天谷歌就提出了一种改良型的Transformer模型Variational Transformer Network,把VAE模块嵌入到自注意力机制中。
玻尔兹曼分布与深度神经网络的关系
咱们接下来说一说,玻尔兹曼分布与深度神经网络的关系。
玻尔兹曼分布是描述一个系统中粒子能量分布的统计规律。在这个分布中,粒子处于某个能量状态的概率,取决于该状态的能量和系统的温度。能量越低,温度越低,粒子处于该状态的概率就越大。
辛顿的神经网络利用的就是玻尔兹曼分布。
如果你听懂了伊辛模型是如何拓展到神经网络的,那么玻尔兹曼分布拓展到神经网络的逻辑其实和它高度类似。只不过模型稍微复杂了一些,也就是每个神经元的状态不再是二元的(+1)或(-1),而是一个具体的概率,比如22%、73%、98%,诸如此类。
网络通过调整神经元之间的连接权重来改变能量,使得训练数据对应的能量状态最低。一旦训练完成,辛顿的神经网络还可以通过采样生成新的数据。这个过程类似于在玻尔兹曼分布中采样粒子的状态。网络是以一定的概率转换到不同的状态,生成的状态分布与训练数据高度一致。于是就可以用网络自己抽象出规律,对其他事物做准确判断。
而辛顿还开创性地设计了“深度神经网络”,也就是由多个神经网络串联,逐层抽象出各层的规律,最后能处理的数据复杂度远超单层,提取出的特征也更加抽象。
总结:诺奖中前 5% 的水平
最近两年,关注科技领域的人,起码听说过辛顿这个人,他可以算深度神经网络这一分支的鼻祖。因为他从1983年就开始钻研这个算法,但受限于那个年代的算力,实际上今天大放异彩的深度神经网络,在2012年之前都属于几乎不可能有什么成果的“旁门左道”。
深度神经网络算法的崛起是在2012年10月。在辛顿执教生涯末期收的两位关门弟子阿莱克斯(Alex Krizhevsky)和伊利亚(Ilya Sutskever)和辛顿一起参加了ImageNet图像识别比赛(ILSVRC),用他们发明的AlexNet算法,以84%的正确率夺得冠军。那次比赛,他们只用了4颗NVIDIA的GPU,而比赛的第二名谷歌用了16000颗CPU。两个月后,他们在世界计算机视觉大会上介绍了算法的细节。
没错,辛顿也是OpenAI前首席科学家伊利亚(Ilya Sutskever)的博士生导师。而伊利亚在2023年末的一场公司内部“政变”中作为发起者引起了全球的关注。
今天的AI模型,无论是不是使用了Transformer,全都在使用各种神经网络,这两个人都可以算神经网络领域的鼻祖。
我曾经把诺贝尔奖项分为三类:
第一类是诺奖让某个成果更加荣耀,这一类奖项占比95%以上。
第二类是,某个成果让诺奖更加荣耀,这类奖项占比不超过5%。
当然,还有一类是让诺奖蒙羞的,这类很少,咱们就不提了。
2024年度的诺贝尔物理奖是哪类呢?可能你也猜到了,是第二类,否则颁奖委员会不会如此用心地找到神经网络算法和物理学模型的紧密关联,然后赶紧把奖项颁给刚刚爆发两年的人工智能领域。因为在历史统计中,诺奖成果的诞生和颁发诺奖之间,平均间隔是 16 年。