学霸的模拟器系统: 第234章 恒等映射(求订阅求月票)
十二月的温哥华,空气湿润而凛冽。
灰蓝色的海湾倒映着北岸山脉的积雪,海鸥在温哥华会议中心的巨型玻璃幕墙外盘旋。
NIPS 2007(神经信息处理系统大会)的注册大厅里,人声鼎沸。
林允宁刚领完胸牌,还没来得及把那个略显廉价的挂绳套在脖子上,就被一群年轻的面孔围住了。
“林-God!能不能签个名?”
一个戴着厚底眼镜的男生激动地递过来打印好的论文,封面上赫然印着《Linear Attention Mechanism》 (线性注意力机制)。
“我是伯克利的一年级博士生。您的这个算法简直是救命稻草!我们在做长序列基因预测,之前跑一次模型要一周,用了您的技巧优化后,现在只要半天!”
“林先生,关于您那篇暗流体的论文,我在物理系的室友说您重新定义了真空?”
"**......"
林允宁熟练地接过马克笔,在那篇论文的空白处签下了名字。
这一年来的历练,让他对这种场面已经习以为常。
他不像是来参会的学生,更像是走红毯的明星。
“看来我们的‘物理学家’人气很高啊。”
一个带着英伦腔调的声音从侧方传来。
人群自动分开一条路。
杰弗里?辛顿(Geoffrey Hinton)穿着一件看着有些年头的粗花呢西装,正笑眯眯地看着他。
站在辛顿旁边的,是穿着格子衬衫、背着双肩包的Google工程战神杰夫?迪恩(Jeff Dean)。
“辛顿教授,迪恩博士。”
林允宁盖上笔帽,微笑着走过去握手,“ICML一别,好久不见。”
“确实好久不见。”
杰夫?迪恩的眼神依然热切,像是在看一块未被开采的金矿,“听说你最近在数学界和物理界闹出的动静很大?陶哲轩都在给我发邮件夸你。怎么样,有没有兴趣来Google Brain给我们讲讲那个‘复配边算子?顺便聊聊入职的
事?”
“杰夫,你就别费心了。”
辛顿打断了迪恩的挖角,“林这种人,注定是要自己定义问题的,而不是去解决别人定义的问题。不过,林,我很期待你今天的Keynote。听说你要从几何流的角度讲优化?”
“我确实有一点不成熟的想法。”
林允宁谦虚了一句,“希望能给在这个寒冬里坚持神经网络的人,一点信心。”
周围的参会者们看着这三个大佬级别的任务谈笑风生,眼神里充满了敬畏。
在2007年,这三个人站在一起,基本上就代表了人工智能的一半未来。
只是,其中有个人实在年轻的有点过分。
上午十点,主会场。
巨大的投影幕布上,显示着Keynote的标题:
《从几何流看神经网络的优化景观》。
演讲很成功。
林允宁的讲座深入浅出,没有用枯燥的代码,而是用物理直觉,将神经网络的参数空间比作一个高维的能量地形图,阐述了为什么传统的梯度下降法容易陷入局部极小值。
到了提问环节。
一位来自麻省理工学院(MIT)的老教授站了起来,扶了扶话筒
“林先生,你的几何比喻很精彩。但是,深层网络的优化曲面是非凸的(Non-convex),存在大量的鞍点(Saddle Points)。在数学上,这些点会导致海森矩阵(Hessian Matrix)出现负特征值,从而阻碍收敛。你是
如何看待这个问题的?”
这是一个非常硬核的数学问题。
全场安静下来,等待着林允宁的回答。
“这是一个非常好的几何问题。”
林允宁眼睛亮了。
他指了指台边的黑板,“能帮我推过来吗?”
工作人员迅速将黑板推到舞台中央。
林允宁拿起粉笔,转身面对黑板。
“其实,如果我们跳出欧几里得空间的限制,把参数空间看作一个黎曼流形......”
哒哒哒。
粉笔在黑板上敲击出清脆的节奏。
第一行,他写下了海森矩阵的本征值分解公式。
台下的观众频频点头,来到这里的虽然大部分是计算机科学家,但数学水平并不低。
他们对于这些基础的代数问题,还是理解得很深入的。
第二行,林允宁开始引入莫尔斯理论(Morse Theory),用临界点的指数来描述鞍点的性质。
台下有一半人开始皱眉,拿笔的手停住了。
“进一步,如果我们考虑梯度流在这个流形上的测地线偏离方程(Geodesic Deviation Equation) ......”
从第三行开始,林允宁直接祭出了他在和陶哲轩讨论时用到的“同调群”(Homology Group)演化方程,开始证明在高维空间中,鞍点其实是逃逸路径的“路标”,而非陷阱。
台下彻底安静了。
那是一种死一般的寂静。
刚才还在点头的计算机科学家们,现在的表情就像是误入了高等数学专业课的大一新生。
他们的眼神从迷茫,变成了呆滞,最后变成了放弃思考的释然。
只剩下此起彼伏的相机快门声????
虽然听不懂,但这公式看着就很厉害,先拍下来再说。
林允宁写得兴起,手中的粉笔折断了一截。
他回过头,正准备解释一下贝蒂数的物理意义,却看到了台下几千双迷茫的眼睛。
甚至连前排的杰夫?迪恩都在揉太阳穴。
"Be......"
林允宁愣了一下,瞬间反应过来。
这是AI大会,不是数学家大会。
他刚才那套连陶哲轩都要思考几分钟的推导,对这帮搞工程的人来说,简直就是天书。
这就是所谓的降维打击一
一不小心打得太狠,以此至于观众连痛感都没反应过来。
“咳。”
林允宁淡定地把剩下的半截粉笔扔进笔槽,拍了拍手上的灰,指着黑板上那堆如同鬼画符般的公式:
“简而言之,只要路径选得对,鞍点不是障碍,是跳板。”
台下沉默了一秒。
"14"
雷鸣般的掌声爆发了。
大家其实还是没听懂,但这不妨碍他们对这种智力上的绝对高点表示敬意。
午饭时间,海报展区(Poster Session)。
相比于主会场的热闹,这里的角落显得有些冷清。
2007年的计算机视觉(CV)领域,还是SVM(支持向量机)和人工特征提取(SIFT/HOG)的天下。
在一个不起眼的角落里,林允宁看到了一个略显落寞的身影。
那是一位有些瘦削的亚裔女性,正独自站在一张海报前。
海报的标题是《ImageNet: A Large-Scale Hierarchical Image Database》。
李飞飞。
未来的AI教母,此刻正面临着职业生涯最大的至暗时刻。
她的ImageNet项目因为耗资巨大,且尚未产出任何能用的成果,被学术界视为“浪费资源的苦力活”。
在主流观点看来,算法才是关键,数据够用就行。
搞这么大的数据集,现有的算法根本跑不动,毫无意义。
路过的人大多只是瞥一眼海报上那个夸张的数据量??“一千万张图片”,然后就摇摇头走开了。
林允宁整理了一下雪若送的那套高级西装,走了过去。
“李教授,好久不见。”
李飞飞抬起头,看到是林允宁,眼神中闪过一丝惊讶。
两人曾在ICML的闭门会议中有过一面之缘,但并未深交。
她没想到,这位刚刚在主会场享受完掌声的当红炸子鸡,会跑到这个冷清的角落来。
“林先生。”
李飞飞礼貌地笑了笑,笑容里带着一丝疲惫,“刚才的演讲很精彩。虽然我也没完全听懂那个同调群。
“数学只是工具。”
林允宁站在海报前,认真地看着上面的架构图,“我在意的是地基。我了解过你的ImageNet项目,请问现在的进展如何?”
“不太好。”
李飞飞是个很坦诚的人,她苦笑了一声,“我们雇佣了来自167个国家的近5万名亚马逊Mechanical Turk工人来打标签。数据量是上来了,但是......误差率居高不下。
“现有的SVM和浅层神经网络,在这么大的数据量面前,就像是小马拉大车,根本跑不动。
“没想到你对这个感兴趣,现在大家都在讨论你的几何流和核方法,没人关心数据。他们觉得只要算法足够精妙,小样本也能学出花来。
“大家都说我在做无用功,说与其花钱搞数据,不如多优化一下算子。”
“那是他们错了。”
林允宁转过头,看着李飞飞的眼睛,语气出人意料地笃定,“数据是新时代的石油。在这个算力即将爆炸的前夜,谁掌握了最大的数据集,谁就掌握了定义下一代智能的权力。
“李教授,你现在的问题不是石油太多,而是提炼石油的引擎??也就是神经网络的架构,还不够强,我说的对么?”
李飞飞愣了一下。
她没想到这个搞理论物理出身的天才,竟然比很多计算机同行更懂数据的价值。
“你说得对。”
这位普林斯顿的助理教授叹了口气,“这也是我最头疼的。数据量上去了,可是模型跟不上。无论是SVM还是浅层神经网络,一旦喂进去海量数据,误差率不仅不降,反而居高不下。我在想是不是哪里出了问题。”
“找个地方聊聊?”
林允宁指了指旁边的咖啡座,“我最近有些新想法,也许你会感兴趣。”
咖啡座里,人声嘈杂。
两人找了个角落坐下。
“现在的网络有个悖论。”
李飞飞拿出一张图表,上面画着两条曲线,“理论上,网络层数越深,表达能力越强。但实际上,当我们把层数从20层增加到50层时,训练误差反而变大了。这不科学,这叫‘退化问题”(Degradation Problem)。”
“因为信息在传递过程中失真了,我最近有一个新的想法,我称之为“残差神经网络’,正好想听听你的意见。”
林允宁手指轻轻敲击着桌面,淡淡说道。
他没带电脑,于是随手从桌上的纸巾盒里抽出一张餐巾纸,掏出随身带的圆珠笔,在纸上画了一个示意图:
“李教授,想象一下传话游戏。如果你想把一句话传给第100个人,中间每过一个人,信息就会因为‘非线性”的理解而扭曲一点。到了最后,话全变了。”
他在纸上画了一个方框,代表卷积层。
“现在的做法是强迫网络去学习从X到Y的完整映射F(x)。这很难。”
林允宁在方框旁边,画了一条弯曲的弧线,直接把输入X连到了输出端。
在那条弧线上,他重重地画了一个加号:+。
H(x)=F(x)+ X
“我们给它修一条直通车'。”
林允宁指着那个简单的公式,“这就是‘残差块’(Residual Block)。
“我们不再让网络去学习完整的输出H(x),而是让它只学习“变化量’????也就是残差F(x)=(x)- x。
“如果这一层不需要做什么改变,网络只需要把F(x)置为0,那么输出就自动等于输入x(恒等映射)。
“这样一来,梯度就可以顺着这条高速公路,毫无损耗地传回前面的层。别说50层,就是100层、1000层,也能训练。”
李飞飞盯着那张餐巾纸。
那个结构简单得像是一个大一学生的作业。
但正是这种极致的简洁,让她感到一阵头皮发麻。
困扰了AI界几十年的深度瓶颈,竟然被一条简单的“跳线”给破解了?
“这......这太天才了!”
李飞飞猛地抬起头,眼神里全是震撼, "Identity Mapping......恒等映射!就这么简单?为什么没人想到?”
“因为大家都在想怎么把网络变得更复杂,却忘了有时候什么都不做’也是一种智慧。”
林允宁笑了笑。
“但是......”
李飞飞忽然想到了什么,眼神中的兴奋稍稍褪去,“算力......普林斯顿的经费有限,训练这种深层网络需要的GPU算力是天文数字。我现在连ImageNet的存储服务器费用都快付不起了。”
2007年,NVIDIA刚刚发布第一代Tesla C870计算卡,CUDA生态还是一片荒芜。
训练一个几十层的网络,简直是在往无底洞里面扔钱。
“算力不是问题。”
林允宁等的就是李飞飞这句话。
他靠在椅背上,端起咖啡抿了一口,露出了商人的微笑。
他语气轻松,仿佛他背后站着整个谷歌的数据中心,“以太动力虽然是家小公司,但在高性能计算上的投入从不吝啬。
“李教授,我们做个交易吧。
“以太动力可以为你提供基于‘残差网络’(ResNet)的全套算法支持,并且在不远的未来,在我们的服务器上帮你训练第一版ImageNet分类模型。”
李飞飞震惊地看着这个年轻人。
她知道以太动力刚赚了辉瑞的钱,但没想到他们竟然富到可以烧钱训练大模型。
“条件呢?”她问道。
李飞飞是聪明人,知道天下没有免费的午餐。
“我要ImageNet完整数据集的永久商业使用权。”
林允宁图穷匕见,声音不大,却透着不容置疑的坚决,“以及未来所有版本更新和衍生数据的优先共享权。”
李飞飞愣住了。
她原本以为林允宁会要论文署名,或者是专利共享。
没想到他要的竟然是......数据?
那个现在被所有人嫌弃,却又大得吓人的数据集?
“就这些?”
李飞飞有些不敢相信,“你确定?这些图片现在除了占硬盘,还没人知道怎么用它们赚钱。”
“我很确定。”
林允宁笑了。
没人比他更清楚,再过几年,这堆“占硬盘的图片”,将成为点燃深度学习大爆炸的燃料。
那是AGI(通用人工智能时代的入场券。
虽然训练这个ResNet可能会烧掉他账上刚趴热乎的几百万美金,甚至可能会被雪若骂得狗血淋头。
但这笔买卖,太值了。
“成交。”
李飞飞伸出手,眼中满是感激,“林,谢谢你。你不仅救了ImageNet,你可能救了整个深度学习。”
深夜,温哥华费尔蒙酒店。
窗外的雨又开始下了,淅淅沥沥地敲打着玻璃。
林允宁回到房间,把那张画着ResNet草图的餐巾纸夹进了笔记本里。
虽然刚刚在咖啡馆里表现得豪气干云,但他心里清楚,回去之后怎么跟方雪若解释这笔巨额算力开销,是个大问题。
“算了,那是明天的事。”
他打开电脑,准备查看一下邮件。
屏幕右下角,一个红色的加密邮件图标正在闪烁。
发件人:赵振华。
林允宁神色一凛,迅速点开。
没有寒暄,直接是干货。
【允宁:
首先恭喜你最近发表的有关“暗流体”和“复规范流”的轰动性论文,相当了不起的工作!
回到我们的课题。
好消息是:经过两个月的调试,中科院物理所的极端条件实验室,已经成功合成了纯度极高的魔角石墨烯样品。那个1.1度的魔角,我们卡准了。
低温稀释制冷机已经降到了10mK,超导磁体也就位了。枪已上膛。
但坏消息是:相图太复杂了。
在电压、磁场、温度构成的多维参数空间里,那个超导态就像是大海里的一根针。我们试着扫了几个点,全是绝缘态。
如果不确定具体的参数范围,盲目搜索无异于大海捞针。
我们也在调集人手开展理论计算,但你也知道,‘自旋涨落’并不是主攻方向,所以人手不足。
而冯教授那边在用传统的电声耦合模型做计算,如你所料,收敛很慢。
我们需要你的加入,想办法告诉我们,那个自旋涨落”的超导态,到底藏在相图的哪个坐标点?】
邮件的最后,是一张空白的相图坐标纸,等待着被填满。
林允宁看完邮件,关掉了那个关于ResNet的文档。
AI的热闹已经留在了会场里。
现在,面对着这封来自大洋彼岸的邮件,他仿佛闻到了低温实验的冷冽气息。
“迷雾吗?”
林允宁看着那张空白的图纸,手指轻轻敲击着键盘,眼中闪烁着比屏幕更亮的光芒。
“那就让我来画这张地图。