首页

都市言情

学霸的模拟器系统

设置

字体样式
字体大小

学霸的模拟器系统: 第165章 哑巴与字典(求订阅求月票)

    平安夜后的第一个清晨,芝加哥的天空呈现出一层惨淡的铅灰色。
    戈登综合科学中心的三楼会议室里,那台不知疲倦运转了两周的服务器终于安静了下来。
    屏幕上的光标还在不知疲倦地闪烁,旁边那行刺眼的“13.7%”像是一个恶劣的玩笑,嘲弄着所有的努力。
    这不仅是失败,简直是羞辱。
    随机猜测的准确率都有50%,他的AI模型甚至学会了如何避开正确答案。
    桌上的半杯美式咖啡早就凉透了,表面结了一层薄薄的油脂。
    窗外,铲雪车发出沉闷的轰鸣声,在这个空荡荡的早晨显得格外刺耳。
    走廊里传来一阵急促的脚步声,紧接着会议室的门被猛地推开。
    程新竹顶着一头没来得及梳理的乱发,裹着一件臃肿的黑色羽绒服,像个愤怒的企鹅一样冲了进来。
    她接到了林允宁的信息,也已经看到了那封自动发送的测试报告邮件。
    林允宁以为她会哭,或者至少会沮丧地抱怨几句。
    但她没有。
    “我就知道这机器靠不住!”
    程新竹把背包往桌上一扔,发出“咚”的一声巨响。
    她拉开拉链,从里面掏出一本甚至比那本《泛函分析》还要厚的红皮书??《药物化学原理》。
    “它是个傻子,那我们就教它。”
    她把书摊开在林允宁面前,指着那一页页密密麻麻的分子结构式,语气急促而坚定:
    “你看,药物分子和蛋白质结合,是有规则的。氢键,范德华力、疏水作用......这些都是写在教科书里的死规矩。
    “既然机器学不会,我们就把这些规则一条一条写进代码里去!”
    她从口袋里掏出一支红笔,在书上狠狠地画了个圈:
    “哪怕我们人工输入一千条,一万条规则,我也要把它过来!”
    林允宁看着她。
    那双因为熬夜而布满红血丝的眼睛里,燃烧着一种近乎执拗的火焰。
    她完全不懂编程,也不懂什么神经网络,她只想用最笨拙、最原始的方式,去对抗那个冰冷的“13.7%”。
    “你知道这需要多少工作量吗?”林允宁问。
    “不知道,但我有的是时间。”
    程新竹咬着嘴唇,“我可以不睡觉。”
    林允宁沉默了片刻,伸手合上了那本厚重的书。
    “硬碰硬是没用的。”
    他的声音很轻,但很冷静,“如果不找到底层的逻辑漏洞,就算你把整本《药物化学》都敲进电脑里,它依然是个只会死记硬背的傻子。”
    程新竹愣住了,手里的红笔停在半空中。
    “那怎么办?”
    “先去睡觉。”
    林允宁站起身,拿起那杯冷咖啡倒进垃圾桶,“脑子不清醒的时候,做出的决定通常都是错的。回去洗个澡,睡一觉,明天再说。'
    既然算法跑不通,林允宁索性给自己放了半天假。
    回到宿舍,布兰登还在纽约没回来,估计还在和他那个华尔街大亨老爹进行“男人间的对话”。
    屋里冷清清的。
    他打开电脑,挂上了MSN,那个熟悉的头像正在跳动。
    视频接通,沈知夏的脸出现在屏幕上,画面有点卡顿,100万像素的摄像头,画质很差,全是噪点。
    她那边是UIC的宿舍,背景里挂着那件还没干的运动背心。
    “怎么了?一脸苦大仇深的。”
    沈知夏正戴着耳机,手里转着一支笔,面前摊着一本翻得卷边的书,看起来比林允宁还痛苦。
    “项目不太顺,卡住了。”
    林允宁揉了揉眉心,“你呢?圣诞节还在学校看书?”
    “别提了,我要转专业去学护理,下学期要修《医学术语学》,全是拉丁文,简直是天书。”
    沈知夏把书举到摄像头前晃了晃,上面密密麻麻全是记号笔画的重点。
    自从孟兰确诊阿尔茨海默症后,沈知夏虽然没明说,但默默地把原本的体育管理辅修课换成了护理预科。
    “你看这个,”
    她指着书上一个长得吓人的单词,“Cardiomyopathy(心肌病),要是死记硬背,我脑子都要炸了。”
    她一边抱怨,一边用笔在纸上熟练地把单词拆开。
    “后来老师教了个法子。Cardio是心脏,Myo是肌肉,Pathy是病变。只要记住了这几百个词根词缀,随便它们怎么组合,哪怕是个二十个字母的长单词,我也能猜出个大概意思。”
    林允宁笑着点了点头:
    “挺聪明的办法。”
    “那当然,本姑娘......”
    沈知夏还在那边得意地吹嘘着自己的学习方法,但林允宁已经听不见了。
    他的笑容,忽然僵在了脸上。
    一个念头,如同闪电般,毫无征兆地劈进了他的脑海。
    词根......积木......拆解……………
    他猛地转过头,看向自己电脑屏幕上那些复杂的化学分子式。
    那个只有13.7%准确率的AI,这半个月来在做什么?
    它在试图通过那三千个分子样本,直接去“理解”药物和蛋白质的结合能。
    这就好比,把一个从来没学过英语的人关进房间,扔给他三千篇莎士比亚的十四行诗,然后让他直接去写一篇满分的文学评论!
    这根本不是在学习,这是在瞎蒙!
    AI根本不懂化学分子的“语言”。
    它不知道苯环(Benzene Ring)是什么,不知道羟基(-OH)代表着亲水,不知道甲基(-CH3)意味着疏水。
    在他眼里,这些分子只是一堆毫无意义的三维坐标点。
    它没有学会“词根”,就被迫去写“文章”。
    “林柠檬?允宁哥?你怎么卡住了?信号不好吗?”
    屏幕那头,沈知夏还在挥着手。
    “夏天”
    林允宁猛地回过神,眼神亮得吓人,“你真是个天才。”
    “哈?”沈知夏一脸莫名其妙,“我背个单词就是天才了?你逗我呢吧?”
    “我有急事,先挂了!”
    林允宁甚至没来得及解释,直接切断了视频通话。
    他抓起外套,冲出了公寓大门。
    十分钟后,林允宁气喘吁吁地回到了戈登综合科学中心。
    他没有去管那个失败的“Aether_StruMatch”项目,而是打开浏览器,输入了一个新的网址。
    ZINC数据库。
    这是加州大学旧金山分校维护的一个免费数据库,里面包含了超过七亿种可以商业购买的小分子化合物结构。
    对于之前的他来说,这是一个无用的仓库。
    因为这些数据都没有“标签”??没人知道这些分子能不能治病,也没人知道它们能结合什么蛋白。
    对于传统的监督学习算法来说,没有标签的数据,就是垃圾。
    但现在,在林允宁眼里,这是一座金矿。
    这是一本包含了七亿个词汇的“化学字典”。
    他不需要知道这些分子能不能治病。
    他只需要让AI看着这些分子,去学习化学的“语法”。
    哪怕它不知道这个分子有什么用,但只要它看多了,它就会知道:
    苯环通常是平的,碳原子通常连着四个键,氮原子旁边经常会有氢键受体……………
    这叫“自监督学习”。
    在2006年,这还是一个只存在于顶级计算机科学家脑子里的模糊概念,连谷歌都还没开始大规模应用。
    但林允宁在学习机器学习时,在一些文献中读到过。
    他决定赌一把。
    他打开终端,敲下了一行下载命令。
    (命令违规,此处省略……………)
    很快,硬盘指示灯开始疯狂闪烁,进度条像蜗牛一样缓慢爬行。
    为了让AI学会“识字”,他需要设计一个特殊的训练任务。
    林允宁新建了一个代码文件,手指在键盘上飞快地敲击。
    他设计了一个类似“完形填空”的游戏。
    他编写了一个预处理程序,随机地把ZINC数据库里那些分子结构的一部分“遮住”(Masking)。
    比如,把一个苯环上的碳原子挖掉,或者把侧链上的氨基抹去。
    然后,他要求AI根据剩下的部分,去“猜”被遮住的是什么。
    如果猜对了,说明AI理解了分子的结构规律;如果猜错了,就通过反向传播算法调整参数,直到猜对为止。
    这是一个不需要人工标注,不需要昂贵实验数据的过程。
    只要有足够多的分子,AI就可以在这个无人监管的“图书馆”里,通过无数次的自我博弈,从一个对化学一无所知的“文盲”,变成一个精通分子语言的“大师”。
    等到它读完了这一亿本书,学会了所有的“词根”和“语法”。
    再把它拉回到那三千个真实的药物数据面前。
    那就是降维打击。
    屏幕上,ZINC数据库的压缩包正在一个接一个地下载完成。
    100MB......500MB......1GB......
    数亿条沉睡的分子数据,如同一条条看不见的河流,顺着网线涌入服务器的硬盘。
    半个小时后,数据下载成功。
    林允宁的训练程序也编写完成。
    他敲下了最后一行代码,按下回车。
    【Pre-training Task: Masked Molecular Modeling (MMM)】
    【Status: Initializing... 】
    屏幕上的光标闪烁了一下,然后变成了一个旋转的进度条。
    这是一场漫长的、寂静的蜕变。
    在这个寒冷的冬夜,在没有人注意的角落里,一个刚刚面世的AI,如同初生的婴儿。
    它连话都不会说,却正抱着一本厚厚的字典,开始像那晚的沈知夏一样,一个字,一个字地啃读起来。
    ......