
The Moonshot Podcast发布了一期深度访谈视频,X公司"创举东谈主"Astro Teller与Google DeepMind首席科学家Jeff Dean进行了一场近一小时的对话,转头了Google Brain样式标早期历程。
Jeff Dean可能是硅谷最被低估的"架构师"之一。不是因为他的期间不够牛,恰恰相悖,连那些工程硬汉皆把他看成偶像。而是因为他老是在建好一座大厦后就悄然离开,去寻找下一派旷地。
他在Google作念过搜索算法、作念过BigTable和Spanner这样的存储系统,又创立了Google Brain,每次皆是从零脱手,每次皆改动了所有这个词这个词领域的游戏章程。看完这期播客,我的嗅觉Jeff有很强的问题驱动特征,一个问题,经常带来一个紧要期间标的的价值,比如语音识别带来的用户算力需求,径直催生了TPU。
接下来咱们就讲故事了。
有个细节很故风趣。Jeff说他小时候搬了11次家,上了11所学校,独一不变的是他的乐高积木老是随着搬家车全部到达下一个所在。这种不休再行为手、不休修复的东谈主生模式,似乎从9岁就脱手了。那时他爸爸从杂志背面看到一个电脑套件的告白,可以我方焊合拼装。那是1970年代末,比Apple II还早一年多。领先这台机器只消精通的灯光和前边板的开关,其后有了键盘,再其后有了BASIC解释器。Jeff从一册印刷的书上抄下101个BASIC游戏规律,一转一转地输入,然后脱手修改它们。
这让我想起文艺复兴时期的工匠们。他们不是站在高处引导的建筑师,而是亲手雕镂每一块石头的东谈主。Jeff即是这样一个数字时间的工匠,只不外他雕镂的是算法和系统架构。而Google Brain的故事,就像是他用2000台电脑搭建的一座数字大教堂。
1、"我有点爱恨交汇的关系"
当Astro问Jeff最常用什么编程语言想考时,Jeff的回答出东谈主预感地坦诚:"我可能用C++最多,因为它是一种相配底层、性能导向的语言,我作念的好多漫衍式系统责任皆需要这种底层语言。但我和它有种爱恨交汇的关系。它实足不安全,你可以诡秘内存,而更当代的语言有好多好的特质。"
他提到在谈论生期间,导师发明了一种叫Cecil的语言,具有相配好的面向对象特质和模块化测度打算。他们用Cecil写了一个编译器,10万行Cecil代码,后端可以生成3000万行C代码。"那种语言的抒发力和尺度库测度打算其实终点可以,但可能全全国只消50个东谈主用过。"
2、1990年,神经齐集的第一次春天
Jeff第一次的确战役东谈主工智能是在明尼苏达大学的大四。那是1990年,他选修了一门漫衍式和并行编程的两学期课程。"作为课程的一部分,咱们战役到了神经齐集,因为它们是高度并行的计较花样。"
那时正值神经齐集的一个小昂扬期。"80年代末90年代初,神经齐集有过一些兴隆点,因为它们似乎能责罚其他规律无法责罚的真理小规模问题。"Jeff解释说,神经齐集的详细很浮浅:东谈主工神经元从底下获取输入,决定是否引发以及引发的强度,然后构建更复杂的系统。"那时3层的神经齐集就算深了,当今咱们在作念100层的神经齐集。"
他找到老师Vipin Kumar,苦求作念一个对于并行神经齐集的毕业论文。"我想,也许咱们可以用系里的32处理器机器来进修更大的齐集,而不是用一个处理器。终端发现,咱们需要的不是32倍的计较智商,而是100万倍。"
即便如斯,Jeff如故终澄澈两种并行化神经齐集进修的规律:一种是数据并行(他那时叫"模式并行"),把输入分红不同批次,hg真人每个处理器有齐集的副本但只看到部分数据;另一种是模子并行,把大齐集切成片,所少见据通过所有这个词片。这些见地在30多年后的今天仍然是深度学习的中枢。
3、在微厨房碰见吴恩达(Andrew Ng)
2011年,Jeff正在Google作念Spanner大规模存储系统。样式牢固褂讪,他脱手寻找下一个要作念的事情。就在这时,他在Google的微厨房遇到了Andrew Ng。
"Andrew是斯坦福的老师,我想是你或Sebastian把他带到Google X的。他每周来一天。我问他,'你在这里作念什么?'他说,'我还不知谈。但我的学生在斯坦福脱手在神经齐集上取得真理的终端,用在语音和视觉诳骗上。'我说,'确实吗?我可爱神经齐集。咱们应该进修真梗直的齐集。'"
这即是Google Brain团队的发源。Andrew有一个"奥密":齐集越大,后果越好,但没东谈主敬佩他。而Jeff正好是阿谁能把这个主张例模化的东谈主。"Andrew的描绘是,'咱们需要的是Jeff。咱们需要让这个样式对Jeff有填塞的眩惑力,这样1+1就能等于10万。'"
他们决定用Google数据中心的计较机来作念漫衍式神经齐集进修系统。那时Google的数据中心还莫得GPU,是以他们用了2000台计较机、16000个CPU中枢。"咱们进修了一个20亿参数的计较机视觉模子。"
4、YouTube上的猫
最著名的破损是那只"平均猫"。团队用无监督学习算法,从YouTube赶紧抽取了1000万帧视频进行进修。"这基本上是在为YouTube的赶紧像片寻找一种压缩算法。"Jeff解释谈。
模子的最高层有4万个神经元,谈论东谈主员可以不雅察是什么让这些神经元引发。"真理的是,模子通过无监督学习基本上发明了'猫'的见地,因为在优化算法中,为与图像底层像素中的'猫性'高度相关的特征分派一些容量是有利旨的。"
除了猫,他们还发现了其他特征:行东谈主的背影、有点诡异的东谈主脸。"如果你平均那些让特定神经元最兴隆的东西,就可以创建出让这个神经元最好坏引发的输入模式。这就像参加某东谈主的大脑,无意粗鄙刺激他们的'祖母神经元',然后他们脱手想起祖母。"
在ImageNet 20000类别的基准测试中,这个巨型神经齐集终澄澈60%的相对舛错率裁汰,ued(中国)官方网站入口比之前的神经齐集大50倍。在语音识别上,他们用800台机器进修5天,终澄澈30%的词舛错率相对改善。Jeff强调:"这终点于20年语音谈论发扬的总额。"
5、如果1亿东谈主每天敌手机言语3分钟
2013年,语音识别的破损让Jeff脱手顾虑一个"幸福的麻烦"。他作念了一个想想履行:"如果语音识别后果很好,东谈主们会脱手更多地使用它。曩昔每5个词就有一个舛错,听写得手机上然后矫正好多词其实并不省时刻。但如果每30或40个词才有一个舛错呢?"
"如果1亿东谈主脱手每天敌手机言语3分钟会如何?"Jeff在幻灯片上计较,如果部署在CPU上,"咱们每天需要18后头跟28个零的浮点运算。必须有更好的规律。"
这促成了TPU(张量处理单位)的出生。神经齐集有两个很好的特质:主若是线性代数运算(矩阵乘法、向量点积),况兼对精度裁汰有很强的容忍度。"不像高性能计较的数值模拟软件需要64位或32位浮点数,神经齐集本色上可以使用相配低的精度。第一代TPU只消8位整数运算,根蒂莫得浮点运算。"
其后的TPU增多了Bfloat16样式。"IEEE有一个16位样式,但对机器学习来说不太好,因为它同期失去了一些余数位和指数位。对神经齐集来说,你激情的是粗鄙涌现相配宽的值范围,而不太激情少许点后第五位。"
6、扎目力即是你需要的一切
Jeff翔实先容了语言贯通的三个破损。起首是词的漫衍式涌现:"不是把'纽约市'涌现为字符,而是用一个千维向量来涌现它在高维空间中的内在含义和出现的高下文。"
这即是Word2Vec算法的魅力:"国王减去男东谈主加上女东谈主等于女王。在高维空间中,标的变得有利旨。从公牛到母牛的标的,与从国王到女王的标的接头,与从他到她的标的接头。"
第二个破损是序列到序列模子,由Oriol Vinyals、Ilya Sutskever和Quoc Le拓荒。这个模子使用LSTM(吊唁期回首齐集)来处理序列。"你可以继承一个句子,最终得到一个向量,代表模子对该句子的贯通。然后用这个向量来运行化你要生成的序列的解码。"这不仅适用于机器翻译,还适用于医疗记载、基因组序列等。
第三个破损是Transformer和扎目力机制,由Noam Shazeer等八位合著者拓荒。"不是在每个词更新单个向量,而是记取所有这个词向量,所有这个词咱们经验过的中间景色,然后关注所有这个词这些。"
天然这在序列长度上是N平素的复杂度,但有一个庞大上风:"处理文本时,你可以并行处理。不像LSTM有法令瓶颈,这里你可以取1000个词并行处理,计较所有这个词需要的景色然后关注它。这更恰当当代ML处理器的高度并行矩阵单位。"
7、从制造到测度打算的鼎新
谈到AI的翌日,Jeff以为咱们正在经验一个根人道鼎新:"咱们将看到从东谈主类制造东西到东谈主类更多地指定他们想要什么的庞大鼎新。这不一定更容易,但我以为会更真理。它将为东谈主们开释无边创造力。"
他举了Notebook LM的例子:"你可以输入一堆PDF,说'请为我生成一个播客,用两个AI生成的声息来接头这份公司季度呈文'。模子在幕后本色上可以作念无边责任。"
当Astro问他个东谈主如何使用AI时,Jeff说:"我用它来探索新领域。我会说,'告诉我某个我不太练习的新领域的令东谈主兴隆的新趋势'。它会给我一些信息,然后我可以冷漠后续问题。"
他强调个性化的要紧性:"这种通用全国常识与你我方的个东谈主景色联结起来将是一个相配要紧的趋势。比如,'你能帮我在亚利桑那州找到下周我可能可爱的餐厅吗,相似于我昨年在东京去过的那些?'它应该在你的许可下知谈你作念了什么,并粗鄙提供相配个性化的建议。"
8、100万个针织和一个学生
在接头AI的社会影响时,Jeff冷漠了一个真理的愿景:"我的一个不雅点是,咱们如何能有1亿个针织和一个学生,或者说几个智商很强的模子,一直被东谈主们老师新东西,然后每个东谈主皆从这些教授中受益。"
他对栽培迥殊兴隆:"在学生教师比例很大的地区,你可以为每个学生配备一个个性化导师,匡助他们学习任何感趣味趣味的东西。我以为这将是令东谈主难以置信的变革。"
在医疗保健方面:"聚拢那些对个体大夫可能不太显着但在进修模子以取得许多大夫训导时相配显着的腌臜趋势。"
但他也意志到挑战:"伪善信息不是新问题,但一会儿间你可以制作传神的声息和传神的视频,让某东谈主说他们本色上莫得说的话。"这即是为什么他与其他8位作家共同撰写了一篇对于"塑造AI"的论文,探讨AI发展中的社会问题。
9、贯通他们的贯通
对于贯通神经齐集的挑战,Jeff指出:"这些模子当今如斯之大,咱们基本上还是摒弃了像贯通代码那样贯通这些模子。咱们当今贯通它们的贯通更像是神经科学,咱们不雅察这些数字大脑的部分,试图推断它们为什么作念它们所作念的事情。"
他以为可解释性谈论的一个标的是交互式探伤:"如果我想贯通你为什么作念出某个决定,我会和你对话。我会说,'你为什么选择绿卡?这似乎是个奇怪的选择。'然后你会回应,我可能会冷漠后续问题。"
"这有点像过后的辩解。只是因为我说这即是我这样作念的原因,并不一定意味着我敬佩这即是原因,或者即使我敬佩,那也不一定是我那时的真实动机。"
10、五年后的Jeff Dean
当被问到接下来五年的决策时,Jeff的回答依然聚焦于本色问题:"我想花一些时刻弄澄澈如何让智商极强的模子更具本钱效益,粗鄙部署给数十亿东谈主。当今,咱们最有智商的模子在计较本钱方面终点立志。"
"我有一些正在酝酿的主张,可能行得通,也可能行欠亨。但这即是尝试朝一个方上前进的玄妙之处。有时你如实到达了你以为要去的所在,有时你走到一半就偏离了一丝,但在经由中你会产生灵验的东西。"
这很相宜Jeff的立场。从11次搬家的孩子,到用2000台电脑进修神经齐集的工程师,他一直在修复、离开、然后再行为手。也许这即是的确的"登月精神":不是占据山头,而是不休寻找下一座要登攀的山脊。
三个中枢洞悉:
Q:为什么Jeff Dean能一次次奏效"再行为手"?
A:他有一种冷落的智商组合:既能长远底层细节(比如8位整数运算),又能看到系统全貌(2000台机器的合作)。更要紧的是,他不恋栈权利,而是享受从零脱手修复的经由。
Q:Google Brain最大的孝敬是什么?
A:不单是期间破损,更是表现了"规模"的力量。当学术界还在争论神经齐集是否灵验时,他们用工业级的资源表现了:只消填塞大,它就能责任。这改动了所有这个词这个词领域的想维方式。
Q:AI的下一个破损会在那儿?
A:Jeff示意了两个标的:一是本钱效用(让强盛的模子能被数十亿东谈主使用)ued中国官网,二是个性化(将通用常识与个东谈主景色联结)。这意味着AI不再是少数东谈主的器具,而会成为每个东谈主的"明白延迟"。
九游体育(NineGameSports)官网