大模子的中枢组件注见地机制白虎 av,究竟何如出生的?
可能依然有东说念主知说念,它并非2017 年 Transformer 开山论文《Attention is all you need》草创,而是来自 2014 年 Bengio 现实室的另一篇论文。
目下,这项研究背后更多细节被公开了!来自 Karpathy 与信得过作家两年前的邮件交往,引起了许多盘问。
到目下已有整 10 年历史。
一作 Dzmitry Bahdanau,那时是 Bengio 现实室的一位实习生,在实习只剩 5 周时灵光一现忽视了一个简化决议,荒芜于竣事了对角注见地。
Pytorch 等经典代码中,恰是把注见地称为 Bahdanau Attention,还保留着他孝敬的踪影。
Karpathy 之是以目下拿起这段旧事,是因为最近社区中流传着一些诬蔑,认为 Transformer 作家受到科幻电影《莅临》中外星东说念主交流款式的启发。
信得过 2014 年 Attention 机制的灵感,其实来自东说念主类翻译翰墨经由中走动看材料的活动。
除了理解这少量以外,这段实在故事中还有更多亮点,对今天的研究仍有许多启发。
2014 年的 Attention,与同期Alex Graves 论文 Neural Turing Machines,和Jason Weston 论文 Memory Networks有访佛之处,但这些研究起点和动机不同。
人体艺术诠释在时期积蓄的临界点上,不同研究者常会独速即忽视相似的篡改。
蓝本的名字" RNNSearch "不够直不雅,自后在 Yoshua Bengio 的建议下改为"注见地",更能收拢中枢办法。
原来起个好名字,竟然不错提高时期的传播和影响力。
有网友看过这个故事之后,惊奇这封邮件"应该放在诡计机科学博物馆"。
给这些改变天下的发现简直老是从现实运行的,而况莫得东说念主信得过提前知说念它们的结局。
以下为 Dzmitry Bahdanau 发给 Karpathy 的原始邮件全文翻译,邮件写于 2022 年。
10 年前,Attention 信得过的出生
嗨,Andrej。
很欢笑为您论述 8 年前发生的故事!
我在 Jakobs University(德国雅各布大学)奴隶 Herbert Jaeger 完成了硕士一年龄的学业后,来到 Yoshua(图灵奖得主 Yoshua Bengio)的现实室实习。
我向 Yoshua 默示我惬心从事任何工作,他便让我参与机器翻译名堂,与 Kyunghyun Cho 及团队张开配合。
我对将一系列单词塞进向量的想法荒芜怀疑,但我也竟然很想要一个博士学位的 offer,是以我卷起袖子,运行作念我擅长的事情——编写代码、成立 Bug 等等。
在某个期间,我对团队正在进行的工作有了满盈的了解,Yoshua 邀请我攻读博士学位。2014 年是个好时期白虎 av,只需这些工作就足以让我读博了——好意思好的旧时光!
我很欢笑,我以为是期间享受乐趣并清楚创造力了。
于是我运行想考何如幸免 Encoder-Decoder RNN 之间的信息瓶颈。
我的第一个想法是成立一个带有两个"光标"的模子:一个在源序列中出动,由 BiRNN 编码;另一个在指标序列中出动。光标轨迹将使用动态缱绻旯旮化。
Kyunghyun Cho 认为这荒芜于 Alex Graves 的 RNN Transducer 模子。之后,我可能也读了 Graves 的手写识别论文,但这种设施对于机器翻译来说似乎不太相宜。
上述带有光主见设施在我实习的剩余 5 周内很难竣事,是以我尝试了更节略的设施——两个光标同期同步出动,骨子上荒芜于硬编码的对角注见地。
这种设施有点效果,但缺少优雅。
是以有一天我有了新的想法,让 Decorder RNN 学会在源序列中搜索抛弃光主见位置。这在一定进程上受到了我中学英语学习中翻译熟识的启发。
在翻译时,你的见地会在源序列和指标序列之间走动出动,我将软搜索默示为 softmax,然后对 BiRNN 景况进行加权平均。从第一次尝试就效果很好,我荒芜振奋。
我将这个架构称为 RNNSearch,在 1 个 GPU 上运行。由于咱们知说念谷歌的 Ilya(OpenAI 前首席科学家 Ilya Sutskever)团队使用 8 个 GPU 的 LSTM 模子在某些方面最初于咱们,是以咱们赶快在 ArXiV 上发表了一篇论文。
自后发现,这个名字并不好。更好的名字(注见地)是 Yoshua 在临了的一次修改中添加到论断中的。
直不雅地说,这在解码器中竣事了一种注见地机制,解码器决定源语句的哪些部分需要悭吝。通过让解码工具有注见地机制,咱们削弱了编码器将源语句中的扫数信息编码为固定长度向量的工作。通过这种新设施,信息不错散布在通盘凝视序列中,解码器不错相应地有礼聘地检索。
一个半月后,咱们看到了 Alex Graves 的论文。确乎是全齐相通的想法,尽管他的动机全齐不同。
在咱们这边,发明新算法是需求驱动的。我猜在他那处,是聚会神经派系和标志派系的弘愿?Jason Weston 团队的 Memory Networks 论文也有访佛的机制。
我莫得料意想注见地不错在更低的头绪上使用,手脚默示学习的核默算法。
但当我看到 Transformer 论文时,我立即向现实室的共事文告:RNN 已死。
回到您最初的问题:在蒙特利尔 Yoshua 的现实室中"可微且数据依赖的加权平均"的发明与神经图灵机、Memory Networks 以及 90 年代(致使 70 年代;但我无法提供一语气)的一些相干证实科学论文无关。
这是 Yoshua 鞭策现实室追求明志励志的调换适度,Kyunghyun Cho 在科罚由低级博士生和实习生构成的大型机器翻译名堂方面的出色手段,以及我我方多年来在编程竞赛中检察出的创造力和编程手段的适度。
即使我我方、Alex Graves 和这个故事中的其他扮装那时莫得从事深度学习工作,离这个想法出现也不会太远了。
注见地仅仅深度学习中竣事天真空间聚会的当然款式,这简直是一个不问可知的想法,一直在恭候 GPU 满盈快,让东说念主们有能源并淡雅对待深度学习研究。
自从我领略到这少量,我对 AI 的大志向即是启动像机器翻译那样令东说念主齰舌的愚弄名堂。
精粹的研发工作不错为基础时期的朝上作念出更多孝敬,而不是咱们常常认为"信得过的"东说念主工智能研究的扫数花哨的表面。
就酱!荒芜酷美妙到更多对于您的 AI 教会名堂的音讯(我从 Harm de Vries 那里听到了一些传说)。
干杯,
Dima
One More Thing
Karpathy 惊奇,有点骇怪这篇信得过的注见地发源论文莫得赢得满盈多的
自从 Attention is all you need 一飞冲天之后,各人领略到给论文起一个好名字对时期传播的影响,背面的论文标题就放飞了。
除了扎堆效法 xx is all you need 以外,最近致使还出现了 Taylor Unswift。
讲的是把模子权重调治成泰勒级数的参数,来保护已发布模子的扫数权并退避被花消。
就,emmm ……
提到的论文:
Neural Machine Translation by Jointly Learning to Align and Translate
https://arxiv.org/abs/1409.0473
Attention is All You Need
https://arxiv.org/abs/1706.03762
Neural Turing Machines
https://arxiv.org/abs/1410.5401
Generating Sequences With Recurrent Neural Networks
https://arxiv.org/abs/1308.0850
Memory Networks
https://arxiv.org/abs/1410.3916
Sequence to Sequence Learning with Neural Networks
https://arxiv.org/abs/1409.3215
Taylor Unswift:
https://arxiv.org/abs/2410.05331
参考一语气:
[ 1 ] https://x.com/karpathy/status/1864028921664319735白虎 av