爆炸音书——国产
ViT 三大中枢作家集体辞职谷歌 DeepMind。下一站:OpenAI!
他们分袂是翟晓华(Xiaohua Zhai)、卢卡斯 · 拜尔(Lucas Beyer)、亚历山大 · 科列斯尼科夫(Alexander Kolesnikov)。
相干音书已被本东谈主证据,三东谈主均官宣了新动向。
2021 年,他们三东谈主算作共归拢作的野神思视觉界限神作 ViT 发布即刷新 ImageNet 最高分。
这项探求证据了 CNN 在 CV 界限不是必需的,Transformer 从 NLP 跨界,一样不错取得先进后果。首创了 Transformer 在 CV 界限期骗的先河。
现在这篇论文被援用量已跳动4.9 万。
此外,他们还共同建议了 SigLIP、PaliGamma 等 SOTA 级责任。
几周后,他们将精采加入 OpenAI 苏黎世实际室。
值得一提的是,Wired 方面音书称,三东谈主是被 OpenAI 挖走的。
网友指摘:能撬动这一"铁三角"黄金组合,OpenAI 果然太庆幸了。
ViT 三大中枢作家投靠 OpenAI
Xiaohua Zhai(翟晓华)
此前他是 Google DeepMind 的高档探求员,指引着苏黎世一个多模态探求小组。要点探求多模态数据(WebLI)、敞开权重模子 ( SigLIP、PaliGemma ) 以及文化包容性。
现在谷歌学术援用数超六万多。
2014 年他毕业于北京大学,得到野神思系博士学位;本科毕业于南京大学。一毕业就赶赴谷歌苏黎世责任。
Lucas Beyer
这位相似亦然谷歌 DeepMind 苏黎世小组的一位成员,共同指引着 DeepMind 的多模态探求团队和基础关节。
现在仍是撰写超 50 篇论文,被 CVPR、NeurIPS、ICCV 等这些顶级会议采取。
据他个东谈主官网中先容,他在比利时长大,曾梦思制作电子游戏以及从事 AI 探求。自我认定为「自学成才的黑客和探求科学家,英敢于于创造飞凡什物」。
他在德国亚琛工业大学学习机械工程,并在那边得到了机器东谈主感知和野神思视觉博士学位。2018 年加入谷歌。
Alexander Kolesnikov
2018 年以来,他就在谷歌大脑,现为 DeepMind 团队责任。之前主要设置包括进修 SOTA 视觉模子 *(从 2019 年到 2021 年齐终明显 ImageNet SOTA);敞开权重模子(SigLIP 和 PaliGemma),以及神经架构方面的责任:BiT、ViT、MLP-Mixer 和 FlexiViT。
除此以外,编写纯真、高性能的探求基础关节,尤其是 Jax。
此前,他在奥地利科学工夫探求所(ISTA)攻读博士学位,探求场所是弱监督学习和图像生成模子。
曾是谷歌 CV 的"黄金铁三角"
在谷歌任职时间,三东谈主屡次相助并带来了影响界限发展的要紧责任。
成人电影其中最要紧的一篇莫过于 ViT。
这篇探求考证了 Transformer 架构在野神思视觉界限的通用性。在它的基础上繁衍出了 Swin Transformer、DeiT(efficient Image Transformers)等。
它立异性建议将图像分割成固定大小的块(patches),并将每个块视为一个序列元素,与 NLP 中的单词访佛。然后,这些块通过变换器进行处分。
在好多视觉任务中,ViT 在性能上跳动了传统的 CNN 模子,尤其是在大限制数据集上进行进修时默契尤为超越。举例,在 ImageNet 分类任务中,ViT 取得了与开首进的 CNN 模子罕见以致更好的抑遏。
此外他们还相助推出了 MLP-Mixer、BiT(CV 界的 BERT)等界限内著名责任。
参考一语气:
[ 1 ] https://www.wired.com/story/openai-hires-deepmind-zurich/
[ 2 ] https://kolesnikov.ch/
[ 3 ] https://sites.google.com/view/xzhai
[ 4 ] https://lucasb.eyer.be/国产