出售本站【域名】【外链】

李飞飞团队将 ViT 用在机器人身上,规划推理最高提速 512 倍,还 cue 了何恺明的 MAE

人类的预测才华 + ViT,会孕育发作什么样的化学反馈?会让呆板人的动做布局才华又快又准。

那是李飞飞团队的最新钻研 ——MaskViT,通过 MVM,掩码视觉建模对 Transformer 停行预训练,从而建设视频预测模型。

结因显示,MaskViT 不只能生成 256*256 视频,还可以让呆板人动做布局的推理速度最高进步了 512 倍。

来看看那是项什么样的钻研?

从人类身上找灵感

神经科学规模的钻研讲明,人类的认知、感知才华是有一种预测机制来撑持的。那种对世界的预测模型,可以用来模拟、评价和选择差异的可能动做。对人类来说,那一历程是快捷和精确的。

假如能赋予呆板人类似的预测才华。这么他们就可以正在复纯的动态环境中快捷布局、执止各种任务。

比如,通过视觉模型来预测控制,兴许便是一种方式,但也对算力和精确性提出了更高的要求。于是,李飞飞团队就想到了最近诸多停顿的 ViT 架构,以及以何恺明 MAE 为代表的基于 MVM,Masked Visual Modeling 那一自监视预训练表征。

但详细要收配起来,仍有许多的技术挑战。

一方面,全局留心力机制的复纯度取输入序列长度的平方呈反比,招致视频办理老原过高。另一方面,视频预测任务和自回归掩码视觉预训练之间存正在纷比方致。真际测试时,模型必须重新预测完好的将来帧序列,招致视频预测量质不好。

基于那样的布景,李飞飞团队提出了 MaskViT—— 通过掩码视觉建模对 Transformer 停行预训练,从而建设视频预测模型。

详细有两种设想决策。

首先,为了进步记忆和训练效率,运用了两品种型的窗口留心力:空间留心力和时空留心力。其次,训练历程中掩码的 token 比例是可变的。正在推理阶段,视频是通过迭代细化生成的,此中依照掩码调治函数逐步降低掩码率。

实验结因

钻研团队正在三个差异数据集,以及四个差异目标来评价了 MaskViT。结因显示,跟以往先进的办法比较,MaskViT 都暗示出了更好的机能,可生身甄别率达 256 × 256 的视频。

还正在 BAIR 停行了消融实验。

随后,团队还展示了真正在呆板人运用 MaskViT 停行真时布局的成效。

推理速度最高可提升 512 倍。

钻研人员默示,原次工做讲明,可以通过最小的规模知识,操做掩码视觉建模的正常框架,赋予像智能体壮大的预测模型。但同时默示,也具有一定的局限性。比如正在每帧质化时会显现闪烁伪影,特别是正在 RoboNet 那种有静态布景的视频中。

另有假如要扩充视频预测的范围,也依然具有挑战性,出格是这种有大质摄像机活动的场景。将来,他们将摸索把那一视频预测办法整折到更复纯的布局算法中。值得一提的是,正在今年 5 月,何恺明团队曾提出过视频版 MAE,并发现最佳掩蔽率高达 90%。

论文链接:

https://arxiv.org/abs/2206.11894

名目链接:

https://maskedvit.github.io/

何恺明论文:

https://arxiv.org/abs/2205.09113


2022-06-25 14:16  阅读量:151