分散记忆法，AAAI 2022｜美图&amp;大连理工的参考视频目标分割方法只需单阶段

极简大道 2022-09-17 记忆方法阅读: 167

摘要: 来源丨机器之心编辑丨极市平台

来源丨机器之心

编辑丨极市平台

引言

参考视频目标分割（Referring VOS, RVOS）是一个新兴起的任务，它旨在根据参考文本，从一段视频序列中分割出文本所指述的对象。与半监督视频目标分割相比，RVOS 只依赖抽象的语言描述而不是像素级的参考掩膜，为人机交互提供了一种更方便的选择，因此受到了广泛关注。

论文链接：
https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf

该研究的主要目的是为解决现有 RVOS 任务中所面临的两大挑战：

如何将文本信息、图片信息进行跨模态融合，从而既保持两种模态间的尺度一致性，又能充分地将文本所提供的有用特征参考充分融入到图片特征中；
如何抛弃现有方法的二阶段策略（即先在图片级别逐帧得到粗略的结果，再利用该结果作为参考，经过增强时序信息的结构细化得到最终预测），将整个 RVOS 任务统一进单阶段的框架中。

对此，该研究提出了一种跨模态元迁移的端到端 RVOS 框架 ——YOFO，其主要的贡献和创新点为：

只需单阶段推理，即可实现利用参考文本信息直接得到视频目标的分割结果，在两个主流的数据集 ——Ref-DAVIS2017 和 Ref-Youtube-VOS 上获得的效果超越了目前所有二阶段方法；
提出了一个元迁移（Meta-Transfer）模块来增强时序信息，从而实现了更聚焦于目标的特征学习；
提出了一个多尺度跨模态特征挖掘（Multi-Scale Cross-Modal Feature Mining）模块，能够充分融合语言、图片中的有用特征。

实现策略

YOFO 框架主要流程如下：输入图片和文本先分别经过图片编码器和语言编码器提取特征，随后在多尺度跨模态特征挖掘模块进行融合。融合后的双模态特征在包含了记忆库的元迁移模块中进行简化，排除掉语言特征中的冗余信息，同时能保存时序信息来增强时间相关性，最后通过一个解码器得到分割结果。

图 1：YOFO 框架主要流程

多尺度跨模态特征挖掘模块：该模块通过逐级融合不同尺度的两个模态特征，能够保持图像特征所传达的尺度信息与语言特征间的一致性，更重要的是保证了语言信息不会在融合过程中被多尺度图像信息所淡化淹没。

图 2：多尺度跨模态特征挖掘模块。

元迁移模块：采用了一种 learning-to-learn 策略，过程可以简单地描述为以下的映射函数。迁移函数是一个卷积, 则是它的卷积核参数：

优化的过程可以表达为以下目标函数：

其中，M 代表能够储存历史信息的记忆库，W 代表不同位置的权重，能够对特征中不同的位置赋予不同的关注度，Y 代表储存在记忆库中的每个视频帧的双模态特征。该优化过程尽可能地使元迁移函数具有重构双模态特征的能力，同时也使得整个框架能够进行端到端的训练。

训练和测试：训练时所使用的损失函数是 lovasz loss，训练集为两个视频数据集 Ref-DAVIS2017、Ref-Youtube-VOS，并通过静态数据集 Ref-COCO 进行随机仿射变换模拟视频数据作为辅助训练。元迁移的过程在训练和预测时都要进行，整个网络在 1080ti 上的运行速度达到了 10FPS。

实验结果

研究采用的方法在两个主流 RVOS 数据集（Ref-DAVIS2017 和 Ref-Youtube-VOS）上均取得了优异的效果，量化指标及部分可视化效果图如下：

图 3：在两个主流数据集上的量化指标。

图 4：在 VOS 数据集上的可视化效果。

图 5：YOFO 的其他可视化效果展示。

研究还通过一系列的消融实验以说明特征挖掘模块（FM）以及元迁移模块（MT）的有效性。

图 6：特征挖掘模块（FM）以及元迁移模块（MT）的有效性。

此外，研究分别对使用了 MT 模块和不使用 MT 模块的解码器输出特征进行了可视化，可以明显地看出 MT 模块能够正确地捕捉到语言所描述的内容且对干扰噪声进行过滤。

图 7：使用 MT 模块前后的解码器输出特征对比。

关于研究团队

本论文由美图影像研究院（MT Lab）和大连理工大学卢湖川团队的研究者们共同提出。美图影像研究院（MT Lab）是美图公司致力于计算机视觉、机器学习、增强现实、云计算等领域的算法研究、工程开发和产品化落地的团队，为美图现有和未来的产品提供核心算法支持，并通过前沿技术推动美图产品发展，被称为「美图技术中枢」，曾先后多次参与 CVPR、ICCV、ECCV 等计算机视觉国际顶级会议，并斩获冠亚军十余项。

tags: 分割记忆法

分散记忆法，AAAI 2022｜美图&amp;大连理工的参考视频目标分割方法只需单阶段

引言

实现策略

实验结果

关于研究团队

city记忆拆分，怕麻烦是记忆的最大障碍，新概念第一册-1课文拆分记忆

分割记忆法是什么，快速记住2000个英文单词，第13天（拆分法）

图示记忆法，清华学霸们都在用的学习方法-拆分联想高效单词记忆法

with拆分记忆法，分散（头尾）记忆法

come一bαck拆分记忆，四招解决中考备考背完就忘的问题

特殊记忆法，高效记忆专场！如何走出“背了就忘”的怪圈？

精选推荐

最有效的备考方法,法考如何备考，2021年高考备考：8种高效记忆方法

考前快速大量记忆技巧,最有效的备考方法，考前冲刺：一消备考也要动脑筋，这样记忆方法大多数考生并不知道

怎样快速记忆知识点且记得牢,考前快速大量记忆技巧，会计从业备考不放假，六大归纳记忆法带你飞！

最新文章

最有效的备考方法,法考如何备考，2021年高考备考：8种高效记忆方法

年度爆文

世界顶级记忆法,聪明人都在用的超强记忆法，叫醒的N种奇葩方法，笑到走火入魔

简体楞严咒背诵方法,21天楞严咒快速记忆法，改变自己从心而生

文科怎么背怎样才能记得住,文科背书怎么背得快又牢固，文科成绩难提高？你需要这12个方法

26个字母巧记口诀,数字编码1-100图片，巧记忆-单词记忆之编码法，提升记忆力的方法

快速记忆方法的小窍门,怎样快速记忆知识点且记得牢，这些记忆方法让你学习、备考的效率大大提升！

治疗记忆力最好的药,学生增强记忆力十大药品排名，慎用！长期吃这4种药，当心记忆力减退

手机个人上班记工表,用手机记录考勤，3分钟教你一张自动统计的考勤表

1-100数字记忆编码图,1到20数字卡片图片，数字人文本熟读之美！让数字人更美！#拍摄准备工作

脑力训练app排行榜,编记忆口诀的软件，这个软件帮你记忆任何想记住的东西，Anki，记忆神器

记忆力训练18种方法,π值怎么记忆，数学符号派pi（π）即简单又精彩

热门标签

随机文章

记法思维

帮助普通人，快速提高记忆力

分散记忆法，AAAI 2022｜美图&amp;amp;大连理工的参考视频目标分割方法只需单阶段

引言

实现策略

实验结果

关于研究团队

city记忆拆分，怕麻烦是记忆的最大障碍，新概念第一册-1课文拆分记忆

分割记忆法是什么，快速记住2000个英文单词，第13天（拆分法）

图示记忆法，清华学霸们都在用的学习方法-拆分联想高效单词记忆法

with拆分记忆法，分散（头尾）记忆法

come一bαck拆分记忆，四招解决中考备考背完就忘的问题

特殊记忆法，高效记忆专场！如何走出“背了就忘”的怪圈？

精选推荐

最有效的备考方法,法考如何备考，2021年高考备考：8种高效记忆方法

考前快速大量记忆技巧,最有效的备考方法，考前冲刺：一消备考也要动脑筋，这样记忆方法大多数考生并不知道

怎样快速记忆知识点且记得牢,考前快速大量记忆技巧，会计从业备考不放假，六大归纳记忆法带你飞！

最新文章

最有效的备考方法,法考如何备考，2021年高考备考：8种高效记忆方法

年度爆文

世界顶级记忆法,聪明人都在用的超强记忆法，叫醒的N种奇葩方法，笑到走火入魔

简体楞严咒背诵方法,21天楞严咒快速记忆法，改变自己从心而生

文科怎么背怎样才能记得住,文科背书怎么背得快又牢固，文科成绩难提高？你需要这12个方法

26个字母巧记口诀,数字编码1-100图片，巧记忆-单词记忆之编码法，提升记忆力的方法

快速记忆方法的小窍门,怎样快速记忆知识点且记得牢，这些记忆方法让你学习、备考的效率大大提升！

治疗记忆力最好的药,学生增强记忆力十大药品排名，慎用！长期吃这4种药，当心记忆力减退

手机个人上班记工表,用手机记录考勤，3分钟教你一张自动统计的考勤表

1-100数字记忆编码图,1到20数字卡片图片，数字人文本熟读之美！ 让数字人更美！#拍摄准备工作

脑力训练app排行榜,编记忆口诀的软件，这个软件帮你记忆任何想记住的东西，Anki，记忆神器

记忆力训练18种方法,π值怎么记忆，数学符号派pi（π）即简单又精彩

热门标签

随机文章

记法思维

帮助普通人，快速提高记忆力

分散记忆法，AAAI 2022｜美图&大连理工的参考视频目标分割方法只需单阶段

1-100数字记忆编码图,1到20数字卡片图片，数字人文本熟读之美！让数字人更美！#拍摄准备工作