分散记忆法,AAAI 2022|美图&大连理工的参考视频目标分割方法只需单阶段

极简大道 极简大道 2022-09-17 记忆方法 阅读: 167
摘要: 来源丨机器之心编辑丨极市平台

来源丨机器之心

编辑丨极市平台

引言

参考视频目标分割(Referring VOS, RVOS)是一个新兴起的任务,它旨在根据参考文本,从一段视频序列中分割出文本所指述的对象。与半监督视频目标分割相比,RVOS 只依赖抽象的语言描述而不是像素级的参考掩膜,为人机交互提供了一种更方便的选择,因此受到了广泛关注。


论文链接:
https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf

该研究的主要目的是为解决现有 RVOS 任务中所面临的两大挑战:

  • 如何将文本信息、图片信息进行跨模态融合,从而既保持两种模态间的尺度一致性,又能充分地将文本所提供的有用特征参考充分融入到图片特征中;

  • 如何抛弃现有方法的二阶段策略(即先在图片级别逐帧得到粗略的结果,再利用该结果作为参考,经过增强时序信息的结构细化得到最终预测),将整个 RVOS 任务统一进单阶段的框架中。

对此,该研究提出了一种跨模态元迁移的端到端 RVOS 框架 ——YOFO,其主要的贡献和创新点为:

  • 只需单阶段推理,即可实现利用参考文本信息直接得到视频目标的分割结果,在两个主流的数据集 ——Ref-DAVIS2017 和 Ref-Youtube-VOS 上获得的效果超越了目前所有二阶段方法;

  • 提出了一个元迁移(Meta-Transfer)模块来增强时序信息,从而实现了更聚焦于目标的特征学习;

  • 提出了一个多尺度跨模态特征挖掘(Multi-Scale Cross-Modal Feature Mining)模块,能够充分融合语言、图片中的有用特征。

实现策略

YOFO 框架主要流程如下:输入图片和文本先分别经过图片编码器和语言编码器提取特征,随后在多尺度跨模态特征挖掘模块进行融合。融合后的双模态特征在包含了记忆库的元迁移模块中进行简化,排除掉语言特征中的冗余信息,同时能保存时序信息来增强时间相关性,最后通过一个解码器得到分割结果。


图 1:YOFO 框架主要流程

多尺度跨模态特征挖掘模块:该模块通过逐级融合不同尺度的两个模态特征,能够保持图像特征所传达的尺度信息与语言特征间的一致性,更重要的是保证了语言信息不会在融合过程中被多尺度图像信息所淡化淹没。


图 2:多尺度跨模态特征挖掘模块。

元迁移模块:采用了一种 learning-to-learn 策略,过程可以简单地描述为以下的映射函数。迁移函数是一个卷积, 则是它的卷积核参数:


优化的过程可以表达为以下目标函数:


其中,M 代表能够储存历史信息的记忆库,W 代表不同位置的权重,能够对特征中不同的位置赋予不同的关注度,Y 代表储存在记忆库中的每个视频帧的双模态特征。该优化过程尽可能地使元迁移函数具有重构双模态特征的能力,同时也使得整个框架能够进行端到端的训练。

训练和测试:训练时所使用的损失函数是 lovasz loss,训练集为两个视频数据集 Ref-DAVIS2017、Ref-Youtube-VOS,并通过静态数据集 Ref-COCO 进行随机仿射变换模拟视频数据作为辅助训练。元迁移的过程在训练和预测时都要进行,整个网络在 1080ti 上的运行速度达到了 10FPS。

实验结果

研究采用的方法在两个主流 RVOS 数据集(Ref-DAVIS2017 和 Ref-Youtube-VOS)上均取得了优异的效果,量化指标及部分可视化效果图如下:


图 3:在两个主流数据集上的量化指标。


图 4:在 VOS 数据集上的可视化效果。


图 5:YOFO 的其他可视化效果展示。

研究还通过一系列的消融实验以说明特征挖掘模块(FM)以及元迁移模块(MT)的有效性。


图 6:特征挖掘模块(FM)以及元迁移模块(MT)的有效性。

此外,研究分别对使用了 MT 模块和不使用 MT 模块的解码器输出特征进行了可视化,可以明显地看出 MT 模块能够正确地捕捉到语言所描述的内容且对干扰噪声进行过滤。


图 7:使用 MT 模块前后的解码器输出特征对比。

关于研究团队

本论文由美图影像研究院(MT Lab)和大连理工大学卢湖川团队的研究者们共同提出。美图影像研究院(MT Lab)是美图公司致力于计算机视觉、机器学习、增强现实、云计算等领域的算法研究、工程开发和产品化落地的团队,为美图现有和未来的产品提供核心算法支持,并通过前沿技术推动美图产品发展,被称为「美图技术中枢」,曾先后多次参与 CVPR、ICCV、ECCV 等计算机视觉国际顶级会议,并斩获冠亚军十余项。

其他相关

city记忆拆分,怕麻烦是记忆的最大障碍,新概念第一册-1课文拆分记忆

作者: 极简大道 时间:2023-01-14 阅读: 196
怕麻烦是记忆单词最大障碍,新概念第一册-1课文拆分记忆,重温单词怕麻烦是记忆单词的最大障碍,自己的一个微习惯,把新概念单词1-4册、高中英语3500单词、大学英语四级单词拆分记忆完成。“温故而知新”记忆是需要反复的,接下来拆分新概念课文的记忆方法,并且重温新概念单词拆解记忆——行动起来吧!关注我,微习惯会令你有不一样的收获!!!...
分割记忆法是什么,快速记住2000个英文单词,第13天(拆分法)

分割记忆法是什么,快速记住2000个英文单词,第13天(拆分法)

作者: 极简大道 时间:2023-01-14 阅读: 211
goodness [ˈɡudnis] n 善良;美德拆分:good 好 ness 溺死(谐音)记忆:善良和好美德的人会迅速解救快溺死的人。goose 鹅;雌鹅拆分:goo 900 se 蛇记忆:900 条蛇在追一只鹅。grain 谷物拆分:g 哥哥 rain 雨...
图示记忆法,清华学霸们都在用的学习方法-拆分联想高效单词记忆法

图示记忆法,清华学霸们都在用的学习方法-拆分联想高效单词记忆法

作者: 极简大道 时间:2023-01-14 阅读: 206
apology[ə'pɑlədʒi]n. 道歉;谢罪;辩护;勉强的替代物拆分:apo(阿婆)+lo(龙)+gy(故意)联想:阿婆让一只龙故意受伤了,这件事情必须得道歉appal[ə'pɔl]vt. 使惊骇;惊吓vi. 减弱;变得苍白;令人发腻拆分:ap(阿婆)+pa(怕)+l(了)联想:受到惊吓,阿婆怕了apparatus[ˌæpəˈrætəs]...
with拆分记忆法,分散(头尾)记忆法

with拆分记忆法,分散(头尾)记忆法

作者: 极简大道 时间:2023-01-14 阅读: 205
计划用1小时来背诵一篇文章,对这 1小时的安排可以有两种方法:一、是集中法,就是在1小时之内,不断地反复地背,直到记住为止;二、是采用分散法,就是把背诵的时间分在几次进行,如每天背20分钟,在三天背完,总的背书时间还是1个小时。检查记忆的效果,发现分散法的效果明显优于集中法。这是为什么呢?一个学习过程,如果相对地分为前、中、后三个阶段,那么,前面的学习活动会影响后面的学习活动,即前摄抑制。例如,刚踢完足球,就立刻做功课,注意力常常难以集中,就是因为前面的活动虽然表面上结束了,但这个神经活动并没有停止,还要持续一段时间,使后面的学习活动受到干扰。前面活动引起的兴奋越强烈,对后面学习活动的干扰越大。同样,后面的学习活动也会影响到前面的活动,即后摄抑制。...
come一bαck拆分记忆,四招解决中考备考背完就忘的问题

come一bαck拆分记忆,四招解决中考备考背完就忘的问题

作者: 极简大道 时间:2022-09-17 阅读: 190
...

特殊记忆法,高效记忆专场!如何走出“背了就忘”的怪圈?

作者: 极简大道 时间:2022-09-17 阅读: 173
考研复习的时候,大家都有好多知识点需要背诵,很多童鞋都会苦恼自己背了立马就忘……...

年度爆文