怎样提高视觉记忆力,NYU联合Google Brain提出结合工作记忆的视觉推理架构和数据集

极简大道 极简大道 2022-10-27 精品记忆课 阅读: 162
摘要: 现有的视觉推理数据集都避开了时间和记忆的复杂性,而这两者都是现实应用中不可或缺的因素。为突破这个局限性,受认知心理学启发,纽约大学联合 Google Brain 开发了新的视觉问答数据集 ( COG ) 以及对应的网络架构。该架构能利用多模态信息和动态注意、记忆机制执行推理,初步分析表明,它能以人类可理解的方式完成任务。1. 简介人工智能的一个主要目标就是构建能够对感官环境进行强有力并且灵活地推理的系统 [1]。视觉提供了一个极其丰富和高度实用的领域,我们可以在其中通过建立系统对复杂的刺激执行逻辑推理 [2,3,4,5]。研究视觉推理的一个途径是对视觉问答 ( VQA ) 数据集进行建模,模型可以从中学习正确地回答关于静态图像的挑战性自然语言问题 [6,7,8,9]。尽管这些多模态数据集已经有了很大进步,但是目前的方法还存在几个局限性。首先,与推理一个问题的逻辑组成不一样,在 VQA 数据集上训练的模型刚好遵循图像中的固有统计特性的程度是不确定的 [10,11,12,13]。其次,这些数据集都避开了时间和记忆的复杂性,而这两者都是智能体设计 [1,14,15,16] 与视频分析、总结 [17,18,19] 中不可或缺的因素。

现有的视觉推理数据集都避开了时间和记忆的复杂性,而这两者都是现实应用中不可或缺的因素。为突破这个局限性,受认知心理学启发,纽约大学联合 Google Brain 开发了新的视觉问答数据集 ( COG ) 以及对应的网络架构。该架构能利用多模态信息和动态注意、记忆机制执行推理,初步分析表明,它能以人类可理解的方式完成任务。

1. 简介

人工智能的一个主要目标就是构建能够对感官环境进行强有力并且灵活地推理的系统 [1]。视觉提供了一个极其丰富和高度实用的领域,我们可以在其中通过建立系统对复杂的刺激执行逻辑推理 [2,3,4,5]。研究视觉推理的一个途径是对视觉问答 ( VQA ) 数据集进行建模,模型可以从中学习正确地回答关于静态图像的挑战性自然语言问题 [6,7,8,9]。尽管这些多模态数据集已经有了很大进步,但是目前的方法还存在几个局限性。首先,与推理一个问题的逻辑组成不一样,在 VQA 数据集上训练的模型刚好遵循图像中的固有统计特性的程度是不确定的 [10,11,12,13]。其次,这些数据集都避开了时间和记忆的复杂性,而这两者都是智能体设计 [1,14,15,16] 与视频分析、总结 [17,18,19] 中不可或缺的因素。

图 1. COG 数据集中的样本序列和指令。COG 数据集中的任务是测试目标识别、关系理解以及为解决问题而进行的记忆操作和适应。所有问题都可能涉及到当前图像和之前图像中的目标。注意在最后一个例子中,指令涉及到最后一个但不是最近一个「b」。前者排除了在当前图像中寻找「b」。白色箭头表示每个图像的目标响应。

为了解决 VQA 数据集中与空间关系的逻辑推理相关的缺点,Johnson 等人 [10] 最近提出了 CLEVER 来直接用于基本视觉推理模型的测试,以便与其他 VQA 数据集相结合 (例如,[6,7,8,9])。CLEVR 数据集提供了人工静态图像和关于这些图像的自然语言问题,让模型学习执行逻辑和视觉推理。最近研究中人们开发出来的网络能够达到几乎完美的准确率 [5,4,20]。

在这项工作中,研究者解决了视觉推理中的第二项限制,即关于时间和记忆的限制。推理智能体必须记住它的视觉历史中相关的片段,忽略不相关的细节,基于新的信息来更新和操作记忆,以及在后面的时间里利用这些记忆来作出决策。作者的方法就是创建一个人工的数据集,它具有时变数据中存在的很多复杂性,同时也避免了处理视频时的很多视觉复杂性和技术难题(例如,视频解码、时间平滑帧之间的冗余)。特别是,作者从认知心理学 [21,22,23,24,25] 和现代系统神经科学 [26,27,28,29,30,31] 最近几十年的研究中得到启发。这些领域有着基于空间和逻辑推理、记忆组成和语义理解将视觉推理分解为核心组件的悠久研究传统。为此,作者建立了一个称为 COG 的人工数据集,它也能用于人类的认知实验 [32,33,34],并能够及时地训练视觉推理。

COG 数据集是基于一种能够构建三元组任务集的编程语言开发的:三元组包含图像序列、语言指令以及正确答案的序列。这些随机生成的三元组能够在大量的任务序列中训练视觉推理,解决它们需要对文本的语义理解,对图像序列中每张图像的视觉认知,以及决定时变答案的工作记忆(图 3)。研究者在编程语言中特别强调了几个参数,开发者可以通过这些参数来从易到难地设定挑战性环境,从而对问题难度进行调制。

最后,作者引入了用于有记忆视觉推理的多模态循环架构。该网络将语义、视觉模块与状态控制器相结合,状态控制器调节视觉注意力和记忆,以便正确执行视觉任务。他们证明了该模型在 CLEVER 数据集上取得当前最佳的性能。此外,该网络还提供了稳健的基线,其可以在 COG 数据集的一系列设置中实现良好的性能。通过控制变量研究和对网络的动态分析,他们发现网络采用人类可解释的注意力机制来解决这些视觉推理任务。作者希望 COG 数据集、与之对应的网络架构和相关的基线结果能够为研究时变视觉刺激下的推理提供一个有用的基准。

3.COG 数据集

图 2. 生成综合的 COG 数据集。COG 数据集基于一系列的运算符(A), 这些运算符被组合以形成各种任务图 ( B )。( C ) 通过在任务图中指定所有运算符的属性来实例化任务。任务实例用于生成图像序列和语义任务指令。( D ) 正向传递图形和图像序列以用于正常任务执行。( E ) 生成一致的、偏差最小化的图像序列需要以反向拓扑顺序向后传递任务图,并且以反向时间顺序向后传递图像序列。

4. 网络

图 3. 本文提出的网络。图像序列被用来作为卷积神经网络 ( 绿色部分) 的输入。英语文本形式的指令被输入到顺序嵌入网络 (红色) 中。视觉短期记忆 ( vSTM ) 网络及时保存视觉空间信息并提供指向输出 ( 蓝绿色 )。vSTM 模块可以被认为是具有外部门控的卷积 LSTM 网络。状态控制器 (蓝色部分) 直接或间接提供所有注意和门控信号。网络的输出是离散的 (语言) 或 2D 连续的 (指向的)。

5. 结果

表 1. CLEVER 上的测试准确率:人类、基线、仅靠训练中的任务指令和像素输入的性能顶尖模型,以及本文提出的模型。(*)代表的是所用的预训练模型。

图 4. 本文提出网络的工作时的思想过程,通过可视化单个 CLEVER 样本的注意力和输出来展示。( A ) 来自 CLEVER 验证集的示例问题和图像。( B ) 每个思考步骤的有效特征注意图。(C) 相关的空间注意力图。(D) 语义注意力。( E ) 排名前 5 的语词输出。红色和蓝色分别表示较强和较弱。在同时特征注意到「小金属球」和空间注意到「位于红色橡胶目标之后」,被关注物体的颜色 (黄色) 反映在语词输出中。在后来的思考过程中,网络特征注意的是「大亚光球」,而正确的答案 (是) 出现在语词输出中。

图 5. 控制变量研究。CLEVER 测试集在不同的模型上的总体准确率; A 和 B 分别是 CLEVER 数据集和 COG 数据集:CLEVR 数据集的相关模型中未包含任何 vSTM 模块。(C)基于输出类型、是否涉及空间推理、操作符的数量以及任务图中的最后一个操作符来分析 COG 的准确率。

图 7. 本文提出的网络可以零样本地推广到新任务。用 44 个任务中的 43 个任务训练了 44 个网络。如图所示是 43 个已训练任务 (灰色) 的最大性能,迁移到一个没有经过训练的任务 (蓝色) 的最大性能,以及在这个任务上的机会水平(红色)。

论文:A dataset and architecture for visual reasoning with a working memory

论文链接::
https://arxiv.org/pdf/1803.06092.pdf

摘要:人工智能中存在一个令人烦恼的问题,就是对复杂的、不断变化的视觉刺激中发生的事件进行推理 (如视频分析或游戏)。受认知心理学和神经科学中丰富的视觉推理和记忆的传统研究所启发,我们开发了一个人工的、可配置的视觉问答数据集 ( COG ),这个数据集可用于人类和动物的实验。尽管 COG 比视频分析的一般问题简单得多,但它解决了许多与视觉、逻辑推理以及记忆相关的问题,这些问题对现代深度学习架构来说仍然具有挑战性。此外,我们还提出了一种深度学习架构,该架构在其他诊断 VQA 数据集 (即 CLEVER) 以及 COG 数据集的简单设置上具有竞争力。但是,COG 的某些设置可以令数据集的学习越来越困难。经过训练,该网络可以零样本地泛化到许多新任务。对在 COG 上训练的网络架构的初步分析表明,该网络以人类可理解的方式完成任务。

其他相关

视觉记忆能力教案,”嗅觉,是一个人最长久的记忆匣,甚至比视觉记忆来得更加深刻

作者: 极简大道 时间:2022-10-27 阅读: 294
帕特里克·聚斯金德在《香水:一个谋杀犯的故事》中写过“与语言、外貌、情感或意志相比,气味的说服力更大。”嗅觉,是一个人最长久的记忆匣,甚至比视觉记忆来得更加深刻。...
怎样训练孩子的视觉记忆能力,计算机视觉不是智能,只是记忆:CVPR 2019程序主席开炮

怎样训练孩子的视觉记忆能力,计算机视觉不是智能,只是记忆:CVPR 2019程序主席开炮

作者: 极简大道 时间:2022-10-27 阅读: 148
选自Medium作者:Derek Hoiem机器之心编译参与:路、杜伟计算机视觉顶会 CVPR 2019 刚刚落下帷幕,近日 CVPR 2019 程序主席 Derek Hoiem 发表了一篇文章,认为计算机视觉正处于黄金时代,但它依靠的只是记忆,并非真正的智能。随着人工智能的火热,近年来 AI 学术会议正受到人们越来越多的关注。CVPR 作为首屈一指的年度计算机视觉盛会,在机器学习领域享有盛名。该会议已于当地时间 6 月 16 日-20 日在美国加州长滩举行。据统计,CVPR 2019 共收到来自全球 14,104 位作者提交的 5160 篇论文(比 CVPR 2018 增加 56%),最终接收了 1294 篇,接收率约为 25%。CVPR 2019 共有 9227 人注册参会,突破历届记录。...

如何提升孩子视觉记忆,10个冷知识:为什么某个场景会有似曾相识的感觉?很神奇

作者: 极简大道 时间:2022-10-27 阅读: 181
1、看到某个场景,为什么会有似曾相识的感觉?在日常生活中,我们看到某个场景或者某个人时有时会出现一种似曾相识、好像在哪见过的感觉,这其实是一种错视现象,也叫做视觉记忆,原理是大脑中有一个“记忆缓存区”。...

视觉记忆训练,如何训练孩子视觉的发展?

作者: 极简大道 时间:2022-07-25 阅读: 184
在感官统合中,视觉是接受信息十分重要的一环。根据统计,至少80%的外界信息由视觉获得,所以视觉的发展对于孩子以后的学习能力,信息收集能力以及动手能力都有十分重要的地位。视觉的早期发展阶段,孩子在出生后到1岁之间,视觉发展是非常迅速的,其中出生后前四个月尤为重要。之前文章有提到,孩子会经历光暗敏感期,光的敏感期,色彩敏感期,专注力敏感期,探索敏感期,空间敏感期,认知敏感期,观察敏感期,判读敏感期和虚拟实境敏感期10个阶段!...

【七步曲】 让宝宝拥有 【超强记忆力】

作者: 访客 时间:2021-11-27 阅读: 592
    导语:要想让宝宝拥有超强的记忆力其实很简单,您只需要按照下面的七步曲去做,宝宝就能拥有令人羡慕的记忆力。这七步对于新妈妈来说并不难,贵在坚持。下面新收妈妈快来看七步曲让宝宝拥有超强记忆力。  ...

年度爆文