快速理解:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering



  • 背景

    • 往往大家读一篇AI论文时,读一遍很容易无法顾及全篇,读两遍缺又会因为重复而容易走神,花费大量时间。因此,在看英文论文前,如果能从已经读过此篇的人处了解到论文的要点与大体概况,阅读效率便能大大提高。但CSDN等中文博客中的论文笔记往往都有大量论文的细节,这些细节在读论文时显然会学习到,作为梗概来读时反而会干扰对要点的获取。我认为以后读论文时,作为博客需要发出的并不是论文算法的实现细节,而是这篇论文到底在讲什么,有哪些重点。这样的论文架构能大大提高他人的阅读效率,也能锻炼自己对论文精华的提取能力

    Bottom-Up and Top-Down论文理解

    • 这篇论文主要是提出了一个Bottom-Up Attention的机制。文中提到,目前多数视频处理中的attention都是针对task,也就是输出时的分类进行的,而没有关注到人类会关注的各种其他细节。

    • 本文将这一类模型成为top-down,就是指从答案要求的类别(输出/top)来进行的。这一方法尽管属于AI领域中应用广泛的针对结果进行优化的思想,但在视频模型中却往往不能很好的符合人类的需求。比如满足某些人类眼中“特征”的物体更容易成为图像中的重点,但仅仅根据答案中的分类却不能很好的应对这种情况。

    • 本文在保留传统模型的同时,添加了一种自底向上的attention,利用从visual genome中获取的人类关注的其他种种特征进行attention,更好的选取视频图像的目标区域,使得对视频区域的特征提取在解决了上述问题后,更容易获取视频中易被人类认为是重点的“特征”。

    *本文的其他部分主要是算法细节以及向传统自顶向下模型中加入了自底向上机制后结果的显著提升。


 

Copyright © 2018 bbs.dian.org.cn All rights reserved.

与 Dian 的连接断开,我们正在尝试重连,请耐心等待