|本期目录/Table of Contents|

[1]陈巧红,漏杨波,方贤.基于空间关系聚合与全局特征注入的视觉问答模型[J].浙江理工大学学报,2023,49-50(自科六):764-774.
 CHEN Qiaohong,LOU Yangbo,FANG Xian.A visual question answering model based on spatial relationship aggregation and global feature injection[J].Journal of Zhejiang Sci-Tech University,2023,49-50(自科六):764-774.
点击复制

基于空间关系聚合与全局特征注入的视觉问答模型()
分享到:

浙江理工大学学报[ISSN:1673-3851/CN:33-1338/TS]

卷:
第49-50卷
期数:
2023年自科第六期
页码:
764-774
栏目:
出版日期:
2023-11-10

文章信息/Info

Title:
A visual question answering model based on spatial relationship aggregation and global feature injection
文章编号:
1673-3851 (2023) 11-0764-11
作者:
陈巧红漏杨波方贤
浙江理工大学计算机科学与技术学院,杭州 310018
Author(s):
CHEN QiaohongLOU YangboFANG Xian
School of Computer Science and Technology, Zhejiang SciTech University, Hangzhou 310018, China
关键词:
视觉问答空间关系聚合全局特征注入视觉区域特征视觉全局特征双边门控机制
分类号:
TP181
文献标志码:
A
摘要:
现有视觉问答模型缺乏视觉对象间关系的理解能力,导致复杂问题的答案预测准确率较差;针对该问题,提出了一种基于空间关系聚合与全局特征注入的视觉问答模型。该模型首先利用空间关系聚合视觉区域特征,将其转换为视觉全局特征,并将这些特征注入网络;然后引入双边门控机制进行特征融合,使模型能够根据不同的问题输入,自适应地调整视觉全局特征和视觉区域特征对答案预测的贡献度;最后将融合特征输入分类网络,得到预测结果。在VQA 2.0和GQA公开数据集上进行实验,结果表明:该模型在VQA2.0的测试-开发集、测试-标准集和GQA的数据集上的总准确率分别达到71.12%、71.54%和57.71%,优于MCAN和SCAVQAN等主流模型。该模型由于引入了具有空间关系的视觉全局特征,能够更好地提升视觉对象间关系的理解能力,有效提高了视觉问答模型的准确率。

参考文献/References:

[1]Agrawal A, Lu J S, Antol S, et al. VQA: visual question answering[J]. International Journal of Computer Vision, 2017, 123(1): 431.
[2]闫悦, 郭晓然, 王铁君, 等. 问答系统研究综述[J/OL]. 计算机系统应用. (20230612)[20230615]. https:doi.org/1015888/j.cnki.csa.009208.
[3]王源顺, 段迅, 吴云. 一种新的seq2seq的可控图像字幕的生成方法[J]. 计算机应用研究, 2021, 38(11): 35103516.
[4]陈巧红, 孙佳锦, 孙麒, 等. 基于多层跨模态注意力融合的图文情感分析[J]. 浙江理工大学学报(自然科学版), 2022, 47(1): 8594.
[5]Le T, Nguyen H T, Le Nguyen M. Multi visual and textual embedding on visual question answering for blind people[J]. Neurocomputing, 2021, 465: 451464.
[6]Liu B, Zhan L M, Xu L, et al. Medical visual question answering via conditional reasoning and contrastive learning[J]. IEEE Transactions on Medical Imaging, 2023, 42(5): 15321545.
[7]Fukui A, Park D H, Yang D, et al. Multimodal compact bilinear pooling for visual question answering and visual grounding[C]Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, Texas. Stroudsburg, PA, USA: Association for Computational Linguistics, 2016: 457468.
[8]BenYounes H, Cadene R, Thome N, et al. BLOCK: bilinear superdiagonal fusion for visual question answering and visual relationship detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 81028109.
[9]Lao M R, Guo Y M, Pu N, et al. Multistage hybrid embedding fusion network for visual question answering[J]. Neurocomputing, 2021,423: 541550.
[10]Chen K, Wang J, Chen L C, et al. ABCCNN: An attention based convolutional neural network for visual question answering[EB/OL]. (20160403)[20230615]. https:arxiv.org/abs/151105960.

相似文献/References:

[1]陈巧红,漏杨波,孙麒,等.基于多模态门控自注意力机制的视觉问答模型[J].浙江理工大学学报,2022,47-48(自科三):413.
 CHEN Qiaohong,LOU Yangbo,SUN Qi,et al.Visual question answering model based on multimodal gate selfattention mechanism[J].Journal of Zhejiang Sci-Tech University,2022,47-48(自科六):413.

备注/Memo

备注/Memo:
收稿日期: 2023-06-15
基金项目: 浙江省自然科学基金项目(LQ23F020021);浙江理工大学科研启动项目(22232262-Y)
作者简介: 陈巧红(1978—),女,浙江临海人,教授,博士,主要从事计算机辅助设计及机器学习方面的研究。
通信作者: 方贤,Email:xianfang@zstu.edu.cn
更新日期/Last Update: 2023-11-15