|本期目录/Table of Contents|

[1]陈巧红,漏杨波,孙麒,等.基于多模态门控自注意力机制的视觉问答模型[J].浙江理工大学学报,2022,47-48(自科三):413-423.
 CHEN Qiaohong,LOU Yangbo,SUN Qi,et al.Visual question answering model based on multimodal gate selfattention mechanism[J].Journal of Zhejiang Sci-Tech University,2022,47-48(自科三):413-423.
点击复制

基于多模态门控自注意力机制的视觉问答模型()
分享到:

浙江理工大学学报[ISSN:1673-3851/CN:33-1338/TS]

卷:
第47-48卷
期数:
2022年自科第三期
页码:
413-423
栏目:
出版日期:
2022-05-10

文章信息/Info

Title:
Visual question answering model based on multimodal gate selfattention mechanism
文章编号:
1673-3851(2022)05-0413-11
作者:
陈巧红漏杨波孙麒贾宇波
浙江理工大学信息学院,杭州310018
Author(s):
CHEN Qiaohong LOU Yangbo SUN Qi JIA Yubo
School of Information Science and Technology, Zhejiang Sci-Tech  University, Hangzhou 310018, China
关键词:
视觉问答多模态门控自注意力双导向注意力特征融合
分类号:
TP181
文献标志码:
A
摘要:
针对现有视觉问答模型中自注意力机制过滤噪声信息能力较差的问题,提出了一种基于多模态门控自注意力(Multimodalgateself-attention,MGSA)机制的视觉问答模型。该模型在自注意力模块中利用其他模态特征作为通道调节门,以过滤目标模态特征自注意力学习的输出结果;同时结合跨模态双导向注意力机制与堆叠注意力模块,共同学习协同注意力和深层注意力;最后将包含丰富注意结果的视觉和语言特征进行特征融合,通过分类网络获得预测结果。在视觉问答公开数据集VQA-v2上进行实验,结果表明:该模型在Test-dev和Test-std两个测试子集的总准确率分别为70-76%和71-12%,优于当前主要模型;变体模型间的性能对比验证了模型中各模块的有效性。该模型具有较强的过滤噪声信息能力,有效提升了视觉问答模型的性能。

参考文献/References:

[1]AndersonP,HeX,BuehlerC,etal.Bottom-upandtop-downattentionforimagecaptioningandvisualquestionanswering[C]//2018IEEE/CVFConferenceonComputerVisionandPatternRecognition.SaltLakeCity:IEEE,2018:6077-6086.
[2]CorniaM,StefaniniM,BaraldiL,etal.Meshed-memorytransformerforimagecaptioning[C]//2020IEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR).Seattle:IEEE,2020:10575-10584.
[3]闫茹玉,刘学亮.结合自底向上注意力机制和记忆网络的视觉问答模型[J].中国图象图形学报,2020,25(5):993-1006.
[4]GaoP,JiangZ,YouH,etal.Dynamicfusionwithintra-andinter-modalityattentionflowforvisualquestionanswering[C]//2019IEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR).LongBeach:IEEE,2019:6632-6641.
[5]PengG,YouHX,ZhangZP,etal.Multi-modalitylatentinteractionnetworkforvisualquestionanswering[C]//2019IEEE/CVFInternationalConferenceonComputerVision(ICCV).Seoul,Korea(South):IEEE,2019:5824-5834.
[6]XieN,LaiF,DoranD,etal.Visualentailment:Anoveltaskforfine-grainedimageunderstanding.(2019-01-20)[2021-11-09].
[7]GurariD,LiQ,StanglAJ,etal.VizWizgrandchallenge:Answeringvisualquestionsfromblindpeople[C]//2018IEEE/CVFProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.SaltLakeCity:IEEE,2018:3608-3617.
[8]RenFJ,ZhouYY.CGMVQA:Anewclassificationandgenerativemodelformedicalvisualquestionanswering[J].IEEEAccess,2020,8:50626-50636.
[9]ChenK,WangJ,ChenLC,etal.Abc-cnn:Anattentionbasedconvolutionalneuralnetworkforvisualquestionanswering.(2016-04-03)[2021-11-09].
[10]LuJS,YangJW,BatraD,etal.Hierarchicalquestion-imageco-attentionforvisualquestionanswering[C]//Proceedingsofthe30thInternationalConferenceonNeuralInformationProcessingSystems.Barcelona:MIT,2016,29:289-297.

相似文献/References:

[1]陈巧红,漏杨波,方贤.基于空间关系聚合与全局特征注入的视觉问答模型[J].浙江理工大学学报,2023,49-50(自科六):764.
 CHEN Qiaohong,LOU Yangbo,FANG Xian.A visual question answering model based on spatial relationship aggregation and global feature injection[J].Journal of Zhejiang Sci-Tech University,2023,49-50(自科三):764.

备注/Memo

备注/Memo:
收稿日期:2021-11-11
网络出版日期:2022-03-18
基金项目:浙江理工大学中青年骨干人才培养经费项目
作者简介:陈巧红(1978-),女,浙江临海人,副教授,博士,主要从事计算机辅助设计及机器学习方面的研究
更新日期/Last Update: 2022-05-27