|本期目录/Table of Contents|

[1]顾淳,俞成海,于洋,等.基于BERT模型的无监督中文单文本关键词提取模型[J].浙江理工大学学报,2022,47-48(自科三):424-432.
 GU Chun,YU Chenghai,YU Yang,et al.Unsupervised keyword extraction model for Chinese  single text based on BERT model[J].Journal of Zhejiang Sci-Tech University,2022,47-48(自科三):424-432.
点击复制

基于BERT模型的无监督中文单文本关键词提取模型()
分享到:

浙江理工大学学报[ISSN:1673-3851/CN:33-1338/TS]

卷:
第47-48卷
期数:
2022年自科第三期
页码:
424-432
栏目:
出版日期:
2022-05-10

文章信息/Info

Title:
Unsupervised keyword extraction model for Chinese  single text based on BERT model
文章编号:
1673-3851(2022)05-0424-09
作者:
顾淳俞成海于洋关炜炜
浙江理工大学信息学院,杭州310018
Author(s):
GU ChunYU ChenghaiYU YangGUAN Weiwei
School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China
关键词:
无监督BERT模型文本向量化单文本
分类号:
TP391-1
文献标志码:
A
摘要:
针对现有方法存在的忽略语义信息及重复提取语义相近关键词等问题,提出了一种基于Bidirectionalencoderrepresentationfromtransformers(BERT)模型的无监督中文单文本关键词提取模型。该模型首先对待提取文本进行预处理以选取候选词,接着使用BERT模型的隐藏层结合全文信息获取候选词的词向量,然后加入聚类层筛除语义重复的候选词,最后获取全文语义向量并计算候选词与全文的语义的相似度评分,经排序后提取关键词。实验结果表明:将模型用于混合主题中文论文摘要等较短文本,在提取关键词的数量分别为5和8时,该模型的准确率分别为34-21%和26-34%,优于TextRank、TF-IDF等传统提取模型,表明该模型通过融合语义信息提升了中文单文本关键词提取的准确率,改善了关键词重复提取的问题,使提取的关键词更加准确,有效提升了中文单文本关键词提取质量。

参考文献/References:

[1]李俊,吕学强.融合BERT语义加权与网络图的关键词抽取方法[J].计算机工程,2020,46(9):89-94.
[2]AlzaidyR,CarageaC,GilesCL.Bi-LSTM-CRFsequencelabelingforkeyphraseextractionfromscholarlydocuments[C]//TheWorldWideWebConferenceon-WWW’19.NewYork:ACMPress,2019:2551-2557.
[3]CamposR,MangaraviteV,PasqualiA,etal.YAKE!Keywordextractionfromsingledocumentsusingmultiplelocalfeatures[J].InformationSciences,2020,509:257-289.
[4]LiangX,WuS,LiM,etal.Unsupervisedkeyphraseextractionbyjointlymodelinglocalandglobalcontext[EB/OL].(2021-9-15)[2021-10-18]
[5]RoseS,EngelD,CramerN,etal.Automatickeywordextractionfromindividualdocuments[M]//BerryMW,KoganJ.TextMining:ApplicationsandTheory.Chichester,UK:JohnWiley&Sons,2010:1-20.
[6]BougouinA,BoudinF,DailleB.TopicRank:Graph-basedtopicrankingforkeyphraseextraction[C]//InternationalJointConferenceonNaturalLanguageProcessing.Nagoya,Japan:IJCNLP,2013:543-551.
[7]FlorescuC,CarageaC.PositionRank:Anunsupervisedapproachtokeyphraseextractionfromscholarlydocuments[C]//Proceedingsofthe55thAnnualMeetingoftheAssociationforComputationalLinguistics.Vancouver,Canada:AssociationforComputationalLinguistics,2017,1:1105-1115.
[8]WanX,XiaoJ.Singledocumentkeyphraseextractionusingneighborhoodknowledge[C]//ProceedingsoftheTwenty-ThirdAAAIConferenceonArtificialIntelligence.Beijing:AAAI,2008:855-860.
[9]MatsuoY,IshizukaM.Keywordextractionfromasingledocumentusingwordco-occurrencestatisticalinformation[J].InternationalJournalonArtificialIntelligenceTools,2004,13(1):157-169.
[10]WangR,LiuW,McDonaldC.Corpus-independentgenerickeyphraseextractionusingwordembeddingvectors[C]//SoftwareEngineeringResearchConference.Australia:AAAI,2014:1-8.

相似文献/References:

[1]陈元妹,王凤随,钱亚萍,等.基于特征细化的多标签学习无监督行人重识别[J].浙江理工大学学报,2023,49-50(自科六):755.
 CHEN Yuanmei,WANG Fengsui,QIAN Yaping,et al.Multilabel learning unsupervised person reidentification based on feature refinement[J].Journal of Zhejiang Sci-Tech University,2023,49-50(自科三):755.

备注/Memo

备注/Memo:
收稿日期:2021-12-11
网络出版日期:2022-04-05

基金项目:浙江省重点研发计划项目(2020C03094)
作者简介:顾淳(1997-),男,江苏无锡人,硕士研究生,主要从事自然语言处理方面的研究
通信作者:俞成海,E-mail:ych@zstu.edu.cn

更新日期/Last Update: 2022-05-27