|本期目录/Table of Contents|

[1]倪欣,任佳.基于高分辨率网络和自注意力机制的歌声分离算法[J].浙江理工大学学报,2022,47-48(自科三):405-412.
 NI Xin,REN Jia.Singing voice separation algorithm based on high resolution network and selfattention mechanism[J].Journal of Zhejiang Sci-Tech University,2022,47-48(自科三):405-412.
点击复制

基于高分辨率网络和自注意力机制的歌声分离算法()
分享到:

浙江理工大学学报[ISSN:1673-3851/CN:33-1338/TS]

卷:
第47-48卷
期数:
2022年自科第三期
页码:
405-412
栏目:
出版日期:
2022-05-10

文章信息/Info

Title:
Singing voice separation algorithm based on high resolution network and selfattention mechanism
文章编号:
1673-3851(2022)05-0405-08
作者:
倪欣任佳
浙江理工大学机械与自动控制学院,杭州310018
Author(s):
NI Xin REN Jia
Faculty of Mechanical Engineering & Automation, Zhejiang Sci-Tech University, Hangzhou 310018
关键词:
歌声分离高分辨率网络自注意力机制深度神经网络频域模型
分类号:
TN912-3
文献标志码:
A
摘要:
针对现有歌声分离算法分离精度不高的问题,提出了一种基于高分辨率网络和自注意力机制的歌声分离算法。该算法构建了基于频域模型的深度神经网络,将高分辨率网络作为主干网络,以此保证分离精度,并在网络中融入自注意力机制来捕获歌曲中的重复旋律。在歌声分离算法中,首先通过短时傅里叶变换对音乐信号进行时频转换,得到幅值谱;其次通过构建的神经网络将歌曲幅值谱进行分离,得到人声和伴奏的幅值谱;最后结合原歌曲的相位谱,通过短时傅里叶逆变换得到人声和伴奏的时域信号。结果表明:在MUSDB18数据集上,分离得到的人声和伴奏信号偏差比指标分别为7-68dB和12-85dB,相比于基准模型分别提高了21-52%和1-26%。该算法可以增强神经网络特征表达能力,有效提升歌声分离效果。

参考文献/References:

[1]李伟,李子晋,高永伟.理解数字音乐:音乐信息检索技术综述[J].复旦学报(自然科学版),2018,57(3):271-313.
[2]熊梅,张天骐,张婷,等.结合HPSS的非负矩阵音乐分离方法[J].计算机工程与设计,2018,39(4):1089-1094.
[3]HuangPS,ChenSD,SmaragdisP,etal.Singing-voiceseparationfrommonauralrecordingsusingrobustprincipalcomponentanalysis[C]∥2012IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.Kyoto:IEEE,2012:57-60.
[4]张天骐,徐昕,吴旺军,等.多反复结构模型的精确音乐分离方法[J].声学学报,2016,41(1):135-142.
[5]RafiiZ,LiutkusA,StterFR,etal.Anoverviewofleadandaccompanimentseparationinmusic[J].IEEE/ACMTransactionsonAudio,Speech,andLanguageProcessing,2018,26(8):1307-1335.
[6]StollerD,EwertS,DixonS.Wave-U-net:Amulti-scaleneuralnetworkforend-to-endaudiosourceseparation[C]∥19thInternationalSocietyforMusicInformationRetrievalConference.Paris:ISMIR,2018:334-340.
[7]SamuelD,GaneshanA,NaradowskyJ.Meta-learningextractorsformusicsourceseparation[C]∥2020IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.Barcelona:IEEE,2020:816-820.
[8]DéfossezA,UsunierN,BottouL,etal.Musicsourceseparationinthewaveformdomain.(2019-11-27)[2021-07-10].https:∥arxiv.org/abs/1911-13254.
[9]StterFR,UhlichS,LiutkusA,etal.Open-unmix:Areferenceimplementationformusicsourceseparation[J].JournalofOpenSourceSoftware,2019,4(41):1667.
[10]TakahashiN,MitsufujiY.Multi-scalemulti-banddensenetsforaudiosourceseparation[C]∥2017IEEEWorkshoponApplicationsofSignalProcessingtoAudioandAcoustics.NewYork:IEEE,2017:21-25.

备注/Memo

备注/Memo:
收稿日期:2021-07-06
网络出版日期:2021-12-17
基金项目:浙江省公益技术研究项目(LGG20F030007)
作者简介:倪欣(1993-),男,江苏常州人,硕士研究生,主要从事智能信号处理方面的研究
通信作者:任佳,E-mail:jren@zstu.edu.cn
更新日期/Last Update: 2022-05-27