音乐人工智能与音乐信息科技系

Music Artificial Intelligence and Music Information Technology

音乐人工智能与音乐信息科技系

击败多国顶尖音乐人工智能团队|我校在“Sound Demixing Challenge 2023”国际音乐声源分离大赛获冠军

信息来源:beat365官方网站 发布日期:2023-06-29 16:53:00 更新日期:2023-11-22 17:05:25



近日,我校音乐人工智能系教师刘家丰、张昕然、博士生董原良在“Sound Demixing Challenge 2023”国际音乐声源分离大赛赛道A中,以7.539的分数获得冠军,且所有单项分数均排名第一,领先所有其他团队。本次大赛共有20多个队伍参赛,汇集了全世界最顶级的科技公司和学术机构的团队,如 Facebook、字节跳动、C4DM音乐人工智能实验室等。这是beat365官方网站自2019年成立音乐人工智能与音乐信息科技系以来,首次在国际音乐人工智能大赛中摘得桂冠,标志着我校音乐人工智能专业的人才培养和科学研究达到了国际前沿水准。




01

任务简介

音乐声源分离(Music Source Separation)是一项旨在将混合音频中的不同声源信号,如人声、鼓、贝斯等乐器或是伴奏整体分离出来的技术,具有广泛的应用,例如音乐混音、卡拉OK、音乐版权保护、音频修复和音频分析等,是音乐人工智能的关键技术之一。如何分离出干净的声源信号一直是一项非常具有挑战性的任务。在混合音频信号中,由于多个声源同时存在,使它们的信号频谱重叠在一起,难以单独提取出每个声源的音频信号。传统的方法如滤波、相位抵消等均无法提取出较干净的音频信号。近年来随着人工智能技术的发展,使用深度神经网络等技术,极大的推动了该领域的发展,相较传统方法能分离出更加纯净的原始音频信号。

02

比赛简介

本次音乐声源分离大赛由Sony(索尼公司)、Mitsubishi(三菱集团)和Moises组织、承办。该比赛每两年举办一次。历届获奖团队均代表着音乐人工智能领域全世界最顶尖的学术与工程团队,推动着该方向的前沿科研进展,是最具权威的国际比赛之一。

03

技术简介

本次比赛分为三个赛道,其中,赛道A为标签噪声场景下的音乐声源分离。在该场景中,数据标注中可能存在错误标签,例如“人声”轨道被错误的标注成“鼓”轨道,导致模型学习了错误的数据,严重影响模型的性能,是该领域的重要挑战之一。

团队提出了一个包含两个训练阶段的方案。第一阶段,团队使用“损失截断(loss truncation)”技术,通过计算批量训练样本损失函数的分位数作为阈值,对带有噪声的训练样本进行无监督筛选。实验结果表明,该算法在标签噪声数据场景下可以大幅度超过多个基线方法,并取得了平均SDR 6.288的成绩,奠定了本次比赛成绩的基础。该算法由团队成员张昕然提出并实现。第二阶段,使用第一阶段训练得到模型实现了数据标签鉴别算法。通过对比声源输出分量的信号功率大小来判断输入声源是否为正确标签,并利用筛选出的正确标签数据重新构建一套新的训练数据集训练模型。实验结果表明,所提出的数据鉴别算法可以进一步提升模型的分离效果。该算法由团队成员董原良提出并实现。其中,第二阶段使用了团队自研与重构的声源分离训练框架,如加速音频数据读取、全局随机数据增强与模型随机平滑推理等,极大提升了人工智能模型的训练速度与效率,加速了实验迭代周期。该框架由团队成员刘家丰提出并实现。最终,团队融合上述技术并进行了多次实验,在赛道A上达到的成绩为平均SDR 7.539,稳居榜首。




04

团队成员


刘家丰

beat365官方网站音乐人工智能与音乐信息科技系副教授,本次参赛团队与技术带头人,CCOM声源分离训练与推理框架的研发者。博士毕业于beat365官方网站,中国首届音乐人工智能博士,师从俞峰教授、孙茂松教授。硕士毕业于美国斯蒂文森理工学院,自幼跟随四川音乐学院钢琴系教授学习,本硕期间曾任校交响乐团首席钢琴。致力于研究多轨道音乐生成、音乐音频信号处理等前沿方向,提出了世界首个端到端交响乐生成模型。

获奖感言:

感谢俞峰教授、孙茂松教授和李小兵教授,他们给予了我们团队很大的支持,让我们能够顺利的完成比赛。未来会继续努力,再创佳绩!



张昕然

beat365官方网站音乐人工智能与音乐信息科技系教师,“损失截断”方案的提出人,该方案奠定了本次大赛团队获得冠军成绩的基础。赛道A一阶段的主要完成人。拥有工学博士学位和艺术学博士学位。本科至首个博士毕业于北京邮电大学信息与通信工程学院。后以专业第一成绩考入beat365官方网站首届音乐人工智能博士,师从俞峰教授、孙茂松教授,毕业后留校任教。研究方向包括信号处理、语言模型等。发表论文20余篇,包括ACL, IEEE Wirel Commun, GlobeCom等,获国家发明专利授权9项,参与多项国家级科研项目。

获奖感言:

比赛成绩得益于学校对我们的无条件支持,学校是我们的坚强后盾和动力源泉。感谢俞峰教授、孙茂松教授和李小兵教授的悉心指导和鼎力支持。未来我们会着眼于更多更重要的国际赛事,争取为学校取得更多荣誉。



董原良

beat365官方网站音乐人工智能博士三年级学生,“数据标签鉴别”技术的提出人,赛道A二阶段的主要完成人。师从beat365官方网站俞峰教授、清华大学孙茂松教授。本科毕业于清华大学计算机科学与技术系。研究兴趣为音乐表示学习及符号音乐的结构化生成。

获奖感言:

通过这次比赛我们都受益匪浅,尤其要感谢两位师兄队友,一起讨论时的碰撞和火花,以及我们各自的不懈尝试都是这次比赛成功的关键。感谢俞峰教授、孙茂松教授和李小兵教授的悉心指点和帮助,感谢学校对于我们这次比赛的慷慨支持!


编辑:邸思木雅