孔秋强博士《音乐人工智能与大规模钢琴数据集GiantMIDI-Piano的收集与分析》讲座综述

发布者:系统管理员发布时间:2021-04-27浏览次数:3049

原文链接:https://mp.weixin.qq.com/s/0p0pWa8XJriWPt5nBt5_wQ 

原文链接:https://mp.weixin.qq.com/s/KdF3tEPUUBidwZpeKs4XWQ


2021年4月20日下午,受bob体育在线投注音乐工程系杨健教授邀请,字节跳动研究科学家孔秋强博士为我院师生带来题为《音乐人工智能与大规模钢琴数据集GiantMIDI-Piano的收集与分析》的讲座。讲座由bob体育在线投注音乐工程系以及上海市音乐声学艺术重点实验室主办,在零陵校区B201L教室举行。


孔博士首先从音乐与人工智能的结合切入,简要介绍了音乐人工智能这一学科的概况,音乐人工智能可以实现为音频打标签、音乐推荐、声源分离、音乐转谱、音乐生成、音乐效果、音乐视频等任务。作为目前世界上主要的音乐人工智能研究机构之一,字节跳动已经将这些应用用于目前最为热门的音乐类应用“抖音(TikTok)”之中,音乐人工智能已进入人们的日常生活。音乐人工智能为当今的音乐发展提供了新的可能,具有巨大的商业价值,也为大众音乐生活创造了新机遇。


在介绍GiantMIDI-Piano之前,孔博士先是讲解了其基础即音乐转谱的定义、应用以及具体方法。目前的音乐转谱对训练数据质量敏感,模型不稳定,且转谱时间精度有限(32 ms),也无踏板信息;而字节跳动提出的高精度钢琴转谱系统则有效解决了这些状况,构建神经网络模型,提出更稳定、更精准的音头、音尾建模,音头、音尾、音量、帧预测互相耦合,通过端到端训练,波形输入,预测输出,能够以任意精度(1 ms)检测音符,且可以完成钢琴踏板转谱。

随后,孔博士呈现了GiantMIDI-Piano的基本状况,作为目前世界上最大的钢琴数据集,GiantMIDI-Piano通过互联网获取数据的方法构建数据集,首先从国际音乐数字图书馆IMSLP上获取音乐信息,随后从YouTube上搜索音频,继而检测数据库中的钢琴独奏,最后进行钢琴转谱。现在GiantMIDI-Piano已开放下载,其中已有10854首作品的MIDI文件,作品覆盖2874位作曲家,总音符数达34,504,873个,音源来自于YouTube,均包含音量与踏板信息。孔博士通过一系列图表简单介绍了GiantMIDI-Piano的各方面数据的状况,目前已完成钢琴音符转谱、力度转谱、踏板转谱,而尚有节拍分析、速度分析、弦乐等一般乐器转谱待完成。
应用方面,GiantMIDI-Piano可以为音乐表演分析提供数据、工具,转谱多乐器音乐、演奏技法,创建如GiantMIDI-Symphony, GiantMIDI-Pop等大规模符号化音乐数据集,探索音乐转谱、音乐分离、音乐识别结合的系统,探索大规模音乐数据集在音乐生成中的应用。


孔博士指出,音乐人工智能丰富了大众的音乐生活体验。通过音乐人工智能,人人都可以创作音乐、分享音乐。音乐人工智能为用户提供智能音乐编辑功能,与推荐系统结合,下沉市场,为所有人提供展示平台,提供智能配乐功能,为商业化视频、广告和读物配乐,促进多媒体、视频、虚拟现实与音乐的交互,同时可在音乐教育等方面大展身手。




孔博士的讲解专业、清晰,并结合案例使得其讲解轻松易懂,现场气氛热烈。讲座问答环节中,我院师生分别就GiantMIDI-Piano的具体使用与应用、音乐人工智能的发展现状与方向、团队人才构成等方面提问。孔博士指出,目前音乐人工智能尚处于起步阶段,尤其缺乏音乐方面的人才。孔博士所在的字节跳动SAMI(Speech Audio and Music Intelligence)团队的工作重点为人工智能领域,人员构成以研究科学家、程序员为主,“字节跳动仍然在寻找‘音乐学专家’为团队提供更多音乐方面的信息与指导”。
当前,科技发展的势头仍十分强劲,字节跳动的GiantMIDI-Piano项目以及字节跳动对音乐人工智能的应用都是具有独创性的尝试。人工智能的介入为人们的音乐生活带来了新面貌、新体验。人工智能提供了有力的工具与方法,针对音乐在音乐人工智能中以何角色出现,以及音乐与人工智能结合后可能面临的挑战等问题,均亟需音乐学专家、音乐相关从业者参与以推动研究与应用,方能挖掘出音乐人工智能的更多可能性。

图片
主讲人简介:孔秋强博士,字节跳动研究科学家,2020年于英国萨里大学获博士学位,研究方向包括音频和音乐信号处理,代表作包括基于弱标签的音频事件检测和分离、大规模音频分类系统、构建大规模音乐数据集等。孔博士已于音频领域顶级期刊和会议发表多篇文章,截至2021年4月,其谷歌学术引用为1100余次,H指数为19;同时,孔博士任音频领域内多个顶级期刊和会议审稿人,并参与筹办了DCASE2018、LVA-ICA2018等多个国际学术会议。最近成果为收集并转谱了世界上最大的钢琴数据集GiantMIDI-Piano。
 
参考文献:
1. Kong, Q., Li, B., Song, X., Wan, Y. and Wang,Y., 2020. High-resolution Piano Transcription with Pedals by Regressing Onsetsand Offsets Times. arXiv preprint arXiv:2010.01815.
2. Kong, Q., Li, B., Chen, J.and Wang, Y., 2020. GiantMIDI-Piano:A large-scale MIDI dataset for classical piano music. arXiv preprint arXiv:2010.07061.
 


Code:
1. Pianotranscription: https://github.com/bytedance/piano_transcription
2. GiantMIDI-Piano: https://github.com/bytedance/GiantMIDI-Piano
 
GiantMIDI-Piano下载:
1. Google Drive: https://drive.google.com/drive/folders/1Stz3CAvMoplo79LR5I3onMWRelCugBYS?usp=sharing
2. 百度网盘:https://pan.baidu.com/s/1up4jzPcalVMJt5RfYhEerg 密码: gbl0


Baidu
map