開源三套資料集、牽頭團體行業標準,騰訊音樂天琴實驗室引領音視訊技術創新和發展

 2023-03-13 12:17:04.0

3月13日,騰訊音樂天琴實驗室聯合清華大學人機語言互動實驗室(THUHCSI)、音訊語音與語言處理研究組(ASLP@NPU)、CCF計算藝術分會及北京市智慧廣電(網路視聽)重點實驗室四家機構共同釋出三套開源資料集,該專案在中國音像與數字出版協會數字音樂工作委員會(「中國音數協數字音樂工委」)的指導下,面向行業、高校專業研究人員提供資料開放服務,夯實產業發展基礎,為數字音樂產業升級注入新活力。此前,在中國音數協數字音樂工委指導下,騰訊音樂牽頭制定了兩項團體標準,開啟行業規範化發展新格局。

天琴實驗室釋出三套開源資料集,產業變革有據可循

此次釋出的三套開源資料集分別是片段翻唱資料集、哼唱資料集和歌唱評價資料集。此資料集面向海內外的相關研究人員和專業人士,登入天琴實驗室開源資料集中英文官網 https://lyracobar.y.qq.com/index.html 可下載相關內容。

其中,片段翻唱資料集(Lyra-CoverSegment Dataset, 簡稱Lyra-CS Dataset)打破目前只有全曲翻唱開源資料集的局面,有助於研究解決聽歌識曲難以識別翻唱改編的問題。Lyra-CS來自於QQ音樂曲庫滿足開源授權條件的歌曲,其中包含不同語言、流派、歌手的歌曲原唱及對應的翻唱或live版本片段,資料集總時長近400小時,包含超53萬個錄音片段。

哼唱資料集(Lyra-Query by Humming Dataset,簡稱Lyra-QBH Dataset)為促進哼唱識別技術發展而構建,使用者多樣性強,錄製環境與真實場景更為接近。該資料集主要用於哼唱識別演算法評估。

歌唱評價資料集(Lyra-Singing Assessment Dataset,簡稱Lyra-SA Dataset)是國內首個整曲演唱的歌唱評價開源資料集,其樣本資料來源於全民K歌,對音樂教育、線上卡拉OK及線下賽事具有非常高的研究與應用價值。該資料集致力於提供更多真實場景下的歌唱資料及標籤,幫助研究人員測評或建立歌唱評價模型。

三套開源資料集突破目前產業資料的侷限,在資料廣度、豐富度和真實可信度上都有巨大提升。將為促進聽歌識曲技術、哼唱識別技術、歌唱評價技術的發展提供更全面的資料支撐。

天琴實驗室目前業已成為行業內頂尖的音視訊研究實驗室。近日,騰訊音樂天琴實驗室再次被深圳市南山區總工會命名為示範性勞模和工匠人才創新工作室,成為南山網際網路企業唯一獲此殊榮的工作室,這也是繼去年10月份QQ音樂技術副總裁、天琴實驗室負責人周文江獲評南山區「十大創新工匠」後,天琴實驗室的創新成果和攻關能力再次獲得權威表彰和認可。

騰訊音樂牽頭制定兩項團體標準,數字音樂產業高品質發展有標可依

除了不斷攻關新技術,引領音樂科技發展,騰訊音樂還主導參與音樂行業的標準制定,推動行業標準化發展。

2022年10月,中國音像與數字出版協會正式釋出《音樂平臺術語》和《音樂平臺歌詞格式要求》兩項團體標準。在中國音數協數字音樂工委指導下,由騰訊音樂牽頭,聯合數字音樂平臺、內容製作平臺、行業技術平臺等多家主流企業共同完成此次標準的研製。在近兩年的標準研製過程中,騰訊音樂肩負起頭部平臺責任,與行業夥伴緊密合作,切實推進標準的制定和落地。

《音樂平臺術語》《音樂平臺逐字歌詞檔案格式要求》的制定與實施將統一和規範數字音樂通用術語及其定義,規範逐字歌詞檔案格式,實現數字音樂領域術語的標準化、格式的統一化,為音樂平臺的管理和服務提供幫助。另外,兩項標準的實施將進一步完善行業規則體系,為數字音樂使用者、音樂人、音樂作品提供良好支撐,激勵音樂人創作更多高質量音樂作品。

一直以來,騰訊音樂立足於行業服務者的角色,天琴實驗室不斷探索科技創新,升級數字音樂與音訊娛樂服務,為使用者創造更具創意、品質更高的音娛產品體驗,滿足廣大使用者多元消費需求,推動產業高品質發展。未來,數字音樂產業勢必將面臨更多新的挑戰,相信騰訊音樂能夠為行業創造更多新的驚喜,繼續引領行業發展。

文章來源:機器之心