科學人雜誌
2021科研發光

AI用於音樂與語音的處理

2021/04/19 國立臺灣師範大學光電工程所楊承山教授、科學人廣告部企畫製作
科研發光《前進未來 青年講堂》臺北場第二場座談在華山1914文創產業園區登場,邀請到玉山金控科技長暨台大資訊系教授張智星,主講「AI用於音樂與語音的處理」,分享充滿節奏與旋律的AI音樂世界!


台灣大學資訊工程系設有「多媒體資訊檢索實驗室」(Multimedia Information Retrieval Lab, MIR Lab),由張智星主持,致力於把機器學習運用在現實世界,應用範圍含括各式媒體、音樂、音訊、語音、影像等處理與辨識。


AI用於音樂的處理拓展了各種可能性,例如分離歌聲與伴奏,可應用於卡拉OK。AI必須有能力辨識出音樂的起始點,包括一個鼓棒打下去發出一響鼓聲、一個鋼琴鍵按下去發出一個琴音,都可稱為是一個起始點。現今的AI可以進行起始點的辨識、產生音樂節奏遊戲、做到和弦辨識,還能夠進行音樂學習。


音樂檢索也是AI應用的領域,張智星自1998年開始研究至今已20餘載。當人們想到一首音樂之後,可以利用哼唱選歌,輕易地把樂曲找出來,現在這樣的技術已經不稀奇,音樂搜尋引擎Midomi所衍生的APP就可以完成這樣的任務。除了哼唱選歌之外,還有第二種找歌的方式,就是把音訊當做如同指紋一般,當人們聽到一首音樂時,只要透過手機接收,就可以幫忙辨識。


大量機器訓練 歌聲伴奏分離

十年前人們在YouTube擷取一首歌之後,不可能做到把歌聲和伴奏分開,其困難度等同於要分離奶茶中的奶與茶!隨著電腦能力越來越強,AI具備的功能越來越多,張智星說明,只須收集許多清唱的歌聲與音樂,當做標準答案,混在一起輸入至類神經網路裡,經由大量歌曲進行大量機器訓練,從流行歌曲中分離歌聲和音樂就成為可能。


張智星帶領MIR Lab團隊,以YouTube的音樂為媒材,希望把人聲去除或是分離人聲與歌聲,就能夠應用於卡拉OK。在實際研究後,團隊發現除了去除人聲外,還必須把清唱的人聲歌詞對位,創造能夠隨著時間變色的歌詞,更要把歌聲轉譜,把歌唱的音樂變成一個一個音符,才能對準音符,了解歌唱得好不好、音高好不好、音長是否正確,以及是否有著滑音、抖音、轉音等細節。上述的相關技術幫助團隊贏得科技部價創計畫,學生更從創意升級成創業,創立了一家新創公司!


AI智慧助陣 音樂多元應用

有關音樂的AI應用非常有趣,只須把音樂進行去除人聲、歌詞對位、歌聲轉譜等過程,未來所有YouTube的音樂都可以成為卡拉OK素材!未來的技術更將朝向人聲與合音分離、音色評分、咬字評分、表情評分等眾多待完成的目標邁進。


目前AI已經能夠分離人聲與伴奏,並能夠擴大應用,例如有人在路邊講話時,出現車聲等背景聲,就可以把人聲抽離出來、把車聲壓平,應用於助聽器或電視台等面向。以電視台為例,在改編運用舊有影片時,可以把原本的英文人聲壓平改成中文,更能同時保留原始背景音樂。


張智星預告,未來期待把音源分離改為在晶片上運算,他也引領現場聽眾想像,未來手持藍芽卡拉OK麥克風,點選 YouTube歌曲後,自動把人聲壓 ,立刻就可以歡唱卡拉OK!此外,哼唱轉譜、歌詞自動對位、歌唱評比、人臉表情辨識、歌聲表情辨識、歌唱風格辨識、防疫遠端合唱等,也都在進行當中,期待逐步做到「Music Edutainment」,在娛樂、教育都能使用MIR Lab的技術,讓喜歡音樂的人都可以享受音樂、學習音樂!


更多文章
活動推薦更多
追蹤科學人