科學人雜誌
2021科研發光

讓機器聽懂你說話

2021/04/26 國立臺灣師範大學光電工程所楊承山教授、科學人廣告部企畫製作
科研發光《前進未來 青年講堂》臺北場第三場座談主題為「科青新勢力:讓機器聽懂你說話」,邀請臺大電機工程系副教授李宏毅開講,分享如何以人工智慧技術讓機器具備學習能力!


人類透過聲音或文字溝通,機器也有自己的程式語言。人類語言處理技術的相關研究主要鎖定四大目標:讓機器聽懂人說的話、讓機器看懂人寫的句子、讓機器寫出人可以看得懂的句子、讓機器可以說出人可以聽得懂的話。人類語言處理技術眾多,統整為「輸入語音,產生文字」、「輸入文字,產生語音」、「輸入語音,產生語音」、「輸入文字,產生文字」共四大類,背後運用的皆是深度學習的技術。


深度學習 達成語音辨識語音合成

第一類技術為「輸入語音,產生文字」,讓機器聽一段聲音後,產生一段對應的文字,也就是手機、智能音箱都能做到的語音辨識,這樣的技術還可以做到語音辨識加上翻譯,例如讓機器看1500小時的YouTube鄉土劇,研究人員完全不介入,不處理背景音樂與音效、語音和字幕沒有對齊的狀態,機器透過台語語音、中文字幕自行深度學習,就能學習把台語聲音訊號轉成中文。


第二類技術為「輸入文字,產生語音」,也就是語音合成,例如在Google搜尋輸入一段文字,它就可以把那段文字唸出來。語音合成技術可以用深度學習來做,也就是訓練一個類神經網路,提供許多語音與文字對應的資料,它就可以自己學會語音合成。


語音轉換 聲音模仿無限可能

第三類技術為「輸入語音,產生語音」,最佳的例子就是漫畫中的「柯南領結變聲器」。要做到語音轉換,過去需要應用監督式學習(supervised learning)的方法,想要把A的聲音轉成B的聲音,必須把A跟B都找來,唸一千句一樣的句子收集起來,才能訓練機器達成語音轉換的任務。


如今科技進步,即使A與B講不同句子、語言,機器還是可以在聽取A與B的聲音後,做到語音轉換,而且無須眾多語料就可能達成,「one-shot learning」(單一標註樣本學習)正在科學界進行中,未來機器只須要聽一句話就能模仿你的聲音,而在ICASSP 2021比賽中,就鎖定「Voice Cloning」聲音模仿的領域,全球共153隊報名參加比賽,其中台灣大學團隊排名第二。


有目的的聊天 提供正向鼓勵

第四類技術為「輸入文字,產生文字」,最常見的應用當屬聊天機器人,訓練的方式就是讓機器聽取大量人際對話、劇本、台詞等,學習當有人跟它說一句話應該做出怎樣的回應。由於人類對話的目的在於傳遞某些訊息、達成某些任務,科學界運用增強式學習(reinforcement learning)的技術,試圖讓聊天機器人也做到類似的事情,透過互動知道回應可能對於對話者造成的影響。也就是讓機器學會具有意圖,當它講一句話,並非隨便的一句話,而是帶有某些目的,例如是要安慰對方的正面鼓勵。


李宏毅最後分享未來人類語言處理的三大關鍵技術:自監督學習(self-supervised learning)、對抗式攻擊(adversarial attack)、元學習(meta learning)。自監督學習引導機器透過網路上大量未經人工標註的資料進行學習,還能夠達到舉一反三的神奇能力,例如BERT、GPT等人工智慧模型;對抗式攻擊則是一種造成深度學習模型判斷錯誤的技術,例如在聲音訊號中加入雜訊騙過AI語音辨識系統,誤以為那段聲音來自真人而非合成;元學習期待透過程式讓機器自己學習怎麼學習,讓機器自己發明自己學習的方法,聽起來科幻,但在未來的人工智慧世界,凡事都有可能!

  • 李宏毅副教授【台大電機系機器學習/深度學習課程】 YouTube 頻道

  • 更多文章
    活動推薦更多
    追蹤科學人