其他

機器說出你想的話

新技術有望把腦部活動轉譯成電腦語音。

撰文/馬金(Simon Makin)
翻譯/鄭方逸

其他

機器說出你想的話

新技術有望把腦部活動轉譯成電腦語音。

撰文/馬金(Simon Makin)
翻譯/鄭方逸


一些造成癱瘓的神經疾病也會剝奪病患說話的能力,例如肌萎縮性偏側硬化症和腦幹中風。目前有些病患透過輔助科技操作鍵盤(例如已逝的知名物理學家霍金),有些病患則藉由腦機介面直接以意念控制機器。但對閉鎖症候群和其他有溝通障礙的患者來說,這兩種儀器的運作速度慢,也不實用。


研究人員正努力研發工具,用以竊聽和語言相關的腦部活動,解碼並轉為電腦發音。一項新研究利用最先進的機器學習與語音合成技術,創造至今最令人驚豔的結果。


美國哥倫比亞大學朱克曼研究中心的電子工程師梅斯卡拉尼(Nima Mesgarani)和同事研究了五名癲癇患者,他們在患者顱部的內側或外側安裝電極,做為治療的一部份。電極偵測與語音處理有關的腦區,他們讓患者聆聽故事,同時記錄患者的腦部活動,並訓練一組深度學習的人工神經網路,配對腦部活動和對應的聲頻。他們想知道輸入陌生的神經訊號時,這套系統能否重現原本的語音。


病患會聽見數字0~9,每個數字重複四次,這套系統把神經訊號轉化成驅動聲碼器(特殊的語音合成機)的數值。根據今年1月發表於《科學報告》的論文,另一組受試者聽了合成語音後,辨識成功率達75%。過去大部份相關研究沒有測量這類重建語音的可辨識度。梅斯卡拉尼說:「我們的研究結果顯示這些合成語音清晰可辨。」


過去科學家已經知道我們可能由腦部活動重建語音,而這項新研究讓重建語音技術的表現更上一層樓。美國加州大學舊金山分校的神經外科醫生張復倫(Edward Chang)沒有參與這項研究,他評論這項技術「仍有許多進步空間,但我們知道該有的資訊就在那裡。這個日新月異的領域在接下來幾年會突飛猛進。」


然而目前重建語音技術仍有一些限制,梅斯卡拉尼團隊記錄的腦部活動來自語言接收區,而非語言產生區。研究人員也只以少數字彙評估這套系統,而非使用包含大字庫的完整句子(包括張復倫在內的科學家已著手解決這些問題)。其中最重要的問題或許是,該研究解碼的是受試者實際聽到的語言,而非他們想說的話;我們得解讀後者,才有可能發展出實用的儀器。梅斯卡拉尼說:「對我們所有人而言,真正的挑戰是如何讓想像的語言成真。」