資訊科技

機器人懂你心

在我們跟機器人一起生活之前,必須先教它們了解並模仿人類情緒。研發人員致力機器學習,試圖為機器人裝上「一顆心」,好讓它們成為我們的生活良伴。

撰文/馮雁(Pascale Fung)
翻譯/鍾樹人

資訊科技

機器人懂你心

在我們跟機器人一起生活之前,必須先教它們了解並模仿人類情緒。研發人員致力機器學習,試圖為機器人裝上「一顆心」,好讓它們成為我們的生活良伴。

撰文/馮雁(Pascale Fung)
翻譯/鍾樹人

重點提要
■當我們越來越常跟語音和手勢控制的機器互動,就會期望它們能辨識情緒,了解高階溝通的特徵,例如幽默、挖苦和意圖。
■為了讓這樣的溝通成真,我們必須幫機器裝上同理心模組,這是一種軟體系統,能從人類的語音和行為中擷取出情緒線索,然後引導機器做出相對反應。
■同理心機器人的研究才剛起步,但科學家已經利用訊號處理技術、機器學習演算法和情緒分析工具,建構能「了解」人類情緒的虛擬機器人。


「抱歉,我沒有聽到你說話。」


這或許是商用機器第一次說出有同理心的言語。1990年代晚期,美國波士頓的語音成果國際公司(SpeechWorks International)提供企業一套客服軟體,內建許多句子,其中就包含這句話。在那之後,我們漸漸習慣跟機器講話,幾乎每通打進客服專線的電話,都是先跟機器對話。如今幾億人的口袋裡都有智慧型個人助理,我們可以請Siri或其他類似軟體找餐廳、打電話給朋友或找出歌曲播放,它們甚至能模擬古怪的人類行為。(人類:「Siri,你愛我嗎?」Siri:「我沒有愛的能力。」)


但機器的反應並非都如我們預期,語音辨識軟體會出錯。機器經常無法了解人類的意圖,包括情緒、幽默、挖苦和反諷。如果未來我們會花更多時間跟機器互動(這是趨勢,無論是智慧型吸塵器或人形機器人護士),它們必須要有更多能耐,而不只是了解我們說的話:我們還必須讓它們懂我們,換句話說,我們必須讓它們能夠「了解」並分享人類情緒,也就是擁有同理心。


我在香港科技大學的實驗室裡正在發展這類機器。有同理心的機器人可能對社會大有幫助,它們將不只是助理,也會是同伴。它們會很友善,讓人感覺溫暖,能預料我們在生理和情緒上的需要;它們能從跟人類的互動中學習;它們能讓我們的生活更美好、工作更有效率;它們會為錯誤道歉,並在行動之前請求同意;它們能照顧長者、教導孩童,甚至能在緊急情況時,展現出最高的同理心,不惜犧牲自己也要拯救你的生命。


能模仿情緒的機器人已經問世,其中包括Pepper和Jibo。Pepper是法國的隨從機器人學公司(Aldebaran Robotics)為日本的軟體銀行公司(原名SoftBank Mobile,2015年7月改名為SoftBank)打造的小型人形機器人;Jibo則是約2.7公斤重的桌上型個人助理機器人,參與設計的工程師包括語音成果國際公司對話技術部門的前主管佩拉奇尼(Roberto Pieraccini)。同理心機器人這領域才剛起步,但能大幅改善這些機器的工具和演算法,已經浮現。


開發同理心模組


我從六年前開始想要打造同理心機器人,當時我的研究小組設計了第一個相當於中文版的Siri,我觀察到使用者對個人助理系統會自然發展出情緒反應,而且當機器無法了解使用者想溝通的事情,使用者會變得沮喪,我對此深感興趣。我了解到,要打造能了解人類情緒的機器,關鍵在於語音辨識演算法,而我已鑽研這項技術25年。


任何智慧型機器的核心,都是由模組構成的軟體系統,每個模組都是執行單一任務的程式。智慧型機器人可能會有負責處理人類語音、辨識攝影機拍攝到的影像等多項模組。有同理心的機器人會有一顆心,也就是名為「同理心模組」(empathy module)的軟體。同理心模組會分析表情線索、語音中的聲學標記,以及語音本身的內容,才能分析人類的情緒,好讓機器人知道該如何反應。


兩個人在溝通時,會自動使用各種線索去了解對方的情緒狀態——他們會分析臉部表情和肢體語言、察覺聲調變化、了解語音的內容。要打造同理心模組,研究人員就必須先辨識出,在人類溝通中能夠讓機器用來辨識情緒的各類特徵,然後訓練演算法去找出這些特徵。


當我的研究小組開始訓練機器去偵測語音中的情緒,我們教機器辨認的不是只有語音本身的意義,還包括語音中的基本聲學特徵(acoustic feature),因為人類就是這樣做的。我們很少用這些名詞來思考,但人類的溝通其實就是訊號處理。人腦能偵測到某人聲音中的情緒,因為我們注意到了標示著緊張、歡樂、恐懼、憤怒、厭惡等情緒的聲學線索。我們在高興的時候,講話的速度會比較快,音調也會上揚;我們感受到壓力的時候,聲音會變得平板單調。利用訊號處理技術,電腦能偵測這些線索,就好像測謊儀會測出血壓、脈搏和皮膚導電率。為了偵測壓力,我們利用監督式學習(supervised learning)訓練「機器學習演算法」去辨識與壓力有關的聲音線索。


一段人類語音的簡短錄音,可能只包含幾個字,但我們能從聲調中擷取出大量的訊號處理資料。我們最初先教機器辨認敝校學生語音樣本中的負面壓力(苦惱),學生還因此幫學校取了個綽號:香港壓力緊張大學。我們詢問學生12個使壓力逐漸增強的問題,建立了史上第一個自然壓力情緒的多語言(英語、華語和粵語)語料庫,等到蒐集了大約10小時的資料後,我們的演算法對於辨識壓力已有70%的準確率,跟人類的聆聽者相當,是很傑出的表現。


在此同時,我研究小組裡的另一隊人馬,則在訓練機器辨認音樂中的氣氛,方法是單獨分析聲音特徵(sonic feature,換句話說,不理會歌詞)。相較於情緒,氣氛是在音樂播放期間持續存在的氛圍。這隊研究人員一開始先從歐洲與亞洲的主要語言中,蒐集了5000首各種類型的音樂,其中幾百首已經由音樂學家分類成14種氣氛。


我們從每首歌裡擷取出大約1000種基本訊號屬性(例如能量、基本頻率、諧波等聲學參數),然後用這些分類好的音樂來訓練14種分類器(classifier)軟體,每種分類器判別一首歌是否屬於某種特定氣氛。例如某種分類器只判別快樂的音樂,而另一種分類器只判別憂鬱的音樂。這14種分類器會以彼此的猜測為基礎,相互合作。如果「快樂」分類器錯把憂鬱的歌曲歸類為快樂,那麼在下一輪的重新學習中,這種分類器就必須重新訓練;每一輪,最差的分類器都必須重新訓練,這樣整體系統才會大幅進步。依照這種方法,讓機器「聆聽」大量音樂,並學習哪首歌屬於哪種氣氛,假以時日,機器就能跟我們大多數人一樣,只要聽到聲音,就能分辨任何一首歌的氣氛。以這項研究為基礎,我和以前的學生創辦了知音科技公司(Ivo Technologies),專門開發家用型的同理心機器人。第一項產品Moodbox是一款智慧型居家資訊娛樂中心,能控制每個房間的音樂和燈光,並回應使用者的情緒。


讓機器人了解人類意圖


為了了解幽默、挖苦、反諷和其他高階溝通的特徵,機器不能光靠聲學特徵來辨認情緒,它也必須了解弦外之音、比較語音內容與其傳遞出來的情緒。


從1980年代起,研究人員利用從人類蒐集而來的資料,一直在研發高階語音辨識,如今,這項技術已經相當成熟。但是,轉錄語音與了解語音,幾乎是完全兩回事。


想想看,當一個人在跟另一個人講話時,認知、神經系統和肌肉上一連串的運作過程:一個人確定了想法、選擇用字、然後說出來,接著聆聽者要解碼這則訊息。但是機器聽人類講話時,運作方式卻是如此:先把語音的聲波轉換成數位型式,然後轉成參數,接著語音辨識軟體把這些參數轉成字句,語意解碼器再把這些字句轉化成意義。


開始研究同理心機器人之後,我們注意到有種演算法能從網路留言擷取使用者的感想,類似的演算法能幫助我們分析語音中的情緒。這些機器學習演算法會從內容當中尋找線索,例如「悲傷」和「畏懼」等關鍵字暗示著孤獨,重複使用暗示性的口語(例如「來吧」)表示這首歌很有活力。我們也分析與語音風格有關的資訊,例如某人的回答是肯定、明確,還是猶豫不決、不時停頓、閃爍其詞?回應方式是鉅細靡遺,還是簡短草率?


我們在研究如何辨識音樂的氣氛時,也訓練演算法從歌詞中挖掘情緒線索。不過我們並不是從每首歌詞裡擷取出聲學特徵,而是從歌詞裡拉出字串(稱為n-gram),然後餵給個別的分類器,每種分類器要判定這個字串傳達了14種氣氛中的哪一種。除了字串,我們在做情緒分類時,也會把這些字標上詞性,這些詞性標籤也成為歌詞「特徵」的一部份。不管任何語言,電腦都能利用字串和詞性標籤,產生在統計上近似的文法規則;這些規則能幫助Siri這類程式辨識語音,也能幫助Google翻譯這類軟體把文字轉換成另一種語言。


一旦機器可以了解語音內容,就能與其表達方式做比對。如果一個人嘆氣說:「真高興我整個週末都必須工作。」演算法應該能偵測出情緒線索與說詞不符,並計算出說者語帶譏諷的可能性。同樣地,能了解情緒和語音內容的機器,可以拿這份資訊與其他資訊比對,以偵測出更複雜的意圖。如果某人說:「我餓了。」機器人可以根據地點、時間、使用者過去的偏好以及其他參數,決定最佳反應方式;如果機器人和使用者待在家裡,而現在剛好是午餐時間,機器人可能知道要回應:「你要我幫你做份三明治嗎?」如果機器人和使用者出門在外,機器可能會回應:「你要我搜尋餐廳嗎?」


超級少女Zara,懂你的心


2015年初,我實驗室裡的學生和博士後研究員開始整合各種語音辨識和情緒辨識模組,組出了同理心機器人的原型,我們稱為「超級少女Zara」(Zara the Supergirl)。我們利用幾百個小時的資料來訓練Zara,現在是在一台桌上型電腦上執行程式,此刻,她還是虛擬的機器人,螢幕上用一個卡通人物代表。


當你開始跟Zara對話,她會說:「請稍待,我正在分析你的臉。」Zara的演算法會分析網路攝影機擷取到的影像,判定你的性別和種族,接著猜測你講哪種語言(Zara了解英語、華語,現在正在學法語),並用你的母語詢問幾個問題:你最早的記憶是什麼?跟我說說你的母親。你上一次度假情況如何?跟我說個有關一名女性、一條狗和一棵樹的故事。在這個過程中,根據你的臉部表情、聲學特徵和回應的內容,Zara會用像是具有同理心的方式回應你。經過五分鐘的交談,Zara會設法猜測你的個性,並詢問你對於同理心機器人的看法。透過這個方法,我們可以蒐集人們跟早期的同理心機器人互動時的意見回饋。


Zara還在原型階段,由於她是以機器學習演算法為基礎,在跟更多人互動、蒐集更多資料後,她會變得「更聰明」、更有同理心。現在她的知識庫主要是根據我實驗室研究生跟她的互動,2016年我們計畫把Zara裝到人形機器人上,讓她有個身體。


現在要斷言友善機器人的時代已經來臨,還太早。洞悉情感的機器人會需要很多工具,我們才在研發最基本的工具而已。當新一代的Zara問市時,我們也不必期待它們會很完美。我越來越相信,一心想讓機器的準確和效率達到完美,其實搞錯了重點;重要的是,機器會變得越來越人性化,即使有缺陷也無所謂,畢竟,人類就是這樣運作的。如果我們做對了,同理心機器人不會變成有些人害怕的機器人統治者,而是我們的看護、教師和朋友。