▲窺見內心?
一些情緒AI系統依據的是心理學家艾克曼(Paul Ekman)的研究,他聲稱共通的臉部表情能揭露內在感覺,其中包括(從左到右)悲傷、快樂、憤怒、恐懼與驚訝。
2020年2月在英國利物浦有一場會議,主題是相當沉悶的政府採購,出席者四處瀏覽參展商與供應商的展覽品,他們會在某些攤位上逗留,或是繞過另一些攤位。這些出席者受到嚴密監視:24支隱密安裝在各個角落的攝影機監看著每個人的表情,並且在他們對不同展覽品做出反應時,以每秒5~10幀的畫面記錄每個人臉部肌肉的細微收縮並進行分類。這些影像會傳送到電腦網路,讓人工智慧(AI)演算法評估其中每個人的性別和年齡層,分析他們的表情,尋找「快樂」和「專注」的跡象。
這套系統背後的公司是總部設在美國德州奧斯丁的Zenu。大概在利物浦會議的一年後,該公司執行長穆塔菲斯(Panos Moutafis)依然對分析結果感到興奮。他在視訊電話中展示一張群眾的照片,他們的臉孔都用方框框起來,他說:「就我所知,沒有太多商業系統能達到這樣的精準度。」Zenus工程師讓系統檢視龐大的臉部表情資料集,這些表情都被加註了描述相關感受的標籤,藉此訓練系統辨識情緒。該公司以各種方式確認系統的效能,包括現場測試,也就是在拍攝影像的當下,請受試者報告自身感受。穆塔菲斯表示,這套系統「無論是室內人們戴上口罩且光線不足,或是戶外人們戴帽子與太陽眼鏡的情況下,都能順利運作。」
Zenus的系統是一項新科技的應用,稱為情緒人工智慧(emotion AI)或情感運算(affective computing),結合了攝影機與其他搭載人工智慧程式的裝置,用於收錄臉部表情、肢體動作、講話聲調與其他線索。這項科技的目標是要超越臉部辨識與身分識別,揭露過往科技無法察覺的事:影像裡群眾內心的感受、動機與態度。2019年《機器人監視的時代即將到來》(The Dawn of Robot Surveillance)報告的作者、美國公民自由聯盟(ACLU)資深政策分析師史坦利(Jay Stanley)說:「攝影機長期以來都很笨,現在變得聰明。它們覺醒了,並獲得新能力,不再只是默默記錄我們的行為,而是能判讀我們的行為。」
情緒辨識大熱門
情緒AI如今成為市場調查工具。在另一場商展中,Zenus告訴希爾頓飯店(Hilton Hotel),該飯店主辦的「小狗與冰淇淋」活動比活動設置的免費酒吧更吸引人。然而,情緒AI觸及了風險更高的領域。能夠判讀感受、個性和意圖等線索的系統已經進行測試,甚至啟用,以便在國境檢查站偵測威脅、評估求職者、監視教室裡的學生是否覺得無聊或想搗亂,以及辨識駕駛的違法跡象。汽車大廠正在把這項科技加進未來世代的車輛,而亞馬遜(Amazon)、微軟(Microsoft)、Google與其他科技公司都提供以雲端為基礎的情緒AI服務(通常搭配臉部辨識)。幾十家新創公司紛紛推出應用程式,協助企業做出僱用員工的決策。例如,這類做法在南韓已經非常普遍,職涯諮詢師(job coach)通常會讓使用者練習要如何通過AI 面試。
AI系統藉由各種資料,能對人們的情緒和行為提出評估,除了臉部表情、講話聲調、肢體動作以及步態,也可以分析講話或書寫的內容,以了解其背後的情感和態度。一些應用程式並非用於調查情緒,而是利用蒐集的資訊來分析例如某個人的個性、某個人是否專注或具有危險性。
但是批評者警告,情緒AI觸及的層面已經超出它能分析的範圍,很可能會構成危害。訓練AI演算法的資料集可能包含種族、族裔和性別偏誤,導致評估的結果也產生偏誤(例如不利於非白人的求職者)。美國馬里蘭大學的資訊系統科學家魯(Lauren Rhue)專研情緒AI的種族偏誤,她說:「有些人認為,可以把一些認知處理過程交給這些系統,然後根據系統的判讀來決定:『這個人有威脅性。』這就可能構成危害。」
情緒AI背後的科學基礎也存在爭議。很多情緒AI應用程式的起源可追溯到半世紀前由美國心理學家艾克曼(Paul Ekman)和福瑞森(Wallace Friesen)的研究,在他們的理論中,少數的臉部表情會對應到基本情緒(悲傷、快樂、憤怒、恐懼、驚訝和厭惡;後來艾克曼還加入了輕蔑),而這些表情構成了所有人都能理解的情緒語言。但這些概念如今引發激辯。科學家已經發現證據顯示,臉部表情有顯著的文化和個別差異。很多研究人員表示演算法無法(至少現在還不行)連貫一致地判讀人們臉部表情的細微變化,這些變化可能不符合刻板的內在感受。艾克曼曾致力於研究早期的情緒辨識技術,現在也主張這項技術對隱私權構成嚴重威脅,應該嚴加管制。
情緒AI在本質上並不成問題。專家表示,如果機器接受訓練之後能可靠判讀情緒與行為,情緒AI在機器人學、健康照護與其他領域就有無窮潛力。但目前這個領域可謂是一頭熱,在社會還沒有時間考慮潛在成本之前,一項幾乎尚未驗證的科技可能就變得普及。
改善員工招聘?
葛瑞(Mark Gray)在2018年時任職於Airtame人力與業務經營副總裁,正在尋找改善員工招聘過程的方法,這個流程必須要有效率。Airtame這家小型公司生產的是一款螢幕共享簡報與展示的裝置,大約100名員工散佈在丹麥哥本哈根、美國紐約市、洛杉磯和匈牙利布達佩斯等地的辦公室,但會收到幾百份來應徵行銷或設計的求職信。另一個因素是員工招聘過程全憑感覺。葛瑞現任職於丹麥物業管理科技公司Proper,他說:「很多時候,我覺得那是某個人腦袋中有聲音在說:『我喜歡這個人』,而不是『這個人比較有能力』。招聘過程與人資領域充滿了無形因素,我想要搞清楚如何在招聘過程增添有形的面向。」
Airtame跟Retorio簽訂合約,Retorio是一家位在德國慕尼黑的公司,把AI應用於視訊面試。視訊面試過程相當快速:求職者錄製60秒影片,回答兩、三個問題。演算法會分析求職者的臉部表情與聲音以及回應的文本,接著根據五大人格特質產生一份個人檔案;五大人格特質是心理學常用的分析法,分別是開放性(openness)、自律性(conscientiousness)、外向性(extroversion)、親和性(agreeableness)和神經質(neuroticism),簡稱OCEAN。最後,演算法會根據這些個人檔案是否適合這項職缺,產生一份求職者的媒合排行榜,並傳送給招聘人員。
這類軟體已經開始改變企業招聘決策,以及相關組織與人們的互動。它改造了Airtame的招聘過程,立刻提升某些求職者的排名。葛瑞表示,這是因為人格分類很有用。他展示了一張圖表,上面呈現幾名新進業務的工作表現與他們的人格分數相符,在自律性、親和性和開放性分數較高的員工表現最佳。
長久以來,理解人類情緒的機器都是科幻小說的主題;但在資訊科學和工程界,人類情感有很長一段時間都是陌生的概念。美國麻省理工學院(MIT)的畢凱(Rosalind Picard)在1995年的技術報告裡提出了「情感運算」這個新名詞。她表示,即使到了1990年代,「它依然是禁忌話題、是不受歡迎的名詞。人們認為我瘋了、一廂情願、愚蠢、招惹麻煩。有一位受人尊敬的訊號與語音處理專家來找我,一直看著我的腳,然後說:『你在浪費你的時間,情緒只是雜訊。』」
畢凱和其他研究人員開始研發能自動判讀生物識別(biometric)資訊並做出回應的工具,例如臉部表情和皮下血流,這類資訊能顯現情緒狀態。而現在應用程式百家爭鳴的情況可回溯到2010年代初期,研究人員開始廣泛運用深度學習(deep learning),這種強大的機器學習採用了大致上以生物大腦為模型的類神經網路(neural network)。深度學習改善了AI演算法的性能與準確度,能自動執行一些先前只有人類才能可靠執行的任務:駕駛、臉部辨識,以及分析醫療影像。
▲喜極而泣:
在一張拍攝於1964年且經過裁切的照片裡(左),一名女性看起來很難過。但完整影像顯示,她身處一群開心群眾當中(上)。當時披頭四(Beatles)樂團下榻在美國紐約市一家飯店,這些人是飯店外狂喜的粉絲。
辨識微笑有偏誤
但這些系統根本不完善,而且情緒AI還得處理一項特別艱難的任務,演算法應該要反映世界的「基準真相」(ground truth):把蘋果辨識為蘋果,而不是桃子。機器學習中的「學習」包括重複比對原始資料(通常是影像,有時是影片、音訊與其他來源)與標註目標特徵的訓練資料,這是系統學習找出潛藏共通性的方法,例如從蘋果的影像中找出「蘋果特性」。一旦演算法訓練完畢,就能辨識出任何影像中的蘋果。
然而當任務是辨識難以定義的特質(例如個性或情緒),基準真相就會變得難以描述。幸福或神經質看起來是什麼樣貌?情緒AI演算法無法直觀判讀情緒、個性或意圖,反而是透過某種計算眾包(computational crowdsourcing)的訓練,模仿人類如何判讀其他人。批評者表示,這個過程引進太多主觀變數。南加州大學安能伯格傳播與新聞學院的克勞福(Kate Crawford)研究AI對社會造成的後果,她說:「人們的心理與情緒會有起伏,但他們的心理與外在表現之間存在巨大落差。有些技術想要克服該落差,這不但艱難而且危險。」
判斷這些資訊的過程很複雜,每個階段都可能有陷阱,例如深度學習需要龐大的資料量。情緒AI需要結合幾千個乃至幾十億個由人類判讀的龐大資料集,例如由資料處理人員加註「快樂」或「微笑」標籤的人類影像。但演算法可能在無意中「學習」資料處理人員集體呈現出來的系統性偏誤,這種偏誤可能存在於訓練資料集裡偏斜的人口分佈、資料處理人員無意識的態度,或是其他來源。
即使是辨識微笑也絕非簡單的任務。2020年,德國科隆萊布尼茲社會科學研究所的施韋默(Carsten Schwemmer)和同事進行了一項研究,把美國國會議員的照片輸入亞馬遜、微軟和Google以雲端為基礎的情緒辨識應用程式。他們檢視這些照片後發現,86%的男性和91%的女性在微笑,但這些應用程式判定女性在微笑的比率更高。舉例來說,Google雲端視覺(Google Cloud Vision)把「微笑」標籤加註於超過90%的女性,男性獲得這標籤的比率小於25%(參見36頁)。研究人員認為,訓練資料可能存在性別偏誤。他們還寫道,這些照片中(機器會忽略的)模稜兩可的臉部表情很常見:「很多臉部表情看起來不明確。那真的是微笑嗎?或者是假笑?如果牙齒露出來,但看起來不開心呢?」
多數以深度學習為基礎的臉部辨識系統,都因為存在偏誤而廣受批評。例如,MIT媒體實驗室的研究人員發現,這些系統在比對非白人、非男性臉孔的身分時準確率較低。一般而言,這些錯誤是因為使用了對白人與男性有所偏頗的訓練資料。辨識情緒增添了額外的複雜度:這些表情是動態的,擺好姿勢的照片與隨手快拍的照片可能會有細微差異。
馬里蘭大學的魯使用公開的職籃選手照片資料集,測試兩款情緒辨識服務,一款出自微軟,另一款出自Face++,後者是中國的一家臉部辨識公司。兩款服務自始至終都判定黑人球員比起白人球員更容易有負面情緒,儘管判讀方式不太一樣:Face++判定黑人球員生氣的比率是白人球員的兩倍;微軟則是在球員表情模稜兩可的情況下,判定黑人球員輕蔑的比率是白人球員的三倍。魯表示,此問題或許可回溯到訓練資料集裡標籤影像的偏誤。微軟和Face++都沒有回應這項評論。
現在很多公司都強調已經意識到這些問題,並且正在處理。Retorio的共同創辦人霍恩伯格(Christoph Hohenberger)指出,用來訓練演算法的資料集是標記了人格特質的簡短面試影片,由該公司出資請人在幾年間匯整而成。他表示,已經逐步排除各種人口統計和文化上的偏誤,這些偏誤原本會在人格衡鑑(personality assessment)中傾向特定族群。但因為這個產業目前缺乏規範或監督,在多數情況下,只能相信企業的說法;很難去驗證專屬資料集的穩定度與公平。HireVue是一家以演算法分析文本和語氣的視訊面試公司,引進了外部稽核員來檢查偏誤,但這是很罕見的做法。
專研AI決策的北卡羅來納大學法學院副教授阿瓊瓦(Ifeoma Ajunwa)表示,「可用相同標準看待所有人,而且每個人都能達到同一標準,這種想法」根本是錯的。她指出,這種假設意味著「每個不符合標準的人都處於不利地位」。
科學界反彈?
除了有關偏誤的擔憂,每個人的外在表現都有相對應的內在情緒,這種概念也開始在科學界引起強烈反彈。 如今的情況顯然與50多年前剛提出這種概念時大不相同。當時,艾克曼和福瑞森在巴布亞新幾內亞東南方高地進行田野工作,並以原住民佛雷族(Fore)當做研究對象,想要了解佛雷族人是否能辨識並理解文化背景截然不同的族群的臉部表情,例如美國紐約市布魯克林區的搬運工人或塞內加爾的護理師。受試者會看到好幾組照片,照片裡的人會做出科學家所謂六大基本情緒(six basic emotions)的表情。為了提供脈絡,翻譯者會提供簡短的描述,例如「他看到聞起來很臭的東西」代表厭惡)。佛雷族人的反應幾乎與日本、巴西或美國等地的受試者一樣,所以研究人員主張臉部表情是一種普遍可理解的情緒語言......