AI能有想像力嗎?-科學人雜誌 Back to Top
人工智慧

AI能有想像力嗎?

2021/08/06 馬瑟 ( George Musser )
教導AI學習創意和常識等人類特質,讓AI更像人類,甚至具有意識。

重點提要

  1. 一些新興的方法能讓AI系統(例如人工神經網路)具備典型的人類特質。
  2. 後設學習法讓人工神經網路能快速調整,不需大量資料就能掌握新任務。
  3. 生成對抗網路展現了某種型式的想像力,能輸出具有統計特徵的資料集。
  4. 「解析」讓人工神經網路對資料的基本架構變得敏銳,也讓人類更容易理解它們的內在運作。


如果你對人類抱有懷疑,最好的解方是跟人工智慧(AI)研究人員談談。AI在臉孔辨識、語言翻譯、下棋、電玩、記得打方向燈等方面,要嘛打敗人類,要嘛和人類旗鼓相當,你可能猜想研究人員會得意洋洋。恰恰相反,他們總是談論人類大腦有多麼令人驚奇、適應力強、效率極高、能力無限。AI仍然缺乏這些特色,它們不知變通、遲鈍、學習速度慢、需要大量訓練。即使有廣為人知的成功案例,也僅限於某方面。


很多研究人員進入AI領域,是因為他們想要了解、複製並超越人類智慧。即使是注重實際效益的研究人員也認為,AI應該表現得更像人類,例如社群媒體公司訓練的影像辨識軟體可以找出貓或名人的影像。但其他類型的資料很難如法炮製,如果AI更機敏,就能解決更大範圍的問題。涉及現實世界的資料格外受限,如果AI必須學習操作積木,我們無法示範各種情況。就像人類一樣,AI需要能通用的技能,而不是死記。


即使輸入的資料較少,AI也必須能輸出更多訊息。光提供答案還不夠,人們想知道AI的推理過程,去年,歐盟賦予公民有權要求企業解釋自動化處理所做的任何決策。美國國防高等研究計畫署(DARPA)資助了「可解釋AI」(Explainable AI)研究計畫,因為若軍事指揮官不知緣由,要如何派軍人上戰場?


龐大的研究社群正在處理這些問題,想法百花齊放。研究人員逐步取得的進展令人驚豔,自行改進、想像力、常識,這些典型的人類特質正逐漸整合到AI,至少在某方面是如此。其中的關鍵是靈活訓練,在人類的引導下,AI會邁出最大的步伐。


容許犯錯

比起科學和工程的多數領域,AI經歷過數次熱潮,研究方法時而興盛,時而落寞。人工神經網路(ANN)是前景看好的技術,是由基本計算單元「人工神經元」構成。人工神經元可以像電器開關那般簡單,依據它連結的其他人工神經元狀態來切換。人工神經元通常層層排列,最初的那層接受輸入(例如影像像素),最後一層產生輸出(例如對影像內容的高階描述),而中間層或「隱藏層」產生輸入的算術組合。一些ANN具有把輸出或隱藏層重新連結到輸入的迴路,尤其是用於處理隨著時間開展的問題,例如語言辨識。


深度ANN有幾十個或幾百個隱藏層,隱藏層可能代表中階架構,例如邊緣或幾何形狀。整個系統具有幾千個人工神經元,互連幾百萬次,過程中沒有簡單的邏輯規則。而這是故意的,ANN擅長處理那些沒有明確邏輯的問題,例如圖形辨識。


關鍵在於,人工神經連結並非事先固定,而是在試誤過程中不斷調整。你把標示為「狗」或「貓」的影像輸入ANN,它會針對每張影像猜測一個標示。如果它錯了,你就調整造成錯誤結果的人工神經連結強度。從完全空白、不知道影像內容的情況開始,ANN的表現不會比擲硬幣的結果更好,但輸入大約一萬個範例後,它的表現媲美人類。在其他訓練方法中,ANN能回應更模糊的提示,甚至能完全自行分類。


驚人的是,ANN可以分類從未見過的影像,科學家尚未完全釐清它如何辦到,但其中一項要素是訓練ANN時必須容許犯錯,甚至故意引進錯誤。ANN一開始就完美分辨貓和狗,可能是瞎猜的:根據不可靠的線索和變數,而不是必要的特徵。


ANN這種形塑自身的能力,意味它可以解決人類難以克服的問題,包括如何讓ANN更加精進。


學會如何學習

教師經常抱怨學生過完暑假,就把學到的一切都忘了。但美國加州大學洛杉磯分校的比約克(Robert Bjork)以及其他心理學家皆發現,遺忘與學習互不衝突,反倒是必要的。這項原則也適用於「機器學習」。


如果ANN學習一項任務並遺忘,學習另一項任務又遺忘,週而復始,它經由訓練掌握這些任務的共通特徵,將更快學習新變體。它不用學會特定任務,但將學會如何學習,研究人員稱之為「後設學習」。普林斯頓大學的機器學習理論學家阿羅拉(Sanjeev Arora)說:「你在學習執行1000次任務後,第1001次任務會容易許多。」遺忘正是後設學習發揮作用的關鍵。缺少遺忘,任務會全部混在一起,ANN便無法了解整體架構。


後設學習讓AI具備人類心智的一些靈活度。位在英國倫敦的Google深度心智(DeepMind)計算神經科學家王珍(Jane Wang,音譯)說:「這可能是促成AI展現人類智慧的關鍵。」換句話說,她認為後設學習將幫助科學家釐清人腦的運作方式。


在自然界,終極的後設學習演算法是達爾文的演化。在變化多端的環境裡,物種受到驅力而發展出學習能力,並非單純依靠固定的本能。1980年代,AI研究人員藉由模擬生物演化來改善軟體的學習。但生物演化法是一種隨機搜尋,結果常是死胡同,2000年代初期,研究人員找到方法讓演化變快、變得更有脈絡。事實上,有了正確的訓練方案,任何ANN都能學會如何學習。和機器學習的多數情況一樣,訣竅在於你要明確指定目標。如果你要ANN學習臉孔辨識,應該輸入一大堆臉孔影像,依此類推,如果你要ANN學會如何學習,應該提供一連串的練習。


2017年,加州大學柏克萊分校的芬恩(Chelsea Finn)和同事研發了一套方法,稱為「模型不可知後設學習」。假設你要教導ANN把影像分成五個類型,無論是狗的品種、貓的品種、汽車型號、帽子顏色或你想要的其他類型。在正常的訓練中,你會輸入幾千張狗的影像,調整ANN、進行分類,再輸入幾千張貓的影像。不幸的是,這樣做會導致無法辨識狗的影像。以這樣的方式教導ANN,它一次只能執行一項分類任務。


在「模型不可知後設學習」法裡,你必須交錯類型。你只需要輸入五張狗的影像,每個品種各一張,然後輸入一張測試影像,觀看ANN分類那張狗影像的表現;只訓練五個範例,成果可能不太好。你重新設定ANN,消除它可能獲得的任何狗知識,這是關鍵步驟,調回起點為的是讓它的表現更好。然後換成貓的影像,每種貓各一張。接著是汽車、帽子等影像,隨機循環這幾個類型。不斷轉換任務,然後測驗。這個ANN無法精通狗、貓、汽車或帽子等影像分類,但會學習初始狀態,讓它在分類任何五張一組的影像時獲得最有利的起點。到最後,它會學得很快,你如果輸入五種鳥的照片,它能立即分類。


芬恩表示,ANN能達到這種靈活度是因為發展出一種傾向:預期輸入的資料是影像型式。她說:「當你能指出物體的形狀、顏色和質地,並以簡潔方式表達,你看到新物體後,應該很快就能辨認。」

芬恩和同事也把這項技術應用在實體與虛擬的機器人。在一項實驗中,他們讓四足機器人往不同的方向跑、執行各種任務。機器人經過訓練後,猜測這些任務的共通特徵是跑,唯一的問題是:要往哪個方向?所以機器人會事先原地跑步。芬恩說:「如果你正在原地跑步,不管要往前跑或往後跑,都能更輕鬆、快速反應,因為你已經在跑了。」

就跟王珍和其他研究人員提出的相關策略一樣,這項技術有其限制。雖然特定任務所需的範例資料量降低了,但整體來說還是需要大量資料。主張AI要表現得更像人類的主要人物、紐約大學認知科學家雷克(Brenden Lake)說:「現行的後設學習法需要非常大量的背景訓練。」後設學習必須借助任務之間非常細微的差異來達到學習效果,因此在計算方面的要求也很高。如果研究人員無法在數學上充份定義問題,就必須回到較慢的演化演算法。雷克說:「ANN有所進展,但距離人類的觀念學習還很遠。」

競爭與合作

過去幾年,一種嶄新而奇怪的變化充斥網際網路:虛構的人物影像。這些影像是一種新AI技術展現精明想像力的產物,位在加州山景城的Google大腦團隊成員古德費洛(Ian J. Goodfellow)說:「AI試著想像有可能在我們社會中成為名人的虛構臉孔,這些人物的樣貌非常真實,而且以傳統眼光來看很吸引人。」

要讓AI自動展現想像力相當容易。基本上,先要有影像辨識網路(或稱鑑別網路),然後反向運作,就會轉變成影像製造網路(或稱生成網路)。鑑別網路在處理資料後會給予標示,例如狗的品種,生成網路在接收標示後會產生資料;困難之處在於確認資料是有意義的。如果輸入「西施犬」,鑑別網路應該傳回典型的西施犬,如果生成網路要產生狗的資料,就必須發展狗的內建概念。要讓AI做到這點,在計算上頗具挑戰。

古德費洛2014年剛拿到博士學位,突然想到可以讓兩種類型的ANN合作。生成網路先產生一張影像,然後鑑別網路比對資料,鑑別網路就像吹毛求疵的教練一樣訓練生成網路。古德費洛說:「我們安排兩位選手競賽。其中一位選手是生成網路,負責產生影像;另一位是鑑別網路,負責觀看影像,然後設法猜測其真偽。」這項技術就是所謂的「生成對抗網路」。

一開始,生成網路會產生隨機雜訊,顯然不屬於任何東西的影像,遑論是訓練資料。但鑑別網路一開始也不具鑑別能力,兩者彼此切磋。如果生成網路勝過鑑別網路,最終會產生宛若真實的虛構資料,而鑑別網路只能隨機猜測輸出的真偽。這套程序非常繁瑣,ANN可能會中途受阻,無法產生栩栩如生的影像或掌握資料的多樣性,例如生成網路為了採取最少的必要步驟來騙過鑑別網路,可能會一直把臉孔影像放在同樣的粉紅色背景上。古德費洛說:「我們沒有很好的數學理論可以解釋,為何一些模型總是表現良好,其他則表現差勁。」

儘管如此,很少有AI技術這麼快就有如此多的用途,從分析宇宙資料到設計牙冠。當你需要接收資料集並用同樣數據產生模擬資料,就可以運用生成對抗網路。紐約大學的物理學家克朗莫(Kyle Cranmer)說:「你只需輸入大量影像,然後說:『可以產生這類影像嗎?』」他利用這項技術模擬粒子碰撞,速度比解開粒子碰撞的量子方程式更快。

在這些應用中,最引人注目的是Pix2Pix,它幾乎可以執行任何你所想像的影像處理。舉例來說,Photoshop這類影像應用程式可以把彩色影像輕鬆簡化成灰階,甚至是線稿。若要反其道而行,卻是大費周章,把影像或圖畫填上色彩需要創意,但Pix2Pix辦得到。你輸入一些成對的彩色影像和線稿當做範例,Pix2Pix會學習兩者的關聯,然後你輸入一份線稿,它便會塗上色彩,儘管這份線稿並非原本訓練的範例。

其他計畫則是以合作取代競爭。日本東京地球生命研究所的古坦柏格(Nicholas Guttenberg)和維特科夫斯基(Olaf Witkowski)在2017年建置了一對ANN,輸入一些他們以各種藝術風格創作的迷你畫作。這一對ANN必須確認風格,而每個ANN會看到藝術品的不同部位。所以它們必須合作、必須發展出一套專用語言;想當然耳,那是很簡單的語言,但足以描述目前任務。古坦柏格說:「它們會找到一套共通的方式來討論。」

自行學習溝通的ANN打開了新的可能性。古坦柏格說:「我們希望能看到一群ANN發展出語言,並彼此教導技能。」如果ANN能跟其他ANN溝通自身在做的事,或許就能學著對人類解釋,讓人類理解它的推理。

連結到人類

AI研討會中最有趣的是,研究人員展示AI的錯誤,例如把隨機雜訊當成犰狳、把校車當成鴕鳥。ANN知識淺薄,辨識出的物件可能跟構成事物的物件毫無關聯。深度心智的希金斯(Irina Higgins)說:「老鼠這類動物能對組合而成的東西有適當的理解,但ANN則否。」

加拿大蒙特婁大學的班吉歐(Yoshua Bengio)於2009年指出,若能「解析」ANN的內在表徵,將可真正理解它;「解析」是指,ANN的每個變數能對應到真實世界的某個獨立特徵。例如ANN應該有每個物體的位置變數,當某個物體移動,而其他物體留在原地,雖然改變了幾十萬像素,但只有位置變數產生變化。

希金斯和同事於2016年設計出實做方法,依據的是一組真實變數(跟實際結構一致的變數),也是最簡潔的一組變數;幾百萬像素是由相對少量的變數以無數方式結合而構成一張影像。希金斯說:「這個世界有冗餘,就是大腦可以壓縮並開發的冗餘。」為求精省的描述,她採取的手段是刻意約束ANN描述世界的能力,如此一來它就只能選擇最重要的因子。之後她逐步放寬約束,讓ANN納入次要的因子。

在某次示範中,希金斯和同事建構了由心形、方形和橢圓形所構成的簡單「世界」供ANN分析。每個形狀可以有六種尺寸大小、朝向20個角度。研究人員輸入所有組合,ANN的目標是分離出五種基本因子:形狀、在兩軸上的位置、方向和大小。首先,他們只容許ANN分離出一個因子,它選擇位置當做最重要的因子──即使缺少其他因子,這個因子也具意義。之後,ANN逐步加進其他因子。

在這次示範中,研究人員知道這個世界的規則,因為他們是制定規則的人。在真實世界中,「解析」與否或許不會那麼明顯,目前仍需要人類的主觀判斷。

就像後設學習和生成對抗網路,「解析」也有很多應用。首先,我們可以藉此理解ANN,直接看到它的推理,那跟人類的推理非常相似。機器人可以利用「解析」勘測環境並安排行動,而非在試誤中跌跌撞撞。「解析」跟研究人員所謂的內在動機(本質上就是好奇心)結合後,能指引機器人有系統地探索環境。

此外,「解析」能幫助ANN學習新資料集,卻不會喪失已知資訊。例如你輸入狗的資料,ANN會解析出狗特有的表徵,當你把輸入資料換成貓,新的影像落在表徵的範圍之外,ANN會注意到這項改變。希金斯說:「我們其實可以觀看人工神經元如何反應,如果它們開始有不尋常的舉動,可能是開始在學習新的資料集。」這時,ANN可能有所調整,例如加入人工神經元來儲存新的資訊,這樣才不會覆寫掉舊資訊。

研究人員賦予AI許多跟人類意識有關的特性。尚未有人能定義何謂意識,但意識跟我們能建構這個世界及自身的模樣有關,AI也需要這類能力。有意識的AI似乎距離我們還很遠,但今天的技術能否成為邁向那個未來的一小步?


更多文章
活動推薦更多
追蹤科學人