機器學習舉一反三-科學人雜誌
人工智慧

機器學習舉一反三

2021/08/06 賈布尼克 ( Alison Gopnik )
科學家長期研究人類的學習方式,以教導電腦如何學習。現在運用貝氏推論的人工智慧,僅需數個範例就可辨識圖形,表現堪比人類。
▲電腦更像人的兩種策略: 五歲孩童能輕易解決的問題,卻可以考倒效能最強大的電腦。 近年來,藉由研究人類的學習方法來教導電腦,以致AI熱潮再起。目前,電腦可從兩種方式來辨識字母A, 一種是根據原始資訊,也就是由下而上的方法;另一種則運用既有知識去猜測,是由上而下的方法。


如果你常常跟孩童在一起,一定會好奇他們怎麼能既快又廣泛學習新事物。歷代哲學家(一路回溯至柏拉圖)也想知道緣由,但一直沒有找到滿意的答案。我的五歲孫子奧吉已經學習不少關於植物、動物和時鐘的知識,更不用提恐龍和太空船。他也能理解其他人的需求、想法,以及有何感覺。他可以依據這些知識,把看到和聽到的事分類,並做出新的猜測。舉例來說,他最近認為美國紐約市自然史博物館展出的新發現物種泰坦巨龍(titanosaur)只吃植物,換句話說,牠其實沒有那麼嚇人。


奧吉從環境中感受到的是一連串撞擊他視網膜的光子,以及振動他耳膜的空氣分子。但在他藍色眼珠後方的神經電腦,能設法從他感官獲取的有限資訊,做出關於草食性泰坦巨龍的猜測。我們不斷在思考一個問題:電腦能否像孩童那般既快又廣泛學習新事物?


15年來,資訊科學家和心理學家努力想找到答案。孩童僅憑著教師或父母灌輸有限的資訊就能獲得大量的知識。儘管智慧機器已突飛猛進,但效能最強大的電腦的學習效率還是無法媲美五歲孩童。


了解孩童大腦實際上如何運作,然後創造出同樣有效率的智慧機器,是資訊科學家在未來幾十年要面對的挑戰。但此刻,他們正在發展的人工智慧(AI),已經納入一些我們對於人類學習方式的認知。


復興人工智慧

1950~60年代AI爆發第一波熱潮後,發展停滯了幾十年。不過近幾年AI展現驚人突破,特別是機器學習,而AI也成為科技界最熱門的領域。關於這些進展所代表的意義,人們衍生了很多烏托邦或末日論的預測。說穿了,這些預言不是提到永生,就是世界毀滅,很多則是同時提到這兩種可能性。


我猜AI的發展會引起如此強烈的情緒,是因為我們由衷恐懼機器變得太像人。從中世紀的泥人傳說到科幻小說《科學怪人》,乃至電影「人造意識」性感的女機器人艾娃,人類有一天或許會創造出跟自己沒有什麼差別的人造物的這種想法,總教人深感不安。


但電腦真的可以像人類那樣學習新事物嗎?這些情緒強烈的預測,有多少指出革命性的改變,又有多少只是誇大之詞?電腦如何學會辨認貓、語音或日文字,其中的細節可能難以理解,但進一步觀察機器學習背後的基本概念,就會發現其實不像一開始那樣令人費解。


解決上述問題的方法之一,是從奧吉或我們任何一人接收到的一連串光子與空氣分子著手,不過傳送給電腦的是數位影像的像素以及錄製的聲音樣本。電腦會從數位資料中找出一連串模式,以偵測或辨認周遭世界裡完整的物體。這種所謂由下而上(bottom-up)的方法源自許多人的想法,例如哲學家休姆(David Hume)、彌爾(John Stuart Mill)和心理學家巴佛洛夫(Ivan Pavlov)、史金納(B. F. Skinner)。


1980年代,科學家想到強而有力且巧妙應用由下而上的策略,讓電腦從資料中尋找有意義的模式。聯結論(connectionism)或人工神經網路系統的研究人員從神經元的運作機制汲取靈感,神經元會把視網膜上的光轉換成周遭世界的影像。人工神經網路採取類似做法,使用相互連結的處理元件(模仿神經元),在逐層分析資料時,把某一層的像素轉換成越來越複雜的影像,例如鼻子或整張臉。


拜深度學習(deep learning)這項新技術之賜,人工神經網路的概念在最近有復興之勢。如今,Google、臉書與其他科技巨擘已經把深度學習運用到商業行為中。一如摩爾定律的預測,電腦的運算能力不斷呈指數增加,也促成了這些新系統,而龐大資料集的發展也有貢獻。在聯結論系統具備更好的處理能力和更多可分析的資料後,學習效率比我們以前認為的還要高。


多年來,對於機器學習應該採取這種由下而上的方式,還是另一種由上而下的方法,AI社群一直搖擺不定。採取由上而下的方法,電腦就能依據既有的資訊來學習新事物。柏拉圖以及所謂的理性主義哲學家例如笛卡兒(Rene? Descartes),相信人類是採取由上而下的方法來學習,而這種方法在早期AI的發展中也扮演重要角色。2000年代,這類方法也以機率或貝氏(Bayesian)模型的型式重生。


就像科學家一樣,採取由上而下方法的電腦,一開始會先對世界建構抽象又廣泛的假設。如果假設正確,電腦會預測資料的模式。然後電腦也像科學家一樣,會根據預測結果修正假設。


由下而上

由下而上的方法或許是最容易理解的,所以先說明這種方法。假設你想要電腦區分電子郵件信箱裡的郵件和詐騙信,你可能會注意到詐騙信有一些容易辨別的特徵:一長串收件人地址、奈及利亞或保加利亞的發信地址、信裡會提到百萬美元獎金或威而鋼。但非常重要的郵件可能看起來也一模一樣,你一定不想錯過自己獲得晉升或學術獎項的通知。


一旦你比較了夠多的詐騙信和其他類型的郵件,你可能會注意到只有詐騙信顯露某些特徵。例如,奈及利亞配上百萬美元獎金的郵件,就代表是詐騙信。事實上,要區分詐騙信和重要郵件,或許有一些更細微、高階的模式,例如拼錯字和IP位址,但兩者一點也不明顯。如果你找到這些特徵,就能正確過濾出垃圾郵件,而不用擔心錯過「你的威而鋼已寄出」的通知郵件。


採取由下而上方法的機器學習可以找出相關線索,解決這類任務。為了做到這點,人工神經網路必須進行學習過程。把龐大資料庫裡幾百萬筆例子輸入電腦,每筆例子都標示一般郵件或是詐騙信,然後電腦會擷取出一組可分離出垃圾郵件的辨識特徵。

同樣地,人工神經網路也能檢視網路上標示貓、狗或劍龍的影像,在每組影像中擷取共同特徵,得以把貓和其他影像區隔開來。之後人工神經網路就能辨識貓的影像,即使那是從未見過的新影像。

其中一種由下而上的方法,稱為「無監督學習」(unsupervised learning),雖然還在相對初期的發展階段,但可以從毫無標示的資料中找出模式。電腦會尋找影像中可辨識物體的整組特徵,舉例來說,一張臉總是有鼻子和眼睛,而且與背景中的樹和山不同。這些先進的深度學習網路透過逐層分析來辨識物體,而辨識任務在不同層中會轉換輸入。

2015年,發表在《自然》期刊的一篇論文,闡釋由下而上方法的進展。深度心智(DeepMind)是Google創立的一家公司,研究人員結合了兩種由下而上的技術:深度學習與「增強學習」(reinforcement learning),讓電腦精通一款名為雅達利(Atari)2600的電玩遊戲。電腦一開始對遊戲的運作方式一無所知,採取的策略是隨機猜測最佳玩法,同時不斷接收玩法結果的回饋。深度學習幫助電腦辨識螢幕上的特徵,增強學習則因電腦獲得高分而獎勵它。電腦在好幾款遊戲上都達到熟練程度,在某些遊戲中的表現還贏過人類專業玩家。不過,對於人類輕易就能夠精通的一些遊戲,電腦則完全沒輒。

我們讓AI透過龐大資料集學習,例如數以百萬的Instagram影像、電子郵件訊息或語音檔案,在過去幾度讓人氣餒的問題上獲得解決方案,例如影像或語音的辨識。然而,我的孫子奧吉沒有接收那麼多的資料並進行訓練,卻輕易就能認出動物或回應別人的發問。五歲孩童能夠輕易解決的某些問題,對電腦來說依舊十分費解,難度也遠超過下棋。

電腦通常要接收幾百萬個範例,才能辨識滿是絡腮鬍的臉孔影像,而人類只需要一些例子就能辦到。電腦經過密集訓練後,或許能辨識從未見過的貓的影像,但是辨識方法和人類的類化(generalization)很不一樣。因為電腦軟體採用不同的推論方式,有時會發生失誤。有些包含貓的影像卻沒標記貓,電腦也可能誤指某個影像是貓,不過那其實只是雜亂的模糊影像,人類則不會出這種洋相。


由上而下

另一種機器學習的方法,在近幾年改變了AI的發展,運作方式剛好相反:由上而下。我們假設人類可以從實際資料裡獲得抽象知識,因為人類已經知道很多事,更是因為大腦已經了解基本的抽象概念。就像科學家一樣,我們可以藉由這些概念建構關於這個世界的假設,如果假設正確,就能預測資料(事件)的樣貌;相較之下,採行由下而上方法的AI會設法從原始資料中擷取出模式,做法南轅北轍。

要說明這個概念,可討論上述泛濫成災的詐騙信,這回談一件跟我有關的真實案例。我先前收到某期刊編輯寄來的電子郵件,那份期刊名稱奇怪。編輯明確提到我的一篇論文,並提議我寫篇論文發表在這本期刊。這封電子郵件中沒有提到奈及利亞、威而鋼和百萬美元獎金,沒有詐騙信共同的特徵。但我依據已經知道的資訊,並且抽象思考詐騙信的產生方式,可以判定這封電子郵件很可疑。

首先,我知道詐騙信發送者騙取他人錢財的手法是基於人類的貪婪;學術圈人士對發表論文的渴望,可能跟一般人對百萬美元獎金或性能力的渴求一樣強烈。其次,我知道「開放取用」期刊已經開始向作者收費來分擔成本,而非向訂閱者收費。另外,我的工作跟期刊名稱完全不相干。綜合以上因素,我提出合理假設:這類電子郵件想讓學術圈人士誤以為只要付費給「假」期刊就能「發表」論文。我從單一例子就得出這項結論,而且還能進一步測試自己的假設:透過搜尋引擎查詢這位編輯是否真有其人。

資訊科學家會說我的推論過程是「生成模型」(generative model),生成模型能描繪抽象概念,例如貪婪與欺騙。同樣的模型也可以描述提出假設的過程,這個推論過程得出這封郵件可能是詐騙信的結論。運用這個模型,我能假想這種類型的詐騙信如何運作,也能揣測其他類型,即使是我從未看過或聽過。當我收到這個期刊寄來的電子郵件,便能反向運用這個模型,一步步追查這封郵件的真偽。

1950~60年代第一波AI和認知科學的發展中,生成模型至關重要,但也有局限。首先,原則上我們可以用各種不同的假設來解釋大多數證據模式;就我的例子而言,即使那封郵件看似詐騙信,但也可能不是。於是,生成模型必須納入機率概念,而機率是這些方法近來最重大的進展之一。其次,我們通常不知道那些構成生成模型的基本概念出自何處。笛卡兒與喬姆斯基(Noam Chomsky)這類學者指出,你天生就擁有這些概念,但你一誕生在世上時就知道他人如何憑藉貪婪和謊言來詐騙?

貝氏模型是近來由上而下方法的絕佳範例,試圖處理這兩個問題。貝氏模型是以18世紀統計學家兼哲學家貝茲(Thomas Bayes)為名,利用一種稱為貝氏推論(Bayesian inference)的方法,結合生成模型與機率論。機率生成模型可以告訴你,如果某個假設為真,你看到特定模式資料的機率有多高。如果某封電子郵件是場騙局,可能就是基於收件者的貪婪。不過,基於貪婪的電子郵件不一定是詐騙信。貝氏模型結合你提出假設所依據的知識以及你手上的資料,讓你精準計算某封電子郵件是詐騙信的機率。

比起由下而上的方式,這種由上而下的方式更符合我們對孩童學習方式的認知,這就是為什麼過去15年我和同事一直採用貝氏模型來研究他們的學習方式。我們與其他實驗室都使用這些技術來了解孩童學習的因果關係,預測他們如何與何時會萌生出關於這個世界的新想法,以及何時會改變既有的想法。

貝氏方法也是教導機器像人一樣學習的絕妙方式。2015年,美國麻省理工學院(MIT)的特南鮑姆(Joshua B. Tenenbaum)和紐約大學的雷克(Breden M. Lake)等人在《科學》期刊發表研究,設計了一套可以辨識手寫字的AI系統;人類可以輕易辦到這件事,對機器來說卻非常棘手。

試想你的辨識能力,即使你從未看過日文捲軸上的字,大概也能分辨不同捲軸上的文字是否相同。搞不好你還可以寫出日文字,甚至設計出假的單字,並且知道日文與韓文或俄文大相逕庭。這正是特南鮑姆的團隊要讓AI做到的事。

如果採用由下而上的方法,電腦要接收成千上萬的範例,從這些範例中找到模式,藉由模式辨識新的字。相較之下,貝氏方法則給電腦一個如何寫字的通用模式,舉例來說,一畫可能是往左或往右。電腦在處理完一個字後,會接續下個字。

當電腦看到一個字,會推論這個字的筆畫順序,接著產生一套類似的筆畫,這就像我推論那封疑似期刊詐騙的電子郵件所採取的一連串步驟。特南鮑姆的方式不是推論那封電子郵件是否可能來自詐騙管道,而是猜測特定的筆畫順序是否可能寫出相符的字。在同樣的資料上,採用由上而下方式的電腦會表現得比深度學習更好,也更接近人類表現。

巧妙結合兩種方法

這兩種主要的機器學習方法:由下而上與由上而下,優缺點恰能彼此互補。利用由下而上的方法,電腦一開始不需要對貓有任何了解,但它需要大量的資料。

採用貝氏模型的電腦可以從少數範例中學習,而且能更廣泛推論。不過採行這種由上而下的方法,事先需要做很多功課,才能提出一套正確的假設。兩種系統的設計者可能會遇到類似的障礙:只能處理範圍相對較小、定義明確的問題,例如辨識手寫字、貓或玩雅達利的電玩遊戲。

孩童面臨同樣的限制,卻遊刃有餘。發展心理學家已經發現,不知為何,孩童會結合各種方法的最佳特色,並發展出新的方法。奧吉可以僅靠一兩個例子就學到知識,由上而下的系統也是如此。但不知為何,奧吉也會從資料本身擷取新的概念,就像由下而上的系統一樣,即使那些概念一開始並不存在。

事實上,奧吉不只能辦到這些事。他很快就認得貓與區別字母,但他也能做出有創意又令人驚喜的新推論,這些推論已經超出他的經驗或背景知識。他最近就解釋,如果大人想要再次變成小孩,應該不要吃任何有益健康的蔬菜,因為蔬菜會讓小孩長成大人。這種創意推理是從哪裡冒出來的,我們幾乎毫無頭緒。

當我們聽到有人主張AI是一種「存在威脅」時,我們應該想起人類大腦依然神秘的力量。AI和機器學習聽起來很嚇人,就某些方面來說確實如此。軍方正在研究使用這些系統來控制武器的方法;人類的愚蠢相較AI可能造成更多破壞,我們必須比以前更有智慧,才能適當管理這些新科技。

摩爾定律是一大影響力:即使資訊科技的進步是基於資料量和電腦處理能力的大幅增加,而不是我們對心智的了解有觀念上的突破,但這些進展日後依然會有重大成果。儘管如此,我們也不應該認為新的科技泥人會有如脫韁野馬在世上橫衝直撞。

更多文章
活動推薦更多
追蹤科學人