現今社會對人工智慧懷有複雜的情愫:一方面對Siri宛如真人的對話系統、在電視機智問答中勝過真人的IBM華森嘖嘖稱奇;但對於無人汽車可能取代人類駕駛造成大規模失業,也不免忐忑不安。這些和人類未來息息相關的人工智慧研究涵蓋層面廣泛,其中「自然語言處理」和「電腦視覺」是實現人工智慧不可缺少的兩項關鍵技術。自然語言處理技術讓電腦透過文字和語言,解析人類想表達的意涵,進而與人溝通;而電腦視覺處理,則讓電腦藉由影像感知周遭人、事、時、地、物的狀態。這兩個研究領域各自發展了數十年,近年來技術漸漸成熟,成果已應用在日常生活中,例如自動翻譯、輔助寫作、人臉辨識、車輛與行人偵測等。
既然兩項技術漸趨成熟,學者專家便開始嘗試結合這兩者,邁向更全面的人工智慧。例如2016年8月將於德國柏林舉辦的機器翻譯會議,就納入了多模式機器翻譯(multimodal machine translation)這個跨領域新議題的共同研究任務--同時提供照片與英文圖說,由電腦把圖說翻譯成德文。其特色在於要電腦系統既有語言能力,也要能辨識照片傳達的視覺資訊,使得翻譯更加精準。面對這項任務,機器語言學專家和電腦視覺專家一定要密切合作,才能取得好成績。
「深度學習」技術有助提高影像辨識正確率
不論視覺、語音、語言處理,最近都有很多突破,這歸功於採用多層次類神經網絡架構的深度學習崛起,帶動類神經網絡研究的起死回生。許多研究成果顯示,深度學習利用大量有標註圖說的影像訓練資料,搭配圖形處理單元的高速運算能力,可有效解決電腦視覺的問題。最具代表性的成功案例,是許多研究機構參與ImageNet舉辦的大規模視覺辨識競賽(Large Scale Visual Recognition Challenge, ILSVRC)。以影像分類為例,主辦單位提供1000類超過120萬張的影像,涵蓋了各種物品、交通工具、動植物的訓練資料,以及另外10萬張未分類的測試資料。參賽團隊必須設計程式,讓電腦從訓練資料中學習如何判斷影像類別。對於每一張測試照片,參賽系統必須在1000類中猜測5個分類,藉以評估其影像分類的能力。
2010年首次舉辦ILSVRC時,表現最好的團隊其影像分類系統正確率僅有72%。2012年,加拿大多倫多大學辛頓(Geoffrey E. Hinton)的團隊採用深度學習法,把正確率大幅提升到84%,自此扭轉電腦視覺領域的研究方向。到了2015年,前幾名參賽團隊都採用了深度學習的研究路線,正確率也提高到94%以上,而微軟亞洲研究院以正確率96.4%奪冠。除了影像分類,其他如人臉辨識、物件偵測、車輛追蹤、街景分析等也都受惠於深度學習,大幅提高了辨識正確率。
電腦視覺技術的未來
目前的電腦視覺技術,已經能夠正確分類影像、偵測物件,那麼下一步是什麼呢?目前已經有不少視覺研究,試圖自動產生照片的圖說與影片旁白,成效不錯。另外,學界也很重視結合了影像內容分析與回答問題的自動問答系統。例如,給一張雨中撐傘的照片,然後詢問「在雨傘下的人是誰?」時,系統要能視狀況正確回答「一對情侶」或「兩個小孩」或「老人與狗」。可想而知,不論是看圖說故事或是回答問句,都並非單靠電腦視覺技術就能解決,還需要語言分析技術,才不會胡言亂語或答非所問。
機器翻譯納入了影像資訊,電腦視覺的研究也結合文字,兩個研究領域都跨出一步擁抱對方。語言和視覺的跨領域合作契機已然浮現,未來能夠激盪出什麼樣的新火花,著實令人期待。當人工智慧可以取代臉書照片人臉辨識、長途汽車駕駛等枯燥無聊的工作,我們努力幫忙釋出的生產力,也將能找到更有創意的出路。