網路不打烊

Web 2.0下一步:從群眾智慧到人工智慧

機器已經悄悄開始閱讀網頁,推演新資訊、整合意見、推測趨勢。

撰文/張俊盛

網路不打烊

Web 2.0下一步:從群眾智慧到人工智慧

機器已經悄悄開始閱讀網頁,推演新資訊、整合意見、推測趨勢。

撰文/張俊盛

瑞德(Robert H. Reid)所著的《網路創世紀》中,介紹了網路誕生前1000日的八位開拓者。其中楊致遠發展了精心編輯的網路目錄,創辦雅虎。但網路資訊發展驚人,網路目錄很快就趕不上網路的成長。1997年,布林與佩吉在全球資訊網會議上發表以超連結分析演算法來排名網頁的方法,展現了比雅虎目錄更準確的搜尋結果,也突破人工編輯時效的限制,他們所創辦的Google,也從此改變了網路的面貌。


Google的創舉推翻了雅虎當時以少數菁英編輯目綠、組織資訊的方法,導入了演算法的自動做法。物極必反,一些新創的網路服務,此刻正悄悄醞釀著以網路動員群眾,整合組織資訊的新趨勢。2001年威爾斯與桑格創辦了維基百科,匯集群眾的力量,至今編輯了超過1000萬則涵蓋多種語言的百科全書式條目。其他各種新型態資訊分享方式紛紛出籠——分享交易資訊的eBay,分享租屋、徵友資訊的Craigslist,分享有用網頁書籤的del.icio.us等。2004年,歐萊禮與貝特勒為這些新型態網路服務定調,並鑄造新名詞Web 2.0,稱呼網路這個新世代。


Web 2.0出現後,許多人急於預測網路的下一步,試圖定義Web 3.0。然而連Web 2.0到底是舊瓶裝新酒,還是真正網路新型態,都還有人存疑,網路的下一步更是難有定論。我們現在到底是停滯不前、處於Web 2.0時代?或者在不為人知的角落,網路新時代的種子已然萌芽?維基百科現有的Web 3.0條目似乎將答案指向後者。條目中引述2006年《紐約時報》資深撰述馬克夫(John Markoff)的主張,預測語意網、自然語言處理、資料探勘、機器學習、人工智慧等終將整合,提供直覺有效、令人驚豔的網路互動經驗,形成第三代網路。微軟併購的Powerset已往此邁一大步,其展示系統剖析了維基百科的數百萬英文條目與句子,提供語意式搜尋引擎。受限於剖析速度,目前只能提供維基百科的資訊,效果自然大打折扣。


我最近到夏威夷歐胡島開會,聽了美國華盛頓大學教授伊茲奧尼(Oren Etzioni)的主題演講,他主張透過機器閱讀技術建構Web 3.0。伊茲奧尼主持華盛頓大學的涂林研究中心,在Goolge長期贊助與提供資料下,發展出KnowItAll語意搜尋引擎,自動蒐集網路資訊,回覆問題。機器閱讀的方法有不少優點:不需要仰賴有語意標示的資料,因此不須等待語意網發展成熟;不需要像Powerset那麼費時嚴密地剖析句子,因此可更大量分析網路的文字。


例如,「希區考克出生於英國嗎?」這個問題,除非網頁上有直接的資訊,否則一般的搜尋引擎無法回答。但機器閱讀結合了目前簡易可行的自然語言處理、資料探勘、人工智慧等技術,再配合語意資料庫,能推論新資訊,回答需要推理的問題。KnowItAll掃描網頁文字,分析動詞與名詞片語,如「出生」與「希區考克」、「倫敦」,並統計三者共現的頻率(次數多信賴度就高)。最後參照WordNet「英國包含倫敦」的事實,推論出新資訊,就能「很有信心地」回答:「沒錯,希區考克出生於英國。


機器閱讀的技術除了能推論、回覆客觀事實的問題,也可以運用於分析意見,甚至推測未來。華盛頓大學同時也發展了一套Opine系統,能「解讀」房間、床舖、舒適、房價等文字的意涵,並「辨識」部落格評論用詞「極佳」與「尚可」的喜惡程度,最後透過「推理」推薦適合的旅館。另外伊茲奧尼創辦的機票搜索引擎公司,還能預測票價的近期漲跌。


【欲閱讀更豐富內容,請參閱科學人2008年第82期12月號】