資訊科技

抄襲與反抄襲的戰爭

Google的語意向量和IBM華生電腦的搶答技術,把文字處理提升到語意的層次,可以防止文章剽竊及改善寫作表達,以達反抄襲之效。

撰文/張俊盛

資訊科技

抄襲與反抄襲的戰爭

Google的語意向量和IBM華生電腦的搶答技術,把文字處理提升到語意的層次,可以防止文章剽竊及改善寫作表達,以達反抄襲之效。

撰文/張俊盛

早在10幾年前,當時網路搜尋引擎(例如Openfind)的效率與便利就讓我們嘖嘖稱奇。如今我們使用Google來搜尋,已經成為「家常便飯」──幾乎每天都輸入關鍵字檢索資訊。

然而我們有時候懶得去想關鍵字,就直接使用手邊資訊檢索最相似的資訊,學者稱之為「內容為本的資訊檢索」。例如「以圖找圖」、「以文找文」或「哼歌找歌」,就省掉了找出關鍵字這個步驟。透過「以文找文」,我們就可以「以量取勝」。

不過搜尋引擎通常不接受太長的輸入,所以「以文找文」需要特別的軟體,把欲輸入的整段文字自動轉成一組的關鍵字,以便處理。由於幾乎見於每篇文章的虛詞(虛詞如英文裡的you、me、in、on、at,以及中文裡的一、的、你、我、他、一個、可是、所以)都不具獨特性的資訊,就可以省略。但是文章有很多關鍵字,需要大量計算,所以「以文找文」通常只搜尋較小的資料集(例如學術論文或學生作文),而不搜尋整個網路。

偵測抄襲&評估熱門

本期〈論文抄襲記〉的作者嘉納(Harold "Skip" Garner)無意中發現有生物醫學論文明目張膽地抄襲,嚴重程度超乎想像。2008年,嘉納用自己研發的eTBLAST系統與相似度比較引擎,分析大量的生物醫學論文。他發現生醫論文抄襲的比例有逐年升高的趨勢,連知名的《自然》和《科學》期刊也不例外。而值得一提的是,知名作家古德曼(Allegra Goodman)的小說《直覺》(Intuition)也聚焦在生物醫學的研究倫理,以及撲朔迷離的實驗可信度。

2002年,英國雪菲爾大學教授威爾克斯(Yorick Wilks)率先開發了METER(measuring text reuse)系統,協助英國通訊社(Press Association)調查各報社是否沒有付費而偷用供稿,這項研究可能是最早用電腦比對文件的嘗試。METER可偵測一份文件是否完全或部份使用另一份文件的文字,威爾克斯等學者蒐集並標示1999~2000年英國通訊社的供稿與同時期九家英國報社的新聞報導,分成「幾乎完全使用」、「部份使用」、「幾乎未使用」(分別為300、438、206篇)。研究人員運用了三種比對技術:n連詞重疊、片語比對、句子比對。METER系統辨識新聞的完全與部份抄襲,可達66%正確,對於完全抄襲的辨識率更高達80%,但有很多其他因素導致無法更準確偵測抄襲。當通訊社和報社報導同一則新聞時,主題與事件相同,文字難免雷同,當然也就難以偵測抄襲。

字面上的比對有其極限,想進一步改良,或許需要更先進的自然語言處理技術(詞語重述、句型轉換、語意分析),來揪出刻意迴避的抄襲。然而大部份論文或作業的抄襲者,往往明目張膽地直接複製文字,所以字面比對就足以找出大部份的文章剽竊。

有趣的是,除了偵測抄襲,「以文找文」還有很多有用的功能。eTBLAST系統還可幫助使用者找到相關的文獻,評估自己論文的創新性,或搜尋有助於研究與寫作的資訊(研究領域裡的最重要學者、期刊)。而METER也可用來分析通訊社的全年供稿中哪一則新聞最熱門,為最多報社所採用。

【欲閱讀更豐富內容,請參閱科學人2014年第148期6月號】