資訊科技

論文抄襲記

一套原本用來協助研讀論文的文本分析軟體,卻意外揭露某些科學家剽竊論文與重複申請研究資助計畫的違反倫理行為。

撰文/嘉納(Harold“Skip”Garner)
翻譯/王怡文

資訊科技

論文抄襲記

一套原本用來協助研讀論文的文本分析軟體,卻意外揭露某些科學家剽竊論文與重複申請研究資助計畫的違反倫理行為。

撰文/嘉納(Harold“Skip”Garner)
翻譯/王怡文

1994年,我找到了事業第二春。我原本是美國通用原子公司內部智庫的物理學家兼工程師,負責解答來自公司任何部門的困難問題。多年來,我處理過各式各樣的案子,例如冷融合和無人偵察機。但是在1990年代初,我經常和生物學家及遺傳學家合作,他們向我提出他們研究中需要哪些很酷的新科技,再由我研發出來。

就在那時,我聽說了一個稱為人類基因組計畫的新研究題目,目標是解譯人類染色體內大約30億個DNA鹼基對(鹼基序列),令我為之著迷。我剛好讀到Scientific American的一篇文章,文章中提到有些關鍵技術尚未研發成功,有待物理學家和工程師實現。於是我轉任到美國德州大學西南醫學中心當教授,和科學合作夥伴(一位遺傳學家)一起建立人類基因組計畫中最早的研究中心之一。

那裡的一切都很不一樣。我同事滿口都是另一種語言──醫學,而我講的是物理學。在物理學中,公式幾乎掌控一切;在醫學中,卻沒有通用的公式,只有許多觀察結果、一些片段的了解以及多得驚人的術語。我不斷參加研討會,並抄下一串又一串從未聽過的詞彙,再花好幾個小時去查清楚。我必須隨身攜帶一本醫學辭典,才能研讀科學論文。

我幾乎無法讀懂任何一段文字,在屢遭挫折的情況下,我決定研發軟體來解決困擾。我想要一個搜尋引擎,輸入一大段文字,就會回傳可供進一步閱讀的參考文獻、文獻摘要以及論文,好讓我趕上手邊醫學研究的最新進展。這是個艱難的研發課題,當時網頁的搜尋引擎才剛起步,用來找城裡最棒的料理沒太大問題,但無法消化一段包含多個有相關概念的文字,更別說要指點我閱讀相關資料。

我帶著幾位學生與博士後研究員,開始研究文本分析;我們一同研發了一套軟體,名為「電子文本搜尋比對工具」(electronic Text Basic Local Alignment Search Tool, eTBLAST),概念來自搜尋DNA或蛋白質序列資料庫用的軟體「生物序列搜尋比對工具」(BLAST)。通常在BLAST上的查詢是輸入一串100~400個DNA鹼基序列,然後軟體就會回傳包含相同編碼的較長序列。而在eTBLAST上的查詢則是輸入一段或一頁文字,通常包含100個以上的單字。設計搜尋協定比設計軟體來找一串字母更難,因為搜尋引擎不能只做字面比對,還得認得同義字、縮寫字以及替代用語,也得考慮字詞順序。在查詢一段文字之後,eTBLAST會回報從資料庫裡找到且排序過的「命中」清單,以及查詢文字與所找到摘要的相似度。

我們最常用來搜尋的資料庫是Medline,它的管理機構是隸屬於美國國家衛生研究院(NIH)的國家醫學圖書館,收藏了醫學領域裡所有的生物學研究,包括數千種同儕審閱期刊、數百萬篇研究論文的標題與摘要。在Medline上有一個可用關鍵字查詢的搜尋引擎,因此只要輸入幾個關鍵字,例如乳癌基因(breast cancer gene),就會找到不少結果,而且常附有全文連結。但是我才剛轉行研究醫學,對於很多研究該從何下手都毫無頭緒。

eTBLAST的初期版本光是從Medline比對幾百個單字的段落就得花數小時,但確實管用。我透過eTBLAST開始讀懂科學論文,逐段掌握內容要點;我可以把某位研究生的論文丟進去,快速得知相關文獻。我和研究夥伴甚至和Google公司談過,要把軟體賣給他們,可惜他們回覆說這並不適合該公司的商業模式。

後來事情有了奇怪的轉變。好幾次,我發現學生提案裡的文字和其他未註明受引用論文裡的文字一樣;因此這些學生接受了道德教育課程,而我則改變了我職業生涯的研究主題:有多少專業醫學文獻涉及抄襲?

【欲閱讀更豐富內容,請參閱科學人2014年第148期6月號】