網路不打烊

電腦幫助詞典擁抱文法

謹以此文緬懷詞典的好朋友——計算語言學者基加瑞夫。

撰文/張俊盛

網路不打烊

電腦幫助詞典擁抱文法

謹以此文緬懷詞典的好朋友——計算語言學者基加瑞夫。

撰文/張俊盛

詞典有悠久與光榮的歷史。在西方,詞典最早可追溯到巴比倫前阿卡德帝國的楔形文泥版詞典。最古老的華文詞典是公元前三世紀編成的《爾雅》,凡13萬言分19章描述山川天地、鳥獸草木蟲魚種種詞彙。

不論西方東方,詞典講究全面、平衡。編輯詞典不單依靠語言專家對語言的主觀反思,還有客觀的觀察分析。最早,編一本好詞典需要博覽群籍、勤於筆記、讀破萬卷書、寫盡百萬紙。電腦發明之後,英國柯林斯出版社和伯明罕大學合作,用電腦蒐集語言文字的樣本,構成COBUILD語料庫,並用電腦編成「詞彙索引典」,取代引述紙片來編輯詞典。史上首部科學化編輯的詞典於焉誕生。

詞彙索引典免除摘錄引述引言、謄寫紙條的步驟,也加速了引述例句的檢索。然而,在檢索時卻無差別羅列出所有收錄文章的引句,編輯分析起來還是很困難。

英國的計算語言學者基加瑞夫(Adam Kilgarriff)應用理論,研發出WordSketch系統來幫詞典學家分析語料庫的詞彙與周遭搭配詞,讓專家可以10倍速分析引句、編輯詞典,算是詞典編輯的里程碑。幾項重要的詞典編輯計畫,例如《麥克米倫詞典》與《牛津詞典》都採用WordSketch來協助專家編輯。此外,基加瑞夫認知到網路規模大到取用不竭,因此提倡網路語料庫(Web as a Corpus)以補人工蒐集的語料庫之不足。基加瑞夫還獨創GDEX演算法,讓電腦幫編輯初步篩選長度適中、難度合宜的例句。可惜基加瑞夫不久前辭世,他雖英年早逝,但對詞典學與語料庫提出許多獨到見解、開發實務系統,學界深深緬懷他的貢獻。

詞彙索引典不但加速詞典編纂的效率,還打破語言學習裡文法與詞典各自為政的陳規。COBUILD計畫中,佛朗西斯、杭斯頓、曼寧三位語言學家透過電腦檢視數億詞的語料庫,來觀察詞彙,歸納每個詞彙的文法樣式(grammar pattern)。這項前瞻性研究,顯示每一個詞彙都有特定的文法樣式,而具有同樣文法樣式的詞彙,又傾向於具備同樣的意思──重新詮釋了語言學家弗斯(John Rupert Firth)的名言:You should know a word by the company it keeps。新詮釋中company即樣式。

根據這些觀察與記錄,他們提出了嶄新的樣式文法(pattern grammar)理論,同時處理文法與詞彙。影響所及,詞典專家開始在詞典詞條中有系統地描述文法。《Collins COBUILD進階英文學習詞典》的一大特色,就是用簡單的符號描述詞彙的句型:例如最新的第八版,對於differentiate一詞,就列出兩條文法規則”V n fromn”和”V between n and n”,讓讀者一目了然。而英語詞典後起之秀《麥克米倫詞典》也擁抱樣式文法,用更通俗易解的方式列出differentiate的文法規則,例如”differentiate sth from sth”和”differentiate between sth”。