網路不打烊

電腦教你寫作

作文自動評分系統晉身個人寫作教練,是語言資訊科技研究的新挑戰。

撰文/張顯達

網路不打烊

電腦教你寫作

作文自動評分系統晉身個人寫作教練,是語言資訊科技研究的新挑戰。

撰文/張顯達


以前學校裡有這樣的「笑話」:每年不論寒暑,期末考之後,中文科教師休息室的電風扇就會調到最強,把改不完的作文考卷放在桌面,被電風扇吹走的就評為不及格,吹得越遠分數越低。為什麼?因為篇幅長的作文,上面的墨水比較多、比較重;短的作文墨水少,考卷比較輕、容易吹走,越輕吹得越遠。


想要提升語文能力,不論是學哪一種語言,寫作練習都是不二法門,但是批改作文也是語文教師的苦差事。用電風扇當評分工具雖然是異想天開,但也反映出「用機器取代人力改作文」的想法。隨著語言資訊科技在近年間迅速發展,這個想法也逐漸成熟,結合了機器學習與文本分析、學習評量等不同領域,已經成為跨學門的新學問。


事實上,作文自動評分的研究始於1960年代美國學者佩吉(Ellis Batten Page)的作文評分計畫(Project Essay Grade, PEG),使用電腦分析作文的某些特徵,例如文章總字數、句子平均長度、字詞字母數量、句逗點及拼寫錯誤等,然後做迴歸分析,用電腦算出的表徵數據去預測人工評分結果。PEG雖然找出若干可以預測人工評分結果的表徵,但是機械式的句長、字數量化分析無法獲得廣泛認同,沒有立即實際應用於學校教學評量。


隨著資訊科技發展,後續的作文自動評分研究把電腦分析的範圍擴大。資訊檢索和自然語言處理的進展,使得作文表徵的分析可以多達300多項,兼顧內容和型式上的因素,加入了語意和篇章等分析向度。這些進步,讓作文自動評分逐漸取得各界的認同,在1990年代後期開始用來評量研究生管理科入學考試(GMAT)的分析寫作和托福(TOEFL)的電腦作文考卷。某種程度上,作文自動評分已經達到目的,電腦可以模擬出人工評分的表現,節省不少人力。


不過,作文自動評分系統如果只著眼在精準評分,雖然有助於減輕教師批改作文的工作負擔,但是對學習者的幫助非常有限。作文閱卷除了要評定學生的寫作能力優劣之外,逐字逐句圈點文辭是否運用得宜、又該如何潤飾,這些具體的回饋對學習者更為重要。


如何與傳統的寫作教學結合,把系統融入到學習者的學習過程,是新一代自動評分系統發展的重點之一。國外例如劍橋英語、培生等機構與出版社,都推出自己的線上寫作課程:學員按照指定題目在線上遞交作文,幾秒鐘後自動評分系統就能完成批改;除了成績,評分系統更能圈出文法錯誤,逐字逐句提出修改建議。自動評分系統能夠做出這種回饋,有賴於近年來語料庫語言學的研究成果,提供自動評分系統更多的參考資訊。舉例來說,會把“learn”與“knowledge”一起使用,只會出現在學習者語料庫,而不會出現在英語母語使用者的文章。母語和學習者語料庫的對比研究提供了重要的資訊,讓自動評分系統可以針對每個學員提供個別建議。


在資訊爆炸時代,作文自動評分系統所面對的已經不是資訊量不足的問題,反而是如何篩選出適量有效的資料。目前線上寫作課程往往以漁翁撒網的概念來運作,給初級程度學員的作文很多超過他們所能理解的修改意見。看來是應有盡有,但實際上可能只是一場熱鬧,對提升寫作能力沒有幫助。如何針對不同程度的作文能力去篩選出有效的建議,涉及到不同程度、甚至不同母語學習者的寫作表徵研究,這也是目前熱門的研究題目。