編輯推薦

p值,顯著有問題

2020-02-01 丹維斯(Lydia Denworth)
學者大力呼籲改革通用的統計方法,會為科學帶來改變嗎?


英國遺傳學家兼統計學家費雪(Ronald Fisher)在1925年出版《研究工作者的統計方法》,書名看起來沒有成為暢銷書的魅力,不過此書大賣,從此確立了費雪現代統計學之父的地位。費雪在這本書中探討研究人員該如何把統計檢定應用到數值資料,來得出結論並判斷實驗是否值得進行下去。他提到一種統計檢定方法,能總結資料與所提出模型的相容性,並產生p值。他建議研究人員把p<0.05當成實用標準:「要判斷研究結果的差異是否顯著,以這一點當做門檻很方便。」他還建議繼續那些p<0.05的實驗,不要花時間在p>0.05的實驗上。由此就誕生了這個概念:p<0.05等同於所謂的統計顯著性(statistical significance),這是實驗結果「有意義」(significant)的數學定義。


將近一個世紀後,在許多科學領域中p<0.05成為判斷實驗價值的最高標準,它為學術工作中不可或缺的經費補助與論文發表鋪了路,成為大多數科學結論發表的基礎。然而連費雪也了解,統計顯著性及p值有非常大的局限。大部份的局限已在幾十年間逐漸受到科學界認同,心理學家密爾(Paul Meehl)在1978年寫道:「科學研究過度仰賴顯著性檢定很糟糕。」p值經常遭曲解,而且統計顯著性與實驗有意義並不是同一回事。此外在許多實驗中,研究人員都可能在有意無意間,因使用不同檢定方法而得出不同的p值。統計學家兼流行病學家格林蘭(Sander Greenland)說:「像大家常說的,你可以用統計證明任何一件事。」他是美國加州大學洛杉磯分校榮譽教授,也是呼籲改革的主要人士。研究人員若只仰賴實驗結果是否具有統計顯著性,通常會得出不正確的推論,把錯的結果解釋成對的、對的結果解釋成錯的。費雪退休後移居澳洲,有人問他生涯中是否有遺憾?據稱他厲聲說道:「真不該提到0.05。」


過去10年,關於統計顯著性的論戰越演越烈,其中一篇文章稱站不住腳的統計分析基礎為「科學界最卑劣的秘密」,另一篇則舉例說明顯著性檢定「深藏大量瑕疵」。實驗經濟學、生醫研究等領域深陷具爭議的再現性危機,心理學更是如此,大家發現很多已發表的研究結果無法再現。惡名昭彰的例子之一是某些姿勢能帶來自信的研究:研究人員聲稱,堅定自信的肢體語言不僅會改變態度,還會改變體內的激素濃度,這個聲稱是根據一篇論文,但後來遭其中一位作者駁斥。哥倫比亞大學統計學家吉爾曼(Andrew Gelman)在部落格寫道,有懷疑論者發表一篇談論氣候變遷經濟學的論文,「後來被糾出的錯誤幾乎和資料點一樣多,不騙你!但這些指正並沒有讓他改變原先的結論。」吉爾曼經常在部落格斥責做出劣質研究、且不願意承認當中有缺失的研究人員。他寫道:「嘿,要做純理論工作當然可以,但就不應該用數據轉移我們的注意力。」


統計顯著性這個概念雖然不是研究結果無法再現的唯一因素,但確實是這個問題當中很明顯的環節。過去三年有上百位研究人員大力呼籲改革,並在頗具聲望的期刊上發表文章或連署,主張重新定義或完全捨棄統計顯著性。美國統計協會在2016年針對這個問題發佈強硬且不尋常的聲明,主張要「走向不使用p<0.05的世界」。協會常務理事華瑟斯坦(Ronald Wasserstein)說:「統計顯著性就像在手機交友軟體Tinder向右滑,只表示感興趣。但不幸的是科學界使用統計顯著性的方式並非如此。大家會說:『我達到0.05就好了。』研究就停住了。」


科學家的呼籲是否會帶來改變?南加州大學行為經濟學家班傑明(Daniel Benjamin)說:「沒有新鮮事。我們需要認清,或許這次還是會像以往一樣。」班傑明也是大聲疾呼改革的人士。儘管他們對於補救辦法莫衷一是,但有這麼多研究人員同意經濟學家齊利亞克(Stephen Ziliak)所言「目前的顯著性檢定、解釋、發表文化必須廢除」,著實引人關注。


p值要多小才夠?


科學研究的目的是描述自然界中的真實情況,科學家使用統計模型推論出某項事實,例如判定某種療法是否比另一種更有效、一組樣本是否與另一組不同。每個統計模型都依賴一組假設,關乎研究人員如何蒐集並分析資料,以及如何呈現研究結果。


大部份研究使用稱為「虛無假設顯著性檢定」的統計方法來產生p值,這種檢定方法並沒有正視事實,而是「斜著眼看」,因為顯著性檢定只表明某個研究方向值不值得繼續下去。班傑明表示:「我們進行實驗時想知道假設成立的可能性有多大,但顯著性檢定回答的是另一個更複雜的問題:如果我的假設是錯的,產生這些數據的可能性有多小?」


這種方法有時候行得通,尋找希格斯玻色子就是極端但有效的例子。物理學家在1960年代首次提出希格斯玻色子,在這個例子中,虛無假設是希格斯玻色子並不存在,對立假設是它一定存在。歐洲核子研究組織(CERN)大強子對撞機(LHC)的研究團隊進行了多次實驗,得出小到不能再小的p值,意味著如果希格斯玻色子不存在,這個研究結果的發生率是350萬分之一。這讓虛無假設站不住腳。接著他們再檢查一次,確定這個結果不是由誤差產生。格林蘭說:「這個結果在科學上如此重要,並在2013年獲得諾貝爾物理獎肯定,原因就是他們經歷千辛萬苦,確定如此小的值不是任一潛在問題所能產生的。這麼小的值說明,『缺少希格斯玻色子的粒子物理標準模型』不可能是對的,做到這個程度,結果非常清楚。」


但其他研究領域達不到物理學實驗的精準度,就像心理學試驗,研究結果的發生率永遠不可能是350萬分之一。p=0.05代表在多次試驗中,研究結果否定正確假設的機率達到1/20(常被誤認為試驗出錯的機率是5%)。正因如此,統計學家很久以前就提出「信賴區間」,來標示估計值的誤差大小或不準度。信賴區間在數學上跟p值有關,p值的範圍是0~1,從1扣掉0.05會得到0.95,即95%,也就是常用的信賴區間。信賴區間只能概括眾多效果量的假設檢定結果,格林蘭說:「並不代表我們對假設有信心。」但久而久之,p值和信賴區間的地位都更加穩固,給人絕對正確的錯覺。.....


# 關鍵字:編輯推薦
更多文章
活動推薦更多
追蹤科學人