教科書之外

因與果的迷思

野牛沒有大家想像得那麼危險。統計告訴我們,被汽車撞死的美國人比被野牛撞死的還多。——包可華(Art Buchwald,美國幽默專欄作家)

撰文/、插畫/陳文盛

教科書之外

因與果的迷思

野牛沒有大家想像得那麼危險。統計告訴我們,被汽車撞死的美國人比被野牛撞死的還多。——包可華(Art Buchwald,美國幽默專欄作家)

撰文/、插畫/陳文盛

(吸菸害人害己)


我很久沒抽菸了。年少輕狂的我常抽菸:打牌、聊天、撞球,甚至聽演講時(即使被旁人討厭)。


那個年代,菸是很多國家的軍隊配給品,雖然菸和疾病間的關聯已經顯現並受到重視。紙菸開始盛行的20世紀初,肺癌很少見。接下來半個世紀,肺癌患者人數急速爬升,大家開始懷疑和紙菸的流行有關。1950年多爾(Richard Doll)和希爾(Bradford Hill)在《英國醫學期刊》發表一篇經典論文,從統計數據提出肺癌與紙菸之間有顯著的相關性。此後世界各地開始出現類似的研究報告。從這些數據看來,吸菸的人罹患肺癌的比率明顯高於不吸菸的人,而且和累積的吸菸量有關。


一般民眾看了這些報導,很可能就認為吸菸顯然會導致肺癌,但是從嚴格的科學角度卻不能這樣說,因為統計的相關性不代表因果關係。兩項變數有因果關係,是說一項變數(果)是另一項變數(因)所引起的。統計學可以建立變數相關性的強度,但是無法肯定它們是否具有因果關係,更別說何者是因、何者是果。


有些統計相關性是間接的。兩個變數會呈現相關性,是因為它們分別和第三個變數掛鉤。例如統計顯示冰淇淋的銷售量和中暑人數強烈相關,一起升一起降。我們不會說吃冰淇淋會造成中暑吧?我們知道這兩個變數都是隨著氣溫升降,氣溫才是兩者共同的「因」。


同樣地,我們也可以推脫說吸菸和肺癌的相關性是出於一個隱藏的變數。統計學兼遺傳學家費雪(Ronald Fisher)就曾提出:或許有些人的體質容易罹患肺癌,也讓他們喜歡抽菸,所以肺癌可能不是抽菸導致的。要測試這個假設極度困難,必須隨機取樣,不顧個人意願強迫一群人抽菸、另一群人不抽菸,然後比較這兩群人的肺癌發生率。這種干涉性的人體實驗在現代社會應該是違法的。此外,肺癌的發生機制很複雜,除了個人內在的遺傳因素,外在的空氣品質也很重要。有些人抽了一輩子的菸也沒得肺癌,有些人沒抽菸卻中標。


吸菸與肺癌之間的因果關係,最終是建立於很多實驗與臨床觀察。化學分析證實,燃燒菸草會產生很多致癌化合物,吸越多菸,你就暴露在越多的致癌物質中,罹患肺癌(或其他癌症)的機率當然就越高。


再舉些隱藏變數的例子:統計數據顯示,多喝酒的人肺癌發生率也比較高。這可不是說喝酒會導致肺癌,是因為抽菸的族群喝酒者的比例較不抽菸的族群高,喝酒的族群抽菸者的比例也較不喝酒的族群高(所謂「菸酒不離」)。更弔詭的例子是,某處高山空氣清新,居民長年飲食清淡,但癌症發生率卻高於全民平均值。難道清新空氣和清淡飲食反而容易致癌?不,真正的原因是這些居民比較長壽,而年紀是罹癌的最大風險因子。


有些變數的相關性很強,但方向性很難判斷。例如統計顯示,結婚的人比單身的人快樂。那到底是結婚讓人比較快樂,或者快樂的人比較喜歡或容易結婚?這很難釐清,我們也無法做控制性的對照實驗。


更麻煩的是,有時候統計的過程或結果本身會影響所研究的變數。最常見的是政治民調,調查結果常常會影響所調查的變數。觀測行為本身會影響被觀測者的狀態,這不就好像量子力學的「不確定性原理」?