馬蹄下的統計學-科學人雜誌 Back to Top
教科書之外

馬蹄下的統計學

2022-02-01 陳文盛
正確問題的大致答案比大致問題的正確答案有價值得多。—圖基(John Tukey,美國統計學家)


卜瓦松分佈(Poisson distribution,又譯帕松分佈)是我分子生物學研究生涯中,處理實驗數據時最常用、也最喜歡用的統計工具。它是二項分佈處理罕見事件的特殊情形,亦即樣本的數目趨向無窮大,事件發生的機率趨向無窮小。在這情況下,二項分佈就可簡化成卜瓦松分佈Pn=mn×e-m/n!(e是自然常數)。當事件發生的平均值(期望值)是m次時,發生n次的機率(Pn)可以用這公式算出來。把卜瓦松分佈用在樣本很多和機率很小的事件,雖然得到的結果只是近似值,但還是很方便。它只有m和n兩個變數,不像二項分佈有三個變數。


卜瓦松分佈是1837年法國數學家卜瓦松(Simeon Poisson)在他所著的《司法機率的研究》書中首先提出,但是後來似乎就淡忘,一直到1898年俄國的波特齊耶維契(Ladislaus Bortkiewicz)出版專書討論,並且實際運用它。波特齊耶維契用卜瓦松分佈分析20年間普魯士軍隊14個軍團每年被馬意外踢死士兵的統計資料。他算出每軍團每年平均發生的次數是0.7(m),他把這平均數帶入卜瓦松分佈,計算出每年期望發生0,1,2...(n)次事件的軍團的分佈,結果很吻合實際的統計數字。1943年分子生物學的啟蒙期間,盧瑞亞(Salvador Luria)和戴爾布魯克(Max Delbruck)發表了一篇重要論文,顯示細菌和動植物一樣有基因,也會突變。他們在試管中分批培養細菌,再用噬菌體感染,結果各試管中出現抗噬菌體的菌株數目差異很大,從零到數百株,顯然這些細菌在各試管中繁殖的過程中就發生突變,早發生的就繁殖到數百突變株;晚發生的就只繁殖到幾株;沒發生的就零株。顯然抗性不是細菌接觸到噬菌體才發生的適應;如果是的話,各試管出現抗性株的數目應該差不多。


戴爾布魯克在撰寫論文時注意到,沒有出現抗性株突變的試管不就相當於卜瓦松分佈的n=0嗎?當n=0,P0=(m0×e-m)/0!=e-m。他計數87根試管中有29根沒有抗性株出現,所以P0=0.33。他藉此計算出m=-ln(0.33)=1.1,也就是每根試管中的細菌平均發生了1.1次突變。戴爾布魯克再根據試管中繁殖的細菌數目,算出抗性突變的速率。


這個插曲凸顯出物理學家戴爾布魯克的數學涵養深厚,能夠在實驗數據中發掘出醫生出身的盧瑞亞所忽略的奧秘。卜瓦松分佈從此成為分子生物學論文的常客。分子生物學常常處理族群很大,但是發生機率很低的事件,例如基因的突變和重組、病毒感染、神經元激發、放射性衰退,都適用卜瓦松分佈來分析。


卜瓦松分佈有一個很方便的特徵:它的平均值就是變異數,再開平方就是標準差。我攻讀博士時,曾用閃爍計數儀測量DNA樣本的放射線,一分鐘測量到四次游離事件。依照卜瓦松分佈,標準差是兩次、變異係數50%,太大了。指導教授就教我測量100分鐘,得到412次,卜瓦松分佈估計的標準差是20.3次,變異係數降到可接受的5%以下。那是我首次接觸卜瓦松分佈。


不要只在教科書上讀卜瓦松分佈。每月發票中獎的次數、網站每小時訪客人次等都用得上。實際生活中探索它的本事,會結交一位「0.37」的數字熟友。


更多文章
活動推薦更多
追蹤科學人