不可勝數

談中位數

- 統計應用至實務時,與其在乎小細節,還不如盡量設法降低各種誤差。

撰文/黃文璋

不可勝數

談中位數

- 統計應用至實務時,與其在乎小細節,還不如盡量設法降低各種誤差。

撰文/黃文璋


某高中的一年級有10幾班,入學後第一次月考完,評比各班某科的成績。各班的分數全攤開來,互有高低,看不出所以然。如何比呢?依各班該科的平均成績來定優劣,是常用的方法。人們常想以一個單一的值,來代表一組數據,採用的便是平均數。平均數有一些優點,包含意義明確,以及計算容易等。


以平均數來充當一組數據的代表值,並非總是恰當。職業球隊、球員的薪資差異往往很大;每隊總會有一兩位超級好手,薪資令人仰之彌高,但大多數球員的薪資都不太高。這時,平均薪資常被少數天價球員大幅拉高;外界覺得打球待遇真好,不少球員卻只能苦笑。當數據中有很極端的值時,平均數便不見得是適合的代表值了。這時,中位數常是代表值的另一選項。


中位數如何定義?九年一貫數學課綱說:中位數是把數據排序後,前後各切一半的中間位置數值。這樣的定義符合我們的直觀,但依此定義,學生在求中位數時,時常有一些困惑。例如,有數據1, 2, 3, 4, 5,中間位置為3,但如何前後各切一半?又如對於數據1, 2, 3, 4, 5, 6,前後各切一半,有一半是1, 2, 3,另一半是4, 5, 6,但中間位置是哪一個?3.5嗎?中位數不必是數據中的某一數?看來前述定義不算周詳。


另一種常見的定義,是把所有數據由小排到大,若有奇數個數據,則正中間數值就是中位數;若有偶數個數據,則取最中間那兩數值的平均當做中位數。還有一種常見的中位數定義,此定義所決定的中位數,為數據中的某一數。在數據中,若某值的之前及之後皆至少各有50%個,則該值便為此組數據的中位數。注意!這裡的之前及之後,都包含某值;本定義是依循百分位數的定義而來。


我們來重新檢視前述兩筆數據。對1, 2, 3, 4, 5,顯然3為中位數,因為在3之前及之後,各有三個數,都佔60%,即皆至少各有50%。其次對1, 2, 3, 4, 5, 6,因為在3之前及之後,各有三個及四個數,分別佔1/2及2/3,皆至少有50%;同理,4也是中位數。此筆數據有兩個中位數,有時為了簡便,取二數值的平均3.5,當做中位數。平均數有時與中位數很接近,甚至是同一值,例如數據1, 2, 3, 4,5的平均數與中位數都是3。至於對1, 2, 3, 4, 500,平均數為102。那一個特別大的數500,讓平均數增大不少,但中位數仍為3,並不受5變成500的影響。


有人可能覺得統計果真麻煩。既然稱做中位數,不就該是位居中間,前後各半,簡單明瞭。如今居然說這樣的定義窒礙難行,提出不只一種定義,其中一種改為前後都「至少」各半,而且還不必位居中間。但是修正的定義看起來確實較合理,究竟是怎麼回事?曾有學者指出「統計只適合處理大量數據」,試圖以此消弭統計可能引起的一些爭議。但這講法並不正確,因為即使很少量的數據,求平均數也毫無問題,因此統計絕非只適合處理大量數據。而有些民調被認為結果不可靠,關鍵也並不在於樣本數的多寡。


這樣說好了,數學要求明確、放諸四海皆準。在數學課程裡有爭議的中位數定義,於實務中往往沒什麼問題。以美國職棒大聯盟(MLB)2015年球員的年薪來說,有報導說中位數是470萬美元。為什麼精確度只給到10萬?這是因為實際收入可能包含績效獎金等,且薪水涉及隱私,數據不見得都能一一掌握。由於球員年薪的原始數據便可能有所缺漏,這時太在乎細節,就不是那麼必要,以免見樹不見林。因此是否真的有一個中間位置、是否真的能前後各切一半,何必太在意?只要是差不多在中間的數值,讓人對球員年薪落在哪裡略有概念就行了。