有三種方法可供選擇:算術平均值、中位數和眾數(本章介紹的是算術平均值,下一章講介紹中位數與眾數)。如果是從樣本中得到的測量值,即為統計量。如果是從總體中得到的測量值,即為參數。(為了區別樣本值和總體值的不同,羅馬字符用于表示樣本統計量,而希臘字符用于表示總體參數)。
算術平均值:平均值可以通過對各個不同的數值的計算得出來,即用各個數的和除以數值的個數可以得到答案。
對于一組簡單的樣本數據X1,X2,X3,…,Xn,樣本的算術均值可以這樣表示:
為了更好的理解樣本均值的概念,不妨和個人生活常識結合起來考慮。很多人會困惑,為什么早上準備去工作的這段時間總是比期望的要長一些,但是很少有人真正的測量過他們早上實際所花費在準備階段的時間。假定你把從起床到離開家的這段時間以分鐘來計時(四舍五入到最接近的分鐘數)。你連續的在10個工作日測量,得到如下數據:
為了要算出時間均值,首先要得出所有數值的和是多少,39+29+43+52+39+44+40+31+44+35=396。然后將其值3%除以個數10,得到39.6,這就是所求的時間均值。
雖然時間的均值是39.6,但這并不意味著在一個單獨的樣本里,值也正好是39.6。而它只是表達出樣本值的集中趨勢的屬性而已,均值的計算也是基于所有樣本值而得到的。
注意:當使用算術平均值的時候,由于計算基于每個具體的數據的值,均值會被某個極端的特殊的值影響。當出現這種情況時,均值就無法正確反映數據的真實情況。因此,在這種有特殊值的情況下,均值就不是反映數據集合的集中趨勢的最佳方法。
為了驗證極端值對數據的集中趨勢的影響,我們假定把上例中的時間的最大值52換成98,則均值可以這樣算出:
大家可以發現一個極端值可以讓均值變化的如此之大。和原先的數據相比,我們發現前例的均值是處在所有數據值之間的,而后例中的均值則比除了一個極端值以外其他9個值都要大。因此,均值對于表示數據的集中趨勢并不是一個非常好的方法。
上一篇:繪制品質數據的圖形
下一篇:中位數與眾數的測量計算方法