標籤:概率

方差是各個數據與平均數之差的平方和的平均數。在概率論和數理統計中,方差(英文Variance)用來度量隨機變數和其數學期望(即均值)之間的偏離程度。在許多實際問題中,研究隨機變數和均值之間的偏離程度有著很重要的意義。

1概述

如下面的例子:
已知某零件的真實長度為a,現用甲、乙兩台儀器各測量10次,將測量結果X用坐標上的點表示如圖:
甲儀器測量結果:
方差
乙儀器測量結果:
方差
兩台儀器的測量結果的均值都是 a 。但是用上述結果評價一下兩台儀器的優劣,很明顯,我們會認為乙儀器的性能更好,因為乙儀器的測量結果集中在均值附近。
由此可見,研究隨機變數與其均值的偏離程度是十分必要的。那麼,用怎樣的量去度量這個偏離程度呢?容易看到E[|X-E[X]|]能度量隨機變數與其均值E(X)的偏離程度. 但由於上式帶有絕對值,運算不方便,通常用量E[(X-E[X])^2] 這一數字特徵就是方差。一般在計算式用下面公式進行計算
D(X)=E(X^2)-[E(X)]^2

2公式

方差

  方差

方差是實際值與期望值之差平方的期望值,而標準差是方差算術平方根。 在實際計算中,我們用以下公式計算方差。
方差是各個數據與平均數之差的平方的平均數,即s^2=(1/n)[(x1-x_)^2+(x2-x_)^2+...+(xn-x_)^2],其中,x_表示樣本的平均數,n表示樣本的數量,xn表示個體,而s^2就表示方差。
而當用(1/n)[(x1-x_)^2+(x2-x_)^2+...+(xn-x_)^2]作為樣本X的方差的估計時,發現其數學期望並不是X的方差,而是X方差的(n-1)/n倍,[1/(n-1)][(x1-x_)^2+(x2-x_)^2+...+(xn-x_)^2]的數學期望才是X的方差,用它作為X的方差的估計具有「無偏性」,所以我們總是用[1/(n-1)]∑(xi-X~)^2來估計X的方差,並且把它叫做「樣本方差」。
方差,通俗點講,就是和中心偏離的程度!用來衡量一批數據的波動大小(即這批數據偏離平均數的大小)並把它叫做這組數據的方差。記作S^2;。 在樣本容量相同的情況下,方差越大,說明數據的波動越大,越不穩定。

3定義

數據波動
當數據分佈比較分散(即數據在平均數附近波動較大)時,各個數據與平均數的差的平方和較大,方差就較大;當數據分佈比較集中時,各個數據與平均數的差的平方和較小。因此方差越大,數據的波動越大;方差越小,數據的波動就越小。

4計算

由定義知,方差是隨機變數 X 的函數
g(X)=∑[X-E(X)]^2 pi
數學期望。即:
方差
由方差的定義可以得到以下常用計算公式:
D(X)=∑xi²pi-E(x)²
D(X)=∑(xi²pi+E(X)²pi-2xipiE(X))
=∑xi²pi+∑E(X)²pi-2E(X)∑xipi
=∑xi²pi+E(X)²-2E(X)²
=∑xi²pi-E(x)²
方差其實就是標準差的平方。

5重要性質

周期方差曲線

  周期方差曲線

(1)設c是常數,則D(c)=0。
(2)設X是隨機變數,c是常數,則有D(cX)=(c^2)D(X)。
(3)設 X 與 Y 是兩個隨機變數,則
D(X+Y)= D(X)+D(Y)+2E{[X-E(X)][Y-E(Y)]}
特別的,當X,Y是兩個相互獨立的隨機變數,上式中右邊第三項為0(常見協方差),
則D(X+Y)=D(X)+D(Y)。此性質可以推廣到有限多個相互獨立的隨機變數之和的情況。
(4)D(X)=0的充分必要條件是X以概率為1取常數值c,即P{X=c}=1,其中E(X)=c。
(5)D(aX+bY)=a^2DX+b^2DY+2abE{[X-E(X)][Y-E(Y)]}。

6隨機變數

期望和方差求解公式
半方差圖

  半方差圖

隨機變數X。
X服從(0—1)分佈,則E(X)=p D(X)=p(1-p)
X服從泊松分佈,即X~ π(λ),則 E(X)= λ,D(X)= λ
X服從均勻分佈,即X~U(a,b),則E(X)=(a+b)/2, D(X)=(b-a)^2/12
X服從指數分佈,即X~e(λ), E(X)= 1/λ,D(X)= 1/λ^2
X服從二項分佈,即X~B(n,p),則E(x)=np, D(X)=np(1-p)
X 服從正態分佈,即X~N(μ,σ^2), 則E(x)=μ, D(X)=σ^2
X 服從標準正態分佈,即X~N(0,1), 則E(x)=0, D(X)=1
隨機變數求方差的通用公式,即D(X)=E(X^2)-[E(X)]^2

7統計學

高考實例
(甘肅省,2002年)某校初三年級甲、乙兩班舉行電腦漢字輸入速度比賽,兩個班參加比賽的學生每分鐘輸入漢字的個數,經統計和計算后結果如下表所示:
班級
參加人數
平均字數
中位數
方差
55
135
149
191
55
135
151
110
有一位同學根據上表得出如下結論:
①甲、乙兩班學生的平均水平相同
②乙班優秀的人數比甲班優秀的人數多(每分鐘輸入漢字達150個以上為優秀)
③甲班學生比賽成績的波動比乙班學生比賽成績的波動大.上述結論正確的是________(填序號)。
解:填①、②、③,
解:甲乙的平均數相同,所以①甲、乙兩班學生的平均水平相同.根據中位數可知乙的中位數大,所以②乙班優秀的人數比甲班優秀的人數多。根據方差數據可知,方差越大波動越大,反之越小,所以甲班學生比賽成績的波動比乙班學生比賽成績的波動大。
故填:①②③.
點評:本題考查統計知識中的中位數、平均數和方差的意義。要知道平均數和中位數反映的是數據的集中趨勢,方差反映的是離散程度。

8切比雪夫

切比雪夫(Chebyshev)不等式
方差函數模型

  方差函數模型

對於任一隨機變數X ,若EX與DX均存在,則對任意ε>0,
恆有P{|X-EX|>=ε}<=DX/ε^2或P{|X-EX|<ε}>=1-DX/ε^2
切比雪夫的不等式說明,DX越小,則 P{|X-EX|>=ε}
越小,P{|X-EX|<ε}越大, 也就是說,隨機變數X取值基本上集中在EX附近,這進一步說明了方差的意義。
同時當EX和DX已知時,切比雪夫不等式給出了概率P{|X-EX|>=ε}的一個上界,該上界並不涉及隨機變數X的具體概率分佈,而只與其方差DX和ε有關,因此,切比雪夫不等式在理論和實際中都有相當廣泛的應用。需要指出的是,雖然切比雪夫不等式應用廣泛,但在一個具體問題中,由它給出的概率上界通常比較保守。
切比雪夫不等式是指在任何數據集中,與平均數超過K倍標準差的數據占的比例至多是1/K^2。
在概率論中,切比雪夫不等式顯示了隨機變數的「幾乎所有」值都會「接近」平均。這個不等式以數量化這方式來描述,究竟「幾乎所有」是多少,「接近」又有多接近:
與平均相差2個標準差的值,數目不多於1/4
與平均相差3個標準差的值,數目不多於1/9
與平均相差4個標準差的值,數目不多於1/16
……
與平均相差k個標準差的值,數目不多於1/K^2
舉例說,若一班有36個學生,而在一次考試中,平均分是80分,標準差是10分,我們便可得出結論:少於50分(與平均相差3個標準差以上)的人,數目不多於4個(=36*1/9)。
極差與方差
極差不能用作比較,單位不同 ; 方差能用作比較, 因為都是個比率
上一篇[《我不夠愛你》]    下一篇 [代你發夢]

相關評論

同義詞:暫無同義詞