標籤:概率論

數理統計學的一個分支。如果在一個統計問題中,其總體分佈不能用有限個實參數來刻畫,只能對它作一些諸如分佈連續、有密度、具有某階矩等一般性的假定,則稱之為非參數統計問題。

1舉例說明

例如,檢驗「兩個總體有相同分佈」這個假設,若假定兩總體的分佈分別為正態分佈N(μ1,σ2)和N(μ2,σ2),則問題只涉及三個實參數μ1,μ2,σ2,這是參數統計問題。若只假定兩總體的分佈為連續,此外一無所知,問題涉及的分佈不能用有限個實參數刻畫,則這是非參數統計問題。又如,估計總體分佈的期望μ,若假定總體分佈為正態 N(μ,σ2),則問題是參數性的;若只假定總體分佈的期望值存在,則問題是非參數性的。不過參數統計與非參數統計之間並沒有涇渭分明的界線。

2例外

有的統計問題,從不同的角度,可以理解為參數性的,也可以理解為非參數性的。例如線性回歸(見回歸分析)問題,若關心的是估計回歸係數,它只是有限個實參數,因而可以看成是參數性的。但是,如果對隨機誤差的分佈類型沒有作任何假定,則從問題的總體分佈這個角度看,也可以看成是非參數性的。

3統計方法

重要的非參數統計方法秩方法是基於秩統計量(見統計量)的一類重要的非參數統計方法。設有樣本X1,X2,…,Xn,把它們由小到大排列,若Xi在這個次序中占第Ri個位置(最小的占第1個位置),則稱Xi的秩為Ri(i=1,2,…,n)。1945年F.威爾科克森提出的"兩樣本秩和檢驗"是一個有代表性的例子。設X1,X2,…,Xm和Y1,Y2,…,Yn分別是從分佈為 F(x)和 F(x-θ)的總體中抽出的樣本,F連續但未知,θ也未知,檢驗假設 H:θ=0,備擇假設為θ>0(見假設檢驗)。記Yi在混合樣本(X1,X2,…,Xm,Y1,Y2,…,Yn)中的秩為Ri,且為諸秩的和,當W >C時,否定假設H,這裡C決定於檢驗的水平。這是一個性能良好的檢驗。秩方法的一個早期結果是C.斯皮爾曼於1904年提出的秩相關係數。設(X1,Y1),(X2,Y2),…,(Xn,Yn)是從二維總體(X,Y)中抽出的樣本,Ri為Xi在(X1,X2,…,Xn)中的秩,Qi為Yi在(Y1,Y2,…,Yn)中的秩,定義秩相關係數為(Ri,Qi)(i=1,2,…n)的通常的相關係數(見相關分析)。它可以作為X、Y之間相關程度的度量,也可用於檢驗關於X、Y獨立性的假設。
次序統計量和U 統計量在非參數統計中也有重要應用。前者可用於估計總體分佈的分位數(見概率分佈)、檢驗兩總體有相同的分佈及構造連續總體分佈的容忍限和容忍區間(見區間估計)等。後者主要用於構造總體分佈的數字特徵的一致最小方差無偏估計(見點估計)及基於這種估計的假設檢驗。
蘇聯數學家Α.Η.柯爾莫哥洛夫和Β.И.斯米爾諾夫在20世紀30年代的工作開闢了非參數統計的一個方面,他們的方法基於樣本X1,X2,…,Xn的經驗分佈函數Fn(x)(見樣本)。柯爾莫哥洛夫考察 Fn(x)與理論分佈F(x)的最大偏差墹n,當墹n超過一定限度時,否定這個理論分佈F(x)。這就是柯爾莫哥洛夫檢驗。斯米爾諾夫則考察由兩個分佈為F(x)和g(x)的總體中抽出的樣本X1,X2,…,Xm和Y1,Y2,…,Yn計算其經驗分佈Fm(x)和gn(x)的最大偏差墹mn,當墹mn超過一定限度時,否定「F與g相等」這個假設。這就是斯米爾諾夫檢驗。
在非參數性估計方面,有關於估計分佈的對稱中心、概率密度函數和回歸函數等比較重要的成果。

4基本特點

非參數統計的特點  非參數統計問題中對總體分佈的假定要求的條件很寬,因而針對這種問題而構造的非參數統計方法,不致因為對總體分佈的假定不當而導致重大錯誤,所以它往往有較好的穩健性(見穩健統計),這是一個重要特點。但因為非參數統計方法需要照顧範圍很廣的分佈,在某些情況下會導致其效率的降低。不過,近代理論證明了:一些重要的非參數統計方法,當與相應的參數方法比較時,即使在最有利於後者的情況下,效率上的損失也很小。
由於非參數統計中對分佈假定要求的條件寬,因而大樣本理論(見大樣本統計)佔據了主導地位。第二次世界大戰前,非參數統計的大樣本理論已有了一些結果,從20世紀50年代直到現代,更有了顯著的進展,尤其是關於秩統計量與U 統計量的大樣本理論,及基於這種理論的大樣本非參數方法,研究成果很多。

5適用範圍

非參數統計最常用於具備下述特徵的情況:
1、待分析數據不滿足參數檢驗所要求的假定,因而無法應用參數檢驗。例如,我們曾遇到過的非正態總體小樣本,在t-檢驗法也不適用時,作為替代方法,就可以採用非參數檢驗。
2、僅由一些等級構成的數據,不能應用參數檢驗。例如,消費者可能被問及對幾種不同商標的飲料的喜歡程度,雖然,他們不能對每種商標都指定一個數字來表示他們對該商標的喜歡程度,卻能將幾種商標按喜歡的順序分成等級。這種情形也宜採用非參數檢驗。
3、所提的問題中並不包含參數,也不能用參數檢驗。例如,我們想判斷一個樣本是否為隨機樣本,採用非參數檢驗法就是適當的。
4、當我們需要迅速得出結果時,也可以不用參數統計方法而用非參數統計方法來達到目的。一般說來,非參數統計方法所要求的計算與參數統計方法相比,完成起來既快且易。有些非參數統計方法的計算,就算對統計學知識不熟練的人,也能在收集數據時及時予以完成。

6相對優點

非參數統計與傳統的參數統計相比,有以下優點:
1、非參數統計方法要求的假定條件比較少,因而它的適用範圍比較廣泛。
2、多數非參數統計方法要求的運算比較簡單,可以迅速完成計算取得結果,因而比較節約時間。
3、大多數非參數統計方法在直觀上比較容易理解,不需要太多的數學基礎知識和統計學知識。
4、大多數非參數統計方法可用來分析如象由等級構成的數據資料,而對計量水準較低的數據資料,參數統計方法卻不適用。
5、當推論多達3個以上時,非參數統計方法尤具優越性。

7相對缺點

非參數統計方法也有以下缺點:
1、由於方法簡單,用的計量水準較低,因此,如果能與參數統計方法同時使用時,就不如參數統計方法敏感。若為追求簡單而使用非參數統計方法,其檢驗功效就要差些。這就是說,在給定的顯著性水平下進行檢驗時,非參數統計方法與參數統計方法相比,第Ⅱ類錯誤的概率β要大些。
2、對於大樣本,如不採用適當的近似,計算可能變得十分複雜。

8相關圖書

圖書簡介
本書是非參數統計教材,內容從經典非參數統計推斷到現代前沿,包括R基礎、基本概念、單一樣本的推斷問題、兩獨立樣本數據的位置和尺度推斷、多組數據位置推斷、分類數據的關聯分析、秩相關和分位數回歸、非參數密度估計、一元非參數回歸和數據挖掘與機器學習共計10章. 本書配有大量與社會、經濟、金融、生物等專業相關的例題和習題,給出示範解答過程,方便自學.
本書可以作為高等院校統計、經濟、金融、管理專業的本科生課程的教材,也可以作為其他相關專業研究生的教材和教學參考書,另外,對廣大從事與統計相關工作的實際工作者也極具參考價值.

目錄

第1章
基本概念和操作
環境
常量
算術運算
賦值
向量的生成和基本操作
向量的生成
向量的基本操作
向量的運算
向量的邏輯運算
高級數據結構
矩陣的操作和運算
數組
數據框
列表
數據處理
保存數據
讀入數據
數據轉換
編寫程序
循環和控制
函數
基本統計計算
抽樣
統計分布圖形功能
函數
多圖顯示
幫助和包
習題
第2章
基本概念
非參數統計概念與產生
假設檢驗回顧
經驗分佈和分佈探索
經驗分佈
生存函數
檢驗的相對效率
分位數和非參數估計
秩檢驗統計量
統計量
習題
第3章
單一樣本的推斷問題
符號檢驗和分位數推斷
基本概念
大樣本計算
符號檢驗在配對樣本比較中的應用
分位數檢驗------符號檢驗的推廣趨勢存在性檢驗
隨機遊程檢驗
符號秩檢驗
基本概念
符號秩檢驗和抽樣分佈
單組數據的位置參數置信區間估計
順序統計量位置參數置信區間估計
基於方差估計法的位置參數置信區間估計
正態記分檢驗
分佈的一致性檢驗
擬合優度檢驗
正態性檢驗
正態分佈檢驗
單一總體漸近相對效率比較
習題
第4章
兩獨立樣本數據的位置和尺度推斷中位數檢驗
秩和檢驗
方差檢驗
方差檢驗
習題
第5章
多組數據位置推斷
試驗設計和方差分析的基本概念回顧
單因素方差分析
檢驗
秩方差分析法
隨機區組數據的調整秩和檢驗
檢驗
不完全區組分析法
習題
第6章
分類數據的關聯分析
s$列聯表和$\chi^2$獨立性檢驗
齊性檢驗
精確性檢驗檢驗
關聯規則
關聯規則基本概念
演算法
檢驗法
對數線性模型
對數線性模型的基本概念
模型的設計矩陣
模型的估計和檢驗
高維對數線性模型和獨立性
習題
第7章
秩相關和分位數回歸
秩相關檢驗
相關檢驗
多變數
協和係數檢驗
一致性檢驗
中位數回歸係數估計法
線性分位回歸模型
習題
第8章
非參數密度估計
直方圖密度估計
核密度估計
核函數的基本概念
貝葉斯決策和非參數密度估計
習題
第9章
一元非參數回歸
核回歸光滑模型
局部多項式回歸
局部線性回歸
局部多項式回歸的基本原理
穩健回歸
近鄰回歸
正交序列回歸
罰最小二乘法
習題
第10章
數據挖掘與機器學習
分類一般問題
回歸模型
回歸模型的極大似然估計}
回歸和線性判別函數LDA
決策樹
決策樹基本概念
決策樹的剪枝
回歸樹
決策樹的特點
演算法
支持向量機
最大邊距分類
支持向量機問題的求解
支持向量機的核方法
隨機森林樹
隨機森林樹演算法的定義
隨機森林樹演算法的性質
如何確定隨機森林樹演算法中樹的節點分裂變數
隨機森林樹的回歸演算法
有關隨機森林樹演算法的一些評價
多元自適應回歸樣條的一些性質}
附錄
參考文獻

相關評論

同義詞:暫無同義詞