標籤: 暫無標籤

1統計描述

它研究如何用科學的方法去搜集、整理、分析經濟和社會發展的實際數據,並通過統計所特有的統計指標和指標體系,表明所研究的社會經濟現象的規模、水平、速度、比例和效益,以反映社會經濟現象發展規律在一定時間、地點、條件下的作用,描述社會經濟現象數量之間的關係和變動規律,也是進一步學習其他相關學科的基礎。

2描述內容

主要包括平均指標和變異指標的計算、資料分佈形態(或特徵)的圖形表現等。

3統計功能

統計製圖
統計製圖的過程均可以實現對樣本分佈特徵的圖形表示,一般情況下可以使用的有chart過程、plot過程、gchart過程和gplot過程。大家有沒有發現前兩個和后兩個只有一個字母『g』(代表graph)的差別,其實它們之間(只差一個字母g的過程之間)的統計描述功能是相同的,區別僅在於繪製出的圖形的複雜和美觀程度。
chart過程和plot過程繪製的圖形類似於我們用文本字元堆積起來的圖形,只能概括地反映出資料分佈的大體形狀,實際上這兩個過程繪製的圖形並不能稱之為圖形,因為他根本就沒有涉及一般意義上圖形的任何一種元素(如顏色、解析度等)。
而gchart過程和gplot過程給出的是真正意義上的圖形,可以用很多的語句和選項來控制圖形的各方面的性質和特徵。
chart和gchart與plot和gplot的區別則體現在不同的作圖功能,前兩個過程可以繪製出的圖形主要有條形圖(包括橫條和豎條)、圓圖、環形圖和星形圖等,后兩個過程通常用一個記錄中的兩個變數值表示點的坐標來繪製圖形,如散點圖和線圖等。

4一般格式

summary
proc summary 選項列表;
by 變數名稱(分組變數);
class 變數名稱(分組變數);
freq變數名稱(數值變數,用以表示相應記錄出現的頻數)
output <out=數據集名> <統計量關鍵字=自定義變數名>
var 變數名稱(待分析的數值變數);
run;
summary過程的格式和means過程可以說是完全相同的,各條語句和選項的含義也是相同的,包括在means過程中未列出的output語句也可以應用於means過程,只是此語句在summary過程應用較多(這樣才能將分析結果顯示出來),所以才將其列入一般格式中。output語句用來對分析結果輸出為數據文件進行控制,其後的選項可有可無,若無則SAS按照默認方式進行。「out=數據集名」用來定義輸出數據文件的文件名稱,文件名的格式和數據步中數據文件名相同。「統計量關鍵字=自定義變數名」用來自定義輸出數據文件中各種統計量的變數名稱,前者是系統定義的(和proc語句后選項中的統計量關鍵字完全相同),必須正確無誤,後者可自行定義。默認狀態下輸出統計量只有頻數、均數、標準差、最大值和最小值,在默認狀態不能滿足需要時這一選項則是必需的。
tabulate
proc tabulate 選項列表;
by 變數名稱(分組變數);
class 變數名稱(分組變數);
freq變數名稱(數值變數,用以表示相應記錄出現的頻數)
<<頁變數表達式>,<行變數表達式>,<列變數表達式>></表格選項>
var 變數名稱(待分析的數值變數,統計量列入相應的表單元格);
run;
tabulate過程和上述幾個過程的格式也基本相似,相同的語句和選項也代表相同的含義。最大的不同也是tabulate過程中最為重要的是table語句,他用來定義表格的具體格式以及表格中所要包括的統計量。
gplot
proc gplot 選項列表;
bubble 散點圖表達式
bubble2 散點圖表達式
plot散點圖表達式
plot2散點圖表達式
run;
從gplot過程的一般格式中我們就可看出,此過程只能繪製兩種類型的圖形,bubble語句指示SAS繪製泡狀散點圖,plot語句指示SAS繪製點狀散點圖。bubble2語句和plot2語句指示SAS在同一區域內(bubble2和bubble在同一區域,plot2和plot在同一區域)繪製第二個圖形,兩者的橫坐標相同(同一變數),縱坐標分別位於左右兩側(可以是同一變數,也可以是兩個不同的變數)。
散點圖表達式的一般形式為:
(1)bubble和bubble2語句:縱坐標變數名*橫坐標變數名=泡尺寸變數名(變數值以泡的大小表示),三者均應為數值變數;
(2)plot和plot2語句:縱坐標變數名*橫坐標變數名<=n/分類變數名>,此處等號及其後的部分可以省略,此時SAS以默認的散點類型繪製散點圖;若等號後為n(n為正整數,是散點類型的編號),SAS則以指定的編號對應的散點類型繪製散點圖;若等號後為分類變數名(可為字元型或數值型,為數值型時作為離散型變數處理,每一個值將被當作一個類別),此變數的具體值(或與每個具體值對應的圖形)將被作為散點用來繪製散點圖。
chart過程和plot過程的一般格式及各選項使用方法分別與gchart過程和gplot過程是基本相同的,不同之處僅在於后兩者中涉及到有關三維和圖形元素(顏色等)的語句和選項在前兩者中是無效的。例如vbar3d語句在chart過程中無效,bubble語句在plot過程中無效。其餘的語句和選項使用方法完全相同,所以在掌握了gchart過程和gplot過程后,chart過程和plot過程你會不學自通。

5統計關鍵

SAS中可計算的描述性統計量多達二十餘種,大部分可在以上介紹的前四個過程中計算,個別統計量在某些過程中不能計算,大家需要注意,要不然系統顯示錯誤信息時還不知道是怎麼回事。
我經常遇到這種情況,系統提示錯誤(此類提示信息顯示在log窗口中)時總是摸不著頭腦,費半天勁才能搞明白。沒辦法,摸著石頭過河嘛!不過這樣也並非一無是處,最起碼可以積累很多使用經驗。
下表(表2.2)列出SAS中可以計算的所有描述性統計量關鍵字及其含義,供大家使用時參考。
表2.2 SAS中可以計算的描述性統計量關鍵字及其含義
關鍵字
所代表的含義
n
有效數據記錄數
nmiss
缺失數據記錄數
mean
均數
std
標準差
stderr
標準誤
var
方差
median
中位數
mode
眾數
cv
變異係數
max
最大值
min
最小值
range
全距
sum
總計
sumwgt
加權值總計
css
校正的離均差平方和
uss
未校正的離均差平方和
clm
可信限(上下界值)
lclm
可信限下側界值
uclm
可信限上側界值
skew(skewness)
偏度
kurt(kurtosis)
峰度
t
分佈位置假設檢驗之t統計量
probt
上述t統計量對應的概率值
q1
第一四分位數
q3
第三四分位數
qrange
四分位數間距
p1
第一百分位數
p5
第五百分位數
p10
第十百分位數
p90
第九十百分位數
p95
第九十五百分位數
p99
第九十九百分位數
下一篇[冰雪圈]

相關評論

同義詞:暫無同義詞