第二章
頻率分布表(圖)的用途
1、為了解定量變量的分布規律,可編制頻率表并繪制頻率直方圖或直條圖,用于描述變量的平均水平和變異程度
2、描述變量的分布類型(對稱或偏鋒)
3、揭示變量的分布特征。隨機變量具有兩個特征——集中趨勢和離散趨勢,兩者同時存在,通過描述變量的平均水平和變異程度可較全面地揭示數據的分布類型
4、便于發現某些特大和特小的可疑值(正確性可疑),頻率表或直方圖也是數據清洗的重要工具
5、便于進一步的計算統計指標和統計分析。
離散型定量變量和連續型定量變量的頻率分布
離散型定量變量的取值是不連續的。直接清點各變量值及相同變量值出現的頻率,并計算相應的頻率,即為頻率分布表。離散型定量變量的頻率分布圖可用直條圖表達,以各等寬矩形直條的高度表示各組頻率的大小。
連續型定量變量的取值是連續的。將數據適當分組,清點各組的頻數,并計算相應的頻率,即為頻率分布表。連續型定量變量的頻率分布圖可用直方圖表達,其縱坐標為頻率密度(頻率/組距)直方圖的面積之和等于1
描述平均水平的統計指標
1、算術均數,適用于對稱分布,特別是服從正態分布或近似正態分布的變量。均數=中位數是對稱分布的特征之一。
2、幾何均數,適合于可經對數轉換為對稱分布的變量。觀察值間常呈倍數關系,或變化范圍跨越多個數量級
3、中位數,適合各種分布的變量,常用于描述偏鋒分布,或分布的一端或兩端無確定數值的資料
組中值=(本組段上限值+下限值)/2
描述變異程度的統計指標
1、極差,=極大值-極小值,易受樣本含量的影響,很不穩定。不宜在樣本含量懸殊時使用
2、四分位數間距(Q),適用于各種分布的變量。Q=P75-P25,Q越大意味著變異程度越大。可描述分布首末端無確定值資料的離散程度
3、方差,適用于對稱分布,特別是服從正態分布的變量
4、標準差,適用于對稱分布,特別是服從正態分布的變量
5、變異系數,,常用于量綱(函數關系)不同或均數相差較大時變量間變異程度的比較
正態分布:常將算術均數和標準差結合。標準差越小,均數對各變量值的代表性越好
偏鋒分布:常將中位數和上下四分位數結合
描述分布形態的統計指標
1、偏度系數 總體偏度系數為0時,分布是對稱的;取正值時,分布為正偏峰;取負值時,分布為負偏鋒
2、峰度系數 正態分布的總體峰度系數為0;取負值,其分布較正態分布的峰平闊;取正值,其分布較正態分布的峰尖峭
統計表:表號及標題(統計表上方中央)、標目(按縱坐標分為簡單表和復合表)、線條、數字(以個位對齊)和備注
頻率直方圖:用于描述連續型定量變量的分布。注意如果用頻數為縱坐標作圖,直方圖面積并不等于1.。如果樣本量足夠大,且組距越分越細時,頻率直方圖就逐漸趨于一條光滑的曲線,即變量概率密度曲線
累積頻率分布圖:用于描述定量變量的累積頻率分布
箱式圖:用最小值、下四分位數、中位數、上四分位數、最大值描述定量變量的平均水平和變異程度,還可顯示數據中的離群值(o)和極端值(*)
直條圖:用等寬直條的高度表示相互獨立的各項指標數量大小,可描述離散型定量變量和定性變量的頻率分布
相關推薦: