統計學的幾個基本概念
1.總體:根據研究目的確定的同質的研究對象,其某項變量值的全體。
2.樣本:從研究總體中隨機抽取的一部分有代表性的個體(其某項變量值的全體)。
3.參數:是由總體中個體值計算出來的用于描述總體特征的指標。
4.統計量:是由樣本中個體值計算出來的用于描述樣本特征的指標。
5.抽樣誤差:由個體變異產生,由抽樣引起的總體指標(參數)與樣本指標(統計量)以及樣本指標之間的差異。
6.變量:根據研究目的,對研究對象的某個或某些特征(研究指標或項目)實施觀測,這些特征(指標或項目)稱為變量。
7.概率:描述隨機事件發生可能性大小的數值(P),取值范圍0≤P≤1,P=0為不可能事件,P=1為必然事件,P≤0.05為小概率事件。
8.統計學中的資料可以分為:
(1)定量資料:也叫計量資料,如身高(cm)、體重(kg)等,有單位。
(2)定性資料:也叫分類資料,包括:①無序分類資料:a.二項分類資料(如性別:只有男、女兩類,互不相容);b.多項分類資料(如ABO血型:A、B、O、AB四種互不相容)。
②有序分類資料:也叫等級資料,各類之間有程度的差別,“半定量”,如血清學檢查結果:——、±、+、++四級。
【進階攻略】掌握這幾個統計學的概念,能夠判斷所給資料所屬類型。
【易錯易混辨析】統計工作中統計設計是最關鍵的一步,統計推斷中包括參數估計和假設檢驗兩部分。
練習題:
一、A1型選擇題
1.下列關于概率的說法,錯誤的是
A.通常用P表示
B.用于描述隨機事件發生的可能性大小
C.某事件發生的頻率即概率
D.在實際工作中,概率常難以直接獲得
E.某事件發生的概率P≤0.05時,稱為小概率事件
2.用于推斷總體特征的樣本應該是
A.從總體中隨機抽取的一部分
B.從總體中隨便抽取的一部分
C.總體中有價值的一部分
D.總體中便于測量的一部分
E.研究者認為能代表總體特征的部分
3.計量資料的正確定義是指
A.每個觀察單位的觀測值都是絕對數的資料
B.每個觀察單位的觀測值都是相對數的資料
C.每個觀察單位的觀測值都是平均數的資料
D.每個觀察單位都有1個數值,無論該觀測值是絕對數、相對數還是平均數的資料
E.將每個觀察單位按某種屬性或類別分組,然后清點各組的觀測單位數得到的資料
【參考答案及解析】
1.【答案及解析】C。在現實中,隨機事件發生的概率往往是未知的,因此常用樣本中事件的實際發生率來估計概率,這種實際發生率稱為頻率。由于抽樣誤差的存在,頻率只是概率的估計值。當觀測單位較少時,用頻率估計概率是不可靠的。故選項C的說法錯誤。
2.【答案及解析】A。從總體中隨機抽取部分觀察單位作為樣本去推斷總體信息,這樣的樣本對總體才具有代表性。
3.【答案及解析】D。計量資料又稱數值變量,其變量值是定量的,表現為數值大小,一般有度量衡單位。
頻數與頻數分布
1.頻數表和頻數分布圖的主要用途
(1)揭示頻數分布的特征:從頻數表便于觀察離群值和異常值,還可以看出頻數分布的兩個重要特征:集中趨勢和離散趨勢。
(2)揭示頻數分布的類型,即對稱分布和偏態分布。
(3)便于發現極大或極小的可疑值。
2.偏態分布,又稱不對稱型分布,指頻數分布不對稱,集中位置偏向一側。若集中位置偏向數值較小的一側,稱為正偏態;若集中位置偏向數值較大的一側,稱為負偏態。
【進階攻略】全距就是極差,是全部數據中最大值與最小值之差。
練習題:
一、A1型選擇題
1.頻數表通常不用于
A.描述資料的分布類型
B.反映資料的集中趨勢
C.反映資料的離散趨勢
D.便于發現異常值
E.總體均數的假設檢驗
2.頻數分布的類型有
A.對稱分布和偏峰分布
B.對稱分布和正態分布
C.正態分布和正偏峰分布
D.正態分布和負偏峰分布
E.正偏峰分布和負偏峰分布
3.頻數分布集中位置偏向數值較小的一側稱為
A.偏態分布
B.不對稱型分布
C.對稱分布
D.正偏態分布
E.負偏態分布
【參考答案及解析】
1.【答案及解析】E。頻數表和頻數分布圖的主要用途是:①揭示頻數分布的特征;②揭示頻數分布的類型;③便于發現極大或極小的可疑值。
2.【答案及解析】A。對稱分布是指頻數大部分集中在中間位置,左右兩側頻數較少,基本對稱,正態分布屬于此類型;偏峰分布包括正偏峰分布和負偏峰分布。
3.【答案及解析】D。偏態分布,指頻數分布不對稱,集中位置偏向一側。若集中位置偏向數值較小的一側,稱為正偏態;若集中位置偏向數值較大的一側,稱為負偏態。
集中趨勢指標
描述數值變量資料的集中趨勢指標是平均數。統計中常用的平均數包括:算術平均數、幾何平均數、中位數。
1.算術平均數簡稱均數,適用條件:對稱分布,特別適用于正態或近似正態分布資料。
2.幾何均數(G)適用條件:觀察值呈倍數關系或對數正態分布,多用于描述抗體的平均滴度等。
3.中位數(M):是一組觀察值按由小到大的順序排列后,位于中間位置上的那個數值。適用條件:①變量值中出現個別特小或特大的數值;②資料的分布呈明顯的偏態;③變量值分布一端或兩端無確定數值,只有小于或大于某個數值;④資料的分布不清。
【進階攻略】對于正態分布資料,中位數等于均數;對于對數正態分布資料,中位數等于幾何均數;對于正偏態分布資料,中位數小于均數;對于負偏態分布資料,中位數大于均數。
【易錯易混辨析】中位數計算方法,當n為奇數時,M=X(n+1)/2,當n為偶數時,M=(Xn/2+Xn/2+1)/2。要特別注意的是,必須先將數據進行從小到大排序后再進行計算。
【練習題】
一、A1型選擇題
1.一組觀察值如果每個值都同時增加或減少一個不為0的常數,則
A.均數改變,幾何均數不變
B.均數改變,中位數不變
C.均數,幾何均數和中位數都改變
D.均數不變,幾何均數和中位數改變
E.均數,幾何均數和中位數都不變
2.表示兒童體重資料的平均水平最常用的指標是
A.算術均數
B.中位數
C.幾何均數
D.變異系數
E.百分位數
二、A2型選擇題
1.由變量的6個值6,9,12,14,15,20計算中位數可得
A.3
B.4
C.12
D.13
E.14
【參考答案及解析】
一、A1型選擇題
1.【答案及解析】C。一組觀察值如果每個值都同時增加或減少一個不為0的常數,則均數、幾何均數、中位數都改變。
2.【答案及解析】A。算術平均數簡稱均數,均數適用于描述單峰對稱分布資料,特別是正態分布或近似正態分布資料的集中位置。
二、A2型選擇題
1.【答案及解析】D。中位數是將一組觀察值按大小順序排列后位次居中的數值。當n為奇數時,M=X(n+1)/2,當n為偶數時,M=(Xn/2+Xn/2+1)/2。本題共6個數值,為偶數,所以中位數M=(X6/2+X6/2+1)/2=(X3+X4)/2=(12+14)/2=13。
離散趨勢指標
描述定量資料離散程度常用的指標:極差、四分位數間距、方差、標準差及變異系數。
1.極差(R)=最大值——最小值,極差越大變異程度越大。當兩樣本含量相差較大時,不宜用極差來比較其變異程度。
2.四分位數間距(Q):Q=P75——P25。適用于任何分布類型的資料,主要和中位數一起描述偏態分布資料。
3.方差和標準差:是描述對稱分布,特別是正態分布或近似正態分布資料變異程度的指標。
4.變異系數(CV):標準差和均數之比,常用于比較度量衡單位不同或均數相差懸殊的兩組(或多組)資料的變異度。
【進階攻略】方差的單位是觀察值原始單位的平方,標準差的單位與原始單位相同。
【易錯易混辨析】把每個變量值都增加或減少一個常數,其均數也增加或減少一個常數,但標準差不變。
【練習題】
一、A1型選擇題
1.下列關于方差和標準差的敘述,不正確的是
A.方差的單位與標準差的單位相同
B.方差的單位是標準差單位的平方
C.都用于描述定量資料頻數分布的變異程度
D.二者值越大,說明資料的變異程度越大
E.均適用于對稱分布,特別是正態分布或近似正態分布資料
2.變異系數是
A.描述計量資料平均水平的指標
B.描述計量資料絕對離散程度的指標
C.描述計量資料相對離散程度的指標
D.描述計數資料各部分構成的指標
E.描述計數資料平均水平的指標
3.關于標準差,錯誤的一項是
A.反映全部觀察值的離散程度
B.最適用于對稱分布資料
C.反映了均數代表性的好壞
D.一定大于或等于零
E.不會小于算術均數
【參考答案及解析】
一、A1型選擇題
1.【答案及解析】A。方差和標準差均是描述對稱分布,值越大,說明資料的變異程度越大,方差的單位是觀察值單位的平方,在實際工作中使用不便,因此將方差開算術平方根得到標準差,故選項A不正確。
2.【答案及解析】C。變異系數簡記為CV,為標準差與均數之比,是描述計量資料相對離散程度的指標。故C選項正確。
3.【答案及解析】E。標準差是描述對稱分布資料變異程度的指標,離散度越大其數值越大,它的大小與算術平均數無關。
標準誤及可信區間
1.標準誤:樣本均數的標準差叫樣本均數的標準誤,是標準差與樣本含量平方根的比值,反映的是抽樣誤差的大小,標準誤越大,抽樣誤差也就越大,樣本均數的離散程度高,與總體均數的差異程度越大。標準誤與標準差成正比,與樣本含量的平方根成反比。
2.參數估計有兩種方法:點值估計和區間估計。
(1)點值估計:直接用樣本統計量去估計總體參數。總體均數的點值估計就是直接用樣本均數去估計總體均數(就是把樣本均數看作是總體均數)。缺點:沒有考慮到抽樣誤差
(2)區間估計:結合樣本統計量和標準誤可以確定一個具有較大概率(可信度)的包含總體參數的區間,該區間稱為總體參數的1——α可信區間(置信區間)。預先給定的概率稱為可信度,用1——α表示,常用的可信度為95%或99%。如沒有特別說明,一般取雙側95%。
3.可信區間的兩個要素
準確度:反映在可信度上,可信度越大,準確度越高。
精密度:精密度反映在可信區間的寬度上,寬度越小,精密度越高。
【進階攻略】可信區間是一個開區間,不包括下限和上限兩個值。
【易錯易混辨析】均數的可信區間與醫學參考值范圍的區別:
①含義不同:可信區間是按一定的概率100(1——α)%估計總體均數的可能范圍;醫學參考值范圍是指是總體中大多數個體值的估計范圍。
②用途不同:可信區間估計總體均數;醫學參考值范圍是判斷觀察對象的某項指標是否正常。
【練習題】
一、A1型選擇題
1.同類定量資料下列指標,反映樣本均數對總體均數代表性的是
A.四分位數間距
B.標準誤
C.變異系數
D.百分位數
E.中位數
2.關于可信區間,正確的說法是
A.可信區間是總體中大多數個體值的估計范圍
B.95%可信區間比99%可信區間更好
C.不管資料呈什么分布,總體均數的95%的可信區間計算公式是一致的
D.可信區間也可用于回答假設檢驗的問題
E.可信區間僅有雙側估計
3.總體率的99%可信區間是
A.99%的總體率分布的范圍
B.99%的樣本率分布的范圍
C.99%的樣本率可能所在范圍
D.99%的總體率的可能所在范圍
E.估計總體率在此范圍的概率為99%
【參考答案及解析】
1.【答案及解析】B。均數的標準差即均數的標準誤,可用來描述樣本均數的抽樣誤差,均數的標準誤越小,則說明均數的抽樣誤差越小。
2.【答案及解析】D。按一定的概率估計總體參數的可能范圍,該范圍稱為可信區間,可以用來估計總體均數。在假設檢驗時常按95%置信度估計總體參數的可能范圍。
3.【答案及解析】E。總體率的99%可信區間是估計總體率在此范圍的概率為99%,即此范圍有99%的把握包含總體率。所以答案選E。
t分布和假設檢驗
1.t分布特征
(1)單峰分布,以0為中心,左右對稱;
(2)自由度越小,峰部越矮,而尾翹得越高;
(3)當自由度增大時,t分布逼近u分布(標準正態分布),當自由度無窮大時,t分布就是標準正態分布;
(4)t分布是一簇曲線,自由度不同,曲線的形狀不同。
2.假設檢驗步驟
(1)建立假設,確定檢驗水準:假設有兩種,一是無效假設或稱零假設H0;二是備擇假設H1。
(2)計算檢驗統計量;
(3)確定P值:將P值與預先規定的檢驗水準相比,做出推斷結論。當P≤α時,拒絕H0,接受H1,差異有統計學意義;當P>α時,不拒絕H0,差異無統計學意義。
【進階攻略】檢驗假設針對總體,而不是樣本。進行假設檢驗時,應同時寫出H0和H1,H1為備擇假設,它的內容反映了檢驗的單、雙側。
【練習題】
一、A1型選擇題
1.下列關于t分布特征的敘述,錯誤的是
A.t分布為單峰分布
B.t分布曲線是一簇曲線
C.以0為中心,左右對稱
D.自由度越大,t分布曲線的峰部越低,尾部越高
E.自由度為無窮大時,t分布就是標準正態分布
2.在對兩個樣本均數作假設檢驗時,若P>0.1,則統計推斷為
A.兩總體均數的差別有統計學意義
B.兩樣本均數的差別有統計學意義
C.有0.9的把握度認為兩總體均數無差別
D.犯二類錯誤的概率為0.1
E.兩總體均數的差別無顯著性
3.比較兩藥療效時,下列可作單側檢驗的是
A.己知A藥與B藥均有效
B.不知A藥好還是B藥好
C.己知A藥與B藥差不多好
D.己知A藥不會優于B藥
E.不知A藥與B藥是否有效
【參考答案及解析】
1.【答案及解析】D。t分布的特征為:自由度越小,曲線的峰部越低,尾部越高;隨著自由度的增大,t分布逐漸逼近標準正態分布;當自由度為無窮大時,t分布就是標準正態分布。故選項D敘述錯誤,本題選D。
2.【答案及解析】E。P>0.1,按α=0.1水準,不能拒絕H0,所以兩總體均數的差別無顯著性。
3.【答案及解析】D。已知A藥不會優于B藥,只有低于B藥的一種可能,所以可作單側檢驗。
單樣本t檢驗
1.t檢驗的應用條件:①要求樣本來自正態分布總體;②兩樣本均數比較時,還要求兩樣本所屬總體的方差相等(即方差齊性)。
2.單樣本t檢驗目的:是樣本均數與總體均數的比較,推斷未知總體與已知總體比較是否有差別。
【進階攻略】掌握t檢驗的應用條件和計算公式,會用t界值表進行判斷。
【練習題】
一、A1型選擇題
1.關于t界值表錯誤的一項是
A.雙側t0.10,20=單側t0.05,20
B.單側t0.05,20<雙側t0.05,20
C.雙側t0.05,20<雙側t0.01,20
D.單側t0.05,20>單側t0.05,15
E.單側t0.05,20<單側t0.05,15
2.比較某地區15歲兒童平均體重是否高于一般,宜采用
A.u檢驗
B.t檢驗
C.T檢驗
D.χ2檢驗
E.以上都不是
3.在樣本均數與總體均數差別的顯著性檢驗中,結果為P<α而拒絕H0,接受H1,原因是
A.H0假設成立的可能性小于α
B.H1假設成立的可能性大小1——α
C.H0成立的可能性小于α且H1成立的可能性大于1——α
D.從H0成立的總體中抽樣得到樣本的可能性小于α
E.從H0不成立的另一總體中抽得此樣本的可能性大于1——α
【參考答案及解析】
一、A1型選擇題
1.【答案及解析】D。在同一自由度下,雙側概率為單側概率的2倍時,所對應的t界值相等。
2.【答案及解析】B。本題是正態分布資料樣本均數與總體均數的比較,所以應該用單樣本t檢驗。
3.【答案及解析】D。從H0成立的總體中抽樣得到樣本的可能性小于α,即P<α,說明是小概率事件,所以拒絕H0。
相關推薦: