參數(shù)估計(jì)和假設(shè)檢驗(yàn)是統(tǒng)計(jì)推斷的兩個(gè)重要方面。參數(shù)估計(jì)以“數(shù)”為輸出結(jié)果,假設(shè)檢驗(yàn)以“判斷”為輸出結(jié)果。
假設(shè)檢驗(yàn):根據(jù)所獲樣本, 運(yùn)用統(tǒng)計(jì)分析方法對(duì)總體X的某種假設(shè)做出接受或拒絕的判斷。
在實(shí)際工作中,當(dāng)樣本均值不等于總體均值或樣本均值不等于樣本均值時(shí),應(yīng)考慮兩種可能:由于采樣錯(cuò)誤所致;兩者來(lái)自不同的總體。如何做出判斷?統(tǒng)計(jì)上這個(gè)問(wèn)題是通過(guò)假設(shè)檢驗(yàn)來(lái)解答。
假設(shè)檢驗(yàn)的步驟可以總結(jié)如下:
(1)建立假設(shè)。假設(shè)檢驗(yàn)的第一步是建立假設(shè),通常需要建立兩個(gè)假設(shè):原假設(shè)H0和備選假設(shè)H1。
對(duì)總平均值執(zhí)行檢驗(yàn)時(shí),有三種類型的假設(shè):
前兩個(gè)是單邊假設(shè)檢驗(yàn),第二個(gè)是雙邊假設(shè)檢驗(yàn)。假設(shè)檢驗(yàn)的任務(wù)是根據(jù)樣本x1、x2、…、xx判斷原來(lái)的假設(shè)是否為真。
(2)選擇檢驗(yàn)統(tǒng)計(jì),確定拒收域的形式。如果總體的平均值為檢驗(yàn),則樣本平均值x用于導(dǎo)出檢驗(yàn)統(tǒng)計(jì)量;如果正態(tài)總體的方差為檢驗(yàn),則從樣本方差s2中導(dǎo)出檢驗(yàn)統(tǒng)計(jì)量。
根據(jù)統(tǒng)計(jì)量的值,整個(gè)樣本空間分為拒絕域W和非拒絕域a兩部分,當(dāng)樣本統(tǒng)計(jì)量的值落在拒絕域時(shí),原假設(shè)被拒絕,否則原假設(shè)不能被拒絕。因此,被拒絕的域必須在假設(shè)檢驗(yàn)中找到。
根據(jù)可選的假設(shè),拒絕域可以是雙邊的或單邊的。在確定了拒絕域的類型后,還應(yīng)確定臨界值C,臨界值C應(yīng)根據(jù)允許的錯(cuò)誤概率來(lái)確定。
(3)在檢驗(yàn)中給出顯著性水平a。在判斷原始假設(shè)是否為真時(shí),由于樣本的隨機(jī)性,判斷中可能存在兩種錯(cuò)誤,如下表所示。第一種錯(cuò)誤是當(dāng)原假設(shè)為真時(shí),由于樣本的隨機(jī)性,樣本的觀測(cè)值落入拒絕域W,從而做出拒絕原假設(shè)的決定。其出現(xiàn)的概率稱為做出第一類錯(cuò)誤的概率,也稱為拒絕真理的概率,記錄為a,即pH (w) =a,第二類錯(cuò)誤是當(dāng)原假設(shè)為假時(shí),由于樣本的隨機(jī)性,樣本的觀測(cè)值落入非拒絕域A,從而做出原假設(shè)不能被拒絕的判定。其出現(xiàn)的概率稱為犯第二類錯(cuò)誤的概率,也稱為取假概率,記錄為β,即PH1(A)=β。
如果要求犯第一類錯(cuò)誤的概率不超過(guò)a,由此給出的檢驗(yàn)稱為水平為a的檢驗(yàn),稱a為顯著性水平,通常取0.05,有時(shí)也可能取0.10等。
要真正理解假設(shè)檢驗(yàn)結(jié)論的含義,就要具體理解犯兩種錯(cuò)誤的現(xiàn)實(shí)意義。
第一種錯(cuò)誤的解釋:一般來(lái)說(shuō),H0建立的時(shí)候,拒絕了H0,這是第一種錯(cuò)誤。一般以a=0.05作為犯第一類錯(cuò)誤的風(fēng)險(xiǎn)概率。
第二種錯(cuò)誤的解釋:一般來(lái)說(shuō),當(dāng)H0失敗時(shí),它沒(méi)有拒絕H0,這是第二種錯(cuò)誤。
(4)給出臨界值,確定拒絕域。有了顯著性水平a,我們就可以根據(jù)給定的檢驗(yàn)統(tǒng)計(jì)量分布,查表得到臨界值,從而確定具體的拒絕域。在假設(shè)的不同替代下,拒絕域、臨界值和顯著性水平a的關(guān)系不同,其示意圖如下圖所示。
備擇假設(shè)、拒絕域和顯著性水平
(5)根據(jù)樣本的觀測(cè)值,計(jì)算檢驗(yàn)統(tǒng)計(jì)量的值。收集樣本數(shù)據(jù),計(jì)算檢驗(yàn)統(tǒng)計(jì)值。
(6)根據(jù)檢驗(yàn)統(tǒng)計(jì)量的值是否屬于拒絕域進(jìn)行判斷。
1)將檢驗(yàn)統(tǒng)計(jì)量的值與拒絕臨界值進(jìn)行比較,當(dāng)其落入拒絕域時(shí),做出拒絕原假設(shè)的結(jié)論,否則,做出不能拒絕原假設(shè)的結(jié)論。
2)根據(jù)檢驗(yàn)統(tǒng)計(jì)量計(jì)算P值。p是原假設(shè)成立時(shí)當(dāng)前形勢(shì)的概率(嚴(yán)格來(lái)說(shuō)是當(dāng)前形勢(shì)或更不利形勢(shì)對(duì)原假設(shè)的概率,即原假設(shè)成立時(shí)對(duì)備選假設(shè)更有利的形勢(shì))。當(dāng)這個(gè)概率很?。ɡ缧∮?.05)時(shí),在原假設(shè)成立的情況下,這個(gè)結(jié)果不應(yīng)該出現(xiàn)在實(shí)驗(yàn)中。但現(xiàn)在確實(shí)出現(xiàn)了,所以有理由認(rèn)為“原假設(shè)成立”的前提是錯(cuò)誤的,所以我們應(yīng)該拒絕原假設(shè)而接受替代的假設(shè)。所以有一個(gè)普遍規(guī)律:如果P<a,則拒絕原假設(shè)。目前大多數(shù)統(tǒng)計(jì)軟件都提供了與假設(shè)檢驗(yàn)對(duì)應(yīng)的P值,不必再查統(tǒng)計(jì)表確定拒絕域就可以根據(jù)P值做出判斷。
3)根據(jù)樣本的觀測(cè)值,可以得到總體參數(shù)的置信區(qū)間。如果原假設(shè)的參數(shù)值不落入該置信區(qū)間,則做出拒絕原假設(shè)的結(jié)論,否則作出保留原假設(shè)的結(jié)論。目前大多數(shù)統(tǒng)計(jì)軟件都提供了相應(yīng)的置信區(qū)間,不需要自己計(jì)算,所以用這種方法判斷也很方便。
如果總體平均值為假設(shè)檢驗(yàn),用戶通常會(huì)提前指定顯著性水平,以確定第一類錯(cuò)誤的概率。在此基礎(chǔ)上,通過(guò)控制樣本量,也可以控制第二類誤差的概率。以下描述了如何在總平均值的單側(cè)檢驗(yàn)中確定樣本量。
式中,μ0為原假設(shè)總體均值。
由于兩類錯(cuò)誤造成的損失類型不同,嚴(yán)重程度不同,不同的人對(duì)兩類錯(cuò)誤發(fā)生的概率可能會(huì)做出不同的限制。但是,在確定樣本量之前,必須明確定義兩種類型錯(cuò)誤的允許概率。
在假設(shè)檢驗(yàn)中,經(jīng)常使用一個(gè)名詞:探測(cè)能力。它的定義是1-β,相當(dāng)于備選假設(shè)成立時(shí)不犯第二類錯(cuò)誤的概率,或者備選假設(shè)成立時(shí)拒絕原假設(shè)的概率。
1.單樣本Z檢驗(yàn);
2.單樣本t檢驗(yàn);
3.雙樣本t檢驗(yàn);
4.成對(duì)t檢驗(yàn);
5.單比例檢驗(yàn);
6.雙比例檢驗(yàn);
7.雙樣本方差假設(shè)檢驗(yàn);
單樣本Z檢驗(yàn)/t檢驗(yàn):計(jì)算連續(xù)單樣本總體均值或均值的假設(shè)檢驗(yàn)的置信區(qū)間。
單個(gè)樣本Z檢驗(yàn):
用于計(jì)算單個(gè)樣本總體均值的置信區(qū)間,或當(dāng)總體標(biāo)準(zhǔn)差已知時(shí)均值的假設(shè)檢驗(yàn)。 當(dāng)樣本量大于30時(shí),通常使用單樣本Z檢驗(yàn)。
單樣本t檢驗(yàn):
用于在總體標(biāo)準(zhǔn)差未知的情況下,計(jì)算連續(xù)單樣本總體均值或均值的假設(shè)檢驗(yàn)的置信區(qū)間。 當(dāng)樣本量小于或等于30時(shí),通常使用單樣本t檢驗(yàn)。
雙樣本t檢驗(yàn):計(jì)算來(lái)自不同總體均值和總和假設(shè)檢驗(yàn)的兩個(gè)連續(xù)樣本的置信區(qū)間。
當(dāng)總標(biāo)準(zhǔn)偏差未知時(shí)使用; 從不同總體均值計(jì)算兩個(gè)樣本的置信區(qū)間,并進(jìn)行假設(shè)檢驗(yàn)。
成對(duì)t檢驗(yàn):
當(dāng)兩組數(shù)據(jù)成對(duì)出現(xiàn)時(shí)使用(即在不同條件下連續(xù)兩次測(cè)量同一種群得到的數(shù)據(jù)); 計(jì)算兩對(duì)數(shù)據(jù)平均值的置信區(qū)間或進(jìn)行假設(shè)檢驗(yàn)。
單比例檢驗(yàn):對(duì)單個(gè)比例進(jìn)行假設(shè)檢驗(yàn)和置信區(qū)間的計(jì)算。
雙比例檢驗(yàn):對(duì)兩個(gè)比例間的差異進(jìn)行假設(shè)檢驗(yàn)和置信區(qū)間的計(jì)算。
雙樣本方差假設(shè)檢驗(yàn):可以進(jìn)行兩個(gè)樣本總體方差的假設(shè)檢驗(yàn)和置信區(qū)間的計(jì)算。