[轉(zhuǎn)]試卷難度分析

王學(xué)東的圖書館 2016-04-27

展開全文

1、難度的概念：

難度是指項目的難易程度。在心理與教育測量中，常常用受測者答對或通過每個項目的人數(shù)的百分比（即通過率或P值）作為難度的指標(biāo)。

P=R/N

P代表項目的難度，又稱為難度指標(biāo)；N為全體受測者人數(shù)；R為答對或通過某一項目的人數(shù)。P值越大，答對的人數(shù)越多，難度越低；P值越小，答對的人數(shù)越少，難度越高。由此可見，難度實質(zhì)上表示的是一種易度，與試題的實際困難程度剛好相反。所以，常常人們也會用未通過率Q值來反映試題的難度，即Q=1-P，Q值的大小與試題的難易程度完全相符。

2、難度的相對性：

項目的難度是相對的而不是絕對的。難度的大小除了和內(nèi)容或技能本身的難易有關(guān)外，還同項目的編制技術(shù)和受測者的經(jīng)驗有關(guān)。一方面，內(nèi)容的覆蓋面廣、挖掘得深刻，技能要求高，項目的難度大；但是內(nèi)容的廣泛、深刻與否、技能要求的高低均是相對的，同樣的一道應(yīng)用題，在單元測試中，可能屬于難度較大的，而作為高考的一道題目，可能難度就相對較小了。另一方面，一個本來很容易的問題可能因為表述不清楚而變難，一個很難的內(nèi)容也會因為答案過于明顯而變?nèi)菀?。比如，英語考試中，一句原來很簡單的話加了兩個生詞后就難了；而一個關(guān)于剩余價值的比較難的選擇題可能也會因為其他三個選項描述完全不合邏輯而很容易選擇。同樣，一種測驗對一組受測者是高難度的，可能對另一組受測者是低難度的。一個小學(xué)五年級的奧數(shù)題目對一個小學(xué)生，難度是極大的；而對一個高中生，可能也只是小菜一碟。這些均是難度相對性的具體體現(xiàn)。因此，我們不能籠統(tǒng)的說，這一測驗的難度如何，而應(yīng)講這種測量在某種狀態(tài)下，對某類受測者的難度。

3、難度的計算：

我們學(xué)習(xí)"難度"，并不只是要知道難度的概念與特性，更要運用難度的計算公式來實際運用。

（1）客觀題難度的計算：

P=R/N

式中，P表示難度指標(biāo)，N表示參加考試的總?cè)藬?shù)，R表示答對某道客觀題的人數(shù)。這一公式常用于客觀性、非對即錯、用零一記分法記分的考試中，所謂"零一記分法"，就是答對記1、答錯記0的方法。

例如，100人參加測試，某題有60人答對，則此題的難度為：

P=R/N=60/100=0.60

（2）主觀題難度的計算：

P=X/K

式中，P還是表示難度指標(biāo)，X表示所有考生在這道題目的平均得分，K表示這道題的滿分。這一公式常用于問答式，論述式等主觀性考試中。

例如，某道論述題滿分為12分，所有考生在這道題目上的平均得分為3.6分，則此題的難度為：

P=X/K=3.6/12=0.3

（3）用極端分組法計算客觀題的難度：

在很多情況下，用基本公式計算難度需要對所有考生的得分情況進(jìn)行統(tǒng)計，工作量很大，而且常常出錯，這時可以用"極端分組法"求試題的難度。例如，在即將到來的高考閱卷工作后，必然會有很多的專家、學(xué)者會對一些題目進(jìn)行難度的統(tǒng)計、計算。在此時，"極端分組法"會極大的方便他們。

極端分組法的具體措施：

如有必要，可先進(jìn)行抽樣；將抽樣后的樣本或全部試卷按得分由高到低的順序，依次排列；從得分最高的一份試卷開始依次向下選出全部試卷（或樣本）的27%，作為高分組；從得分最低的一份試卷開始依次向上選出全部試卷（或樣本）的27%，作為低分組；按下列公式計算難度：

P=（PH+PL）/2

式中，P為難度，PH為高分組難度，PL為低分組難度。

例如，一次測驗中，選取標(biāo)準(zhǔn)樣本數(shù)為60000人，把他們的測試成績從高到低排列，在高分段27%的樣本中有14850人答對第10道題，在低分段27%的樣本中有840人答對第10題，這題難度有多大：

PH=14850/（60000*0.27）=0.92

PL=840/（60000*0.27）=0.05

P=（0.92+0.05）/2=0.485

Q=1-0.485=0.515

（4）用極端分組法計算主觀題的難度：

一些主觀題一般不能簡單的判定對、錯或通過、不通過，難度計算比較復(fù)雜。一般通過以下步驟：

按測驗得分排列試卷；確定高分組與低分組，各占總?cè)藬?shù)的25%（方法與前面同）；分別為高分組與低分組編制每道試題的分析表；按下列公式計算難度：

P=（XH+XL-2nL）/（2n*（H-L））

上式中，P表示難度指數(shù)，XH高分組的總得分，XL表示低分組的總得分，n表示總?cè)藬?shù)的25%，H為這道題的最高得分，L為這道題的最低得分。

例如，某道論文題，高分組得分總和為40分，低分組的得分總和為15分，有40人參加考試，這道題最高得分為8分，最低得分為2分，則此題的難度為：

P=（XH+XL-2nL）/（2n*（H-L））=（40+15-2*10*2）/（2*10*（8-2））=0.125

則此題較難。

4、測驗的適宜難度：

我們必須明白，進(jìn)行難度的計算只是一個手段，我們并不是為了計算難

度而計算的，而是為了利用它來看是否滿足測驗的要求，達(dá)到測驗所需的目的。所以，我們必須明確測驗適宜的難度范圍，看難度是否適宜測驗。

從以上的計算公式中，我們得出P值的取值范圍：0<=P<=1,但實質(zhì)項目的難度水平選擇多高，應(yīng)取決于測驗的目的、項目的形式以及測驗的性質(zhì)。

例如，在學(xué)校的教育中，有些測驗的目的是為了考察學(xué)生對某些知識、技能是否掌握，此時可不考慮難度，只要認(rèn)為重要的內(nèi)容就可以編入測驗，即使那些全部通過或全部不通過的題目也不淘汰。再比如，當(dāng)高考的錄取率為60%時，此時的難度指標(biāo)P就可以選擇在0.6左右，也就能挑選出60%左右的學(xué)生。又比如，我們要挑選出20%的學(xué)生進(jìn)行輔導(dǎo)補(bǔ)習(xí)，此時可將難度指標(biāo)設(shè)為80%，這樣80%的人能通過考試，而20%沒能通過的就是需要參加補(bǔ)習(xí)的。

而如果測驗是用于區(qū)分學(xué)生，那么應(yīng)該將難度系數(shù)選在0.5左右，因為此時試題得分的離散指數(shù)達(dá)到最大值，并能有效的造成測驗分?jǐn)?shù)的正態(tài)性，能最佳的反映學(xué)生的學(xué)習(xí)水平。但是，不能將P=0.5機(jī)械的加以應(yīng)用。0.5為試題難度的最佳值并不意味著一個測試中所有試題的難度都必須為0.5。如果難度都為0.5，那么各題間的相關(guān)性必然提高，也會阻礙學(xué)生的水平的正確的反映。因此各試題難度值在0.2-0.8之間，同時各題平均難度值在0.5左右是比較適宜的。

5、難度對測驗的影響：

難度是有效測驗的必要條件，它對測驗有著舉足輕重的作用：

（1）、測驗影響測驗分?jǐn)?shù)的分布形態(tài)：

由公式可知，P的取值范圍為：0<=P<=1,當(dāng)P=0時，通過率為0，即沒有學(xué)生答對該題，測驗的分?jǐn)?shù)分布呈正偏態(tài)；當(dāng)P=1時，通過率為1，即所有學(xué)生都答對了該題，測驗的分?jǐn)?shù)呈負(fù)偏態(tài)。而如果P值比較適中，那么分布會比較均勻，呈正態(tài)分布。

（2）、測驗難度影響測驗分?jǐn)?shù)的離散程度：

測驗難度直接影響測驗分?jǐn)?shù)的離散程度，因為難度過大或過小，測驗分?jǐn)?shù)的分布都呈偏態(tài)分布，即測驗分?jǐn)?shù)都分在高分段或低分段，這樣離散程度就小了。只有難度適中的測驗，其分?jǐn)?shù)才會分布在整個區(qū)域，范圍最大，也最能反映學(xué)生的真實水平。所以，在無特定目的和要求的情況下，應(yīng)是P值適中，從而更好的反映學(xué)生的水平和學(xué)生之間的差異。

（3）、測驗難度影響測驗的鑒別能力

這也就是描述難度對區(qū)分度的影響。適中的難度，能使測驗分?jǐn)?shù)的分布最廣，從而區(qū)分度也最大。

6、控制題目難度的方法：

明確了難度對測驗的重大意義后，我們也就明確了控制難度的重要性，控制難度是根本所在，以上我們對難度的精確的計算，就是為了更好的對它進(jìn)行控制、改進(jìn)?？刂坪秒y度，能有助于達(dá)到測驗的目的；相反，控制不好，也會讓測驗毫無價值。如果是選拔性的測驗，那就必須要提高難度、降低通過率以達(dá)到選拔人才的目的；而如果是普及性的測驗，就要降低難度，達(dá)到讓大多數(shù)人通過的目的。

一般來說，影響題目難度的主要因素有：

（1）、考察知識點的多少；考察知識點越多，或者知識點考察得越細(xì)、越深，題目越難。

（2）、考察能力的復(fù)雜程度或?qū)哟蔚母叩停灰筮\用學(xué)過的某一理論來聯(lián)系實際，分析某一問題，要遠(yuǎn)比默寫出這一理論難度大。

（3）、考試對題目的熟悉程度；在考試后經(jīng)常會聽到學(xué)生抱怨："那么難的問題我都做出來了，怎么這么簡單的問題我還會錯呢？"其實，他們之所以會錯，是因為他們沒有注意、太掉以輕心了。一個本來很容易的內(nèi)容，會因為考生沒有注意而變得很難；而本來很難的內(nèi)容也會因為認(rèn)真的學(xué)習(xí)、反復(fù)的練習(xí)而變的很容易。

（4）、命題的技巧性；我們知道同一個問題用選擇題遠(yuǎn)比用論述題、分析題來的簡單，這就是命題技巧性的差別引起的難度的差別。

我們可以通過對上述諸要素的控制來達(dá)到控制題目難度的目的。此外，還可以通過其他方法來控制。在平常教學(xué)考試中，由于教師對學(xué)生的情況比較了解，因而主要憑經(jīng)驗來控制難度，使之與老師的教學(xué)難度相適應(yīng)。而在大規(guī)模測試中，就要通過預(yù)測來控制難度。首先由命題人員根據(jù)上述4要素，結(jié)合自己的經(jīng)驗估計一個難度范圍，然后通過測試看這個估計的準(zhǔn)確程度，如果測試后的結(jié)果與估計的相符，那么這些題目就可以投入使用了。

總之，難度是測驗中一個舉足輕重的因素，對測驗有很大的影響。我們可以通過公式來計算、預(yù)測、評估試題的難度，從而控制它，達(dá)到滿足不同測試要求的目的。

<四>區(qū)分度：

1、區(qū)分度的概念：

區(qū)分度，又叫鑒別度，是指測驗項目對所測量屬性或品質(zhì)的區(qū)分程度或

鑒別能力，在測驗過程中指某試題區(qū)別學(xué)生學(xué)習(xí)知識和能力水平差異的能力，即該試題的得分與學(xué)生實際水平的相關(guān)程度。

因此，它不僅反映該學(xué)生的得分與實際水平的一致性趨勢和這種趨勢量的大小，而且反映試題將實際水平高的學(xué)生與實際水平低的學(xué)生區(qū)分開來的能力。

區(qū)分度一般用D來表示。它分為正區(qū)分（D>0）、零區(qū)分（D=0）、和負(fù)區(qū)分（D<0），正區(qū)分又稱積極區(qū)分，負(fù)區(qū)分又稱消極區(qū)分。所謂正區(qū)分是指實際水平高的考生得了高分，實際水平低的考生得了低分；負(fù)區(qū)分正好相反；零區(qū)分是指實際水平高低與得分之間沒有太大的關(guān)系，呈現(xiàn)出零相關(guān)。在實際生活中，我們真正需要的就是正相關(guān)，也就是使實際水平高的得高分，實際水平低的得低分，那是一個好測驗所必須的。 2、分度與測驗信度、難度的關(guān)系：

測驗的必要條件之一的區(qū)分度與測驗信度和難度有著密切的關(guān)系。

（1）、區(qū)分度與信度的關(guān)系：

區(qū)分度與測驗信度的關(guān)系

區(qū)分度	信度
0.1225	0.00
0.16	0.42
0.20	0.63
0.30	0.84
0.40	0.915
0.50	0.949

上表是1962年R.L.艾伯發(fā)表的，是在假定全部試題的難度均為0.50時所預(yù)測的信度系數(shù)。里面的區(qū)分度指的是平均值。由此可見要達(dá)到理想的測驗信度，提高區(qū)分度是一個好方法。

（2）、區(qū)分度與難度的關(guān)系：

區(qū)分度的最大值與難度的關(guān)系

難度（P）	1.00	0.90	0.70	0.50	0.30	0.10	0.00
區(qū)分度的最大值	0.00	0.20	0.60	1.00	0.60	0.20	0.00

由上表可知，適中的難度可使區(qū)分度達(dá)到最大值。

3、區(qū)分度的計算：

區(qū)分度的所有指標(biāo)和估計方法，都是以對項目的反應(yīng)與某種參照標(biāo)準(zhǔn)之

間的關(guān)系為基礎(chǔ)的。因此，對試題的區(qū)分度的分析包括"項目效度"和"內(nèi)部一致性"。前者分析受測者在題目上的反應(yīng)與效標(biāo)的關(guān)系，后者分析各個題目與考試總分的一致性。

（1）、項目效度的分析--有極端分組法和相關(guān)系數(shù)法等。

A、極端分組法進(jìn)行客觀題區(qū)分度的計算：

用這種方法計算區(qū)分度與計算難度的方法基本相同，只是最后按下列公式計算：

D= PH-PL

以上公式中D表示區(qū)分度，PH表示高分組的難度，PL表示低分組的難度。例如，某題高分組有70%人答對，低分組有30%答對，則此題的區(qū)分度為：

D=0.70-0.30=0.40

B、分組法進(jìn)行主觀題區(qū)分度的計算：

主觀題區(qū)分度的計算方法與客觀題不同。首先，在分組方面，高分組和低分組各取25%的總?cè)藬?shù)，然后按以下公式計算：

D=（XH-XL）/（n*（H-L））

上式中，D表示區(qū)分度，XH高分組的總得分，XL表示低分組的總得分，n表示總?cè)藬?shù)的25%，H為這道題的最高得分，L為這道題的最低得分。

C、相關(guān)系數(shù)法，這種方法是通過分析學(xué)生答題情況和代表學(xué)生實際水平的效標(biāo)測試情況而得到試題區(qū)分度。

根據(jù)數(shù)據(jù)條件不同，可再細(xì)分為3種情況：

a、當(dāng)兩列變量（效標(biāo)變量和答題情況變量）均為連續(xù)變量時，采用積差相關(guān)公式計算區(qū)分度：

r=∑((Xi-X)(Yi-Y)/(n*Sx*Sy)

Xi為一列變量，Yi為另一列變量，Sx Sy分別為兩列變量的標(biāo)準(zhǔn)差。X、Y分別為兩列變量的平均值。

b、當(dāng)一列變量為連續(xù)變量，另一列變量為二分變量時，采用點二列相關(guān)公式：

r=(XP-XQ)*((P*Q)^(1/2))/SX

式中，XP為與P對應(yīng)數(shù)值的平均數(shù)，XQ為與Q對應(yīng)數(shù)值的平均數(shù)，P、Q為P、Q中成員的數(shù)目與總數(shù)比，SX為連續(xù)變量標(biāo)準(zhǔn)差。

c、兩列變量均為等級變量：

r=1-6*∑（Di^2）/（N*(N^2-1)）

式中，Di為等級差，N為總數(shù)

（2）內(nèi)部一致性--自身一致性：

自身一致性的分析是以考試本身的總分作為依據(jù)來求得自身一致性的量數(shù)，而不依靠實際難以找到的適當(dāng)?shù)耐庠谛?biāo)。分析的方法與項目效度分析法中介紹的完全相同，只不過將外在效標(biāo)換成了自身總分?jǐn)?shù)。

4、區(qū)分度的評價標(biāo)準(zhǔn)：計算完區(qū)分度后，得到的絕對的數(shù)值本身意義不大，必須將它與評價標(biāo)準(zhǔn)做比較，從而決定對它的一系列操作。

采用極端分組法計算的區(qū)分度的評價標(biāo)準(zhǔn)

區(qū)分度	評價
0.40以上	非常良好
0.30-0.39	良好，如能改進(jìn)更好
0.20-0.29	尚可，用時需作改進(jìn)
0.19以下	劣，必須淘汰或改進(jìn)以提高區(qū)分度后方可使用

必須將自己的區(qū)分度與標(biāo)準(zhǔn)進(jìn)行比較，若很好，可立即投入使用，否則對它進(jìn)行改進(jìn)或淘汰。

5、從上面的表格中可以看出來，區(qū)分度是越高越好，那么我們?nèi)绾蝸硖岣邊^(qū)分度呢？

（1）、使題目難度適中，使整個考試難度適中。

難度與區(qū)分度的關(guān)系在上表中已有說明，題目的難度適中可使區(qū)分度達(dá)到最大值。因此，使難度適中是提高區(qū)分度的重要方法。

（2）著重考察復(fù)雜的學(xué)習(xí)結(jié)果

盡量考察復(fù)雜的學(xué)習(xí)結(jié)果，使高能學(xué)生能得高分或最高分，低能學(xué)生得低分甚至最低分，使分?jǐn)?shù)盡量分布在整個量尺上。這樣可以提高區(qū)分度。

總之，區(qū)分度也是有效測試的一個重要標(biāo)志，與難度與效度有密切的關(guān)系。要達(dá)到理想的測驗信度，提高區(qū)分度是一個很好的方法，而要使區(qū)分度能達(dá)到最大值，也必須要有適中的難度，所以三者是環(huán)環(huán)相扣、相輔相成的。我們可以根據(jù)不同的測驗?zāi)康倪x用適宜的方法正確的判斷測驗的區(qū)分度從而提高它。