乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      古典測(cè)驗(yàn)理論

       航海王魯夫 2009-05-22
      單元一
      古典測(cè)驗(yàn)理論簡(jiǎn)介
      2006/9/15
      1
      古典測(cè)驗(yàn)理論
      余民寧 教授
      摘自「教育測(cè)驗(yàn)與評(píng)量:成就測(cè)驗(yàn)與教學(xué)評(píng)量」一書(shū)(2002,臺(tái)北,心理)
      雖然根據(jù)歷史學(xué)家(DuBois, 1970)的描述,早在西元一千多年前科舉時(shí)代的中國(guó),即
      有能力測(cè)驗(yàn)(即科舉考試制度)的雛型產(chǎn)生。但是,對(duì)「測(cè)驗(yàn)」這門(mén)學(xué)問(wèn)進(jìn)行科學(xué)化的量化
      研究者,卻始於歐美各國(guó),西風(fēng)東漸之後,才又傳入中國(guó)。
      西元1905 年,Binet-Simon 在法國(guó)所發(fā)展的智力測(cè)驗(yàn),可以說(shuō)是人類第一個(gè)客觀的心理
      測(cè)驗(yàn),也是測(cè)驗(yàn)理論的真正濫觴。至此,這門(mén)專研心理測(cè)驗(yàn)與評(píng)量(psychological testing and
      assessment),內(nèi)含:量化心理學(xué)(quantitative psychology)、個(gè)別差異(individual differences)、
      和心理測(cè)驗(yàn)理論(mental test theory)等研究範(fàn)圍的科學(xué),即稱為「心理計(jì)量學(xué)」(psychometrics)
      (或又譯成:「心理測(cè)驗(yàn)學(xué)」),正式確立。心理計(jì)量學(xué)的誕生,乃心理學(xué)者企圖將心理學(xué)發(fā)展
      成為一門(mén)「量化的理性科學(xué)」(quantitative rational science)的結(jié)果,到目前為止,它雖然已
      邁入不同的新紀(jì)元,但成長(zhǎng)與茁壯的腳步,卻未曾停止過(guò)。
      談到測(cè)驗(yàn)理論的發(fā)展,很多人喜歡以某某學(xué)派來(lái)作為區(qū)分,雖然這種分法不見(jiàn)得正確,
      但為了討論方便起見(jiàn),我們亦可以一本著作或一位人物,作為某個(gè)學(xué)派理論的開(kāi)始或代表。
      如此一來(lái),我們大概可以將測(cè)驗(yàn)理論粗分為下列兩派:
      1.古典測(cè)驗(yàn)理論(classical test theory,簡(jiǎn)稱CTT):代表人物和作品分別為H. Gulliksen
      的「Theory of mental test」(1950)。
      2.試題反應(yīng)理論(item response theory,簡(jiǎn)稱IRT):代表人物和作品分別為F. Lord 的
      「Applications of item response theory to practical testing problems」(1980)。
      底下,僅先就古典測(cè)驗(yàn)理論的重要內(nèi)涵做個(gè)扼要的評(píng)述,下一節(jié)再敘述試題反應(yīng)理論。
      「古典測(cè)驗(yàn)理論」是最早的測(cè)驗(yàn)理論,至今,它仍然是最實(shí)用的測(cè)驗(yàn)理論,許多通用的
      測(cè)驗(yàn)仍然是根據(jù)傳統(tǒng)方法來(lái)編製,並且建立起測(cè)驗(yàn)資料間的實(shí)證關(guān)係。古典測(cè)驗(yàn)理論也叫「古
      典信度理論」(classical reliability theory),因?yàn)?,它的主要目的是在估?jì)某個(gè)測(cè)驗(yàn)實(shí)得分?jǐn)?shù)
      (observed score)的信度;亦即,它企圖估計(jì)實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)(true score)間的關(guān)聯(lián)程
      度。因此,有時(shí)候它又稱作「真實(shí)分?jǐn)?shù)理論」(true score theory), 因?yàn)樗睦碚搧?lái)源都是建
      立在以「真實(shí)分?jǐn)?shù)模式」(true score model)為名的數(shù)學(xué)模式基礎(chǔ)上。
      當(dāng)某位受試者接受一份測(cè)驗(yàn)的施測(cè)後,他(或她)在該測(cè)驗(yàn)上的得分(即「實(shí)得分?jǐn)?shù)」),
      即代表在某些特定的情境下,他(或她)在這些試題樣本上的能力(ability)。 當(dāng)然,有許
      多因素會(huì)影響受試者在測(cè)驗(yàn)上的表現(xiàn)。即使在內(nèi)容範(fàn)圍相同但試題樣本不同的條件下,或在
      不同的時(shí)間、主測(cè)者、與施測(cè)情境條件下,受試者的表現(xiàn)也都有可能會(huì)不一樣。因此,如果
      單元一
      古典測(cè)驗(yàn)理論簡(jiǎn)介
      2006/9/15
      2
      我們?cè)谒锌赡艿氖y(cè)情境下、在所有可能的不同時(shí)間範(fàn)圍內(nèi)、或儘可能使用不同試題樣本,
      來(lái)針對(duì)同一位受試者進(jìn)行同樣的測(cè)驗(yàn)多次(理論上是無(wú)窮多次),則我們可以獲得許多有關(guān)該
      受試者的實(shí)得分?jǐn)?shù)。這些實(shí)得分?jǐn)?shù)的平均數(shù)(又稱為期望值(expected value)),即代表該受
      試者能力的不偏估計(jì)值(unbiased estimate),該估計(jì)值即被定義為「真實(shí)分?jǐn)?shù)」。因此,所謂
      的「真實(shí)分?jǐn)?shù)模式」,即是指一種直線關(guān)係的數(shù)學(xué)模式(linear model),用來(lái)表示任何可以觀
      察到、測(cè)量到的實(shí)得分?jǐn)?shù)(又簡(jiǎn)稱為觀察值或測(cè)量值)皆由下列兩個(gè)部份所構(gòu)成的一種數(shù)學(xué)
      涵數(shù)關(guān)係,這兩個(gè)部份分別是:一為觀察不到,但代表研究者真正想要去測(cè)量的潛在特質(zhì)
      (latent trait)部份,叫作「真實(shí)分?jǐn)?shù)」;另一為觀察不到,且不代表潛在特質(zhì),卻是研究者
      想要極力去避免或設(shè)法降低的部份,叫作「誤差分?jǐn)?shù)」(error score)。這兩個(gè)部份合併構(gòu)成任
      何一個(gè)真實(shí)的測(cè)量值(即實(shí)得分?jǐn)?shù)),並且彼此之間具有及延伸出多種基本假設(shè),能符合這些
      基本假設(shè)的測(cè)量問(wèn)題,即為真實(shí)分?jǐn)?shù)模式所探討的範(fàn)疇。
      根據(jù)古典測(cè)驗(yàn)理論的假設(shè),受試者所具有的某種潛在特質(zhì),無(wú)法單由一次測(cè)驗(yàn)的實(shí)得分
      數(shù)來(lái)表示,它必須由受試者在無(wú)數(shù)次測(cè)驗(yàn)上所得的實(shí)得分?jǐn)?shù),以其平均數(shù)來(lái)表示,該數(shù)值即
      是受試者的潛在特質(zhì)之不偏估計(jì)值,即是前述的「真實(shí)分?jǐn)?shù)」;真實(shí)分?jǐn)?shù)的存在並不受測(cè)量次
      數(shù)的影響,它代表長(zhǎng)期測(cè)量結(jié)果「不變」的部份。而實(shí)際上,單獨(dú)一次測(cè)量所得的實(shí)得分?jǐn)?shù),
      總會(huì)與真實(shí)分?jǐn)?shù)間產(chǎn)生一段差距,這段差距即稱作「隨機(jī)誤差分?jǐn)?shù)」(random error score),
      或簡(jiǎn)稱為「誤差」(error);誤差分?jǐn)?shù)深受測(cè)量工具之精確度的影響很大,它代表某次測(cè)量結(jié)
      果「可變」的部份。若以數(shù)學(xué)公式來(lái)表示,這兩種分?jǐn)?shù)與實(shí)得分?jǐn)?shù)間的關(guān)係可以表示如下:
      χ = t + e
      其中,χ 代表實(shí)得分?jǐn)?shù), t 代表真實(shí)分?jǐn)?shù), e 代表誤差分?jǐn)?shù)。
      古典測(cè)驗(yàn)理論即是建立在上述這種真實(shí)分?jǐn)?shù)模式及其假設(shè)的基礎(chǔ)上,針對(duì)測(cè)驗(yàn)資料間的
      實(shí)證關(guān)係,進(jìn)行有系統(tǒng)解釋的一門(mén)學(xué)問(wèn)。
      壹、真實(shí)分?jǐn)?shù)理論的基本假設(shè)及其結(jié)論
      真實(shí)分?jǐn)?shù)模式的成立,必須滿足一些基本假設(shè),這些基本假設(shè)就是真實(shí)分?jǐn)?shù)理論所賴以
      建立的基礎(chǔ)。
      真實(shí)分?jǐn)?shù)理論的基本假設(shè),可以歸納成下列七項(xiàng):
      1. e t + = χ (即實(shí)得分?jǐn)?shù)等於真實(shí)分?jǐn)?shù)與誤差分?jǐn)?shù)之和);
      2. t = Ε ) ( χ (即實(shí)得分?jǐn)?shù)的期望值等於真實(shí)分?jǐn)?shù));
      3. 0 = te ρ (即真實(shí)分?jǐn)?shù)與誤差分?jǐn)?shù)之間呈零相關(guān));
      4. 0 2 1 = e e ρ (即不同測(cè)驗(yàn)的誤差分?jǐn)?shù)間呈零相關(guān));
      單元一
      古典測(cè)驗(yàn)理論簡(jiǎn)介
      2006/9/15
      3
      5. 0 2 1 = t e
      ρ (即不同測(cè)驗(yàn)的誤差分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間呈零相關(guān));
      6. 假設(shè)有兩個(gè)測(cè)驗(yàn),其實(shí)得分?jǐn)?shù)分別為χ和' χ,並且滿足上述 1 到 5 的假設(shè),且對(duì)每一群
      體考生而言,亦滿足 ' t t = 和'
      2 2
      e e σ σ = 等條件,則這兩個(gè)測(cè)驗(yàn)便稱作「複本測(cè)驗(yàn)」 (parallel
      tests);
      7. 假設(shè)有兩個(gè)測(cè)驗(yàn),其實(shí)得分?jǐn)?shù)分別為χ和' χ,並且滿足上述 1 到 5 的假設(shè),且對(duì)每一群
      體考生而言,亦滿足 12 2 1 c t t + = ,其中 12 c 為一常數(shù),則這兩個(gè)測(cè)驗(yàn)稱作「本質(zhì)上τ相等測(cè)
      驗(yàn)」(essentially τ-equivalent tests)。
      根據(jù)上述七個(gè)基本假設(shè)的數(shù)學(xué)公式所示可知,古典測(cè)驗(yàn)理論對(duì)測(cè)量問(wèn)題所持的觀點(diǎn),可
      以做如下的詮釋:
      1.假設(shè)具有潛在特質(zhì)存在。
      從第一個(gè)假設(shè)可知,測(cè)量必須要有對(duì)象,此對(duì)象即是我們所假定的潛在特質(zhì)(亦即是t
      所代表者),它是看不見(jiàn)的東西,但我們必須先假設(shè)它的存在,如此才值得我們?nèi)y(cè)量它,若
      不先假設(shè)它是存在的,則我們的任何測(cè)量行為都將失卻目標(biāo),變得盲目無(wú)效。
      2.多次測(cè)量的推論結(jié)果。
      既然上述所假設(shè)的潛在特質(zhì)是看不見(jiàn)的,因此,我們就無(wú)法直接進(jìn)行測(cè)量它。我們僅能
      從數(shù)學(xué)觀點(diǎn)去假設(shè)它與我們從外觀測(cè)量得到的數(shù)據(jù)間具有某種數(shù)學(xué)關(guān)係(通常都假設(shè)成直線
      關(guān)係),為了釐清這種關(guān)係,通常需要使用多次的測(cè)量數(shù)據(jù),再透過(guò)統(tǒng)計(jì)學(xué)的估算(如:求期
      望值),才能估計(jì)出這種潛在特質(zhì)的量到底是多少,並且推論出它與外觀測(cè)量得到的數(shù)據(jù)間具
      有什麼關(guān)係。
      3.單獨(dú)一次的測(cè)量必有誤差存在。
      既然潛在特質(zhì)是經(jīng)由多次測(cè)量才推論得到,因此,單獨(dú)一次的測(cè)量結(jié)果,除了測(cè)量到所
      要測(cè)量的潛在特質(zhì)外,也必定同時(shí)測(cè)量到誤差成份。但是,在經(jīng)過(guò)多次的測(cè)量後,我們由上
      述說(shuō)明所推論出來(lái)的結(jié)果將愈來(lái)愈接近真正的潛在特質(zhì),因此,這麼多次測(cè)量值所含的誤差
      分?jǐn)?shù)也就可以彼此抵銷。這項(xiàng)結(jié)論也就是上述第一和第二個(gè)假設(shè)合併起來(lái)的推理結(jié)果。
      4.假設(shè)潛在特質(zhì)與誤差之間是獨(dú)立的。
      第四個(gè)假設(shè)把測(cè)量問(wèn)題單純化,僅假設(shè)潛在特質(zhì)與誤差之間是獨(dú)立的。由於有這項(xiàng)假設(shè)
      存在,在測(cè)量時(shí),我們不必考慮其他可能干擾測(cè)量結(jié)果的來(lái)源,僅將潛在特質(zhì)以外的干擾,
      統(tǒng)統(tǒng)歸類到所謂的測(cè)量誤差(measurement errors),不再進(jìn)一步細(xì)部分析,如此,可以把測(cè)量
      結(jié)果的推論問(wèn)題單純化。附帶一提的是,這項(xiàng)假設(shè)亦延伸出第四和第五個(gè)假設(shè);但是,這種
      把測(cè)量問(wèn)題單純化的假設(shè),卻是造成古典測(cè)驗(yàn)理論飽受批評(píng)的地方。
      5.複本測(cè)驗(yàn)的嚴(yán)格假設(shè)。
      單元一
      古典測(cè)驗(yàn)理論簡(jiǎn)介
      2006/9/15
      4
      古典測(cè)驗(yàn)理論對(duì)測(cè)量結(jié)果的解釋和比較,是建立在複本測(cè)驗(yàn)的嚴(yán)格假設(shè)上。換句話說(shuō),
      從第六和第七個(gè)假設(shè)可知,唯有滿足複本測(cè)驗(yàn)之嚴(yán)格假設(shè)的兩個(gè)測(cè)量結(jié)果間,才可以直接進(jìn)
      行比較大小和解釋優(yōu)劣;若非滿足此假設(shè),則任何兩次測(cè)量結(jié)果間的解釋和比較,均是無(wú)意
      義的。
      根據(jù)上述的詮釋,從真實(shí)分?jǐn)?shù)理論的基本假設(shè)可以推導(dǎo)出下列十八項(xiàng)結(jié)論,這些結(jié)論正
      是古典測(cè)驗(yàn)理論的研究主題所賴以推理及演繹的依據(jù):
      1. 0 ) ( = Ε e (即誤差分?jǐn)?shù)的期望值為零);
      2. 0 ) , ( = = Ε et t e ρ (即誤差分?jǐn)?shù)與真實(shí)分?jǐn)?shù)之期望值為零);
      3. e t x
      2 2 2 σ σ σ + = (即實(shí)得分?jǐn)?shù)的變異數(shù)等於真實(shí)分?jǐn)?shù)的變異數(shù)與誤差分?jǐn)?shù)的變異數(shù)之和);
      4. x t xt
      2 2 2 σ σ ρ = (即實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)的平方等於真實(shí)分?jǐn)?shù)之變異數(shù)和實(shí)
      得分?jǐn)?shù)之變異數(shù)的比值);
      5. x e xt
      2 2 2 1 σ σ ρ − = (即實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)的平方等於1減去誤差分?jǐn)?shù)之變
      異數(shù)和實(shí)得分?jǐn)?shù)之變異數(shù)的比值);
      6. '
      2 2
      x x σ σ = (即複本測(cè)驗(yàn)的實(shí)得分?jǐn)?shù)之變異數(shù)相同);
      7. y x xy ' ρ ρ = (即複本測(cè)驗(yàn)分?jǐn)?shù)與另一變項(xiàng)分?jǐn)?shù)間的相關(guān)係數(shù)相同);
      8. '
      2
      '
      2 2 2
      ' x t x t xx σ σ σ σ ρ = = (即複本測(cè)驗(yàn)分?jǐn)?shù)間的相關(guān)係數(shù)等於其中一種測(cè)驗(yàn)之真實(shí)分?jǐn)?shù)
      變異數(shù)和實(shí)得分?jǐn)?shù)變異數(shù)的比值);
      9. x e xx
      2 2
      ' 1 σ σ ρ − = (即複本測(cè)驗(yàn)分?jǐn)?shù)間的相關(guān)係數(shù)等於1減去誤差分?jǐn)?shù)之變異數(shù)和實(shí)得分
      數(shù)之變異數(shù)的比值);
      10. xe xx
      2
      ' 1 ρ ρ − = (即複本測(cè)驗(yàn)分?jǐn)?shù)間的相關(guān)係數(shù)等於1減去實(shí)得分?jǐn)?shù)與誤差分?jǐn)?shù)間之相關(guān)
      係數(shù)的平方);
      11. '
      2
      xx xt ρ ρ = (即實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)的平方等於複本測(cè)驗(yàn)分?jǐn)?shù)間的相關(guān)係
      數(shù));
      12. '
      2
      xx t σ σ = (即真實(shí)分?jǐn)?shù)的變異數(shù)等於複本測(cè)驗(yàn)的實(shí)得分?jǐn)?shù)間之共變數(shù));
      13. ) 1 ( '
      2 2
      xx x e ρ σ σ − = (即誤差分?jǐn)?shù)的變異數(shù)等於實(shí)得分?jǐn)?shù)的變異數(shù)乘以1減去複本測(cè)驗(yàn)間
      之相關(guān)係數(shù));
      14.
      ' ' yy xx
      xy
      t t y x ρ ρ
      ρ
      ρ = (即任兩個(gè)測(cè)驗(yàn)的真實(shí)分?jǐn)?shù)間之相關(guān)係數(shù)等於該二測(cè)驗(yàn)的實(shí)得分?jǐn)?shù)間
      之相關(guān)係數(shù)除以該二測(cè)驗(yàn)之複本測(cè)驗(yàn)相關(guān)係數(shù)的相乘積之開(kāi)根號(hào));
      單元一
      古典測(cè)驗(yàn)理論簡(jiǎn)介
      2006/9/15
      5
      15. Y X t t N 2 2 2 σ σ = (即如果X為N個(gè)複本測(cè)驗(yàn)分?jǐn)?shù)Y之和,則X的真實(shí)分?jǐn)?shù)之變異數(shù)等於N
      平方倍之Y的真實(shí)分?jǐn)?shù)之變異數(shù));
      16. Y X e e N 2 2 2 σ σ = (即如果X為N個(gè)複本測(cè)驗(yàn)分?jǐn)?shù)Y之和,則X的誤差分?jǐn)?shù)之變異數(shù)等於N
      平方倍之Y的誤差分?jǐn)?shù)之變異數(shù));
      17.
      '
      '
      ' ) 1 ( 1 YY
      YY
      xx N
      N
      ρ
      ρ
      ρ
      − +
      = (即如果X為N個(gè)複本測(cè)驗(yàn)分?jǐn)?shù)Y之和,則此為 Spearman-Brown 的
      折半信度公式);
      18. 如果0 ' ≠ YY ρ ,則1 lim ' =
      ∞ → xx n
      ρ (即X和Y的定義同結(jié)論15,如果' YY ρ 不等於0, 則' XX ρ 的
      極限為1)。
      整個(gè)古典測(cè)驗(yàn)理論便是以前述七項(xiàng)基本假設(shè),和推導(dǎo)出的十八項(xiàng)結(jié)論為基礎(chǔ),企圖去估
      計(jì)測(cè)驗(yàn)內(nèi)(或測(cè)驗(yàn)間)實(shí)得分?jǐn)?shù)與真實(shí)分?jǐn)?shù)間的關(guān)聯(lián)強(qiáng)度,這些關(guān)聯(lián)強(qiáng)度亦即是該理論所要
      估計(jì)的各種可能信度係數(shù),故古典測(cè)驗(yàn)理論又有「古典信度理論」之稱。
      除了信度估計(jì)之外,古典測(cè)驗(yàn)理論也還探討其他有關(guān)聯(lián)的話題,例如:效度(validity)、
      測(cè)驗(yàn)編製(test construction)、常模(norm)、測(cè)驗(yàn)等化(test equating)、測(cè)驗(yàn)偏差(test bias)、
      試題分析(item analysis)、精熟測(cè)驗(yàn)(mastery testing)、適性測(cè)驗(yàn)(adaptive testing)、題庫(kù)建
      立(item banking)、及其在社會(huì)科學(xué)研究上的應(yīng)用課題等;這些課題都是根據(jù)它的基本假設(shè)
      和推論延伸而來(lái),並且散見(jiàn)於專書(shū)、會(huì)議論文、和下列各種重要學(xué)術(shù)期刊:
      1. Annual Review of Psychology
      2. Applied Psychological Measurement
      3. The British Journal of Mathematical and Statistical Psychology(早期刊名:The British
      Journal of Statistical Psychology)
      4. Educational Measurement : Issues and Practice
      5. Educational and Psychological Measurement
      6. Journal of Educational Measurement
      7. Journal of Educational Statistics
      8. Psychometrika
      9. 中華心理學(xué)刊
      10. 測(cè)驗(yàn)?zāi)昕?br>11. 測(cè)驗(yàn)與輔導(dǎo)
      12. 輔導(dǎo)月刊
      13. 國(guó)內(nèi)各大學(xué)相關(guān)學(xué)報(bào)及教育領(lǐng)域?qū)W術(shù)期刊
      貳、古典測(cè)驗(yàn)理論的優(yōu)缺點(diǎn)
      單元一
      古典測(cè)驗(yàn)理論簡(jiǎn)介
      2006/9/15
      6
      古典測(cè)驗(yàn)理論的理論架構(gòu),主要是以真實(shí)分?jǐn)?shù)模式為主,其理論模式的發(fā)展已為時(shí)甚久,
      且頗具規(guī)模,所採(cǎi)用的計(jì)算公式簡(jiǎn)單明瞭、淺顯易懂,適用於大多數(shù)的教育與心理測(cè)驗(yàn)情境,
      以及社會(huì)科學(xué)研究資料的分析,為目前心理計(jì)量學(xué)界應(yīng)用與流通最廣的一種測(cè)驗(yàn)理論。
      然而,若從當(dāng)代測(cè)驗(yàn)理論(以「試題反應(yīng)理論」為代表)的觀點(diǎn)來(lái)看,古典測(cè)驗(yàn)理論除
      了具備上述各項(xiàng)優(yōu)點(diǎn)外,卻含有下列諸項(xiàng)缺失:
      1.古典測(cè)驗(yàn)理論所採(cǎi)用的指標(biāo),諸如:難度(difficulty)、鑑別度(discrimination)、和信
      度(reliability) 等,都是一種樣本依賴(sample dependent)的指標(biāo);也就是說(shuō),這些指標(biāo)
      的獲得,會(huì)因?yàn)榻邮軠y(cè)驗(yàn)的受試者樣本的不同而不同,因此,針對(duì)不同潛在特質(zhì)的樣本,同
      一份測(cè)驗(yàn)很難獲得一致的難度、鑑別度、或信度等指標(biāo)。
      2.古典測(cè)驗(yàn)理論以一個(gè)共同的測(cè)量標(biāo)準(zhǔn)誤(standard error of measurement),作為每位受試
      者的潛在特質(zhì)估計(jì)值的測(cè)量誤差指標(biāo);這種作法完全沒(méi)有考慮受試者反應(yīng)的個(gè)別差異,對(duì)於
      具有高、低兩極端潛在特質(zhì)的受試者而言,這種指標(biāo)極為不合理且不精確,致使古典測(cè)驗(yàn)理
      論模式的適當(dāng)性受到懷疑。
      3.古典測(cè)驗(yàn)理論對(duì)於非複本(nonparallel),但功能相同的測(cè)驗(yàn)所獲得之量數(shù)間,無(wú)法提
      供有意義的比較;有意義的比較僅侷限在相同測(cè)驗(yàn)的前後測(cè)量之量數(shù)或複本測(cè)驗(yàn)分?jǐn)?shù)之間而
      已。
      4.古典測(cè)驗(yàn)理論對(duì)信度的假設(shè),是建立在複本(parallel forms)測(cè)量概念的假設(shè)上;但是
      這種假設(shè)在實(shí)際的測(cè)驗(yàn)情境裡,往往是不合理或不存在的。因?yàn)?,在?shí)際的測(cè)驗(yàn)情境下,施
      測(cè)者不可能要求每位受試者在接受同一份測(cè)驗(yàn)無(wú)數(shù)次後,而仍然保持每次反應(yīng)結(jié)果都彼此獨(dú)
      立、互相不影響;況且,每一種測(cè)驗(yàn)並不一定在編製測(cè)驗(yàn)之時(shí)就同時(shí)製作複本。因此,複本
      測(cè)量的理論假設(shè)是行不通的,不論是從實(shí)際層面或方法學(xué)邏輯的觀點(diǎn)來(lái)看,它的假設(shè)既不切
      實(shí)際、又不合理、並且也是矛盾的。
      5.古典測(cè)驗(yàn)理論忽視受試者作答的試題反應(yīng)組型(item response pattern)所代表的意義,
      對(duì)於在原始得分上相同的受試者或正確反應(yīng)總和相同的試題,即看成是潛在特質(zhì)(如:能力)
      或試題參數(shù)(如:難度)的估計(jì)值相同。這種觀點(diǎn)其實(shí)是不正確的,因?yàn)?,總分相同的受?br>者或總和相同的試題,其試題反應(yīng)組型不見(jiàn)得會(huì)完全一致,因此,試題反應(yīng)組型所顯示的意
      義也不會(huì)相同,所估算出的潛在特質(zhì)和試題參數(shù)估計(jì)值,應(yīng)該也會(huì)不一樣。
      由於古典測(cè)驗(yàn)理論有上述諸項(xiàng)缺失,學(xué)者們?yōu)閺浹a(bǔ)這個(gè)理論上的缺失,乃轉(zhuǎn)向?qū)で罄碚?br>與方法均較嚴(yán)謹(jǐn)?shù)漠?dāng)代測(cè)驗(yàn)理論,於是才會(huì)有日後的「試題反應(yīng)理論」誕生。不過(guò),由於古
      典測(cè)驗(yàn)理論所採(cǎi)用的數(shù)學(xué)方法較為簡(jiǎn)單易行,廣被中小學(xué)教師及一般大眾所能接受,在當(dāng)今
      單元一
      古典測(cè)驗(yàn)理論簡(jiǎn)介
      2006/9/15
      7
      實(shí)務(wù)應(yīng)用方面,古典測(cè)驗(yàn)理論的重要性仍佔(zhàn)有一席之地。
      附錄 古典測(cè)驗(yàn)理論的重要參考專書(shū)
      Allen, M. J., & Yen, W. M. (1979). Introduction to measurement theory. Monterey, CA:
      Brooks/Cole.
      Anastasi, A. (1988). Psychological testing (6th ed.). New York: Macmillan.
      Berk, R. A. (Ed.) (1980). Criterion referenced measurement: The state of the art. Baltimore,
      MD: Johns Hopkins University Press.
      Berk, R. A. (Ed.) (1982). Handbook of methods for detecting test bias. Baltimore, MD: Johns
      Hopkins University Press.
      Berk, R. A. (Ed.) (1984). A guide to criterion referenced test construction. Baltimore, MD:
      Johns Hopkins University Press.
      Berk, R. A. (Ed.) (1986). Performance assessment: Methods and applications. Baltimore,
      MD: Johns Hopkins University Press.
      Cohen, R. J., Montague, P., Nathanson, L. S., & Swerdlik, M. E. (1988). Psychological testing:
      An introduction to tests and measurement. Mountain View, CA: Mayfield.
      Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory. New York:
      Holt, Rinehart & Winston.
      Cronbach, L. J. (1990). Essentials of psychological testing (5th ed.). New York: Harper &
      Row.
      Cronbach, L. J., Gleser, G. C., Nanda, H., & Rajaratnam, N. (1972). The dependability of
      behavioral measures: Theory of generalizability for scores and profiles. New York: John Wiley &
      Sons.
      Dick, W., & Hagerty, N. (1971). Topics in measurement: Reliability and validity. New York:
      McGraw-Hill.
      DuBois, P. H. (1970). A history of psychological testing. Boston, MA: Allyn & Bacon.
      Ebel, R. L., & Frisbie, D. A. (1991). Essentials of educational measurement (5th ed.).
      Englewood Cliffs, NJ: Prentice-Hall.
      Fan, C. T. (1952). Item analysis table. Princeton, NJ: Educational Testing Service.
      Gronlund, N. E. (1993). How to make achievement tests and assessments (5th ed.). Boston:
      Allyn & Bacon.
      Gronlund, N. E., & Linn, R. L. (1990). Measurement and evaluation in teaching (6th ed.).
      New York: Macmillan.
      Gulliksen, H. (1987). Theory of mental test. Hillsdale, NJ: Lawrence Erlbaum Associates.
      (Originally published in 1950 by New York: John Wiley & Sons)
      Haladyna, T. M. (1994). Developing and validating multiple-choice test items. Hillsdale, NJ:
      單元一
      古典測(cè)驗(yàn)理論簡(jiǎn)介
      2006/9/15
      8
      Lawrence Erlbaum Associates.
      Hopkins, K. D., Stanley, J. C., & Hopkins, B. R. (1990). Educational and psychological
      measurement and evaluation (7th ed.). Englewood Cliffs, NJ: Prentice Hall.
      Jensen, A. R. (1980). Bias in mental testing. New York: The Free Press.
      Kaplan, R. M., & Saccuzzo, D. P. (1993). Psychological testing: Principles, applications, and
      issues (3rd ed.). Pacific Grove, CA: Brooks/Cole.
      Kryspin, W. J., & Feldhusen, J. T. (1974). Developing classroom tests. Minneapolis, Minn:
      Burgess.
      Kubiszyn, T., & Borich, G. (1987). Educational testing and measurement: Classroom
      application and practice (2nd ed.). Glenview, IL: Scott, Foresman & Company.
      Lindquist, E. F. (Ed.) (1951). Educational measurement. Washington, DC: American Council
      on Education.
      Linn, R. L. (Ed.) (1989). Educational measurement (3rd ed.). Washington, DC: American
      Council on Education.
      Linn, R. L., & Gronlund, N. E. (2000). Measurement and assessment in teaching (8th ed.).
      Upper Saddle River, NJ: Prentice-Hall.
      Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA:
      Addison-Wesley.
      Mehrens, W. A., & Lehmann, I. J. (1991). Measurement and evaluation in education and
      psychology (4th ed.). New York: Holt, Rinehart & Winston.
      Nitko, A. J. (1983). Educational tests and measurement. New York: Harcourt Brace
      Jovanovich.
      Nitko, A. J. (2001). Educational assessment of students (3rd ed.). Upper Saddle River, NJ:
      Prentice-Hall.
      Noll, V. H., Scannell, D. P., & Craig, R. C. (1979). Introduction to educational measurement
      (4th ed.). Boston, MA: Houghton Mifflin.
      Oosterhof, A. (2001). Classroom applications of educational measurement(3rd ed.). Upper
      Saddle River, NJ: Prentice-Hall.
      Osterlind, S. J. (1998). Constructing test items: Multiple-choice, constructed-response,
      performance, and other formats(2nd ed.). Boston: Kluwer Academic Publishers.
      Ory, J. C., & Ryan, K. E. (1993). Tips for improving testing and grading. Newbury Park, CA:
      Sage.
      Payne, D. A. (1992). Measuring and evaluating educational outcomes. New York:
      Macmillian.
      Popham, W. J. (1978). Criterion-referenced measurement. Englewood Cliffs, NJ:
      Prentice-Hall.
      Popham, W. J. (1990). Modern educational measurement: A practitioner's perspective (2nd
      ed.). Englewood Cliffs, NJ: Prentice-Hall.
      單元一
      古典測(cè)驗(yàn)理論簡(jiǎn)介
      2006/9/15
      9
      Popham, W. J. (1999). Classroom assessment: What teachers need to know (2nd ed.). Boston:
      Allyn & Bacon.
      Priestly, M. (1982). Performance assessment in education and training: Alternative
      techniques. Englewood Cliffs, NJ: Educational Technology Publications.
      Sax, G. (1989). Principles of educational and psychological measurement and evaluation
      (3rd ed.). Belmont, CA: Wadsworth.
      Stiggins, R. J. (1994). Student-centered classroom assessment. New York: Macmillan.
      Stiggins, R. J., & Conklin, N. F. (1992). In teacher's hands. Albany, NY: State University of
      New York Press.
      Suen, H. K. (1990). Principles of test theories. Hillsdale, NJ: Lawrence Erlbaum Associates.
      Thorndike, R. M., Cunningham, G. K., Thorndike, R. L., & Hagen, E. P. (1991). Measurement
      and evaluation in psychology and education (5th ed.). New York: Macmillan.
      Tindal, G. A., & Marston, D. B. (1990). Classroom-based assessment. Columbus, OH: Charles
      E. Merrill.
      Wainer, H., & Braun, H. I. (Eds.) (1988). Test validity. Hillsdale, NJ: Lawrence Erlbaum
      Associates.
      Wiersma, W., & Jurs, S. G. (1990). Educational measurement and testing (2nd ed.). Boston:
      Allyn & Bacon.
      Worthen, B. R., Borg, W. R., & White, K. R. (1993). Measurement and evaluation in the
      schools. New York: Longman.

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多