測驗等化

航海王魯夫 2009-05-22

展開全文

行政院國家科學(xué)委員會專題研究計畫成果報告
大型教育測驗等化設(shè)計及效果之研究
計畫類別：個別型計畫
計畫編號： NSC94-2413-H-142-001-
執(zhí)行期間： 94 年08 月01 日至95 年07 月31 日
執(zhí)行單位：國立臺中教育大學(xué)教育測驗統(tǒng)計研究所
計畫主持人：許天維
共同主持人：劉湘川，郭伯臣
計畫參與人員：王暄博、張鈺卿、張雅媛、楊智為
報告類型：精簡報告
處理方式：本計畫可公開查詢
中華民國 95 年10 月30 日
1
壹、研究動機與計畫概述
國內(nèi)缺乏長期量化指標(biāo)和標(biāo)準(zhǔn)測量工具來檢視學(xué)生學(xué)習(xí)成就的表現(xiàn)與差
異，以致無法確實瞭解課程實施之成效，亦不利於課程發(fā)展之進行與相關(guān)教育政
策之研擬。隨著國際互動日益密切，國內(nèi)急需建置一套完整且客觀的學(xué)生學(xué)習(xí)成
就資料庫，以利客觀且量化的比較。因此，教育資料庫的建立普遍受到重視，而
目前國內(nèi)正建置中的教育資料庫主要有「臺灣教育長期追蹤資料庫（TEPS）」與
「臺灣高等教育資料庫之建置及相關(guān)議題之探討」兩類，卻無針對全國國民小學(xué)
學(xué)生學(xué)習(xí)成效資料庫之建置。因此，教育部於2004 年推動「臺灣學(xué)生學(xué)習(xí)成就
評量資料庫之建置計畫」，欲建置完善的長期追蹤資料庫，以追蹤學(xué)生學(xué)習(xí)的成
果並分析其變遷趨勢，進而檢視目前國家教育體制與政策實施是否完善。
TASA 計畫中針對目前國內(nèi)國小四年級、六年級、國中二年級、高中二年級
以及高職二年級學(xué)生，進行跨年級、跨學(xué)科之學(xué)生學(xué)習(xí)成就長期性資料庫的建
置，以便透過資料所衍生的訊息，提供教育政策參考以及國內(nèi)專家學(xué)者或?qū)W術(shù)單
位進行基礎(chǔ)性的研究。計畫中以能力指標(biāo)為基準(zhǔn)，欲建立同年級不同測驗及不同
年級不同測驗之量尺，然而，在進行測驗等化及題庫建製時，容易遭遇到的困難
有：
1. 受試者人數(shù)有限，受測時間有限；
2. 同年級與不同年級測驗間之能力量尺連結(jié)；
3. 命題範(fàn)圍廣大，必須施測大量的試題，方可涵蓋欲測量之範(fàn)圍。
此外，為了滿足此一目標(biāo)所建立之題庫，需涵蓋不同認(rèn)知層次及不同難度，
試題數(shù)量將無法由單一受試學(xué)生於短時間內(nèi)完成。在此限制下，若希望能滿足測
驗之目標(biāo)、減輕受試學(xué)生之負(fù)擔(dān)、比較不同年級及不同年度之變化與擔(dān)保所有評
量內(nèi)容都能測驗到，建立共同量尺，乃是不得不研究的課題。而共同量尺的建立，
必須藉助於測驗等化(test equating)技術(shù)之配合，若等化之技術(shù)不被採用，則大型
測驗將無法順利進行。
測驗等化的目的就是允許相同的測驗在不同的形式下，測驗分?jǐn)?shù)是可以被使
用與解釋的。由於不同受試者能力與不同試題難度控制不易，所以等化方法更為
重要。測驗等化屬於ㄧ種統(tǒng)計和心理測量的方法及技術(shù)，在相同的測量結(jié)構(gòu)下，
去調(diào)整並連結(jié)不同測驗的測驗分?jǐn)?shù)，使得這些測驗是可互相比較的。因此，透過
2
多重矩陣抽樣程序(multiple matrix sampling procedures)，使得每位受試者僅需要
施測題庫中的部分試題，卻能達到作答不同測驗學(xué)生之分?jǐn)?shù)可量尺化。
為了達到上述目的必須考慮不同測驗間之連結(jié)與量尺之等化，而一般在進行
測驗等化時，國內(nèi)外較常使用的兩種等化設(shè)計為：平衡不完全區(qū)塊設(shè)計(balanced
incomplete block design, BIB)與定錨不等組設(shè)計(non-equivalent groups with anchor
test design, NEAT)。此外，在建構(gòu)測驗題庫時，能力指標(biāo)個數(shù)的多寡會影響測驗
試題總數(shù)，而試題總數(shù)又會牽動BIB 與NEAT 等化設(shè)計的試題區(qū)塊數(shù)，以致產(chǎn)
生不同BIB 與NEAT 設(shè)計的問題。其次，由於施測人數(shù)的多寡通常會影響測驗
成本與等化品質(zhì)的兩難取捨，解決之道唯有透過模擬試驗之結(jié)果來作決定，然而
在母群體未知的狀況下，本研究假設(shè)學(xué)生之能力分布為常態(tài)分布。職是之故，本
研究就能力分布與施測人數(shù)的不同以及為進行垂直等化而牽動的不同定錨試題
數(shù)來進行模擬試驗，以了解等化後所估計的能力值與試題參數(shù)誤差效果，期能了
解在最少人數(shù)下，估計誤差達到尚能接受的程度，並保持等化的效果，以提供決
策者決斷的訊息。
因此，計畫的主要目的為利用BIB 與NEAT 等化設(shè)計，以測驗資料模擬之
方式，比較等化後估計的能力值誤差與試題參數(shù)誤差效果。此外，為了建立同年
級不同測驗及不同年級不同測驗之量尺，計畫中將進行水平及垂直測驗之等化設(shè)
計?；旧希O(shè)定研究目的為：
1. BIB 及NEAT 設(shè)計於不同施測人數(shù)下水平等化效果；
2. BIB 及NEAT 設(shè)計於不同試題區(qū)塊數(shù)下水平等化效果；
3. BIB 及NEAT 設(shè)計於不同施測人數(shù)下垂直等化效果；
4. BIB 及NEAT 設(shè)計於不同試題區(qū)塊數(shù)下垂直等化效果；
5. BIB 及NEAT 設(shè)計於不同定錨試題數(shù)下垂直等化效果；
貳、文獻探討
本研究的目的在於探討不同的測驗等化設(shè)計，進行測驗等化所產(chǎn)生之等
化效果。因此，本章節(jié)將探討「測驗等化的意義與種類」、「測驗等化設(shè)計」、與
「試題反應(yīng)理論等化方法」之相關(guān)文獻。
3
一、測驗等化的意義與種類
測驗等化是利用統(tǒng)計方法，將受試者在某一測驗的分?jǐn)?shù)轉(zhuǎn)換至另一測驗分?jǐn)?shù)
量尺，以比較兩測驗分?jǐn)?shù)關(guān)係的過程。這些測驗的內(nèi)容及難度都極為相似，為了
用來測量相同的特質(zhì)或能力，因此，測驗等化的目的在調(diào)整測驗難度之差異而非
測驗內(nèi)容之差異(Kolen & Brennan, 1995；吳裕益，民80)。而且，測驗分?jǐn)?shù)等化
不受試題內(nèi)容和受試者能力分布的影響，但必須滿足：對稱性(symmetry)、相等
性(equity)、團體不變性(group invariance property)、測驗必須是單一向度
(unidimensionality of the tests)四項特性，等化才能進行(Lord, 1980；Hambleton &
Swaminathan, 1985；Kolen & Brennan, 1995)。
測驗等化的種類可分為水平等化與垂直等化兩種，茲介紹如下：
(一)水平等化
水平等化係指利用測驗分?jǐn)?shù)等化之技術(shù)，將兩個或兩個以上測量相同特質(zhì)、
相同能力的測驗，其原始分?jǐn)?shù)轉(zhuǎn)換之過程。這些測驗是利用題庫分成數(shù)個類似平
行測驗(parallel test)的題本，其目的是為了保護試題的安全性(test security)及減低
練習(xí)因素(practice effect)。然而，為了確定這些測驗的結(jié)果能夠比較，必須利用
量尺等化(scale equating)的方法，將其轉(zhuǎn)換至同一量尺上，此一過程即稱為水平
等化。
水平等化的實施是當(dāng)某一種測驗有數(shù)種不同形式的題本，而這些題本都是用
來測量某一特質(zhì)，且受試者的能力分布與試題難度又相似時，為了要比較不同題
本的分?jǐn)?shù)，將透過等化程序建立題本之間的等化分?jǐn)?shù)(equating scores)。這些題本
經(jīng)由等化的過程，其測驗成績即可在相同的量尺上進行比較。水平等化也常應(yīng)用
在許多測驗方面，例如：托福、GRE的考試就有多種複本測驗，可以進行一年多
次的考試機會。
(二)垂直等化
垂直等化係指利用測驗分?jǐn)?shù)等化之技術(shù)，將兩個或兩個以上測量相同特質(zhì)、
相同能力的測驗，其原始分?jǐn)?shù)轉(zhuǎn)換之過程。垂直等化的實施是當(dāng)某一種測驗有數(shù)
種不同形式的題本，而這些題本都是用來測量某一特質(zhì)，但受試者的能力分布與
試題難度卻不相同時，為了要比較不同題本的分?jǐn)?shù)，透過等化程序而建立題本之
間的等化分?jǐn)?shù)(equating scores)。此一測驗，受試者的能力是屬於不同年齡或年級
的分配情形，如美國的加州成就測驗(California Achievement Tests , CAT)、愛奧
4
華基本技能測驗(Iowa Test of Basic Skills)等，即利用垂直等化進行測驗分?jǐn)?shù)間之
連結(jié)。
此外，若某一計畫之目的為長時間研究受試者的某種能力成長情形時，等化
的議題將受到矚目，且水平及垂直等化是必須同時進行的。而較著名的NAEP
大型測驗，藉由等化連結(jié)的成果，將受試者測驗之分?jǐn)?shù)轉(zhuǎn)換到一個共同的量尺
上，以期作為教育者比較各州、各地區(qū)、各學(xué)校、甚至個人表現(xiàn)的評比依據(jù)
(National Research Council, 1999；Kolen, 2000；陳煥文，民93)。目前國內(nèi)TASA
計畫，也是藉由等化連結(jié)的方法，將受試者測驗的分?jǐn)?shù)轉(zhuǎn)換到同一上，以提供國
內(nèi)專家學(xué)者或?qū)W術(shù)單位進行跨年級、跨學(xué)科、甚至跨年度的比較。因此，可知長
期追蹤之大型測驗，除了有助於建立相同年級及不同年級之量尺外，並可藉此量
尺分析來探究學(xué)生在各學(xué)科及不同年級之學(xué)習(xí)差異。
二、測驗等化設(shè)計
測驗等化設(shè)計指的是施測者收集等化資料的方法，依目的使用符合的設(shè)計。
常見的等化設(shè)計有單組設(shè)計、平衡對抗隨機組設(shè)計、等群組設(shè)計、試題預(yù)先等化
設(shè)計、平衡不完全區(qū)塊設(shè)計、定錨不等組設(shè)計等(王寶墉，民84；Kolen & Brennan,
1995)。以下茲介紹本研究所採用的BIB 與NEAT 等化設(shè)計：
(一) BIB 設(shè)計
BIB 設(shè)計是將試題分成若干試題區(qū)塊，區(qū)塊間與區(qū)塊內(nèi)的試題皆不重複，受
試者只需接受若干試題區(qū)塊的試題，且不同受試者可能接受部分相同、完全相
同、或完全不同的試題區(qū)塊。最後，將所有受試者的作答反應(yīng)資料堆疊進行等化
分析，以達到能力估計的目的。BIB 設(shè)計如表2-1(曾玉琳、王暄博、郭伯臣、許
天維，民95)。
表2-1 BIB 設(shè)計
題本序號區(qū)塊(k1) 區(qū)塊(k2) 區(qū)塊(k3)
S1 M1 M2 M4
S2 M2 M3 M5
S3 M3 M4 M6
S4 M4 M5 M7
S5 M5 M6 M1
S6 M6 M7 M2
S7 M7 M1 M3
表2-1為BIB設(shè)計的一個範(fàn)例，在此設(shè)計中，有7個題本(S1~S7)；7個試題區(qū)
5
塊(M1~M7)。BIB設(shè)計中試題區(qū)塊序號的組合不重複，如：S1題本是由試題區(qū)塊
M1、M2、M4組合而成，則S2~S7題本就不會再出現(xiàn)試題區(qū)塊M1、M2、M4的組
合。
BIB 設(shè)計的優(yōu)點為試題區(qū)塊與題本(booklet)的配置方式，使用螺旋(spiral)式
排列方式，可使每一個試題區(qū)塊的施測次數(shù)相同(van der Linden, Veldkamp &
Carlson, 2004；Nemhauser & Wolsey, 1999)。此設(shè)計在無作答時間(response time)
的限制情形下，必須滿足以下限制式：
∑=
=
t
i
is k x
1
, S s ,..., 1 = (2.1)
∑=
≤
S
s
is r x
1
, t i ,..., 1 = (2.2)
∑=
≥
S
s
ijs z
1
λ, t j i ,..., 1 = < (2.3)
ijs js is z x x 2 ≥ + , t j i ,..., 1 = < , S s ,..., 1 = (2.4)
其中：t 指試題區(qū)塊數(shù)；
s 指題本代號， S s ,..., 1 = ；
k 指每個題本配置的試題區(qū)塊數(shù)，即區(qū)塊數(shù)目(number of blocks)；
r 指試題區(qū)塊在題本中出現(xiàn)的次數(shù)；
i 指題庫中個別區(qū)塊代號， t i ,..., 1 = ；
j 指題庫中成對區(qū)塊中第二個區(qū)塊代號， N j ,..., 1 = ；
λ指成對試題區(qū)塊出現(xiàn)在相同區(qū)塊位置的次數(shù)；
is x 指試題區(qū)塊與題本的配置組型，其中： { } 1 , 0 ∈ is x , t i ,..., 1 = , S s ,..., 1 = ；
ijs z 指成對試題區(qū)塊與題本的配置組型， { } 1 , 0 ∈ ijs z , t j i ,..., 1 = < , S s ,..., 1 = 。
式子(2.1)代表每一個題本配置的試題區(qū)塊數(shù)目；式子(2.2)代表每一個試題區(qū)
塊在所有題本中出現(xiàn)的次數(shù)；式子(2.3)代表成對試題區(qū)塊在所有題本中出現(xiàn)的次
數(shù)；式子(2.4)代表成對試題區(qū)塊與組型的一致性。BIB 設(shè)計須符合式子(2.1)至(2.4)
的要求，求出符合的最佳解。
美國的NAEP 和荷蘭的PPON(Periodiek Peilingsonderzoek van het Onderwijs)
即依據(jù)BIB 設(shè)計的原則。這個設(shè)計假設(shè)題庫中的試題被區(qū)分為數(shù)個區(qū)塊，並利
用這些試題區(qū)塊編製成題本。在區(qū)分試題區(qū)塊的過程不為隨機，但必須考量受試
6
者可以有足夠的時間完成所有的題目，且試題區(qū)塊數(shù)也要事先確定。最後題本根
據(jù)最小單位，經(jīng)由螺旋排序並束在一起(spiraled and bundled)的方式確保每一試題
區(qū)塊出現(xiàn)的次數(shù)均等，以減低順序因素。所以施測時，必須依據(jù)排好的順序?qū)㈩}
本循序發(fā)給考生。另外，根據(jù)NAEP 1998 年的技術(shù)性報告中指出，每一試題在
施測時，大約需要500 個測試樣本(Allen, Donoghue & Schoeps, 2001)。
BIB 設(shè)計有三項基本限制：
1. 每一個題本內(nèi)的試題區(qū)塊數(shù)要相同；
2. 試題區(qū)塊作結(jié)合以求出最小題本數(shù)；
3. 每一個試題區(qū)塊在所有題本中出現(xiàn)的次數(shù)要相同。
然而，這只是BIB 設(shè)計必須符合的三項基本限制，但在實際設(shè)計時，還需
考慮試題的內(nèi)容、形式及作答時間。
(二) NEAT 設(shè)計
NEAT 設(shè)計內(nèi)包含兩個獨立的單組設(shè)計，其設(shè)計方式為在兩組受試者的母群
體中，隨機抽取兩組受試者樣本(P 和Q)。其中，P 組受試者接受X 測驗，Q 組
受試者接受Y 測驗，且兩組受試者施測的時間不同。P 和Q 兩組受試樣本另
外須接受定錨試題A 測驗，通常定錨試題在兩樣本的測驗順序是一樣的，以避
免順序因素的影響，而測驗內(nèi)容和難度必須與X、Y 測驗十分類似，其測驗長度
相當(dāng)於一個分測驗(von Davier, Holland, & Thayer, 2004；Dorans & Holland,
2000；Tianyou, 2005)。NEAT 設(shè)計如表2-1 (Kolen & Brennan,1995；von Davier,
Holland, & Thayer, 2004)。
表2-1 NEAT 設(shè)計
受試者群 X測驗 Y測驗定錨測驗A
P V V
Q V V
“V”為受試者必須受測之測驗
NEAT 設(shè)計為常見的測驗等化設(shè)計，MCAS(Massachusetts comprehensive
assessment system)即使用NEAT 設(shè)計進行不同年度間學(xué)生之測驗等化，因為它只
需要假設(shè)受試群體是隨機抽取，不必假設(shè)兩受試群體有相同的能力值。NEAT 設(shè)
計定錨試題內(nèi)容要盡可能相似且試題難度要相同，因為定錨試題是用來調(diào)整兩個
不同能力之群體所造成的等化誤差(Petersen, Kolen & Hoover,1993)。
7
本研究測驗等化設(shè)計即採用BIB 與NEAT 設(shè)計進行模擬研究，此兩設(shè)計均
將試題分成若干試題區(qū)塊，使用每個題本配置若干個試題區(qū)塊來進行施測。而最
大的差異在於，BIB 設(shè)計的每個試題區(qū)塊施測次數(shù)皆相同，且題本與試題區(qū)塊使
用螺旋式排列來進行等化分析，使得部份題本無共同試題，依然可進行等化分
析；NEAT 設(shè)計的每個試題區(qū)塊施測次數(shù)並不相同，且以每個題本中之共同試
題，作為等化分析之連結(jié)。
綜合上述，可知NEAT設(shè)計為一般常用的等化設(shè)計，此設(shè)計每個題本必須有
共同試題才能進行等化連結(jié)；BIB設(shè)計則可利用無共同試題之題本進行連結(jié)等
化。因此，本研究擬利用BIB設(shè)計以補NEAT設(shè)計不足，進行BIB與NEAT設(shè)計等
化效果之比較。
三、試題反應(yīng)理論等化方法
試題反應(yīng)理論等化方法是利用不同組群受試者的反應(yīng)資料，推估試題參數(shù)值
和能力參數(shù)值，在經(jīng)過連結(jié)的過程，將參數(shù)值轉(zhuǎn)化到同一量尺上。其中較常用使
用的等化估計方法有同時估計法(concurrent estimation)及分離估計法(separate
estimation)，在分離估計法中，包含平均數(shù)法(mean method)、平均數(shù)與標(biāo)準(zhǔn)差法
(mean and sigma method)、特徵曲線法(characteristic curve method) (Hanson &
Beguin, 2002；Haebara, 1980；Kolen & Brennan, 1995；Stocking & Lord, 1983)。
(一)同時估計法
同時估計法是藉由測驗等化設(shè)計與IRT電腦軟體所提供之功能作連結(jié)，將所
有測驗之測驗資料同時進行試題校準(zhǔn)，經(jīng)由校準(zhǔn)後，即能將所有測驗之受試者能
力值與試題參數(shù)放置在相同量尺上。其主要的原理為：將測驗等化設(shè)計測驗題本
中之試題參數(shù)估計值同時對應(yīng)於相同能力量尺上。此方法比其他的等化方法利用
更多的試題參數(shù)訊息，包括了定錨試題之參數(shù)估計值(如鑑別度、難度、及猜測
度參數(shù))，與此定錨試題參數(shù)估計值之變異數(shù)共變數(shù)矩陣(variance-covariance
matrix)(Mislevy & Bock, 1982)。
在等化的過程中，利用等化係數(shù)將不同測驗題本之試題參數(shù)估計值轉(zhuǎn)化於相
同的量尺上時，若所使用之等化係數(shù)估計值不甚正確，將產(chǎn)生等化誤差。然而，
使用同時估計法則可避免此種缺點，並且能應(yīng)用最多試題訊息來完成等化。因
此，採用此方法將優(yōu)於以線性技術(shù)為基礎(chǔ)之等化方法，例如：特徵曲線法等
8
(Stocking & Lord, 1983；李源煌、楊玉女，民89)。本研究之BIB設(shè)計在試題參數(shù)
估計時也較適合使用同時估計法，且國內(nèi)外許多文獻亦證實，採用同時估計法能
獲得較佳的精準(zhǔn)度(Hanson & Beguin, 2002；Kim & Cohen, 1998；陳煥文，民93)。
因此，在本研究之等化估計即採用同時估計法。
(二)分離估計法
分離估計法在進行測驗等化時，是先分別估計不同測驗之試題參數(shù)，再利用
各測驗間之定錨試題及試題參數(shù)量尺化的方法，將各測驗量尺轉(zhuǎn)換在同ㄧ量尺上
進行比較。以下茲介紹三種常見之試題參數(shù)量尺化方法：
(一)平均數(shù)法
若有兩測驗(X測驗和Y測驗)需要等化，在平均數(shù)法中，利用兩測驗定錨試
題之鑑別度參數(shù)及難度參數(shù)的平均數(shù)，計算出量尺線性轉(zhuǎn)換的斜率α與截距β，
再將X測驗分?jǐn)?shù)利用線性轉(zhuǎn)換至Y測驗分?jǐn)?shù)對應(yīng)的分?jǐn)?shù)。其計算模式如下(Kolen
& Brennan, 1995)：
) (
) (
Y
X
a
a
μ
μ
α= (2.5)
) ( ) ( X Y b b αμ μ β − = (2.6)
其中， a 參數(shù)指鑑別度參數(shù)；
b 參數(shù)指難度參數(shù)；
) ( X a μ 、) ( Y a μ 為X及Y定錨測驗參數(shù)a 之平均數(shù)；
) ( X b μ 、) ( Y b μ 為X及Y定錨測驗參數(shù)b 之平均數(shù)。
(二)平均數(shù)與標(biāo)準(zhǔn)差法
若有兩測驗(X測驗和Y測驗)需要等化，在平均數(shù)與標(biāo)準(zhǔn)差法中，利用兩測
驗定錨試題之難度參數(shù)的標(biāo)準(zhǔn)差和平均數(shù)，計算出量尺線性轉(zhuǎn)換的斜率α與截距
β，再將X測驗分?jǐn)?shù)利用線性轉(zhuǎn)換至Y測驗分?jǐn)?shù)對應(yīng)的分?jǐn)?shù)。其計算模式如下
(Kolen & Brennan, 1995)：
) (
) (
X
Y
b
b
σ
σ
α= (2.7)
) ( ) ( X Y b b αμ μ β − = (2.8)
其中，b 參數(shù)指難度參數(shù)；
) ( X b μ 、) ( Y b μ 為X及Y定錨測驗參數(shù)b 之平均數(shù)；
9
) ( X b σ 、) ( X b σ 為X及Y定錨測驗參數(shù)b 之標(biāo)準(zhǔn)差。
(三)特徵曲線法
特徵曲線法是Haebara(1980)及Stocking & Lord(1983)提出，假設(shè)xk ξ 與yk ξ 為
受試者k 在X測驗及Y測驗的真分?jǐn)?shù)，並求出兩真分?jǐn)?shù)差異之最小值，其計算模
式如下：
∑=
=
n
i
xi xi xi k xk c b a P
1
) , , , ( θ ξ (2.9)
∑=
=
n
i
yi yi yi k yk c b a P
1
) , , , ( θ ξ (2.10)
∑=
− =
N
a
yk xk N
F
1
2 ) ( 1 ξ ξ (2.11)
其中，試題參數(shù)設(shè)定為：
α
xi
yi
a a = 、β α + = xi yi b b 及xi yi c c = ， F 為兩真
分?jǐn)?shù)差異之最小值。
接著，利用Newton-Raphson 求出偏導(dǎo)數(shù)方程式，即可得兩真分?jǐn)?shù)的最小值。
0 = =
β α d
dF
d
dF (2.12)
特徵曲線法是利用三個試題參數(shù)，因此，等化效果應(yīng)較佳(李文忠，民84)。
參、研究方法
一、共同變項設(shè)定
本研究利用電腦模擬建置題庫資料，探討B(tài)IB 與NEAT 設(shè)計進行兩種不同
情況下之測驗等化模擬。在共同變項設(shè)定為：
1. 每個題本施測題數(shù)為36 題；
2. 每個題本配置的試題區(qū)塊數(shù)為3 個；
3. 每個年級施測人數(shù)為5460 人、7500 人及10000 人；
4. 每一個不同條件中，均重覆進行50 次的資料模擬。
不同情況下之測驗等化模擬變項之受試者能力值及試題參數(shù)分布會分布如
下：
(一)水平等化之共同變項設(shè)定
10
1. 受試者群能力分布
能力分佈設(shè)定為截尾常態(tài)分布(truncated normal distribution)，平均數(shù)為0，標(biāo)
準(zhǔn)差為1，將範(fàn)圍界定於3 ~ 3 − ，記為) 1 , 0 ( N 。
2. 試題參數(shù)分佈
(1) 鑑別度(discrimination)參數(shù)：為截尾常態(tài)分佈，平均數(shù)為1，標(biāo)準(zhǔn)差為
0.25，將範(fàn)圍界定於5 . 1 ~ 5 . 0 ，記為) 25 . 0 , 1 ( N ；
(2) 難度(difficulty)參數(shù)：為截尾常態(tài)分佈，平均數(shù)為0，標(biāo)準(zhǔn)差為1，將範(fàn)
圍界定於3 ~ 3 − ，記為) 1 , 0 ( N ；
(3) 猜測度(pseudochance)參數(shù)：為截尾常態(tài)分佈，平均數(shù)為0.125，標(biāo)準(zhǔn)差
為0.0625，將範(fàn)圍界定於25 . 0 ~ 0 ，記為N(0.125,0.0625)。
(二)垂直等化之共同變項設(shè)定
1. 受試者群能力分布
垂直等化之受試者群能力分布，將其設(shè)定為H 年級與L 年級兩群，H 年級
代表年級較高之受試者，L 年級代表年級較低之受試者，進行不同年級間量尺之
垂直等化。受試者群能力分布為：
(1) H 年級：為截尾常態(tài)分布，平均數(shù)為1，標(biāo)準(zhǔn)差為3 / 2 ，將範(fàn)圍界定於
3 ~ 1 − ，記為) 3 / 2 , 1 ( N ；
(2) L 年級：為截尾常態(tài)分布，平均數(shù)為1 − ，標(biāo)準(zhǔn)差為3 / 2 ，將範(fàn)圍界定於
1 ~ 3 − ，記為) 3 / 2 , 1 (− N 。
2. 試題參數(shù)分佈
(1) 鑑別度參數(shù)：為截尾常態(tài)分布，平均數(shù)為1，標(biāo)準(zhǔn)差為0.25，將範(fàn)圍界
定於5 . 1 ~ 5 . 0 ，記為) 25 . 0 , 1 ( N ；
(2) 難度參數(shù)：為截尾常態(tài)分布，依不同年級而區(qū)分成，H 年級的) 3 / 2 , 1 ( N ，
範(fàn)圍3 ~ 1 − 、L 年級的) 3 / 2 , 1 (− N ，範(fàn)圍1 ~ 3 − ；
(3) 猜測度參數(shù)：為截尾常態(tài)分布，平均數(shù)為0.125，標(biāo)準(zhǔn)差為0.0625，將範(fàn)
圍界定於25 . 0 ~ 0 ，記為) 0625 . 0 , 125 . 0 ( N 。
此外，本研究在不同年級中設(shè)定3題、6題及9題之定錨試題數(shù)，以比較不同
定錨試題數(shù)對於不同等化設(shè)計之影響。
11
二、BIB 設(shè)計
(一)水平等化之BIB 設(shè)計
BIB設(shè)計必須符合下列條件：

=
≤ − × ×
= − × = − ×
× = ×
3
36 ) 1 (
12 ) 1 ( ) 1 (
k
k r k
t k r
t r k b
λ
求出符合上式BIB設(shè)計參數(shù)如下表：
表3-1 BIB 模式之參數(shù)設(shè)定
等化設(shè)計 b t k r λ
BIB 26 13 3 6 1
此參數(shù)設(shè)定係依據(jù)van der Linden & Veldkamp & Carlson，於2004年發(fā)表的
「Optimizing Balanced Incomplete Block Designs for Educational Assessments」
中，26個題本、13個試題區(qū)塊的最佳BIB設(shè)計，其設(shè)計的配置如下：
表3-2 BIB 設(shè)計表
區(qū)塊位置區(qū)塊位置
題本序號 k1 k2 k3 題本序號k1 k2 k3
S1 M1 M10 M11 S14 M1 M4 M12
S2 M6 M8 M11 S15 M6 M10 M13
S3 M2 M6 M12 S16 M3 M7 M13
S4 M7 M9 M10 S17 M8 M9 M12
S5 M2 M7 M11 S18 M2 M4 M10
S6 M4 M6 M7 S19 M3 M5 M6
S7 M1 M7 M8 S20 M5 M8 M10
S8 M1 M6 M9 S21 M2 M5 M9
S9 M11 M12 M13 S22 M4 M9 M13
S10 M5 M7 M12 S23 M1 M5 M13
S11 M3 M9 M11 S24 M2 M8 M13
S12 M3 M10 M12 S25 M4 M5 M11
S13 M1 M2 M3 S26 M3 M4 M8
資料來源：van der Linden & Veldkamp & Carlson,2004
「BIB的設(shè)計表」中，包含26個題本（S1~S26）；13個試題區(qū)塊（M1~M13）。
12
每個題本包含3個試題區(qū)塊，成對試題區(qū)塊在每個題本出現(xiàn)的次數(shù)只有1次(λ =
1)，且每個題本中試題區(qū)塊的組合不重複。例如：S1的試題區(qū)塊為M1、M10、
M11，則S2至S26中不會出現(xiàn)試題區(qū)塊M1、M10、M11的組合。此外，每一個試
題區(qū)塊在所有題本中出現(xiàn)的次數(shù)為6次(r=6)，如：試題區(qū)塊M1出現(xiàn)在題本S1、S7、
S8、S13、S14、S23，依此類推。
(二)垂直等化之BIB 設(shè)計
本研究在垂直等化之BIB 設(shè)計，利用不同年級間之定錨試題做等化連結(jié)，
等化設(shè)計排列的格式如下：
表3-3 不同年級間BIB 等化設(shè)計(垂直等化)模式
L 年級 H年級
1 M L − 1 M H − 包含1 1 − −M L ~ g M L − − 1
2 M L − 2 M H − 包含1 2 − − M L ~ g M L − − 2
3 M L − 3 M H − 包含1 3 − − M L ~ g M L − − 3
4 M L − 4 M H − 包含1 4 − − M L ~ g M L − − 4
...
...
13 M L −
→
13 M H − 包含1 13 − − M L ~ g M L − − 13
每個試題區(qū)塊(M)各抽取g 題為定錨試題，本研究探討g=1、2、3 之效果。
表3-3 為不同年級不同測驗之BIB 垂直等化設(shè)計模式，其中： j M 代表試題
區(qū)塊代號， 13 , , 1 K = j ； 1 M H − ~ 13 M H − 代表H 年級所包含之試題區(qū)塊數(shù)、
1 M L − ~ 13 M L − 代表L 年級所包含之試題區(qū)塊數(shù)、1 1 − − M L 代表L 年級試題區(qū)
塊1 的第1 題。
BIB 垂直等化設(shè)計中，不同兩年級的試題排列均依照BIB 設(shè)計排列，在定錨
試題部分是將H 年級中每個試題區(qū)塊中，放入L 年級對應(yīng)試題區(qū)塊中難度較難
的試題。如表3-3，H 年級的試題區(qū)塊1( 1 M H − )中，包含L 年級試題區(qū)塊1 內(nèi)
試題難度較難的g 題( 1 1 − − M L ~ g M L − − 1 )定錨試題。本研究只討論每個試
題區(qū)塊中定錨試題為1 題、2 題及3 題之效果，即探討不同年級間每個題本定錨
試題數(shù)為3 題、6 題及9 題之等化效果。
(三)題數(shù)設(shè)定
本研究模擬每個題本施測試題數(shù)為36 題，試題區(qū)塊數(shù)為3，因此，每個試
題區(qū)塊之試題數(shù)為12 題。在BIB 設(shè)計中，同年級不同測驗之總試題數(shù)，為試題
13
區(qū)塊數(shù)之設(shè)定；不同年級不同測驗之總試題數(shù)，隨著定錨試題數(shù)的多寡而不同，
定錨試題數(shù)與總試題數(shù)之對照如下表：
表3-4 BIB 設(shè)計之定錨試題數(shù)與總試題數(shù)對照表
等化設(shè)計試題區(qū)塊數(shù) 不同年級間
定錨試題數(shù)
各年級施測
總試題數(shù)
兩年級間施測
總試題數(shù)
3 156 299
6 156 286 BIB 13
9 156 273
(四)人數(shù)設(shè)定
本研究模擬三種施測人數(shù)(5460 人、7500 人及10000 人)，因此，不同年級
之受測人數(shù)為10920、15000 人及20000 人。人數(shù)的設(shè)定考量如下：
1. 每一份題本人數(shù)必須相同；
2. 兩年級的受測人數(shù)必須相同；
3. 每一試題受測人數(shù)至少500 人以上；
4. 每年級受測人數(shù)為5460 人、7500 人及10000 人；
依上列4 個條件整理如表3-5。
表3-5 BIB 設(shè)計中題本、試題及定錨試題受測人數(shù)
等化設(shè)計受測人數(shù) 每年級
受測人數(shù)
每個題本
受測人數(shù)
每個試題
受測人數(shù)
不同年級間定錨
試題受測人數(shù)
10920 5460 210 1260 2520
15028 7514 289 1734 3468 BIB
20020 10010 385 2310 4620
三、NEAT 設(shè)計
(一)水平等化之NEAT 設(shè)計
NEAT設(shè)計為一般測驗等化常用的設(shè)計，本研究為了利用NEAT設(shè)計之等化
效果與BIB設(shè)計之等化效果進行比較。因此，NEAT設(shè)計的試題區(qū)塊數(shù)是根據(jù)BIB
設(shè)計而來，13個試題區(qū)塊及總試題數(shù)為156題。NEAT設(shè)計模式如下表：
表3-6 NEAT 模式之參數(shù)設(shè)定
等化設(shè)計題本數(shù) 試題區(qū)塊數(shù)每個題本配置的試題區(qū)塊數(shù)
NEAT 6 13 3
將NEAT設(shè)計模式依NEAT設(shè)計整理成表3-7。
14
表3-7 NEAT設(shè)計表
區(qū)塊位置
題本序號k1 k2 k3
S1 M1 M2 M3
S2 M1 M4 M5
S3 M1 M6 M7
S4 M1 M8 M9
S5 M1 M10 M11
S6 M1 M12 M13
表3-7為NEAT設(shè)計表，包含6個題本（S1~S6）；13個試題區(qū)塊（M1~M13）。
題本的配置如下：S1的試題區(qū)塊為M1、M2、M3；S2的試題區(qū)塊為M1、M4、
M5；S3的試題區(qū)塊為M1、M6、M7；S4的試題區(qū)塊為M1、M8、M9；S5的試題
區(qū)塊為M1、M10、M11；S6的試題區(qū)塊為M1、M12、M13。
(二)垂直等化之NEAT 設(shè)計
NEAT 設(shè)計不同年級間之等化垂直等化設(shè)計排列格式如下：
表3-8 不同年級間NEAT 等化設(shè)計（垂直等化）
L 年級 H年級
1 M L − 1 M H − 包含1 1 − − M L ~ h M L − − 1
2 M L − 2 M H −
3 M L − 3 M H −
4 M L − 4 M H −
..
.
..
.
13 M L −
→
13 M H −
每個區(qū)塊(M)各抽取h 題為定錨試題，本研究探討h=3、6、9 之效果。
表3-8 為不同年級不同測驗之NEAT 垂直等化設(shè)計模式， j M 為試題區(qū)塊代
號， 13 , , 1 K = j 。在NEAT 垂直等化設(shè)計中，不同年級的試題排列均依照NEAT
設(shè)計排列，為了比較在不同定錨試題下兩種等化設(shè)計的效果，NEAT 設(shè)計根據(jù)
BIB 設(shè)計，將不同年級之每個題本總定錨試題數(shù)設(shè)定為3、6、9 題。
本研究將NEAT 設(shè)計之試題區(qū)塊1 M 設(shè)定為定錨試題區(qū)塊，因此，垂直等化
之定錨試題必須為試題區(qū)塊1 M 內(nèi)選出，如表3-8，H 年級試題區(qū)塊1( 1 M H − )
中，包含L 年級試題區(qū)塊1 內(nèi)試題難度較難的h 題( 1 1 − − M L ~ h M L − − 1 )定錨
試題，而本研究只討論試題區(qū)塊1 中定錨試題為3、6、9 題之效果。
15
(三)題數(shù)設(shè)定
本研究NEAT設(shè)計是根據(jù)BIB設(shè)計，每個題本施測試題數(shù)亦為36題，試題區(qū)
塊數(shù)為3，每個試題區(qū)塊之試題數(shù)為12題。NEAT設(shè)計中，同年級不同測驗之總
試題數(shù)，為試題區(qū)塊數(shù)；不同年級不同測驗之總試題數(shù)，隨著定錨試題數(shù)的多寡
而不同。題數(shù)變化情形如下表：
表3-9 不同年級間NEAT 設(shè)計之定錨試題數(shù)與總試題數(shù)對照表
等化設(shè)計試題區(qū)塊數(shù) 不同年級間
定錨試題數(shù)
各年級施測
總試題數(shù)
兩年級間施測
總試題數(shù)
3 156 309
6 156 306 NEAT 13
9 156 303
(四)人數(shù)設(shè)定
NEAT 設(shè)計亦根據(jù)BIB 設(shè)計之設(shè)定，模擬三種施測人數(shù)(5460 人、7500 人及
10000 人) ，因此，不同年級之受測人數(shù)為10920、15000 人及20000 人。人數(shù)的
設(shè)定考量如下：
1. 每一份題本人數(shù)必須相同；
2. 兩年級的受測人數(shù)必須相同；
3. 每一試題受測人數(shù)至少500 人以上；
4. 每年級受測人數(shù)為5460 人、7500 人及10000 人；
依上列4 個條件整理如表3-10。
表3-10 NEAT 設(shè)計中題本、試題及定錨試題受測人數(shù)
等化設(shè)計總受測
人數(shù)
每年級
受測人
數(shù)
每個題
本受測
人數(shù)
各年級定
錨試題受
測人數(shù)
各年級非
定錨試題
受測人數(shù)
不同年級間
定錨試題受
測人數(shù)
10920 5460 910 5460 910 10920
15000 7500 1250 7500 1250 15000 NEAT
20004 10002 1667 10002 1667 20004
四、估計精準(zhǔn)度
本研究使用BILOG-MG(Zimowski & Muraki & Mislevy & Bock, 2003)進行等
化，並估計受試者能力值與試題參數(shù)值。估計精準(zhǔn)度指估計誤差值的大小，估計
誤差值愈小，表示估計愈精準(zhǔn)。本研究使用能力真值與能力估計值，及試題參數(shù)
真值與試題參數(shù)估計值的根均方差(root mean square error, RMSE)作為估計的精
16
準(zhǔn)度，其估計精準(zhǔn)度的公式計算如下：
N
RMSE
N
i
i i ∑=
−
= 1
2 ) ˆ (
) ˆ , (
η η
η η
其中，N：表示受試者人數(shù)；
( ) N η η η η η ,..., , , 3 2 1 = ：表示受試者能力真值或試題參數(shù)真值；
( ) N η η η η η ˆ ,..., ˆ , ˆ , ˆ ˆ 3 2 1 = ：表示受試者能力估計值或試題參數(shù)估計值。
肆、研究結(jié)果
一、BIB 與NEAT 設(shè)計等化後估計結(jié)果
(一)水平等化測驗之等化結(jié)果
根據(jù)模擬研究的結(jié)果，將BIB 與NEAT 設(shè)計在水平等化測驗中，等化後之
RMSE 整理成表4-1：
表4-1 BIB 及NEAT 等化設(shè)計在水平等化測驗中之誤差結(jié)果表
誤差值(RMSE)
等化設(shè)計各年級總?cè)藬?shù)
能力值鑑別度難度猜測度
0.3221 0.1359* 0.1434* 0.0460* 5460 (0.0033) (0.0100) (0.0136) (0.0031)
0.3207 0.1204* 0.1312* 0.0440* 7514 (0.0030) (0.0098) (0.0113) (0.0033)
0.3205 0.1068* 0.1228* 0.0423*
BIB
10010 (0.0020) (0.0062) (0.0092) (0.0025)
0.3180* 0.1386 0.1449 0.0464 5460 (0.0036) (0.0092) (0.0120) (0.0029)
0.3179* 0.1233 0.1320 0.0442 7500 (0.0026) (0.0095) (0.0114) (0.0035)
0.3178* 0.1135 0.1281 0.0432
NEAT
10002 (0.0024) (0.0081) (0.0109) (0.0028)
“*”表不同設(shè)計中，受試者能力值與試題參數(shù)之最小誤差值
由表4-1等化誤差結(jié)果，可以得到以下的結(jié)論：
1. 在三種施測總?cè)藬?shù)中，不論是受試者能力值或試題參數(shù)，誤差值均隨著
受試者人數(shù)增加而減少，即人數(shù)越多估計越精準(zhǔn)。因此，BIB與NEAT設(shè)計在水
平等化測驗中，能力誤差值與試題參數(shù)誤差值，在施測人數(shù)10000人時有最佳等
化效果。亦即BIB與NEAT設(shè)計，受試人數(shù)為10000人之等化誤差最小、受試人數(shù)
為7500人之等化誤差次之、受試人數(shù)為5460人之等化誤差最大。此外，隨著受試
17
人數(shù)增加，BIB與NEAT設(shè)計對於估計受試者能力誤差值影響較小，對於估計試
題參數(shù)誤差值影響較大。
2. 不論受試人數(shù)為何，BIB設(shè)計在試題鑑別度參數(shù)、試題難度參數(shù)與試題猜
測度參數(shù)的誤差值較NEAT設(shè)計等化效果好；NEAT設(shè)計在受試者能力的誤差值
較BIB設(shè)計等化效果好。
3. 在相同的受試者人數(shù)下，BIB與NEAT設(shè)計之間的受試者能力誤差值介於
0.0027~0.0041間、試題鑑別度參數(shù)誤差值介於0.0027~0.0067間、試題難度參數(shù)誤
差值介於0.0008~0.0058間、試題猜測度參數(shù)誤差值介於0.0002~0.0009間。因此，
可知在不同等化設(shè)計中，對於估計試題猜測度參數(shù)之誤差值變異較小，估計受試
者能力值、試題鑑別度參數(shù)與試題難度參數(shù)之誤差值變異較大，但彼此間差異並
不大。
(二)垂直等化測驗之等化結(jié)果
根據(jù)模擬研究的結(jié)果，將BIB 與NEAT 設(shè)計在垂直等化測驗中，等化後之
RMSE 整理成表4-2：
表4-2 BIB 與NEAT 等化設(shè)計在不同定錨試題數(shù)下之誤差結(jié)果表
誤差值(RMSE)
等化設(shè)計各年級
總?cè)藬?shù)
各題本內(nèi)
定錨試題
數(shù) 能力值鑑別度難度猜測度
3 0.3633 0.1676* 0.2629 0.0544
6 0.3427 0.1663* 0.2615 0.0538 5460
9 0.3373 0.1641* 0.2760 0.0537
3 0.3596 0.1413* 0.2475 0.0539
6 0.3418 0.1399* 0.2404 0.0542 7514
9 0.3356* 0.1419* 0.2488 0.0531
3 0.3574 0.1274* 0.2431 0.0536
6 0.3393 0.1304* 0.2253 0.0522
BIB3
10010
9 0.3351* 0.1240* 0.2278 0.0530
3 0.3472* 0.1746 0.2334* 0.0517*
6 0.3377* 0.1751 0.2294* 0.0518* 5460
9 0.3371* 0.1761 0.2438* 0.0518*
3 0.3464* 0.1557 0.2192* 0.0516*
6 0.3369* 0.1578 0.2157* 0.0510* 7500
9 0.3364 0.1593 0.2200* 0.0513*
3 0.3462* 0.1375 0.2141* 0.0509*
6 0.3365* 0.1404 0.2149* 0.0510*
NEAT3
10002
9 0.3361 0.1430 0.2183* 0.0509*
“*”表不同設(shè)計中，受試者能力值與試題參數(shù)之最小誤差值
18
由表4-2等化誤差結(jié)果，可以得到以下的結(jié)論：
1. 在垂直等化測驗中，不論受試人數(shù)及定錨試題數(shù)為何，NEAT設(shè)計在受試
者能力值、試題難度參數(shù)與試題猜測度參數(shù)的誤差值較BIB設(shè)計等化效果好，除
了受試者能力值在受測人數(shù)為7500人及10002人、定錨試題數(shù)為9題時例外；BIB
設(shè)計在試題參數(shù)鑑別度的誤差值較NEAT設(shè)計等化效果好。
2. 在相同的受試者人數(shù)及相同定錨試題數(shù)下，BIB與NEAT設(shè)計之間的受試
者能力誤差值介於0.0002~0.0161間、試題鑑別度參數(shù)誤差值介於0.0070~0.0190
間、試題難度參數(shù)誤差值介於0.0095~0.0322間、試題猜測度參數(shù)誤差值介於
0.0012~0.0032間。因此，可知在不同等化設(shè)計中，對於估計試題猜測度參數(shù)之誤
差值變異較小，估計受試者能力值、試題鑑別度參數(shù)與試題難度參數(shù)之誤差值變
異較大。
3. 在相同的受試者人數(shù)及相同定錨試題數(shù)下，隨著試題區(qū)塊數(shù)增加，受試
者能力值亦跟著增加；在不同定錨試題數(shù)中，定錨試題數(shù)為3 題至6 題時變異較
大；定錨試題數(shù)為6 題至9 題時變異較小。
二、BIB 與NEAT 設(shè)計的優(yōu)缺點
本模擬研究之BIB 與NEAT 等化設(shè)計，應(yīng)用於實際施測資料時，可依施測
所需的定錨題數(shù)與施測人數(shù)來選擇較適用之等化設(shè)計。在此，研究者列出BIB
與NEAT 等化設(shè)計的優(yōu)缺點，作為採用時的參考依據(jù)：
(一)BIB 設(shè)計的優(yōu)點
1. 對於有非共同試題的試題卷，依然可進行等化連結(jié)；
2. 每題試題作答人數(shù)均等(除兩年級的定錨試題外)，試題平均分配施測。
(二)NEAT 設(shè)計的優(yōu)點
1. 試題區(qū)塊配置方式容易找尋；
2. NEAT 設(shè)計在估計受試者能力誤差值的等化效果較BIB 設(shè)計好。
(三)BIB 設(shè)計的缺點
1. 題本與試題區(qū)塊的配置方式不易找尋；
2. BIB 設(shè)計等化效果須在施測人數(shù)及定錨試題數(shù)夠多時，才有最好的等化效
果。
(四)NEAT 設(shè)計的缺點
1. 進行等化的題本，必須有共同的定錨試題，才能進行等化；
19
2. 進行垂直等化時，NEAT等化設(shè)計試題區(qū)塊內(nèi)所包含的試題數(shù)，將限制不
同年級間之定錨試題數(shù)。
伍、結(jié)論與建議
一、結(jié)論
本研究欲了解進行測驗等化時，不同施測樣本數(shù)與不同定錨試題數(shù)，在水平
及垂直等化測驗中，使用BIB與NEAT設(shè)計下等化連結(jié)之效果。
本研究比較三種施測人數(shù)(5460 人、7500、10000人)與垂直等化之三種定錨
試題數(shù)(3題、6題、9題)之等化情形。得到下列結(jié)論：
1. 在水平等化測驗中，不論受試人數(shù)為何，BIB設(shè)計在試題鑑別度參數(shù)、試
題難度參數(shù)與試題猜測度參數(shù)的誤差值較NEAT設(shè)計等化效果好；NEAT設(shè)計在
受試者能力的誤差值較BIB設(shè)計等化效果好。
2. 在垂直等化測驗中，不論受試人數(shù)與定錨試題數(shù)為何，BIB設(shè)計在試題鑑
別度參數(shù)的誤差值較NEAT設(shè)計等化效果好；NEAT設(shè)計在受試者能力值、試題
難度參數(shù)與試題猜測度參數(shù)的誤差值較BIB設(shè)計等化效果好。
3. 施測人數(shù)越多，各種參數(shù)估計越精準(zhǔn)，對於受試者能力值影響較小、對
於試題參數(shù)值影響較大。但受試人數(shù)在7500及10000人時，各種參數(shù)估計差距不
大，則若考慮施測成本，採用7500人的受測人數(shù)即可達10000人的效果。
4. 不同年級之定錨試題數(shù)越多，各種參數(shù)估計越精準(zhǔn)，但定錨試題數(shù)為6題
或9題的估計精準(zhǔn)度差異不大。因此，在進行測驗時可選擇6題的定錨試題數(shù)，減
少年級間定錨試題量，以增加測驗的題庫量。
二、改進建議
本模擬研究在水平及垂直等化測驗中，共同變項僅設(shè)定三種施測人數(shù)，分別
為5460人、7500人及10000人：三種試題區(qū)塊數(shù)，分別為7個、9個及13個；受試
者能力分布為常態(tài)分布；與垂直等化測驗中，三種定錨試題數(shù)，分別為3題、6
題及9題，來進行BIB與NEAT設(shè)計等化設(shè)計之模擬比較。茲就本研究未盡完備之
處，提出一些研究建議，供後續(xù)研究者參考。
(一)本研究僅考慮一種受試者能力與試題參數(shù)分布，未來研究可考量進行不
同參數(shù)分布之等化效果比較。
20
(二)本研究僅考慮三種試題區(qū)塊數(shù)、三種定錨試題數(shù)與三種施測人數(shù)，未來
研究可考量不同的試題區(qū)塊數(shù)、定錨試題數(shù)與施測人數(shù)作為等化效果之研究。
(三)本研究僅討論一種試題區(qū)塊數(shù)及一種試題區(qū)塊的配置方式，未來研究可
就不同試題區(qū)塊數(shù)及配置方式探討其等化效果。
(四)本研究BIB與NEAT等化設(shè)計，僅模擬產(chǎn)生二元計分之作答反應(yīng)組型，未
來研究可考量多元計分對於BIB與NEAT設(shè)計之等化效果比較。
(五)本研究只探討進行測驗等化時，水平等化與垂直等化兩種情況，並無針
對不同年度之等化效果研究，因此，未來研究可針對同年級不同年度測驗與不同
年級不同年度測驗之等化效果比較。
陸、本研究目前所出版相關(guān)論文
1. 曾玉琳、王暄博、郭伯臣、許天維(2006)。不同BIB 設(shè)計對測驗等化的影響。
測驗統(tǒng)計年刊，第十三輯下期，頁209-229。臺中市：國立臺中教育大學(xué)。
2. 郭伯臣、王暄博、許天維、張雅媛(2005)。大型測驗不同等化設(shè)計效果之模
擬研究。2005 年教育與心理測驗學(xué)術(shù)研討會，2005 年11 月12 日，國立政
治大學(xué)。
柒、參考文獻
一、中文部份
王寶墉(民84)?，F(xiàn)代測驗理論。臺北市：心理出版社。
李文忠(民84)。以無參數(shù)反應(yīng)理論之等化模式探討測驗等化與能力成長曲線。國
立臺中師範(fàn)學(xué)院國民教育研究所碩士論文，未出版。
吳裕益(民80)。IRT等化法在題庫建立之應(yīng)用。初等教育學(xué)報，第四輯，pp.319-365。
國立臺南師範(fàn)學(xué)院初等教育學(xué)系。
陳煥文(民93)。垂直等化連結(jié)特性之研究-四種連結(jié)方法的比較。國科會專題研
究計畫。
曾玉琳、王暄博、郭伯臣、許天維(民95)。不同BIB 設(shè)計對測驗等化的影響。
測驗統(tǒng)計年刊，第十三輯下期，頁209-229。臺中市：國立臺中教育大學(xué)。
21
二、英文部份
Allen, N.L., Donoghue, J.R., & Schoeps, T.L. (2001). The NAEP 1998 technical
report. Washington, DC: National Center for Educational Statistics.
Dorans, N. J. & Holland, P. W. (2000). Linking Scores from Multiple
Instruments.Evaluation of National and State Assessments of Evaluation. Board
on Educational Testing and Assessment. Washington, DC: National Academy
Press.
Hanson, B.A. & Beguin, A.A. (2002). Obtaining a Common Scale for Item Response
Theory Item Parameters Using Separate Versus Concurrent estimation in the
Common-Item Equating Design. Applied Psychological Measurement, 26, 3-24.
Hambleton, R.K., & Swaminathan, H. (1985). Item Response Theory: Principles and
Application. Boston, MA：Kivwer-Nijhoff.
Haebara, T. (1980). Equating Logistic Ability Scales by a Weighted Least Squares
Method. Japanese Psychological Research, 22, 144-149.
Kolen, M. J. (2000). Issues in Combing State NAEP and Main NAEP. In J. W.
Pellegrino, L. R. Jones, & K. J. Mitchell, (Eds.), Grading the Nation’s
Reportcard: Research from the Evaluation of NAEP. Committee on the
Kolen, M.J. & Brennan, R.J. (1995). Test Equating: Methods and Practices. New York:
Springer-Verlag.
Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing
Problems. Hillsdale, NJ: Lawrence Erlbaum.
Mislevy, R. J. & Bock R. D. (1982). Implementation of the EM algorithm in the
estimation of item parameters: The BILOG computer program. In: Item
Response Theory and Computerized Adaptive Testing Conference Proceedings
(Wayzata, MN).
Nattional Research Council. (1999). Uncommon Measures: Equivalency and Linkage
of Educational Tests. Washington, DC: Author.
Nemhauser, G. L., & Wolsey, L. A. (1999). Integer and Combinatorial Optimization.
New York: John Wiley.
Petersen, Nancy S., Kolen, Michael J., Hoover, H.D. (1993). Scaling, Norming, and
Equating. In R.L. Linn (Ed.), Educational Measurement (3rd ed., pp221-262).
New York: Macmillan.
Stocking, ML. & Lord, F.M. (1983). Developing a Common Metric in Item Response
22
Theory. Applied Psychological Measurement, 7(2).201-211.
Tianyou, W. (2005). An Alternative Continuization Method to the Kernel Method in
von Davier, Holland and Thayer's (2004) Test Equating Framework.
van der Linden, W.J., & Veldkamp, B.P.,& Carlson, J.E. (2004).Optimizing Balanced
Incomplete Block Designs for Educational Assessments. Applied Psychological
Measurement, 28, 317-331.
von Davier, A. A., Holland, P. W., & Thayer, D. T. (2004). The kernel method of test
equating. New York: Springer.