乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      陶哲軒:全是判斷題的卷子怎么評分?

       liyu_sun 2016-09-19

      原文作者:陶哲軒,加州大學洛杉磯分校數(shù)學教授,2006年菲爾茲獎得主。

      譯文作者:念琦,哆嗒數(shù)學網翻譯組成員,就讀于東北師大附中。

       

      微信、手機QQ搜索關注 DuoDaaMath 每獲得更多數(shù)學趣文

      新浪微博:http://weibo.com/duodaa

       

       

      注:以下是對我做了一些評分工作之后產生的新想法和有關計算的記錄。這個類型的問題可能已經在某些文獻中被研究過了;我很樂意了解任何相關的資料。

       

      假設一次考試中有N道判斷對錯題,每道題的答案是隨機的,即答案是“對”和“錯”的概率相等,并且不同的問題之間沒有關聯(lián)。假設參加考試的學生必須用“對”或“錯”回答每一道題(不允許跳過任何一道題)。

       

      那么我們很容易知道如何評分:只要數(shù)一數(shù)每個同學正確回答了多少道題(也就是每道題回答正確得一分,回答錯誤不得分),并將這個數(shù)字k作為考試成績即可。

       

      更普遍的情況是,我們將每道回答正確的題的得分記為A,每道回答錯誤的題的得分記為B(通常是一個負數(shù)),那么總分將是 Ak+B(N-k)。只要A>B,這種評分方案就相當于對前一種直接把k作為總分的模式進行了改變比例的變換,并且同樣可以達到評價學生和鼓勵學生盡可能多地正確回答問題的目的。

       

      然而事實上,學生很可能不能絕對確定每個問題的答案。

       

      我們可以采取一個概率模型,即對于一個給定的學生S和一個給定的問題n,學生S認為問題n的答案為“對”的概率是p(S,n),而答案為“錯”的概率是1-p(S,n),其中0≤p(S,n)≤1,p(S,n)可以被看作一個衡量學生S對這個問題的答案的自信程度的量(若p(S,n)趨近于1,則S對于答案是“對”有信心,反之若p(S,n)趨近于0,則S對于答案是“錯”有信心);為了簡化問題我們假定在這個概率模型中,每個問題的答案都是相互獨立的隨機量。

       

      考慮這個模型,并且假設學生S希望最大化自己的得分,我們很容易發(fā)現(xiàn)S回答問題的最優(yōu)策略是當p(S,n)>1/2時回答“對”,當p(S,n)<1/2時回答“錯”。(如果p(S,n)=1/2,S可以任意選擇答案。)

       

       [注意:這里的“自信程度”不是統(tǒng)計學中的術語“置信度”,而是一個描述主觀概率的非正式用語。]

       

      就現(xiàn)狀來說這樣還不錯,但是對于評估學生究竟掌握知識到何種程度的目的,它只提供了一些有限的信息,尤其是我們不能直接看到學生對每道題的自信程度p(S,n)。

       

      舉例來說,假設S在10道題中回答正確了7道,那是因為他或她確實知道這七道題的答案,還是因為他或她對這十道題作出了合理推測,使得最終的正確率略高于隨機猜測的正確率而達到70%呢?看起來如果學生只被允許回答“對”和“錯”,我們沒有辦法辨別這兩種情況。

       

      但如果學生可以給出概率性的答案呢?也就是說,對于給定的問題n,學生不是只能回答“對”或“錯”,而是可以給出一個如“答案是‘對’的可能性為60%”(因此答案是“錯”的可能性為40%)的回答。這樣的回答使我們更加了解學生掌握知識的程度;更重要的是,理論上我們將可以確切地知道學生對每道題的自信程度p(S,n)。

       

      但是現(xiàn)在,如何評分變得難以確定了。假設100%確信正確答案的回答得一分,60%確信正確答案的回答應該得多少分?60%確信錯誤答案(等同于40%確信正確答案)又應該得多少分?

       

      數(shù)學上,我們可以選擇評分函數(shù)f:[0,1]→R,當學生對正確答案給出的可能性為p時,得分為f(p)。例如,如果學生認為“對”的可能性為60%(因此“錯”的可能性為40%),在這個評分方案下,如果正確答案是“對”,學生的得分為f(0.6),如果正確答案是“錯”,得分為f(0.4)。我們的問題是:在這種情況下最合適的函數(shù)f是什么?

       

      直觀地,我們認為f應該單調遞增——對于正確答案有較高自信的學生應該得到比對正確答案自信較低學生更高的分數(shù)。另一方面,后一種學生也應該得到一部分分數(shù)。一種想法是采用線性的函數(shù)f(p)=p,即對正確答案給出60%自信的學生將得到0.6分。但這是最好的選擇嗎?

       

      為了使這個問題在數(shù)學上更明確,我們需要一個客觀的標準來評價評分方案。這里可以采用的一種標準是是否避免了不正當獎勵。

       

      如果一個評分方案設計得不好,學生最終可能會夸大或故意少說自己對答案的自信程度,以此提高自己的(期望)成績:對于一個學生,一道題的最優(yōu)回答q(S,n)可能與其主觀的自信程度p(S,n)不同。因此我們可以設計一個總能使得q(S,n)=p(S,n)的評分方案,從而激勵學生真實地寫下他或她對此題的自信程度。



       

      這是對評分函數(shù)f的一個明確約束。如果學生S認為問題n的答案為“對”的可能性為p(S,n),答案為“錯”的可能性為1-p(S,n),而作答時回答答案是“對”的可能性為q(S,n)(因此“錯”的可能性為1-q(S,n)),學生對這道題得分的期望為

       

       

       

      為了使這個期望最大化(假設函數(shù)f可導:在一個部分給分的評分方案中這是一個合理的假設),學生會執(zhí)行對獨立變量q(S,n)求導并使結果為零的策略,得到

       

       

      為了避免不正當獎勵,期望的最大值應在q(S,n)=p(S,n)時取到,因此我們有

       

       

      對于所有0≤p(S,n)≤1成立。這要求函數(shù)p→pf'(p)為一常量。(嚴格地說,應是要求函數(shù)p→f'(p)關于p=1/2對稱;但是如果將問題推廣到不止兩個選項的多選題的情況,對于只與正確選項的自信程度有關的評分方案,同樣的分析將得出pf'(p)必為一與p無關的常量的結論;這個計算留給感興趣的讀者完成。)

       

      也就是說,f(p)應為Alogp+B的形式,其中A,B為常數(shù);根據單調性,A為正數(shù)。如果我們規(guī)定f(1/2)=0(即“對”和“錯”的自信程度各占50%時不得分)以及f(1)=1,我們就得到了評分方案

       

       

      因此,如果一個學生認為答案是“對”的可能性為p,答案是“錯”的可能性為1-p,如果正確答案是“對”,他或她將得到

       

       

      的分數(shù),如果正確答案是“錯”,他或她將得到

       

       

      的分數(shù)。下表中的值可用于說明這種評分方案:

       

      我們注意到對于錯誤答案自信程度很高時懲罰會很嚴重;尤其是,學生會避免回答對某個答案有100%的自信,除非他或她真的絕對確信自己的答案。

       

      在這個評分方案下,若學生S對每個問題n的回答是答案為“對”的可能性為p(S,n),答案為“錯”的可能性為1-p(S,n),則總分為

       

       

      這個分數(shù)也可以被寫作

       

       

       

      其中,

       

       

      是給定正確答案的情況下學生S的主觀概率模型(即學生S的答案)的似然函數(shù)。因此這里的評分系統(tǒng)還有一種對數(shù)似然函數(shù)的解釋。它激勵學生使自己的主觀概率的正確可能性最大化,這與統(tǒng)計學中的標準做法(最大似然法)一致。

       

      根據貝葉斯概率的觀點,學生的分數(shù)可以被看作對學生的主觀概率模型為正確(接近正確答案)的后驗概率比先驗概率高出多少的(對數(shù)尺度下的)量度。

       

      我們可以用上述的評分方案評估對二元事件的預測,例如對于即將到來的只有兩名候選人的選舉,就可以在事后看看各預測者的預言起了多大作用。

       

      這樣做會遇到的一個困難是很多預測都不會給出一個明確的概率,而如果對任何并非完全確定的預測給出了默認100%的主觀概率,只要其中任意一個預測錯誤,就必然產生-∞的得分。

       

      但是如果預測者拒絕給出明確的概率,或許我們可以設計一個默認的主觀概率p,并且(選擇一些合適的該預測者做出的預測作為“訓練樣本”)找到使該預測者得分最高的p值。這個值作為默認概率可以被用于該預測者此后做出的任何預測。

       

      以上的評分方案很容易推廣到多選題的情況。但是我遇到的一個困難是如何處理不確定性,也就是學生甚至無法給出一道題的答案為“對”或“錯”的可能性的情況。

       

      這時,允許學生空題(也就是回答“我不知道”)是很自然的;更加高級的選項是允許學生以一個自信程度的區(qū)間作答(例如“我認為答案為‘對’的可能性在50%到70%之間”)。

       

      但是對此我還沒有一個很好的評分方案;一旦學生的主觀概率模型中出現(xiàn)不確定性,由于“不確定的不確定概率”,最大化學生分數(shù)的期望的問題就會是不適定的,因此之前使用的判斷是否避免了不正當獎勵的標準也不再適用了。

       

       

        本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
        轉藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多