目錄: (1) ROC曲線的由來(lái) (2) 什么是ROC曲線 (3) ROC曲線的意義 (4) AUC面積的由來(lái) (5) 什么是AUC面積 (6) AUC面積的意義 (7) 討論:在多分類(lèi)問(wèn)題下能不能使用ROC曲線 一、 ROC曲線的由來(lái) 很多學(xué)習(xí)器是為測(cè)試樣本產(chǎn)生一個(gè)實(shí)值或概率預(yù)測(cè),然后將這個(gè)預(yù)測(cè)值與一個(gè)分類(lèi)閾值進(jìn)行比較,若大于閾值則分為正類(lèi),否則為反類(lèi)。例如,神經(jīng)網(wǎng)絡(luò)在一般情形下是對(duì)每個(gè)測(cè)試樣本預(yù)測(cè)出一個(gè)[0.0,1.0]之間的實(shí)值,然后將這個(gè)值與閾值0.5進(jìn)行比較,大于0.5則判為正例,否則為反例。這個(gè)閾值設(shè)置的好壞,直接決定了學(xué)習(xí)器的泛化能力。 在不同的應(yīng)用任務(wù)中,我們可根據(jù)任務(wù)需求來(lái)采用不同的閾值。例如,若我們更重視“查準(zhǔn)率”,則可以把閾值設(shè)置的大一些,讓分類(lèi)器的預(yù)測(cè)結(jié)果更有把握;若我們更重視“查全率”,則可以把閾值設(shè)置的小一些,讓分類(lèi)器預(yù)測(cè)出更多的正例。因此,閾值設(shè)置的好壞,體現(xiàn)了綜合考慮學(xué)習(xí)器在不同任務(wù)下的泛化性能的好壞。為了形象的描述這一變化,在此引入ROC曲線,ROC曲線則是從閾值選取角度出發(fā)來(lái)研究學(xué)習(xí)器泛化性能的有力工具。 如果你還對(duì)“查準(zhǔn)率”和“查全率”不了解,看我之前的文章【錯(cuò)誤率、精度、查準(zhǔn)率、查全率和F1度量】詳細(xì)介紹 二、 什么是ROC曲線 ROC全稱(chēng)是“受試者工作特征”(Receiver OperatingCharacteristic)曲線。我們根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果,把閾值從0變到最大,即剛開(kāi)始是把每個(gè)樣本作為正例進(jìn)行預(yù)測(cè),隨著閾值的增大,學(xué)習(xí)器預(yù)測(cè)正樣例數(shù)越來(lái)越少,直到最后沒(méi)有一個(gè)樣本是正樣例。在這一過(guò)程中,每次計(jì)算出兩個(gè)重要量的值,分別以它們?yōu)闄M、縱坐標(biāo)作圖,就得到了“ROC曲線”。 ROC曲線的縱軸是“真正例率”(True Positive Rate, 簡(jiǎn)稱(chēng)TPR),橫軸是“假正例率”(False Positive Rate,簡(jiǎn)稱(chēng)FPR),基于上篇文章《錯(cuò)誤率、精度、查準(zhǔn)率、查全率和F1度量》的表1中符號(hào),兩者分別定義為: 顯示ROC曲線的圖稱(chēng)為“ROC圖”。圖1給出了一個(gè)示意圖,顯然,對(duì)角線對(duì)應(yīng)于“隨機(jī)猜測(cè)”模型,而點(diǎn)(0,1)則對(duì)應(yīng)于將所有正例預(yù)測(cè)為真正例、所有反例預(yù)測(cè)為真反例的“理想模型”。 圖1:ROC曲線與AUC面積 現(xiàn)實(shí)任務(wù)中通常是利用有限個(gè)測(cè)試樣例來(lái)繪制ROC圖,此時(shí)僅能獲得有限個(gè)(真正例率,假正例率)坐標(biāo)對(duì),無(wú)法產(chǎn)生圖1中的光滑ROC曲線,只能繪制出圖2所示的近似ROC曲線。繪制過(guò)程很簡(jiǎn)單:給定 三、 ROC曲線的意義 (1)主要作用 1. ROC曲線能很容易的查出任意閾值對(duì)學(xué)習(xí)器的泛化性能影響。 2.有助于選擇最佳的閾值。ROC曲線越靠近左上角,模型的查全率就越高。最靠近左上角的ROC曲線上的點(diǎn)是分類(lèi)錯(cuò)誤最少的最好閾值,其假正例和假反例總數(shù)最少。 3.可以對(duì)不同的學(xué)習(xí)器比較性能。將各個(gè)學(xué)習(xí)器的ROC曲線繪制到同一坐標(biāo)中,直觀地鑒別優(yōu)劣,靠近左上角的ROC曲所代表的學(xué)習(xí)器準(zhǔn)確性最高。 (2)優(yōu)點(diǎn) 1. 該方法簡(jiǎn)單、直觀、通過(guò)圖示可觀察分析方法的準(zhǔn)確性,并可用肉眼作出判斷。ROC曲線將真正例率和假正例率以圖示方法結(jié)合在一起,可準(zhǔn)確反映某種學(xué)習(xí)器真正例率和假正例率的關(guān)系,是檢測(cè)準(zhǔn)確性的綜合代表。 2. 在生物信息學(xué)上的優(yōu)點(diǎn):ROC曲線不固定閾值,允許中間狀態(tài)的存在,利于使用者結(jié)合專(zhuān)業(yè)知識(shí),權(quán)衡漏診與誤診的影響,選擇一個(gè)更加的閾值作為診斷參考值。 四、 AUC面積的由來(lái) 如果兩條ROC曲線沒(méi)有相交,我們可以根據(jù)哪條曲線最靠近左上角哪條曲線代表的學(xué)習(xí)器性能就最好。但是,實(shí)際任務(wù)中,情況很復(fù)雜,如果兩條ROC曲線發(fā)生了交叉,則很難一般性地?cái)嘌哉l(shuí)優(yōu)誰(shuí)劣。在很多實(shí)際應(yīng)用中,我們往往希望把學(xué)習(xí)器性能分出個(gè)高低來(lái)。在此引入AUC面積。 在進(jìn)行學(xué)習(xí)器的比較時(shí),若一個(gè)學(xué)習(xí)器的ROC曲線被另一個(gè)學(xué)習(xí)器的曲線完全“包住”,則可斷言后者的性能優(yōu)于前者;若兩個(gè)學(xué)習(xí)器的ROC曲線發(fā)生交叉,則難以一般性的斷言?xún)烧呤雰?yōu)孰劣。此時(shí)如果一定要進(jìn)行比較,則比較合理的判斷依據(jù)是比較ROC曲線下的面積,即AUC(Area Under ROC Curve),如圖1圖2所示。 五、 什么是AUC面積 AUC就是ROC曲線下的面積,衡量學(xué)習(xí)器優(yōu)劣的一種性能指標(biāo)。從定義可知,AUC可通過(guò)對(duì)ROC曲線下各部分的面積求和而得。假定ROC曲線是由坐標(biāo)為 六、 AUC面積的意義 AUC是衡量二分類(lèi)模型優(yōu)劣的一種評(píng)價(jià)指標(biāo),表示預(yù)測(cè)的正例排在負(fù)例前面的概率。 看到這里,是不是很疑惑,根據(jù)AUC定義和計(jì)算方法,怎么和預(yù)測(cè)的正例排在負(fù)例前面的概率扯上聯(lián)系呢?如果從定義和計(jì)算方法來(lái)理解AUC的含義,比較困難,實(shí)際上AUC和Mann-WhitneyU test(曼-慧特尼U檢驗(yàn))有密切的聯(lián)系。從Mann-Whitney U statistic的角度來(lái)解釋?zhuān)珹UC就是從所有正樣本中隨機(jī)選擇一個(gè)樣本,從所有負(fù)樣本中隨機(jī)選擇一個(gè)樣本,然后根據(jù)你的學(xué)習(xí)器對(duì)兩個(gè)隨機(jī)樣本進(jìn)行預(yù)測(cè),把正樣本預(yù)測(cè)為正例的概率 另外值得注意的是,AUC的計(jì)算方法同時(shí)考慮了學(xué)習(xí)器對(duì)于正例和負(fù)例的分類(lèi)能力,在樣本不平衡的情況下,依然能夠?qū)Ψ诸?lèi)器做出合理的評(píng)價(jià)。AUC對(duì)樣本類(lèi)別是否均衡并不敏感,這也是不均衡樣本通常用AUC評(píng)價(jià)學(xué)習(xí)器性能的一個(gè)原因。例如在癌癥預(yù)測(cè)的場(chǎng)景中,假設(shè)沒(méi)有患癌癥的樣本為正例,患癌癥樣本為負(fù)例,負(fù)例占比很少(大概0.1%),如果使用準(zhǔn)確率評(píng)估,把所有的樣本預(yù)測(cè)為正例便可以獲得99.9%的準(zhǔn)確率。但是如果使用AUC,把所有樣本預(yù)測(cè)為正例,TPR為1,F(xiàn)PR為1。這種情況下學(xué)習(xí)器的AUC值將等于0.5,成功規(guī)避了樣本不均衡帶來(lái)的問(wèn)題。 最后,我們?cè)谟懻撘幌拢?strong>在多分類(lèi)問(wèn)題下能不能使用ROC曲線來(lái)衡量模型性能? 我的理解:ROC曲線用在多分類(lèi)中是沒(méi)有意義的。只有在二分類(lèi)中Positive和Negative同等重要時(shí)候,適合用ROC曲線評(píng)價(jià)。如果確實(shí)需要在多分類(lèi)問(wèn)題中用ROC曲線的話,可以轉(zhuǎn)化為多個(gè)“一對(duì)多”的問(wèn)題。即把其中一個(gè)當(dāng)作正例,其余當(dāng)作負(fù)例來(lái)看待,畫(huà)出多個(gè)ROC曲線。 |
|
來(lái)自: 龍行天下zgb76e > 《深度學(xué)習(xí)》