![]() 介紹在我們學(xué)習(xí)機(jī)器算法的時(shí)候,可以將機(jī)器學(xué)習(xí)算法視為包含刀槍劍戟斧鉞鉤叉的一個(gè)軍械庫。你可以使用各種各樣的兵器,但你要明白這些兵器是需要在合適的時(shí)間合理的地點(diǎn)使用它們。作為類比,你可以將“回歸算法”想象成能夠有效切割數(shù)據(jù)的劍,但無法處理高度復(fù)雜的數(shù)據(jù)。相反的是,“支持向量機(jī)(SVM)”就像一把鋒利的刀,它比較適用于較小的數(shù)據(jù)集,但在較小的數(shù)據(jù)集上面,它可以構(gòu)建更加強(qiáng)大的模型。 相信在你學(xué)習(xí)機(jī)器學(xué)習(xí)算法解決分類問題的時(shí)候,肯定聽說過支持向量機(jī)(SVM),在過去的五十年中SVM在隨著時(shí)間進(jìn)行演化,并且在分類之外也得到了應(yīng)用,比如回歸、離散值分析、排序。我相信你在不同的途徑中肯定也接觸過支持向量機(jī),是不是覺得已經(jīng)對(duì)這個(gè)東西有些頭痛,認(rèn)為很多人都會(huì),但是自己好像怎么都不能明白過來它的原理,或者說你已經(jīng)對(duì)自己有關(guān)支持向量機(jī)的知識(shí)已經(jīng)很有自信了,那么現(xiàn)在你來對(duì)地方了,這份技能測(cè)試就是專門測(cè)試你對(duì)于支持向量機(jī)的掌握程度已經(jīng)是否可以應(yīng)用。這份測(cè)試已經(jīng)有超過550多人參加了,最后我會(huì)放出這些人的分?jǐn)?shù)的分布情況,從而方便你對(duì)比一下自己的支持向量機(jī)的水平程度。 技能測(cè)試問題(每題1分)問題背景:1-2 假設(shè)你使用的是一個(gè)線性SVM分類器,是用來解決存在的2分類問題。現(xiàn)在你已經(jīng)獲得了以下數(shù)據(jù),其中一些點(diǎn)用紅色圈起來表示支持向量。 1)如果從數(shù)據(jù)中刪除以下任何一個(gè)紅點(diǎn)。決策邊界會(huì)改變嗎? A)YES B)NO 2)[是或否]如果從數(shù)據(jù)中刪除非紅色圓圈點(diǎn),決策邊界會(huì)發(fā)生變化嗎? A)真 B)假 3)有關(guān)于支持向量機(jī)的泛化誤差是什么意思? A)超平面與支持向量的距離 B)支持向量機(jī)對(duì)未知數(shù)據(jù)的預(yù)測(cè)精度如何 C)支持向量機(jī)中的閾值誤差量 4)當(dāng)C參數(shù)設(shè)置為無窮大時(shí),以下哪項(xiàng)成立? A)如果存在最優(yōu)的超平面,那么則會(huì)是完全可以分類數(shù)據(jù) B)軟邊際分類器將分離數(shù)據(jù) C)以上都不是 5)硬邊緣是什么意思? A)SVM允許分類中的誤差很小 B)SVM允許分類中的誤差很大 C)以上都不是 6)訓(xùn)練支持向量機(jī)的最小時(shí)間復(fù)雜度是O(n2)。根據(jù)這一事實(shí),什么尺寸的數(shù)據(jù)集不是最適合SVM的? A)大型數(shù)據(jù)集 B)小型數(shù)據(jù)集 C)中型數(shù)據(jù)集 D)大小無關(guān)緊要 7)支持向量機(jī)的有效性取決于: A)內(nèi)核的選擇 B)內(nèi)核的參數(shù) C)軟邊距的參數(shù)C D)以上所有 8)支持向量是最接近決策邊界的數(shù)據(jù)點(diǎn)。 A)是 B)否 9)支持向量機(jī)在以下什么情況中的效果最差: A)數(shù)據(jù)是線性可分的 B)數(shù)據(jù)干凈并且可以使用 C)數(shù)據(jù)有噪音且包含重疊點(diǎn) 10)假設(shè)在支持向量機(jī)中使用高Gamma值并且使用RBF內(nèi)核。這意味著什么? A)模型考慮甚至遠(yuǎn)離超平面的點(diǎn)進(jìn)行建模 B)模型只考慮超平面附近的點(diǎn)進(jìn)行建模 C)模型不會(huì)受到點(diǎn)距離超平面的影響并進(jìn)行建模 D)沒有以上 11)支持向量機(jī)中的代價(jià)參數(shù)表示: A)要進(jìn)行的交叉驗(yàn)證的數(shù)量 B)要使用的內(nèi)核 C)模型的分類錯(cuò)誤和簡(jiǎn)單性之間的權(quán)衡 D)以上都不是 12) 假設(shè)你正在基于數(shù)據(jù)X進(jìn)行構(gòu)建支持向量機(jī)模型。數(shù)據(jù)X可能容易出錯(cuò),這意味著你不應(yīng)該過多地信任任何特定的數(shù)據(jù)點(diǎn)。假如現(xiàn)在你想建立一個(gè)支持向量機(jī)模型,它的二次核函數(shù)為2次多項(xiàng)式,它使用松弛變量C作為它的超參數(shù)之一。基于此,請(qǐng)給出以下問題的答案。 當(dāng)你使用非常大的C值(C->無窮大)時(shí)會(huì)發(fā)生什么? 注意:對(duì)于小C,也可以正確地對(duì)所有數(shù)據(jù)點(diǎn)進(jìn)行分類 A)對(duì)于給定的超參數(shù)C,我們?nèi)匀豢梢哉_的對(duì)數(shù)據(jù)進(jìn)行分類 B)對(duì)于給定的超參數(shù)C,我們不能對(duì)數(shù)據(jù)進(jìn)行正確的分類 C)不好說 D)以上都不是 13)當(dāng)使用非常小的C值(C~0)會(huì)發(fā)生什么? A)將會(huì)發(fā)生分類錯(cuò)誤 B)數(shù)據(jù)將被正確的分類 C)不好說 D)以上都不是 14)如果我正在使用我的數(shù)據(jù)集的所有特征,并且我在訓(xùn)練集上達(dá)到100%的準(zhǔn)確率,但在驗(yàn)證集上卻只達(dá)到約70%,我應(yīng)該注意什么? A)欠擬合 B)沒什么注意的,模型是非常完美的 C)過度擬合 15)以下哪項(xiàng)是支持向量機(jī)在現(xiàn)實(shí)世界中的實(shí)際應(yīng)用? A)文本和超文本分類 B)圖像分類 C)新聞文章的聚類 D)以上所有 問題背景:16 - 18 假設(shè)你在訓(xùn)練支持向量機(jī)后訓(xùn)練了一個(gè)具有線性決策邊界的支持向量機(jī),你正確的發(fā)現(xiàn)了你的支持向量機(jī)的模型還不合適。 16)下面選項(xiàng)中哪一個(gè)是你更能考慮進(jìn)行迭代支持向量機(jī)的? A)增加你的數(shù)據(jù)點(diǎn) B)減少你的數(shù)據(jù)點(diǎn) C)嘗試計(jì)算更多的變量 D)嘗試減少變量 17)假設(shè)你在前一個(gè)問題中給出了正確的答案。你認(rèn)為實(shí)際上會(huì)發(fā)生什么? 1.我們正在降低偏差 2.我們正在降低方差 3.我們正在增加偏差 4.我們正在增加方差 A)1和2 B)2和3 C)1和4 D)2和4 18)在上面的問題中,假設(shè)你想要更改其中一個(gè)(支持向量機(jī))超參數(shù),以便效果與之前的問題相同,也就是模型不適合? A)我們將增加參數(shù)C B)我們將減小參數(shù)C C)C中的變化不起作用 D)這些都不是 19)在支持向量機(jī)中使用高斯核函數(shù)之前,我們通常使用特征歸一化。那么什么是真正的特征歸一化?
A)1 B)1和2 C)1和3 D)2和3 問題背景:20-22 假設(shè)你正在處理4分類問題,并且你希望在數(shù)據(jù)上訓(xùn)練支持向量機(jī)模型,因?yàn)槟阏谑褂肙ne-vs-all方法。現(xiàn)在回答以下問題 20)在這種情況下我們需要訓(xùn)練支持向量機(jī)模型多少次 A)1 B)2 C)3 D)4 21)假設(shè)你的數(shù)據(jù)中具有相同的類分布?,F(xiàn)在,比如說在一對(duì)一訓(xùn)練中進(jìn)行1次訓(xùn)練,支持向量機(jī)模型需要10秒鐘。那么端到端訓(xùn)練一對(duì)一的方法需要多少秒? A)20 B)40 C)60 D)80 22)假設(shè)你的問題現(xiàn)在已經(jīng)發(fā)生了改變。現(xiàn)在,數(shù)據(jù)只有2個(gè)類。在這種情況下,你認(rèn)為我們需要訓(xùn)練支持向量機(jī)多少次? A)1 B)2 C)3 D)4 問題背景:23 - 24 假設(shè)你使用的支持向量機(jī)的線性核函數(shù)為2次多項(xiàng)式,現(xiàn)在認(rèn)為你已將其應(yīng)用于數(shù)據(jù)上并發(fā)現(xiàn)它完全符合數(shù)據(jù),這意味著,訓(xùn)練和測(cè)試精度為100%。 23)現(xiàn)在,假設(shè)你增加了這個(gè)內(nèi)核的復(fù)雜度(或者說多項(xiàng)式的階數(shù))。你認(rèn)為會(huì)發(fā)生什么? A)增加復(fù)雜性將使數(shù)據(jù)過度擬合 B)增加復(fù)雜性將使數(shù)據(jù)不適應(yīng)模型 C)由于你的模型已經(jīng)100%準(zhǔn)確,因此不會(huì)發(fā)生任何事情 D)以上都不是 24)在上一個(gè)問題中,在增加復(fù)雜性之后,你發(fā)現(xiàn)訓(xùn)練精度仍然是100%。你認(rèn)為這背后的原因是什么?
A)1 B)2 C)1和2 D)這些都不是 25)支持向量機(jī)中的kernel是什么?
A)1 B)2 C)1和2 D)這些都不是 答案與講解1)正確答案:A 這三個(gè)例子的位置使得刪除它們中的任何一個(gè)都會(huì)在約束中引入松弛效果。因此決策邊界將完全改變。 2)正確答案:B 從數(shù)據(jù)另一方面來說,數(shù)據(jù)中的其余點(diǎn)不會(huì)對(duì)決策邊界產(chǎn)生太大影響。 3)正確答案:B 統(tǒng)計(jì)中的泛化誤差通常是樣本外誤差,它是用來衡量模型預(yù)測(cè)先見未知的數(shù)據(jù)值的準(zhǔn)確性。 4)正確答案:A 在如此高水平的誤差分類懲罰水平上,軟邊際將不會(huì)存在,因?yàn)闆]有錯(cuò)誤的余地。 5)正確答案:A 硬邊界意味著SVM在分類方面非常嚴(yán)格,并且試圖在訓(xùn)練集中完美的完成分類,從而導(dǎo)致過度擬合。 6)正確答案:A 分類邊界清晰的數(shù)據(jù)集與支持向量機(jī)的分類效果最好 7)正確答案:D 支持向量機(jī)的有效性取決于你如何選擇上面提到的三個(gè)基本需求,從而最大化你的效率,減少誤差和過度擬合。 8)正確答案:A 它們是最接近超平面的點(diǎn),也是最難分類的點(diǎn)。它們還對(duì)決策邊界的位置有直接影響。 9)正確答案:C 當(dāng)數(shù)據(jù)具有噪聲和重疊點(diǎn)時(shí),如何在不分類的情況下畫出清晰的超平面是一個(gè)很大的問題。 10)正確答案:B SVM調(diào)整中的gamma參數(shù)表示超平面附近的或遠(yuǎn)離超平面的點(diǎn)的影響 對(duì)于較低的gamma值,模型將被過于約束并包括訓(xùn)練數(shù)據(jù)集中的所有的點(diǎn),而不會(huì)真正的捕獲形狀。 對(duì)于更高的gamma值,模型將很好地捕獲數(shù)據(jù)集的形狀。 11)正確答案:C 代價(jià)參數(shù)決定了支持向量機(jī)被允許在多大程度上“彎曲”數(shù)據(jù)。對(duì)于低的代價(jià)參數(shù),你的目標(biāo)是一個(gè)光滑平穩(wěn)的超平面,對(duì)于更高的代價(jià),你的目標(biāo)是正確地分類更多的點(diǎn)。它也簡(jiǎn)稱為分類錯(cuò)誤的代價(jià)。 12)正確答案:A 對(duì)于較大的C值,錯(cuò)誤分類的點(diǎn)的代價(jià)非常高,因此決策邊界將盡可能完美地分離數(shù)據(jù)。 13)正確答案:A 該分類器可以最大化的提高大多數(shù)點(diǎn)之間的邊距,同時(shí)會(huì)對(duì)少數(shù)點(diǎn)進(jìn)行錯(cuò)誤的分類,因?yàn)榇鷥r(jià)是非常低的。 14)正確答案:C 如果我們非常容易就達(dá)到了100%的訓(xùn)練準(zhǔn)確度,那么我們就需要檢查來確認(rèn)我們是否過度擬合了數(shù)據(jù)。 15)正確答案:D 支持向量機(jī)是高度通用的模型,可用于幾乎所有現(xiàn)實(shí)世界的問題,從回歸到聚類和手寫識(shí)別。 16)正確答案:C 這里最好的選擇是為模型創(chuàng)建嘗試更多的變量。 17)正確答案:C 更好的模型將降低偏差并增加方差 18)正確答案:A 增加C參數(shù)在這里是正確的,因?yàn)樗鼘⒋_保模型的規(guī)范化 19)正確答案:B 表述一和二是正確的。 20)正確答案:D 對(duì)于一個(gè)4分類問題,如果使用one-vs-all方法,則必須至少訓(xùn)練SVM 4次。 21)正確答案:B 需要10×4 = 40秒 22)正確答案:A 僅訓(xùn)練一次SVM就可以得到合適的結(jié)果 23)正確答案:A 增加數(shù)據(jù)的復(fù)雜性會(huì)使算法過度擬合數(shù)據(jù)。 24)正確答案:C 兩個(gè)給定的陳述都是正確的。 25)正確答案:C 兩個(gè)給定的陳述都是正確的。 結(jié)果檢查是不是已經(jīng)對(duì)完答案,已經(jīng)算出自己的分?jǐn)?shù)了呢,以下是參與者得分的總體分布,看一下自己的水平在那個(gè)位置吧: 在這個(gè)圖表中,列表示的得分的人數(shù),行表示獲得的分?jǐn)?shù),全部答對(duì)的人只有1位,相信看完自己的分?jǐn)?shù)后,你應(yīng)該對(duì)自己的水平有了一定的了解,也明白自己對(duì)于支持向量機(jī)的哪些知識(shí)還有些不足,這樣我們可以更好的去學(xué)習(xí)。 |
|