乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      機(jī)器學(xué)習(xí)PAI實(shí)戰(zhàn):玩轉(zhuǎn)人工智能之你最喜歡哪個(gè)男生?

       web3佬總圖書(shū)館 2019-03-29


      前言

      分類(lèi)問(wèn)題是生活中最常遇到的問(wèn)題之一。普通人在做出選擇之前,可能會(huì)猶豫不決,但對(duì)機(jī)器而言,則是唯一必選的問(wèn)題。我們可以通過(guò)算法生成模型去幫助我們快速的做出選擇,而且保證誤差最小。充足的樣本,合適的算法可以透過(guò)表象的類(lèi)別,進(jìn)而挖掘其內(nèi)在的聯(lián)系、區(qū)別,找出最佳的的屬性來(lái)區(qū)分每個(gè)樣本的類(lèi)別。所以說(shuō)學(xué)習(xí)和應(yīng)用機(jī)器學(xué)習(xí)的算法,要求我們必須非常了解數(shù)據(jù)實(shí)例,每個(gè)樣本數(shù)據(jù)有多少個(gè)特征,哪些特征是敏感的,特征分布如何。只有充分了解數(shù)據(jù),才能選擇最合適的算法。

      場(chǎng)景描述

      單身王女士經(jīng)常逛某相親網(wǎng)站,前前后后瀏覽了1000個(gè)男生,并給他們打標(biāo)了,不喜歡、一般喜歡、很喜歡三個(gè)類(lèi)別。該相親網(wǎng)站的工程師,決定開(kāi)發(fā)一個(gè)算法推薦模型,給王女士依次推薦很喜歡,一般喜歡的男生。并可以將這個(gè)算法模型應(yīng)用到網(wǎng)站,吸引更多的單身青年注冊(cè)使用,并可以找到自己喜歡的男/女朋友。

      數(shù)據(jù)分析

      首先將離線(xiàn)數(shù)據(jù)導(dǎo)入到odps表中。我們主要介紹使用散點(diǎn)圖和箱線(xiàn)圖來(lái)直觀的觀測(cè)分析數(shù)據(jù)。然后根據(jù)上面的具體案例來(lái)學(xué)會(huì)如何看,理解這個(gè)圖形。數(shù)據(jù)選自《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》一書(shū)。

      散點(diǎn)圖

      詳情

      https://help.aliyun.com/document_detail/42716.html

      拖拽統(tǒng)計(jì)分析-散點(diǎn)圖。如圖所示,選擇觀測(cè)的特征。

      右鍵查看分析報(bào)告

      散點(diǎn)圖介紹

      1,反對(duì)角線(xiàn)上的三個(gè)方形,在方形左上角表明三個(gè)特征的名稱(chēng)。而且這個(gè)三個(gè)圖像與其他圖形不相同,橫縱坐標(biāo)都是一個(gè)特征,則對(duì)角直線(xiàn)就代表該特征在不同類(lèi)別下分布密度。比如Play這個(gè)方形,我們發(fā)現(xiàn)黃色部分集中在下方,藍(lán)色部分主要分布在中間,綠色主要分布在中上方。

      2,除了反對(duì)角線(xiàn)上的三個(gè)方形,其他方形則是反映了兩兩特征之間的分布情況。比如第一排第一列(1,1),橫坐標(biāo)為play,縱坐標(biāo)為mileage。從這個(gè)方形上可以直觀觀測(cè)出不同顏色的散點(diǎn)集中分布在不同區(qū)域。

      3,關(guān)于反對(duì)角線(xiàn)對(duì)稱(chēng)的兩個(gè)方形,則是兩個(gè)特征交換縱橫坐標(biāo)的散點(diǎn)圖。

      4,在整個(gè)散點(diǎn)圖的下方,可以勾選你希望對(duì)比的特征。

      通過(guò)上面散點(diǎn)圖,我們可以比較清晰得出幾個(gè)結(jié)論。

      1,ice_cream特征對(duì)分類(lèi)不敏感。從圖(1,2),(2,2)我們可以直觀看出,ice_cream在所有類(lèi)別中幾乎都是均勻分布。

      2,mileage,play 特征可以將類(lèi)別明顯的劃分成三個(gè)區(qū)域。說(shuō)明這兩個(gè)特征絕大程度上決定了類(lèi)別的劃分。

      散點(diǎn)圖進(jìn)階使用

      在任意個(gè)方形內(nèi),拖拽一個(gè)方形區(qū)域,可以選出滿(mǎn)足這些特征的樣本,更加直觀的觀測(cè),這些樣本在不同方形內(nèi)的分布。如上圖所示,我們選中了圖(3,3)內(nèi)一個(gè)方形區(qū)域,可以看出這些樣本在ice_cream特征下是均勻分布,在其他兩個(gè)特征下,都可以通過(guò)一個(gè)超平面劃分。

      箱線(xiàn)圖

      詳情

      https://help.aliyun.com/document_detail/42716.html

      拖拽統(tǒng)計(jì)分析-箱線(xiàn)圖。如圖所示,選擇觀測(cè)的特征。

      箱線(xiàn)圖介紹

      1,箱線(xiàn)圖組件分兩個(gè)tab分別顯示箱線(xiàn)圖和擾動(dòng)點(diǎn)圖,在左上角都可以選擇觀測(cè)不同的特征。右側(cè)顯示該特征下,每個(gè)類(lèi)別的分布情況。

      2,箱線(xiàn)圖介紹,每個(gè)類(lèi)別的箱線(xiàn)圖,從上到下一共有5條橫線(xiàn)。

      3,內(nèi)限不是樣本的最上限,外限也是不最下限,超過(guò)內(nèi)限和外限的樣本為異常樣本。

      4,結(jié)合擾動(dòng)點(diǎn)圖,我們可以發(fā)現(xiàn)觀測(cè)到異常樣本的大致數(shù)量多少。

      箱線(xiàn)圖分析

      1,通過(guò)上面的圖,我們可以關(guān)注paly屬性在不同類(lèi)別下的分布。對(duì)比ice_cream特征

      我們發(fā)現(xiàn)paly特征的屬性值在不同類(lèi)別下有明顯有傾向性分布。而ice_cream在不同類(lèi)別下分布幾乎是一樣的,這也驗(yàn)證了我們通過(guò)散點(diǎn)圖得出的結(jié)論。

      場(chǎng)景抽象化

      現(xiàn)在回到我們一開(kāi)始遇到的問(wèn)題。如何用算法幫助工程師為王女士推薦其他她可以喜歡的男生呢。其實(shí)這是一個(gè)簡(jiǎn)單的問(wèn)題,就是把所有的男生分為三類(lèi),不喜歡,一般喜歡,很喜歡。對(duì)于一個(gè)沒(méi)有標(biāo)簽的男生(x),我們分出其最可能屬于哪個(gè)類(lèi)別的概率(p)。

      在這種情況下,我們就選出這個(gè)男生屬于類(lèi)別A。如何計(jì)算這個(gè)概率,不同算法有不同的計(jì)算方法。比如K緊鄰算法,選出離這個(gè)樣本點(diǎn)最近的K個(gè)樣本,通過(guò)屬于A的樣本個(gè)數(shù)除以K就可以得出屬于A的概率。隨機(jī)森林,則是通過(guò)投票的方式,票數(shù)多的類(lèi)別就是樣本最終劃分的類(lèi)別。

      模型選擇

      通過(guò)前面數(shù)據(jù)分析,我們知道了數(shù)據(jù)的一些特性。

      1,mileage數(shù)值比其他兩個(gè)特征大很多,在計(jì)算特征間的距離時(shí),所在權(quán)重就比較大。所有選擇K近鄰可以會(huì)造成較大誤差。

      2,AdaBoost算法,隨機(jī)森林以及邏輯回歸算法都可以處理數(shù)值型數(shù)據(jù),所以這三種算法我們都會(huì)嘗試,并評(píng)估者三個(gè)算法的準(zhǔn)確率。

      數(shù)據(jù)處理

      我們可以使用統(tǒng)計(jì)分析-全表統(tǒng)計(jì)觀測(cè)數(shù)據(jù)是否有空值,以及一些方差等的統(tǒng)計(jì)信息。在本案例中我僅做缺失值檢測(cè)。

      模型訓(xùn)練

      我們分別選擇了三個(gè)分類(lèi)算法,隨機(jī)森林、AdaBoost、K近鄰算法。分別做了訓(xùn)練,預(yù)測(cè)和算法評(píng)估。在下面我們會(huì)通過(guò)測(cè)試評(píng)估來(lái)選擇合適的方案。

      模型測(cè)試

      隨機(jī)森林算法

      AdaBoost算法

      K近鄰算法

      通過(guò)上面的混淆矩陣,可以很直觀的看出,在算法準(zhǔn)確度層面,AdaBoost>隨機(jī)森林>K近鄰。也驗(yàn)證了我們前面通過(guò)數(shù)據(jù)分析得出的結(jié)論,在某個(gè)特征的值過(guò)大時(shí),K近鄰算法容易出現(xiàn)較大的誤差。當(dāng)然我們可以通過(guò)歸一化來(lái)處理這些特征值,只是這樣做在服務(wù)測(cè)試時(shí),輸入的數(shù)據(jù)就必須是歸一化的值而不是真實(shí)數(shù)據(jù),在實(shí)際使用中會(huì)有一些麻煩。

      模型部署和測(cè)試

      模型的部署和測(cè)試參見(jiàn)【玩轉(zhuǎn)人工智能—基于PAI的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)系列二】商品價(jià)格預(yù)測(cè)

      https://yq.aliyun.com/articles/692330

      總結(jié)

      AdaBoost之所以有如此好的效果,其功勞要?dú)w功于集成算法的提出和應(yīng)用。集成算法通過(guò)組合多個(gè)分類(lèi)器的結(jié)果,并賦予不同的權(quán)重值,而獲得了比任一個(gè)分類(lèi)器都要好的結(jié)果。當(dāng)然這也做也有一定風(fēng)險(xiǎn),比如說(shuō)有可能加深了分類(lèi)器的過(guò)擬合問(wèn)題。

      在分類(lèi)問(wèn)題上,我們最常遇到的問(wèn)題就樣本分布不均衡的問(wèn)題。就是說(shuō)正樣本多與負(fù)樣本,某個(gè)類(lèi)別的樣本多與其他類(lèi)別的樣本。這樣的數(shù)據(jù)集在大部分分類(lèi)器上都會(huì)存在問(wèn)題,通常情況下,我們可以通過(guò)欠抽樣或者過(guò)抽樣來(lái)解決這類(lèi)問(wèn)題,但是在實(shí)際操作中,我們需要注意下,如何才能在盡可能不影響實(shí)際真實(shí)性的情況下做到很好的抽樣。

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶(hù) 評(píng)論公約

        類(lèi)似文章 更多