乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      AutoML技術(shù)現(xiàn)狀與未來展望

       xxycskrp 2019-04-17

      以下內(nèi)容是對AutoML技術(shù)現(xiàn)狀與未來展望講座的總結(jié)。

      1.機(jī)器學(xué)習(xí)定義

      • 《西瓜書》中的直觀定義是:利用經(jīng)驗來改善系統(tǒng)的性能。(這里的經(jīng)驗一般是指數(shù)據(jù))

      • Mitchell在《Machine Learning》一書中的較為形式化的定義是一個程序通過給它一些數(shù)據(jù),它能夠提升在某個任務(wù)上的某種度量。(如下圖示)

      下圖很清楚明了的展示了機(jī)器學(xué)習(xí)所做的事情,不再贅述。



      2.AutoML技術(shù)回顧

      很多時候在某一領(lǐng)域使用機(jī)器學(xué)習(xí)得到了效果很好的模型,但是若要在另一個領(lǐng)域使用該模型則不一定適用,而且通常需要大量的專業(yè)知識。正是由于受到這樣的限制,所以才有了AutoML技術(shù)的發(fā)展。

      2.1 AutoML研究的主要場景

      2.1.1 靜態(tài)閉環(huán)AutoML

      a. 介紹

      第一個場景是靜態(tài)閉環(huán)AutoML,該場景是目前用的最多的場景。該場景是給定數(shù)據(jù)和度量標(biāo)準(zhǔn)之后,通過AutoML選擇出效果最好的模型。該過程沒有任何的人工干預(yù),都是算法自動選擇的。

      下圖展示了機(jī)器學(xué)習(xí)的基本流程圖,可以看到主要有數(shù)據(jù)預(yù)處理、特征處理、模型訓(xùn)練等過程,并且每個過程都包含多種方法。

      b. 存在的問題

      而AutoML的本質(zhì)工作是將各個過程的方法進(jìn)行選擇、組合、優(yōu)化。

      但是AutoML存在如下問題:

      • 由于我們通常并不知道所優(yōu)化的參數(shù)和預(yù)期效果之間是什么樣的顯示表達(dá),所以 目標(biāo)函數(shù)形式未知
      • 由于可能的組合方式太多,所以 搜索空間巨大
      • 正是由于組合方式太多,而且每一個組合都需要從頭做數(shù)據(jù)預(yù)處理,特征處理,模型訓(xùn)練等操作,所以 函數(shù)計算代價巨大。

      c. 解決辦法

      • 1.基礎(chǔ)搜索方法

      該方法其實就是網(wǎng)格搜索,即將各種參數(shù)排列成矩陣的形式,然后使用 笛卡爾積(A×B=(x,y)|xAyB) 將所有的組合可能遍歷一遍。

      該方法有兩個缺陷:

      • 隨著超參數(shù)的規(guī)模越來越大,組合的可能性會指數(shù)增加,從而導(dǎo)致計算量大大增加。
      • 有的參數(shù)重要,但是有的并不重要,但是網(wǎng)格搜索會無差別組合,所以在不重要參數(shù)上浪費(fèi)大量時間和計算資源。所以通常會采用隨機(jī)搜索的方法來增加搜索效率,并且不會存在指數(shù)爆炸,組合爆炸的問題。
      • 2.基于采樣的方法

      上面介紹的網(wǎng)格搜索和隨機(jī)搜索實現(xiàn)起來簡單,而且使用比較多,但是它們搜索起來比較盲目。
      所以有了基于采樣的方法以期望避免搜索盲目。

      該方法是基于某種策略去產(chǎn)生一組可能的參數(shù)候選組合,然后對候選組合進(jìn)行評估。評估之后我們可以得到反饋,基于這個反饋我們會進(jìn)一步優(yōu)化搜索策略,以此迭代去解決優(yōu)化問題。

      這樣的一個優(yōu)化過程是一個黑盒函數(shù),學(xué)術(shù)界也叫做“零階優(yōu)化”,因為在這一過程中我們只能獲取函數(shù)值,無法獲取到它的導(dǎo)數(shù)信息。

      具體的實現(xiàn)方法有如下四種:

      • 1) 基于模型的零階優(yōu)化

      如圖示,該方法也是通過采樣,評估,反饋等迭代操作來得到優(yōu)化結(jié)果,包含兩個重要部件:一是用什么樣的模型,而是采用什么樣的采樣策略。

      而常用的優(yōu)化方法有兩種:貝葉斯優(yōu)化隨機(jī)坐標(biāo)收縮

      貝葉斯優(yōu)化是被研究的最多的一種方法之一,而最常見的是采用高斯過程來建模。但是高斯過程在求解的時候需要一個三次方操作,所以當(dāng)數(shù)據(jù)點特別多的時候計算效率是非常低下的。所以就有貝葉斯神經(jīng)網(wǎng)絡(luò)來解決復(fù)雜度問題。

      另外,高斯過程要求參數(shù)必須是連續(xù)空間的,而且還有一些其他的限制,所以需要用到隨機(jī)森林來解決參數(shù)類型受限問題。

      對應(yīng)的參數(shù)選擇策略標(biāo)準(zhǔn)有:

      • 選擇概率提升較大的點
      • 選擇提升幅度大的點
      • 通過交叉熵選擇
      • GP_UCB(不了解。。。)

      貝葉斯模型存在一個致命的錯誤,那就是它依賴于很強(qiáng)的模型假設(shè)(表示我們對函數(shù)空間的認(rèn)知)。

      為了解決貝葉斯的缺點,有人提出可以通過分類的方式來解決,即將好的點和壞的點區(qū)分開來,而不是對模型進(jìn)行假設(shè),該方法就是隨機(jī)坐標(biāo)收縮(RACOS, RAndomized Coordinate Shrinking)。

      該方法采用的模型是使用框?qū)⒑玫狞c選中,壞的點在框外。而框需要滿足兩個條件:一是盡可能的隨機(jī),而是框要盡可能的“瘦”,最瘦就是瘦成一條垂直于坐標(biāo)軸的直線。

      • 2) 局部搜索

      該方法是指從一個點出發(fā),在它的鄰域內(nèi)進(jìn)行搜索。

      最常見的局部搜索方法是 爬山法。即尋找可能性最大的一個方向后,往該方向前進(jìn)。該方法能夠收斂,但是可能會陷在局部最優(yōu)解或者停在比較平的地方。

      為了解決陷在局部最優(yōu)問題,迭代式局部搜索應(yīng)運(yùn)而生。它的思想是在找到局部最優(yōu)點后,對局部最優(yōu)點有一些擾動,然后重新開始一輪局部搜索。



      • 3) 啟發(fā)式算法

      該類方法相較于前兩種缺乏堅實的理論支撐,主要是根據(jù)對生物,自然界的觀察,去模擬一些生物或者自然現(xiàn)象,從而進(jìn)行優(yōu)化。

      • 4) 強(qiáng)化學(xué)習(xí)

      該方法是有一種殺雞用牛刀的感覺,因為強(qiáng)化學(xué)習(xí)自身的優(yōu)化就是一個比較大的問題。

      • 3.基于梯度的方法

      2.1.2 外部知識輔助AutoML

      該場景其實也是靜態(tài)場景,只不過該場景會從其他任務(wù)遷移一些已經(jīng)做過的知識來作為輔助。

      2.1.3 動態(tài)環(huán)境AutoML

      上面兩種場景都是靜態(tài)場景,而現(xiàn)實應(yīng)用中每天的數(shù)據(jù)都是不斷產(chǎn)生的,任務(wù)度量也是不斷變化的,所以就有了動態(tài)環(huán)境AutoML。

      例如常見的推薦系統(tǒng),每天有新用戶注冊,又有老用戶離開。并且用戶的喜好也不斷發(fā)生變化,這就是典型的動態(tài)場景。



      2.2 AutoML熱點研究方向

      AutoML熱點研究方向主要有兩個:效率泛化性

      2.2.1 效率

      常見的提高效率的方法有如下:

      • 將串行的計算方式改成 同步并行或者 異步串行
      • 提前停止模型訓(xùn)練,避免模型過擬合等現(xiàn)象的產(chǎn)生
      • 使用預(yù)訓(xùn)練模型進(jìn)行熱啟動
      • 混合優(yōu)化目標(biāo),即將計算代價和損失函數(shù)結(jié)合起來作為優(yōu)化目標(biāo)

      2.2.2 泛化性

      還有一個研究熱點是訓(xùn)練模型的泛化性。因為機(jī)器學(xué)習(xí)的本質(zhì)是希望所訓(xùn)練得到的模型能夠?qū)Χ鄠€任務(wù)都有效,即在從未見過的樣本上也能表現(xiàn)優(yōu)秀。

      • 評估

      以基于采樣的優(yōu)化為例,假設(shè)我們通過采樣得到了一些數(shù)據(jù)點,然后進(jìn)行超參數(shù)評估。這個評估是怎么做的呢?

      一般我們會從原數(shù)據(jù)集中選擇一部分?jǐn)?shù)據(jù)作為驗證集,然后查看驗證集的效果如何。但是這個驗證集是否能代表未來的數(shù)據(jù)集呢?答案是不確定的。

      所以有些工作就需要去研究怎么做更合理的評估。


      我們知道AutoML是從眾多模型中選擇出在某一數(shù)據(jù)集上表現(xiàn)最好的一個作為最終的輸出模型,那么這就意味著其他的模型都浪費(fèi)掉了。那些模型雖然表現(xiàn)不是最好的,但是可能也不差,而且可能在其他數(shù)據(jù)集上表現(xiàn)會更好。所以我們可以試著做集成學(xué)習(xí),以此來提高泛化性。

      2.3 從理論角度看AutoML

      世上沒有免費(fèi)的午餐。

      有很多理論都證明不存在一種通用的算法能解決所有問題。

      2.4 AutoML應(yīng)用

      視頻中主講人打了下廣告,介紹了由第四范式主辦的AutoML比賽。

      3. AutoML未來展望

      • 算法效率的提升

      未來展望一個大方向是算法效率的提升。而算法效率又分為時間復(fù)雜度和樣本復(fù)雜度。

      時間復(fù)雜度很好理解,它主要是希望能夠?qū)θ鞒踢M(jìn)行優(yōu)化,如下圖示,不再贅述。

      樣本復(fù)雜度則是指降低收集樣本的成本等。因為收集高質(zhì)量的有標(biāo)簽的樣本是很昂貴而且很困難的,所以可行的辦法是才用遷移學(xué)習(xí)來解決。周志華老師也提出了 學(xué)件的概念,即將以往訓(xùn)練的 模型和對該模型的 歸約組合成學(xué)件,以供后續(xù)任務(wù)的使用。

      • 算法
      • AutoML理論


      MARSGGBO?原創(chuàng)





      2018-7-14



        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多