乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      告別數(shù)據(jù)集資源匱乏,谷歌與斯坦福大學(xué)用弱監(jiān)督學(xué)習(xí)給訓(xùn)練集打標(biāo)簽

       黃爸爸好 2019-03-24

      數(shù)據(jù)集就是機(jī)器學(xué)習(xí)行業(yè)的石油,強(qiáng)大的模型需要含有大量樣本的數(shù)據(jù)集作為基礎(chǔ)。而標(biāo)記訓(xùn)練集中的數(shù)據(jù)樣本是開(kāi)發(fā)機(jī)器學(xué)習(xí)應(yīng)用的最大瓶頸之一。

      最近,谷歌與斯坦福大學(xué)、布朗大學(xué)一起,研究如何快速標(biāo)記大型數(shù)據(jù)集,將整個(gè)組織的資源用作分類任務(wù)的弱監(jiān)督資源,使機(jī)器學(xué)習(xí)的開(kāi)發(fā)時(shí)間和成本降低一個(gè)數(shù)量級(jí)。

      谷歌在論文中表示,這種方法能讓工程師能夠在不到30分鐘的時(shí)間內(nèi)對(duì)數(shù)百萬(wàn)個(gè)樣本執(zhí)行弱監(jiān)督策略。

      他們使用一種Snorkel Drybell系統(tǒng),讓開(kāi)源Snorkel框架適應(yīng)各種組織知識(shí)資源,生成Web規(guī)模機(jī)器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)。

      Snorkel是由斯坦福大學(xué)在2017年開(kāi)發(fā)的系統(tǒng),它可以在弱監(jiān)督條件下快速創(chuàng)建訓(xùn)練數(shù)據(jù)集,該項(xiàng)目已經(jīng)在GitHub上開(kāi)源。而Snorkel Drybell的目標(biāo)是在工業(yè)規(guī)模上部署弱監(jiān)督學(xué)習(xí)。

      而且用這種方法開(kāi)發(fā)的分類器質(zhì)量與手工標(biāo)記樣本進(jìn)行訓(xùn)練的分類器效果相當(dāng),把弱監(jiān)督分類器的平均性能提高了52%。

      什么是Snorkel

      Snorkel是斯坦福大學(xué)在2016年為許多弱監(jiān)督學(xué)習(xí)開(kāi)發(fā)的一個(gè)通用框架,由這種方法生成的標(biāo)簽可用于訓(xùn)練任意模型。

      已經(jīng)有人將Snorkel用于處理圖像數(shù)據(jù)、自然語(yǔ)言監(jiān)督、處理半結(jié)構(gòu)化數(shù)據(jù)、自動(dòng)生成訓(xùn)練集等具體用途。

      原理

      與手工標(biāo)注訓(xùn)練數(shù)據(jù)不同,Snorkel DryBell支持編寫(xiě)標(biāo)記函數(shù),以編程方式標(biāo)記訓(xùn)練數(shù)據(jù)。

      過(guò)去的方法中,標(biāo)記函數(shù)只是以編程方式標(biāo)記數(shù)據(jù)的腳本,它產(chǎn)生的標(biāo)簽是帶有噪聲的。

      為了解決噪聲等問(wèn)題,Supert Drybell使用生成建模技術(shù),以一種可證明一致的方式自動(dòng)估計(jì)標(biāo)記函數(shù)的準(zhǔn)確性和相關(guān)性,而無(wú)需任何基本事實(shí)作為訓(xùn)練標(biāo)簽。然后用這種方法對(duì)每個(gè)數(shù)據(jù)點(diǎn)的輸出進(jìn)行重新加權(quán),并組合成一個(gè)概率標(biāo)簽。

      使用多種知識(shí)來(lái)源作為弱監(jiān)督

      Snorkel Drybell先用多種知識(shí)來(lái)源作為弱監(jiān)督,在基于MapReduce模板的pipeline中編寫(xiě)標(biāo)記函數(shù),每個(gè)標(biāo)記函數(shù)都接受一個(gè)數(shù)據(jù)點(diǎn)生成的概率標(biāo)簽,并選擇返回None(無(wú)標(biāo)簽)或輸出標(biāo)簽。

      這一步生成的標(biāo)簽帶有大量噪聲,甚至相互沖突,還行需要進(jìn)一步的清洗才能用到最終的訓(xùn)練集中。

      結(jié)合和重新利用現(xiàn)有資源對(duì)準(zhǔn)確度建模

      為了處理這些噪聲標(biāo)簽,Snorkel DryBell將標(biāo)記函數(shù)的輸出組合成對(duì)每個(gè)數(shù)據(jù)點(diǎn)的訓(xùn)練標(biāo)簽置信度加權(quán)。這一步的難點(diǎn)在于,必須在沒(méi)有任何真實(shí)標(biāo)簽的情況下完成。

      研究人員使用生成建模技術(shù),僅使用未標(biāo)記的數(shù)據(jù)來(lái)學(xué)習(xí)每個(gè)標(biāo)記函數(shù)的準(zhǔn)確性。通過(guò)標(biāo)簽函數(shù)輸出之間的一致性矩陣來(lái)學(xué)習(xí)打標(biāo)簽是否準(zhǔn)確。

      在Snorkel DryBell中,研究人員還實(shí)現(xiàn)了建模方法一種更快、無(wú)采樣的版本,并在TensorFlow中實(shí)現(xiàn),以處理Web規(guī)模的數(shù)據(jù)。

      通過(guò)在Snorkel DryBell中使用此程序組合和建模標(biāo)簽函數(shù)的輸出,能夠生成高質(zhì)量的訓(xùn)練標(biāo)簽。與兩個(gè)分別有1.2萬(wàn)和8萬(wàn)個(gè)手工標(biāo)記訓(xùn)練數(shù)據(jù)集比較,由Snorkel DryBell標(biāo)記的數(shù)據(jù)集訓(xùn)練出的模型實(shí)現(xiàn)了一樣的預(yù)測(cè)準(zhǔn)確度。

      將不可服務(wù)的知識(shí)遷移到可服務(wù)的模型

      在許多情況下,可服務(wù)特征(可用于生產(chǎn))和不可服務(wù)特征(太慢或太貴而無(wú)法用于生產(chǎn))之間也有重要區(qū)別。這些不可服務(wù)的特征可能具有非常豐富的信號(hào),但是有個(gè)問(wèn)題是如何使用它們來(lái)訓(xùn)練,或者是幫助能在生產(chǎn)中部署的可服務(wù)模型呢?

      在Snorkel DryBell中,用戶發(fā)現(xiàn)可以在一個(gè)不可服務(wù)的特征集上編寫(xiě)標(biāo)簽函數(shù),然后使用Snorkel DryBell輸出的訓(xùn)練標(biāo)簽來(lái)訓(xùn)練在不同的、可服務(wù)的特征集上定義的模型。

      這種跨特征轉(zhuǎn)移將基準(zhǔn)數(shù)據(jù)集的性能平均提高了52%。

      這種方法可以被看作是一種新型的遷移學(xué)習(xí),但不是在不同的數(shù)據(jù)集之間轉(zhuǎn)移模型,而是在不同的特征集之間轉(zhuǎn)移領(lǐng)域知識(shí)。它可以使用速度太慢、私有或其他不適合部署的資源,在廉價(jià)、實(shí)時(shí)特征上訓(xùn)練可服務(wù)的模型。

      資源地址

      論文地址:
      https:///abs/1812.00417

      Snorkel項(xiàng)目地址:
      https://hazyresearch./snorkel/

      作者系網(wǎng)易新聞·網(wǎng)易號(hào)“各有態(tài)度”簽約作者


        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多