乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

       LZS2851 2016-06-14

      ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

      1新智元原創(chuàng)

      ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

      1. 像素循環(huán)神經(jīng)網(wǎng)絡(luò)(Pixel Recurrent Neural Networks)

      2. 卷積神經(jīng)網(wǎng)絡(luò)中循環(huán)對稱性的利用(Exploiting Cyclic Symmetry in Convolutional Neural Networks)

      3. 深度強(qiáng)化學(xué)習(xí)的異步算法(Asynchronous Methods for Deep Reinforcement Learning)

      4. 基于模型加速的連續(xù)深度Q學(xué)習(xí)(Continuous Deep Q-Learning with Model-based Acceleration)

      關(guān)注新智元(AI_era)回復(fù)“0614”下載論文(請直接在公眾號回復(fù),不是在文章下評論或留言)

      1. 像素循環(huán)神經(jīng)網(wǎng)絡(luò)

      摘要

      自然圖像分布建模是無監(jiān)督學(xué)習(xí)中的重大問題。該模型必須同時具有表達(dá)性、可解性(tractable)和可擴(kuò)展性。我們提出了一個深度神經(jīng)網(wǎng)絡(luò),能循序預(yù)測圖像中兩個維度上的像素。方法是對原始像素值離散概率建模,對圖像中依賴關(guān)系的完整集合編碼。構(gòu)架上的創(chuàng)新包括多個快速二維循環(huán)層和有效利用深度循環(huán)網(wǎng)絡(luò)中的殘差連接。我們從自然圖像中獲得的對數(shù)似然分?jǐn)?shù)顯著高于先前的最高水平。我們的主要研究結(jié)果也為 ImageNet 各個數(shù)據(jù)集提供了測試基準(zhǔn)。模型產(chǎn)生的樣本干凈、多樣且具有全局一致性。

      1. 引言

      本文中,我們提出了二維循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),并將其用于自然圖像大規(guī)模建模。所產(chǎn)生的 PixelRNN 含有 12 層快速二維長短時記憶(LSTM)。這些層在狀態(tài)中使用 LSTM 單元,用卷積方法從數(shù)據(jù)的一個空間維度中一次性計算出所有狀態(tài)。我們設(shè)計了兩種類型的層:第一種是 Row LSTM,每一行都做卷積;第二種是對角線雙長短時記憶(BiLSTM)層,其中以嶄新的方式沿圖像對角線做卷積。該網(wǎng)絡(luò)也包含了圍繞 LSTM 層的殘差連接;我們發(fā)現(xiàn)這有助于把 PixelRNN 的深度訓(xùn)練到 12 層。

      我們也考慮了另一種簡化構(gòu)架,核心組成部分與 PixelRNN 相同。我們發(fā)現(xiàn)通過使用 Masked 卷積,卷積神經(jīng)網(wǎng)絡(luò)(CNN)可被用于依賴度范圍固定的序列模型。由此,PixelCNN 的構(gòu)架是一個由 15 個層構(gòu)成的完全卷積網(wǎng)絡(luò),所有層中保留了輸入的空間分辨率,并在每個位置輸出一個條件分布。

      ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

      使用 PixelRNN 處理后的圖片效果

      PixelRNN 和 PixelCNN 都沒有引入其他獨立假設(shè),就得到了像素相互依賴關(guān)系的全部 generality,也保持了每個單獨像素內(nèi)部 RGB 顏色值之間的依賴關(guān)系。而且,與之前那些將像素作為連續(xù)變量建模的方法相比,我們用一個簡單 softmax 層實現(xiàn)了多項式分布,從而以離散值對像素建模。這一方法讓我們的模型在表征和訓(xùn)練上具有優(yōu)勢。

      本文的貢獻(xiàn)如下。第 3 部分,我們設(shè)計了兩種 PixelRNN,分別對應(yīng)兩種類型 LSTM 層;我們描述了一個純粹使用卷積的 PixelCNN,這也是我們最快的構(gòu)架;我們還設(shè)計了一個可擴(kuò)展的 PixelRNN。第 5 部分,我們證明了使用離散 softmax 分布和采用 LSTM 層的殘差連接的相對優(yōu)勢。接下來,我們在 MNIST 和 CIFAR-10 檢測模型,取得的對數(shù)似然分?jǐn)?shù)顯著高于先前結(jié)果。我們還提供了大規(guī)模 ImageNet 數(shù)據(jù)集大小變換為 32*32 和 64*64 像素的結(jié)果;據(jù)我們所知(論文發(fā)表時)尚未有人提交該數(shù)據(jù)集生成模型的似然分?jǐn)?shù)。最后,我們對 PixelRNN 產(chǎn)生的樣本做了定性評價。

      2. 建模

      ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

      圖2. 左:為了生成像素 xi, 我們以所有在 xi 左側(cè)和上側(cè)所生成的像素為條件。中:核為 3 的 Row LSTM。行 LSTM 的依賴域不會延續(xù)到圖像的兩側(cè)邊緣。右:對角線 BiLSTM 的兩個方向。對角線 BiLSTM 依賴域覆蓋了圖像的整個背景。

      ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

      圖3. 對角線 BiLSTM 中,為了沿對角線并行處理,對輸入的圖進(jìn)行了偏轉(zhuǎn),其中每一行都相對前一行偏移了一個位置。當(dāng)空間層被從左到右逐列計算時,輸出圖被轉(zhuǎn)換為原始大小。卷積核為 2。

      3. 像素循環(huán)神經(jīng)網(wǎng)絡(luò)

      本部分我們描述了 PixelRNN 的構(gòu)成要素。3.1 和 3.2 部分,我們描述了兩種類型的 LSTM 層,都使用卷積一次性計算一個空間維度的所有狀態(tài)。3.3 部分,我們描述了如何整合殘差連接,從而增強(qiáng)對擁有多個 LSTM 層的 PixelRNN 的訓(xùn)練。3.4 部分,我們描述了計算顏色離散聯(lián)合分布的 softmax 層以及 masking 技術(shù)。3.5 部分,我們描述了 PixelCNN 構(gòu)架。最后 3.6 部分,我們描述了可擴(kuò)展架構(gòu)。

      6. 結(jié)論

      我們顯著增強(qiáng)了作為自然圖像生成模型的深度 RNN。我們描述了新的二維 LSTM 層,包括可擴(kuò)展到更龐大數(shù)據(jù)集的行 LSTM 層和對角線 BiLSTM 層。我們訓(xùn)練了 PixelRNN 對圖像的原始 RGB 像素值建模。我們使用條件分布下的 softmax 層,將像素值作為離散隨機(jī)變量。我們使用 masked 卷積,令 PixelRNN 對顏色信道之間的全部依賴關(guān)系建模。我們提出并評估了這些模型的在構(gòu)架上進(jìn)展,這些進(jìn)展使模型具有多達(dá) 12 層 LSTM。

      我們表明 PixelRNN 顯著提高了處理 Binary MINIST 和 CIFAR-10 數(shù)據(jù)集的最高水平,也為 ImageNet 數(shù)據(jù)集的生成圖像建模提供了新的測試基準(zhǔn)。我們認(rèn)為 PixelRNN 既能對空間局部相關(guān)性建模,也能對遠(yuǎn)程相關(guān)性建模,并能生成輪廓清晰一致的圖像。隨著模型變得更大更好,再加上有無窮的數(shù)據(jù)可供訓(xùn)練,進(jìn)一步的計算和更大的模型可能還會進(jìn)一步提升結(jié)果。

      【點評】這篇文章主要提出了一種使用LSTM對圖像進(jìn)行建模的架構(gòu)。與普通的對圖像像素建模的算法相比,該算法有很多的獨特的地方。首先,本文將每個像素預(yù)測建模成了256類的分類問題。其次,本文提出了Masked Convolution的概念來處理圖像預(yù)測中多通道預(yù)測的問題。雖然對于單純對圖像建模的性能,本文的方法不如最新的基于adversarial的方法。但是,LSTM最近已經(jīng)被證明是對于圖像中空間dependency的有效模型,例如圖像分割中就可以使用LSTM進(jìn)行建模。PixelRNN在這種模型中可能會有用武之地。

      2. 卷積神經(jīng)網(wǎng)絡(luò)中循環(huán)對稱性的利用

      摘要

      循環(huán)對稱性指的是旋轉(zhuǎn)角度為 90° 整數(shù)倍時的對稱性。許多圖形都有旋轉(zhuǎn)對稱性。為了訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),有時會通過數(shù)據(jù)增強(qiáng)來利用這個性質(zhì),但仍然需要通過數(shù)據(jù)學(xué)習(xí)旋轉(zhuǎn)等價性質(zhì)。平移對稱性可以通過卷積層編碼,若能把旋轉(zhuǎn)對稱性編碼進(jìn)網(wǎng)絡(luò)的架構(gòu),會提高參數(shù)空間的利用率,因為不再需要學(xué)習(xí)那部分(描述旋轉(zhuǎn)對稱性的)參數(shù)。我們引入4種操作,它們可被作為層插入神經(jīng)網(wǎng)絡(luò),并且可以被組合起來讓模型部分地在旋轉(zhuǎn)操作下等價。這4種操作還能讓不同朝向下共享參數(shù)。我們用3個具有旋轉(zhuǎn)對稱性的數(shù)據(jù)集評估了這些結(jié)構(gòu)變動的效果,發(fā)現(xiàn)模型更小,而性能得到了提升。

      4. 神經(jīng)網(wǎng)絡(luò)里的編碼等效性

      本節(jié)只講了循環(huán)對稱性的情況,也就是旋轉(zhuǎn)的角度是 90° 整數(shù)倍,但我們提出的框架可以被推廣到別的情景。

      ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

      (a) 浮游生物的圖片 (b) 星系的圖片

      ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

      波士頓地區(qū)建筑 (a) 衛(wèi)星圖像 (b) 建筑標(biāo)簽

      ICML 2016 谷歌 DeepMind 論文上輯(大咖點評附下載)

      左中右分別為浮游生物、星系圖像和波士頓建筑的基礎(chǔ)架構(gòu)。紅色代表卷基層,藍(lán)色代表 pooling 層,黃色代表 dense 層

      7. 總結(jié)

      我們介紹了構(gòu)建旋轉(zhuǎn)對稱神經(jīng)網(wǎng)絡(luò)的框架,只需要使用4個新的層,它們可以很容易地插入現(xiàn)有的網(wǎng)絡(luò)架構(gòu)。除了需要調(diào)整訓(xùn)練所需的 minibatch 大小,不需要別的改動。擁有完全對稱性的數(shù)據(jù)集上新的模型,性能提高而參數(shù)更少。使用 Theano 對滾動操作的快速 GPU 實現(xiàn)(見此:https://github.com/ benanne/kaggle-ndsb)。

      未來我們希望把文中所講的方法用于別的具有旋轉(zhuǎn)對稱性的數(shù)據(jù),特別是那些缺少數(shù)據(jù)的領(lǐng)域,比如醫(yī)學(xué)圖像,以及參數(shù)共享有助于減少過度擬合的領(lǐng)域。我們還想把該方法擴(kuò)展到別的變換群,比如旋轉(zhuǎn)角度不是 90° 整數(shù)倍的情況,以及探索內(nèi)插和對齊帶來的復(fù)雜性的掌控策略。最后,我們希望把工作延伸到體積數(shù)據(jù),在這里參數(shù)數(shù)量的減少更加重要,并且很多對稱性都可以被利用起來而無需繁重的內(nèi)插。

      3. 深度強(qiáng)化學(xué)習(xí)的異步算法

      摘要

      我們提出了一種在概念上非常簡單并且輕量的深度強(qiáng)化學(xué)習(xí)框架,使用異步梯度下降優(yōu)化深度神經(jīng)網(wǎng)絡(luò)控制器。我們展示了 4 種標(biāo)準(zhǔn) RL 算法的異步模型變體,表明并行 actor-learner 在訓(xùn)練中能帶來穩(wěn)定化的影響,使所有 4 種方法都能順利訓(xùn)練出神經(jīng)網(wǎng)絡(luò)控制器。相比目前最領(lǐng)先的方法,論文中表現(xiàn)最好的方法——actor-critic(AC)的異步變體——ATARI游戲表現(xiàn)更好,訓(xùn)練用時僅為一半,并且使用的是一個多核CPU而非GPU。不僅如此,我們展示了異步 AC 方法在各式連續(xù)運動控制問題,以及一個新任務(wù)(包含使用視覺輸入在一個隨機(jī) 3D 迷宮中尋找到獎勵)同樣表現(xiàn)出色。

      1. 引言

      深度神經(jīng)網(wǎng)絡(luò)提供了豐富的、能讓強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)算法高效運行的表征。但之前人們認(rèn)為,將簡單的在線RL算法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合從根本上來說是不穩(wěn)定的。為了讓算法能夠穩(wěn)定化,研究者提出了許多解決方案。這些方法的核心是相似的:一個在線RL代理(agent)取得的觀測數(shù)據(jù)的順序是非平穩(wěn)的(non-stationary),在線RL的更新相互之間會有很高的相關(guān)性。通過將數(shù)據(jù)儲存在經(jīng)驗回放記憶體(experience replay memory)之中,數(shù)據(jù)將可以根據(jù)不同的時間步長分批處理或是隨機(jī)采樣。用這種方法整合記憶體中的數(shù)據(jù)會降低非平穩(wěn)性,降低更新互相之間的相關(guān)性,但同時也令這些方法的適用范圍僅限于離策略(off-policy)RL算法。

      ATARI 2600之類的充滿挑戰(zhàn)的領(lǐng)域中,基于經(jīng)驗回放的深度RL算法一鳴驚人。但是,經(jīng)驗回放有一些缺陷:每一次真實交互(real interaction),它都需要耗用更多的內(nèi)存和計算力,并且它要求離策略學(xué)習(xí)算法能基于舊策略生成的數(shù)據(jù)進(jìn)行更新。

      這篇論文中,我們?yōu)樯疃萊L提供了一種迥異的范式。與經(jīng)驗回放不同,對于環(huán)境中的多個實例,我們并行、異步地執(zhí)行多個 agent。在任意時間步長,并行 agent 都將會歷經(jīng)許多不同的狀態(tài),這種并行性也能令 agent 的數(shù)據(jù)去相關(guān),更接近平穩(wěn)過程(stationary process)。這個簡單的想法使得深度神經(jīng)網(wǎng)絡(luò)能被穩(wěn)健且高效地應(yīng)用于數(shù)量更為龐大的在策略(on-policy)RL算法——比如 Sarsa、n步方法——以及AC方法和Q學(xué)習(xí)之類的離策略(off-policy)RL算法。

      異步RL范式也在實際操作上也有優(yōu)點。原先的深度RL非常依賴硬件,比如GPU或是HPC,而我們的實驗用機(jī)只是擁有一個標(biāo)準(zhǔn)多核CPU。學(xué)習(xí)各類ATARI 2600時,異步RL在許多游戲中都獲得了更好的表現(xiàn),訓(xùn)練耗時比原先基于GPU的算法短得多,消耗資源也比HPC少得多。不僅如此,我們提出的方法中表現(xiàn)最好的A3C方法(asynchronous advantage actor-critic),還能夠良好適用于各類連續(xù)運動控制任務(wù)、也能僅僅從視覺輸入中學(xué)會探索3D迷宮的通用策略。我們相信,A3C能在2D和3D游戲、離散和連續(xù)動作空間上同時獲得成功,A3C能訓(xùn)練前饋和遞歸 agent,使它成為目前最通用、最成功的RL agent。

      4. 異步無鎖(lock-free)強(qiáng)化學(xué)習(xí)

      我們現(xiàn)在展示的是一步Sarsa、一步Q學(xué)習(xí)、n步Q學(xué)習(xí)、優(yōu)勢AC(advantage actor-critic)的多線程異步變體。設(shè)計這些方法的目的,是尋找出能可靠訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)策略、無需大量資源的RL算法。雖然這 4 個基礎(chǔ)的RL方法相當(dāng)不同,其中AC是一種在策略搜索方法、而Q學(xué)習(xí)是一種離策略基于價值(value-based)的方法,我們通過兩個操作令這 4 種算法能夠得以實現(xiàn)并進(jìn)行比較。

      首先,我們運用 Gorila 框架中提出的異步 actor-learner,不過是在一臺機(jī)器上使用多線程,而非使用不同的機(jī)器和一個參數(shù)服務(wù)器。我們讓學(xué)習(xí)器位于同一臺機(jī)器,免除了在不同機(jī)器間傳輸梯度和參數(shù)的消耗,也使我們能使用 Hogwild! 式更新訓(xùn)練控制器。

      其次,我們將觀測做成了多個并行 actor-learner 有可能對環(huán)境的不同部分進(jìn)行探索的形式。不僅如此,你可以在每個 actor-learner 中人為使用不同的探索策略實現(xiàn)最大化多樣性的目的。通過在不同線程中運行不同的探索策略,多個并行在線更新的 actor-learner 對參數(shù)改變的總和,最終將有可能比一個單獨進(jìn)行在線更新的 agent 做的更新,互相之間相關(guān)性更低。因此,我們不使用回放記憶體,而是依賴于采用不同探索策略的并行行動者,替代DQN訓(xùn)練算法中經(jīng)驗回放提供的穩(wěn)定化效果。

      除了令學(xué)習(xí)得以穩(wěn)定化,使用多個并行 actor-learner 也有一些實際的好處。第一,減少訓(xùn)練時間,減少幅度大致上與并行 actor-learner 的數(shù)量呈線性相關(guān)。第二,由于不再依賴經(jīng)驗回放讓學(xué)習(xí)穩(wěn)定化,我們能使用在策略強(qiáng)化學(xué)習(xí)方法——比如Sarsa和AC——以穩(wěn)定的方式訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

      6. 結(jié)論和討論

      我們展示了 4 種標(biāo)準(zhǔn)RL算法的異步版本,并表明了它們能夠以穩(wěn)定的方式訓(xùn)練許多領(lǐng)域中的神經(jīng)網(wǎng)絡(luò)控制器。在我們提出的框架中,基于價值的算法和基于策略的算法、離策略和在策略算法,離散性任務(wù)和連續(xù)性任務(wù),都有可能在RL中穩(wěn)定訓(xùn)練神經(jīng)網(wǎng)絡(luò)。當(dāng)我們用 16 核CPU訓(xùn)練ATARI任務(wù)時,我們提出的異步算法訓(xùn)練速度比Nvidia K40 GPU訓(xùn)練DQN的速度快,其中A3C算法的訓(xùn)練用時比目前最領(lǐng)先的方法少一半。

      我們的一個主要發(fā)現(xiàn)是,使用并行 actor-learner 更新一個共享模型,對于我們研究的 3 種基于價值的算法的學(xué)習(xí)過程都具有穩(wěn)定化影響。雖然這表明穩(wěn)定的在線Q學(xué)習(xí)可能脫離經(jīng)驗回放,但是這不意味著經(jīng)驗回放是無用的。將經(jīng)驗回放整合入異步RL框架,有可能通過重復(fù)利用舊數(shù)據(jù)大幅提高這些方法的數(shù)據(jù)效率。這可能會進(jìn)而在與環(huán)境交互的消耗比更新模型的消耗更大的領(lǐng)域(比如TORCS)帶來更快的訓(xùn)練速度。

      將其他現(xiàn)有的RL模型或是深度RL近期進(jìn)展與我們的異步框架相結(jié)合,展現(xiàn)出了許多迅速優(yōu)化我們在文中展示的算法的可能性。我們展示的n步模型是向前的(forward view),直接使用修正后的n步回報作為目標(biāo),但是使用向后的方法在資格跡(eligibility trace)中結(jié)合不同的回報已經(jīng)變得更為常見。通過使用其他估計優(yōu)勢函數(shù)的方法——比如Schulman等人(2015b)的泛化優(yōu)勢估計——可能會切實改善A3C算法。所有我們研究的基于價值的方法,都有可能受益于用各種方式降低Q值的高估誤差(over-estimation bias)。而另一個更值得揣摩的方向是,嘗試結(jié)合近期真正的在線時間差分方法的研究與非線性函數(shù)逼近。

      4. 基于模型加速的連續(xù)深度Q學(xué)習(xí)

      摘要

      模型無關(guān)的強(qiáng)化學(xué)習(xí)被成功應(yīng)用于許多難題,最近還被用于處理大型神經(jīng)網(wǎng)絡(luò)策略和價值函數(shù)。然而,模型無關(guān)的算法的樣本復(fù)雜度往往限制了它們在硬件系統(tǒng)中的應(yīng)用,尤其是使用高維函數(shù)逼近器時。本文中,我們對算法和表示進(jìn)行了探索,降低對連續(xù)控制任務(wù)的深度強(qiáng)化學(xué)習(xí)的樣本復(fù)雜度。我們還提出了兩個補(bǔ)充技術(shù),用于提高這些算法的效率。

      1. 引言

      本文中,我們提出了兩種補(bǔ)充技術(shù),用于提高在連續(xù)控制領(lǐng)域中深度強(qiáng)化學(xué)習(xí)的效率:我們?nèi)〉昧艘粋€Q學(xué)習(xí)變量,它可被用于連續(xù)領(lǐng)域;我們也提出了一種方法來把這種連續(xù)Q學(xué)習(xí)算法與已學(xué)到的模型聯(lián)合起來以對學(xué)習(xí)進(jìn)行加速,并保留模型無關(guān)的強(qiáng)化學(xué)習(xí)的好處。在連續(xù)行動領(lǐng)域中的模型無關(guān)的強(qiáng)化學(xué)習(xí),通常使用策略搜索方法來處理。將價值函數(shù)估計整合到這些技術(shù)中,就會產(chǎn)生 actor-critic 算法,這種算法兼具策略搜索和價值函數(shù)估計的有點,但缺點是需要訓(xùn)練兩個彼此分離的函數(shù)逼近器。我們提出的連續(xù)領(lǐng)域Q學(xué)習(xí)算法稱為歸一化優(yōu)勢函數(shù)(NAF),它避免了對第二個行動者或策略函數(shù)的需求,從而帶來了更簡潔的算法。更簡潔的優(yōu)化目標(biāo)和對價值函數(shù)參數(shù)化的選擇,讓算法應(yīng)用于一些連續(xù)控制領(lǐng)域的大型神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器時,樣本使用效率明顯更高。

      除了完善一種模型無關(guān)的深度強(qiáng)化學(xué)習(xí)算法,我們也試圖讓算法包含基于模型的強(qiáng)化學(xué)習(xí)要素,從而加速學(xué)習(xí),同時不喪失模型無關(guān)方法的那些優(yōu)點。一種方法是,讓Q學(xué)習(xí)算法等離策略算法包含由基于模型的規(guī)劃器所產(chǎn)生的離策略經(jīng)驗。然而,盡管這種方案看起來很自然,但經(jīng)驗評估表明它對學(xué)習(xí)進(jìn)行加速時缺乏效率。這部分是因為價值函數(shù)估計算法的本性:這種算法為了對價值函數(shù)局面精確建模,好的和壞的狀態(tài)轉(zhuǎn)變都必須經(jīng)歷。我們提出了一種替代方法,把學(xué)習(xí)到的模型整合到我們的連續(xù)行動Q學(xué)習(xí)算法中。該方法基于 imagination rollout:類似于 Dyna-Q 方法,從學(xué)習(xí)到的模型中產(chǎn)生出在策略樣本。我們表明,當(dāng)學(xué)到的動態(tài)模型與真實模型完美匹配時,這種方法極其有效,但在學(xué)習(xí)到的不完美的模型情況下則會戲劇性地下跌。不過,反復(fù)讓局部線性模型去適應(yīng)最新的在策略或離策略 rollout 批次,這種方法能提供充分的局部精確性,從而讓我們能在真實世界樣本的臨近區(qū)域使用 short imagination rollout 實現(xiàn)實質(zhì)性的進(jìn)步。

      我們的論文有三個主要貢獻(xiàn):第一,我們?nèi)〉貌⒃u價了一個Q函數(shù)表示,能夠在連續(xù)領(lǐng)域中進(jìn)行有效的Q學(xué)習(xí);第二,我們評估了幾個能夠把學(xué)習(xí)到的模型包含進(jìn)模型無關(guān)的Q學(xué)習(xí)的選項,并表明在我們的連續(xù)控制任務(wù)中,它們都缺乏效率。第三,我們提出,聯(lián)合局部線性模型和局部在策略 imagination rollout,加速對模型無關(guān)的連續(xù)Q學(xué)習(xí),并證明了這能帶來樣本復(fù)雜度方面的顯著進(jìn)步。

      7. 討論

      我們在文中探索了幾種方法,提高模型無關(guān)的深度強(qiáng)化學(xué)習(xí)的樣本使用效率。我們首先提出了一種方法,把標(biāo)準(zhǔn)Q學(xué)習(xí)方法應(yīng)用于高維、連續(xù)領(lǐng)域,并使用了 NAF 表示。這讓我們能夠簡化更常見的 actor-critic 式算法,同時保留非線性價值函數(shù)逼近器的好處。

      與近年提出的深度 actor-critic 算法相比,我們的方法常常學(xué)得更快,能獲得更準(zhǔn)確的策略。我們進(jìn)一步探索了模型無關(guān)的強(qiáng)化學(xué)習(xí)如何能通過整合已學(xué)到的模型而獲得加速,并不需要在面臨不完美模型學(xué)習(xí)時犧牲策略優(yōu)化方面的代價。盡管Q學(xué)習(xí)能包含離策略經(jīng)驗,(通過基于模型的規(guī)劃)從離策略探索中學(xué)習(xí)只在極少情況下提高了算法的總體樣本使用率。我們假定原因是為了獲取對Q函數(shù)的準(zhǔn)確估計,需要同時觀察成功和不成功的行動。另一種基于綜合在策略 rollout 的替代方法能顯著改善樣本復(fù)雜度。我們表明,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型并不能在我們的這一領(lǐng)域中取得實質(zhì)性改善,而就讓隨時間變化的線性模型反復(fù)再適應(yīng),卻能在它們所應(yīng)用的領(lǐng)域中帶來顯著的提高。

      【點評】本文提出了使用模型對Q-learning進(jìn)行加速的算法。本文由兩個創(chuàng)新點。首先,本文提出了normalized advantage function作為Q-learning的目標(biāo)。更重要的是,本文提出了使用一個線性的模型為Q-learning產(chǎn)生訓(xùn)練數(shù)據(jù)。在本文的實驗中,線性模型產(chǎn)生的數(shù)據(jù)產(chǎn)生了很好的作用。但是,對于更加復(fù)雜的Q-learning問題,比如以圖像作為輸入的問題。線性模型是否是一個很好的模型還存在疑問。

      下輯將于明天發(fā)布,敬請期待

      專家介紹

      王江,在復(fù)旦大學(xué)獲得學(xué)士和碩士學(xué)位,在美國西北大學(xué)獲得博士學(xué)位。曾在微軟亞洲研究院、微軟Redmond研究院、Google研究院、Google圖像搜索組實習(xí),現(xiàn)在百度硅谷的深度學(xué)習(xí)實驗室任資深研究科學(xué)家。他的研究成果在頂級學(xué)術(shù)會議和期刊PAMI、CVPR、ICCV、ECCV、 ICLR、CIKM中發(fā)表論文20余篇,并被廣泛引用總共近1000次。他的工作在Google和百度的圖像檢索系統(tǒng)、人臉識別系統(tǒng)和大規(guī)模深度學(xué)習(xí)中均得到了廣泛的應(yīng)用。

      「招聘」

      全職記者、編譯和活動運營

      歡迎實習(xí)生

      以及人工智能翻譯社志愿者

      詳細(xì)信息請進(jìn)入公眾號點擊「招聘」

      或發(fā)郵件至 jobs@aiera.com.cn

      新智元招聘信息請點擊“閱讀原文”

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多