乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      不限機(jī)型,手機(jī)端實(shí)時玩轉(zhuǎn)3D、混合現(xiàn)實(shí),快手Y-tech有黑科技(已開源)

       板橋胡同37號 2020-08-14

      機(jī)器之心報(bào)道

      機(jī)器之心編輯部

      深度是實(shí)現(xiàn) 3D 場景理解的重要信息,快手 Y-tech 利用自研的單目深度估計(jì)技術(shù)獲得了高質(zhì)量的深度信息,并將模型部署到移動端,結(jié)合 Y-tech 已有的多項(xiàng)技術(shù)研發(fā)了 3DPhoto、混合現(xiàn)實(shí)等多種新玩法。這些黑科技玩法不限機(jī)型,可讓用戶在手機(jī)上無門檻的實(shí)時體驗(yàn),給用戶帶來全新的視覺體驗(yàn)和交互方式的同時,可幫助用戶更好的進(jìn)行創(chuàng)作。


      這項(xiàng)研究主要探究了如何更好的利用三維空間的結(jié)構(gòu)性信息提升單目深度估計(jì)精度,此外還針對復(fù)雜場景構(gòu)建了一個新的深度數(shù)據(jù)集 HC Depth,包含六種挑戰(zhàn)性場景,有針對性地提升模型的精度和泛化性。該論文已被 ECCV 2020 收錄,論文代碼和模型即將在 GitHub 上開源,作者也將在 8 月 23-28 日的 ECCV 大會線上展示他們的工作。
       


      • 論文鏈接:https:///abs/2007.11256

      • 代碼鏈接:https://github.com/ansj11/SANet


      單目深度估計(jì)的挑戰(zhàn)

      從 2D 圖像恢復(fù) 3D 信息是計(jì)算機(jī)視覺的一個基礎(chǔ)性問題,可以應(yīng)用在視覺定位、場景理解和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域。在無法通過深度傳感器或者多視角獲得有效的深度測量時,單目深度估計(jì)算法尤為重要。傳統(tǒng)方法通常使用先驗(yàn)信息恢復(fù)圖像的深度信息,例如紋理線索,物體尺寸和位置,遮擋和透視關(guān)系等。近年來深層卷積神經(jīng)網(wǎng)絡(luò)通過對大規(guī)模數(shù)據(jù)集的學(xué)習(xí),能夠隱式捕獲這些先驗(yàn)信息,取得了重大的突破。

      然而,自然場景的深度信息估計(jì)存在很多挑戰(zhàn),如光照不足或過曝,包含移動人像和天空區(qū)域,虛假邊緣,相機(jī)的抖動和傾斜等(見圖 1)?,F(xiàn)有算法把單目深度估計(jì)轉(zhuǎn)化為像素深度值的分類或回歸問題,對于全局像素之間的結(jié)構(gòu)性缺乏考量,導(dǎo)致遇到很多問題,如空間布局錯誤,邊緣不清晰,平面估計(jì)錯誤等。針對這一缺陷,這篇論文從深度信息的結(jié)構(gòu)性角度出發(fā),從網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)、訓(xùn)練方式、數(shù)據(jù)擴(kuò)充等方面入手,提高深度估計(jì)的質(zhì)量。
       

      圖 1:現(xiàn)有深度估計(jì)方法的難例場景

      網(wǎng)絡(luò)模型結(jié)構(gòu)
       

      圖 2:網(wǎng)絡(luò)模型結(jié)構(gòu)

      這篇論文基于編碼 - 解碼結(jié)構(gòu)的 U 形網(wǎng)絡(luò)進(jìn)行設(shè)計(jì),為多級特征圖添加了從編碼器到解碼器的 skip 連接層。編碼器主要提取語義特征,解碼器則更加關(guān)注空間結(jié)構(gòu)信息。包含全局上下文信息的 GCB 模塊在編碼階段應(yīng)用于每個殘差模塊,以重新校準(zhǔn)通道特征。校準(zhǔn)的特征與高級特征組合,作為空間注意力機(jī)制 SAB 模塊的輸入。

      其中 SAB 是這篇論文提出的一種新穎的空間注意力機(jī)制模塊。從空間角度來看,GCB 模塊用于全局強(qiáng)調(diào)語義信息,而空間注意模塊則側(cè)重于圖像局部區(qū)域模塊的權(quán)重調(diào)節(jié)。
       
      GCB 和 SAB 注意力模塊可以構(gòu)建三維注意機(jī)制以指導(dǎo)特征選擇。如圖 3 所示,其中低分辨率 SAB 特征圖用于指導(dǎo)全局空間布局信息的選擇,而高分辨率 SAB 特征圖用于強(qiáng)調(diào)細(xì)節(jié)信息。經(jīng)過選擇后的多尺度特征圖融合后經(jīng)過上采樣層輸出最終深度圖。
       

      圖 3:空間注意力機(jī)制模塊的可視化

      Spatial attention block

      論文的 SAB 模塊專為單目深度估計(jì)而設(shè)計(jì),旨在優(yōu)化像素級回歸任務(wù)中的幾何空間布局。SAB 模塊通過 1×1 卷積層對串聯(lián)特征進(jìn)行擠壓操作,以在其通道尺寸上聚合空間上下文。然后,激活局部特征以獲取注意力特征圖,該圖對所有空間位置上的像素深度信息進(jìn)行編碼。低層特征與該特征圖進(jìn)行逐像素相乘,以進(jìn)行后續(xù)融合,獲取高層傳遞的空間上下文信息。因此,SAB 能生成具有空間信息的權(quán)重圖,以重新校準(zhǔn) GCB 的語義特征。 


      SAB 的表達(dá)式如上,其中 f 是融合函數(shù)(例如按元素求和,按元素點(diǎn)積或串聯(lián)),?表示 1×1 或 3×3 卷積,⊙表示按元素點(diǎn)積。由于深度圖的元素值呈長拖尾的正值分布,因此將 ReLU 用作激活函數(shù)σ(x)。如圖 3 所示,使用 SAB 獲得的注意力特征圖有助于網(wǎng)絡(luò)選擇跨不同尺度的特定空間信息。其中,S4 能夠描述語義層級關(guān)系,幫助網(wǎng)絡(luò)捕獲 3D 空間整體的遠(yuǎn)近結(jié)構(gòu)。空間注意力特征圖越接近 S1,能夠使網(wǎng)絡(luò)關(guān)注更加局部空間的信息,如物體邊界。

      網(wǎng)絡(luò)訓(xùn)練

      這篇論文的損失函數(shù)由四種損失函數(shù)構(gòu)成,包含已開源的 Berhu 損失,尺度不變性梯度損失,法向損失和這篇文章提出的 GFRL 相對損失,我們參考相關(guān)文獻(xiàn)將這些 loss 進(jìn)行合理的組合,從而使網(wǎng)絡(luò)更好的收斂。 

      GFRL 損失(global focal relative loss)

      為了更好地約束全局像素間的相對關(guān)系,這篇文章在相對損失函數(shù)(Relative Loss,RL)的基礎(chǔ)上引入了焦點(diǎn)損失概念(focal loss),可以通過減少易判斷空間遠(yuǎn)近點(diǎn)對的權(quán)重,使得模型在訓(xùn)練時更專注于難以區(qū)分遠(yuǎn)近的點(diǎn)對。為了確保點(diǎn)對的均勻選擇,將圖像細(xì)分為相同大小的 16×16 塊,并從每個塊中隨機(jī)采樣一個點(diǎn),訓(xùn)練網(wǎng)絡(luò)時,會將每個點(diǎn)與同一圖像中的所有其他點(diǎn)進(jìn)行比較,從而使網(wǎng)絡(luò)表現(xiàn)出更好的全局結(jié)構(gòu)約束性能。第 k 對點(diǎn)的相對損失函數(shù)如下式所示:

        
      其中 rk 是真值的點(diǎn)對相對關(guān)系,如果第一個點(diǎn)的深度值比第二個點(diǎn)小時,rk 設(shè)置為 - 1,反之為 1。深度差值比率小于閾值 0.02 時,rk 設(shè)置為 0。與傳統(tǒng)的相對損失不同,GFRL 引入一個調(diào)控因子來衡量點(diǎn)對的相對損失權(quán)重。當(dāng)一對像素在預(yù)測中具有不正確的序數(shù)關(guān)系時,調(diào)控因子權(quán)重接近于 1,相當(dāng)于傳統(tǒng)的相對損失函數(shù)。當(dāng)深度序數(shù)關(guān)系正確且深度差足夠大時,則對該點(diǎn)對的調(diào)控因子將變?yōu)?0。因此 GFRL 能是網(wǎng)絡(luò)在訓(xùn)練時專注于錯誤的像素對。參數(shù)γ調(diào)整點(diǎn)對的權(quán)重調(diào)節(jié)幅度。當(dāng)γ= 0 時,GFRL 相當(dāng)于傳統(tǒng)相對損失函數(shù)。隨著γ的增加,調(diào)制因子的影響變大,這篇論文在實(shí)驗(yàn)中將γ設(shè)置為 2。實(shí)驗(yàn)證明,在各種評估指標(biāo)下,GFRL 都優(yōu)于 RL。

      邊緣感知策略(Edge-aware consistency)

      現(xiàn)有的大多數(shù)單目深度估計(jì)方法都無法準(zhǔn)確地估計(jì)邊緣區(qū)域,生成的深度邊界有一定扭曲和模糊。為了使網(wǎng)絡(luò)更好的區(qū)分前后景且保持平面的平滑,這篇論文在訓(xùn)練的過程中引入了邊緣感知策略,從而在深度預(yù)測結(jié)果中保留前后景深度的斷層。首先使用 Canny 邊緣檢測算子提取深度圖的邊緣,然后對這些邊緣進(jìn)行擴(kuò)張以得到邊界區(qū)域。在這些邊界區(qū)域調(diào)大訓(xùn)練權(quán)重以顯著增加邊界區(qū)域中預(yù)測誤差的損失。邊緣感知一致性方案作為一種難例挖掘方法,在邊界區(qū)域提升效果顯著,如圖 4 所示:
       

      圖 4:邊緣感知模塊的實(shí)驗(yàn)結(jié)果
       
      訓(xùn)練數(shù)據(jù)集

      HC depth

      這篇論文在現(xiàn)有深度估計(jì)的方法上總結(jié)了六種挑戰(zhàn)性場景,并盡可能在開源數(shù)據(jù)集上搜集這些場景。然而現(xiàn)有開源的深度數(shù)據(jù)集場景非常單一,難以提供足夠的 hard case 數(shù)據(jù)。這篇論文針對這一現(xiàn)狀,設(shè)計(jì)了數(shù)據(jù)采集方案,并整理了 HC Depth 數(shù)據(jù)集。論文作者使用 Microsoft Kinect 收集了 24660 張?zhí)魬?zhàn)場景圖像,由于 Kinect 的有效距離范圍有限,這些圖像主要是包含移動人像的室內(nèi)場景。為了擴(kuò)充數(shù)據(jù)集的深度分布范圍,論文作者同時使用了 Intel RealSense 收集了 95400 張室內(nèi)和室外場景的圖像,對于室外場景,使用天空分割模型分割出天空區(qū)域并賦予最大深度值。此外還對所有深度圖進(jìn)行了空洞補(bǔ)全及平滑處理,提升數(shù)據(jù)質(zhì)量。HC depth 數(shù)據(jù)集示例如圖 5 所示:
        

      圖 5:HC depth 數(shù)據(jù)集示例

      多數(shù)據(jù)集訓(xùn)練策略

      為了訓(xùn)練通用的單目深度估計(jì)模型,這篇論文在多個不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練。在非凸函數(shù)的全局優(yōu)化中,深度數(shù)據(jù)在各種場景中的分布不同,導(dǎo)致訓(xùn)練時難以收斂。這篇論文受到課程學(xué)習(xí)的啟發(fā),提出了一種增量式數(shù)據(jù)集混合策略,以加速網(wǎng)絡(luò)訓(xùn)練收斂并提高訓(xùn)練模型的泛化性能。首先,在具有相似分布的數(shù)據(jù)集上訓(xùn)練模型,直到收斂為止。然后逐一添加更難學(xué)習(xí)的不同深度分布的數(shù)據(jù)集,并為每個 batch 構(gòu)建一個新的采樣器,以確保從這些不平衡的數(shù)據(jù)集中進(jìn)行均衡的采樣。訓(xùn)練收斂過程如圖 6 所示:
       

      圖 6:多數(shù)據(jù)集訓(xùn)練策略的 BerHu loss 收斂曲線

      結(jié)果對比

      作者對比了當(dāng)前最優(yōu)的深度估計(jì)算法,在 NYUv2 開源數(shù)據(jù)集上的指標(biāo)對比結(jié)果和視覺對比結(jié)果見下圖,可以看出該論文方法在深度圖整體及細(xì)節(jié)上均好于 SOTA。
       

      圖 7:在 NYUv2 上的量化實(shí)驗(yàn)對比
       

      圖 8:在 NYUv2 數(shù)據(jù)集上的可視化實(shí)驗(yàn)對比
       

      圖 9:在 NYUv2 數(shù)據(jù)集上的點(diǎn)云可視化實(shí)驗(yàn)對比

      為了進(jìn)一步驗(yàn)證模型的泛化性能,作者在 TUM 數(shù)據(jù)集上進(jìn)行了方法對比測試如下圖,在未見過的場景下,該論文方法預(yù)測效果也優(yōu)于 SOTA。
       

      圖 10:在 TUM 數(shù)據(jù)集上的泛化性測試實(shí)驗(yàn)
       

      圖 11:在 TUM 數(shù)據(jù)集上的可視化測試實(shí)驗(yàn)

      最后,為了說明該論文方法在各種具有挑戰(zhàn)性場景下的有效性,作者在自采的 HC Depth 上進(jìn)行了對比測試如下圖,可以看出該論文的方法遠(yuǎn)好于 SOTA。
       

      圖 12:在 HC Depth 數(shù)據(jù)集上的 hard case 性能測試實(shí)驗(yàn)
       

      圖 13:在 HC Depth 數(shù)據(jù)集上的可視化測試實(shí)驗(yàn)

      應(yīng)用

      基于深度信息業(yè)界已經(jīng)有了很多相關(guān)的落地應(yīng)用,快手利用深度信息也支持了很多應(yīng)用的上線落地,如混合現(xiàn)實(shí)、3DPhoto、景深虛化等。

      混合現(xiàn)實(shí)

      傳統(tǒng)的增強(qiáng)現(xiàn)實(shí) (AR) 技術(shù)一般只有空間定位功能,缺少環(huán)境感知、深度測量、實(shí)時光照等高級能力,虛擬和現(xiàn)實(shí)難以真正的融合和交互。快手利用單目深度估計(jì)技術(shù)實(shí)時感知和理解場景的幾何信息,并將其與傳統(tǒng)的 SLAM/VIO 技術(shù)相結(jié)合,同時完成了空間計(jì)算和場景重建,結(jié)合自研的 3D 渲染引擎,打造了移動端的 MR 混合現(xiàn)實(shí)系統(tǒng),給用戶帶來更逼真、沉浸、新奇的虛實(shí)交互新體驗(yàn)。該技術(shù)方向大大減少了對特殊硬件 (如深度傳感器) 的依賴,可以只利用現(xiàn)有手機(jī)硬件實(shí)現(xiàn),技術(shù)的普適性可幫助幾乎所有用戶無門檻使用 MR 技術(shù)。用戶通過快手的 MR 混合現(xiàn)實(shí)系統(tǒng)可以實(shí)時體驗(yàn)虛實(shí)遮擋、體表運(yùn)動、虛擬打光、物理碰撞等虛實(shí)交互特性??焓肿罱肽暌焉暇€了 “新春燈牌”、“辭舊迎新”、“蹦迪濾鏡” 等多款 MR 魔表,是國內(nèi)首家上線該技術(shù)的公司,激發(fā)了用戶的創(chuàng)造力,提升了用戶拍攝生產(chǎn)欲望。


      3DPhoto

      3D 照片是近兩年比較熱的研究方向,通過對單張圖片進(jìn)行重建,可以讓這張圖片動起來,產(chǎn)生偽 3D 的交互效果。其產(chǎn)生的玩法是沉浸式的,可交互的,可以給用戶帶來新穎的體驗(yàn)??焓滞ㄟ^單目深度估計(jì)網(wǎng)絡(luò)對靜態(tài)圖片進(jìn)行稠密重建,結(jié)合人像分割、人臉三維重建、圖像背景修復(fù)等技術(shù),可產(chǎn)生生動逼真的 3D 立體照片效果。利用快手 Y-tech 自研的 YCNN 推理引擎,所有的模型都是在用戶的移動設(shè)備上運(yùn)行,沒有設(shè)備機(jī)型和數(shù)據(jù)傳輸能力的限制,可讓每位快手用戶都能體驗(yàn)到這一新奇玩法。目前這項(xiàng)功能已在快手主 APP、一甜相機(jī)等多款 APP 上線。

      景深虛化

      用戶在使用單反設(shè)備進(jìn)行拍照時,可以拍出具有淺景深的大光圈照片,它突出了拍攝主體,讓畫面變得更富層次感,并將背景轉(zhuǎn)化為柔美的光斑。這樣的景深虛化功能能明確主次,增強(qiáng)畫面美感,提升用戶的拍攝質(zhì)量。在手機(jī)上實(shí)現(xiàn)大光圈的效果需要有場景的深度信息,快手利用深度估計(jì)網(wǎng)絡(luò)獲取到的深度圖后,結(jié)合人像分割實(shí)現(xiàn)了逼真的虛化效果。目前該功能已經(jīng)在一甜相機(jī)完成上線,支持多種光斑形態(tài)的景深虛化以及動感和旋集等新效果。用戶對該功能滿意度很高,進(jìn)入虛化功能到保存的滲透率高達(dá) 70%。


      快手 Y-tech 介紹

      Y-tech 團(tuán)隊(duì)是快手公司在人工智能領(lǐng)域的探索者和先行者,致力于計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)、機(jī)器學(xué)習(xí)、AR/VR 等領(lǐng)域的技術(shù)創(chuàng)新和業(yè)務(wù)落地,不斷探索新技術(shù)與新用戶體驗(yàn)的最佳結(jié)合點(diǎn)。目前 Y-tech 在北京、深圳、杭州、Seattle、Palo Alto 有研發(fā)團(tuán)隊(duì),大部分成員來自于國際知名公司和大學(xué)。


      Amazon SageMaker 是一項(xiàng)完全托管的服務(wù),可以幫助開發(fā)人員和數(shù)據(jù)科學(xué)家快速構(gòu)建、訓(xùn)練和部署機(jī)器學(xué)習(xí) 模型。SageMaker完全消除了機(jī)器學(xué)習(xí)過程中每個步驟的繁重工作,讓開發(fā)高質(zhì)量模型變得更加輕松。

      現(xiàn)在,企業(yè)開發(fā)者可以免費(fèi)領(lǐng)取1000元服務(wù)抵扣券,輕松上手Amazon SageMaker,快速體驗(yàn)5個人工智能應(yīng)用實(shí)例。

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多