乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      谷歌開發(fā)手部識別系統(tǒng),適配跨平臺框架MediaPipe,手機(jī)可用!

       看見就非常 2020-02-01

      大數(shù)據(jù)文摘出品

      來源:谷歌AI

      編譯:趙偉、李雷、錢天培

      近日,谷歌發(fā)布了一個高性能的實(shí)時(shí)手部追蹤系統(tǒng)。不需要高性能的GPU、TPU,在手機(jī)上就能用!

      什么是手部追蹤呢?來看一下下面這張動圖就知道了。

      通過MediaPipe在手機(jī)上實(shí)現(xiàn)實(shí)時(shí)3D手部捕捉

      只要把你的手往鏡頭前一伸,該系統(tǒng)就可以通過使用機(jī)器學(xué)習(xí)(ML)從單個視頻幀推斷出手部的21個骨骼關(guān)鍵點(diǎn)(每根手指4個,手掌1個)的位置,從而得到高保真的手掌和手指運(yùn)動追蹤。

      在此基礎(chǔ)上,這一系統(tǒng)還可以推斷出手勢的含義。

      雖然手部追蹤這種能力是人類天生的,但是對計(jì)算機(jī)來說,能穩(wěn)定地實(shí)時(shí)感知手部狀態(tài)是一項(xiàng)極具挑戰(zhàn)性的視覺任務(wù)。

      難度來自多個方面。比如,雙手的運(yùn)動經(jīng)常會導(dǎo)致某一部分被遮蓋(例如合掌和握手),而手的顏色也沒有很強(qiáng)的對比度。

      同時(shí),手部追蹤也是各技術(shù)領(lǐng)域和應(yīng)用平臺上改善用戶體驗(yàn)的關(guān)鍵技術(shù)之一。

      比如說,手部形狀識別是手語理解和手勢控制的基礎(chǔ)。它還可以在增強(qiáng)現(xiàn)實(shí)(AR)中將虛擬的數(shù)字內(nèi)容疊加到真實(shí)的物理世界之上。

      因此,谷歌這次的實(shí)時(shí)手部追蹤意義重大。

      事實(shí)上,谷歌已經(jīng)在今年6月份的CVPR 2019會議上演示過該模型。而這一次,谷歌選擇在MediaPipe這一個開源跨平臺框架正式發(fā)布這一系統(tǒng)。

      該系統(tǒng)背后的原理是什么呢?我們一起來看。

      用于手部跟蹤和手勢識別的機(jī)器學(xué)習(xí)

      谷歌的手部追蹤方案使用了一個由多個模型協(xié)同工作組成的機(jī)器學(xué)習(xí)管道:

      一個手掌探測器模型(BlazePalm),作用于整個圖像并返回定向的手部邊界框。

      一個手部標(biāo)志模型,作用于手掌探測器返回的裁剪圖像區(qū)域,并返回高保真的3D手部關(guān)鍵點(diǎn)。

      一個手勢識別器,將先前得到的關(guān)鍵點(diǎn)排列分類為不同的手勢。

      這種架構(gòu)類似于我們最近發(fā)布的面部網(wǎng)格ML管道以及其它用于姿勢估計(jì)的架構(gòu)。提供給手部標(biāo)志模型的手掌剪裁圖像大大降低了對額外數(shù)據(jù)(如旋轉(zhuǎn)、平移和縮放)的要求,從而允許其將大部分能力用于針對坐標(biāo)預(yù)測精度的處理。

      frame:幀;palm detector:手掌探測器;hand landmarks:手部標(biāo)志模型;gesture recognizer:手勢識別器

      BlazePalm:實(shí)時(shí)手部/手掌探測

      為了檢測初始手部位置,我們采用名為BlazePalm的單發(fā)探測器模型,它參考了MediaPipe中的BlazeFace,并進(jìn)行了優(yōu)化以針對實(shí)時(shí)移動應(yīng)用。

      檢測人手是一項(xiàng)非常復(fù)雜的任務(wù):我們的模型必須適用于各種尺寸的手掌,還要能夠檢測各種遮擋和合掌的情況。

      面部具有眼睛和嘴巴這樣的高對比度特征,手部卻沒有。因此,機(jī)器學(xué)習(xí)模型通常很難僅靠視覺特征來進(jìn)行準(zhǔn)確檢測。但如能提供額外的環(huán)境信息,如手臂、身體或人物等特征等,則有助于手部的精確定位。

      在我們的方法中使用了不同的策略來解決上述挑戰(zhàn)。首先,我們訓(xùn)練的是手掌探測器而非手部探測器,因?yàn)闄z測像手掌和拳頭這樣的剛性物體的邊界比檢測整個手部要簡單得多。此外,由于手掌的面積較小,這使得非極大值抑制算法在雙手遮擋情況(如握手)下也能得到良好結(jié)果;手掌可以使用方形邊界框(也就是ML術(shù)語中的anchors)來描述,忽略其長寬比,從而可將anchors的數(shù)量減少3-5倍。其次,編碼-解碼特征提取器可用于在更大范圍的環(huán)境中感知很小的物體(類似于RetinaNet方法)。最后,我們將訓(xùn)練期間的焦點(diǎn)損失(focal loss)降至最低,用以支持由于高尺度方差而產(chǎn)生的大量anchors。

      利用上述技術(shù),我們在手掌檢測中得到了95.7%的平均精度。而使用固定的交叉熵?fù)p失且沒有解碼器的情況下精度基準(zhǔn)僅為86.22%。

      手部標(biāo)志模型

      在對整個圖像進(jìn)行手掌檢測之后,手部標(biāo)志模型通過回歸(即直接坐標(biāo)預(yù)測)在之前檢測到的手部區(qū)域內(nèi)精確定位了21個3D手部骨骼關(guān)鍵點(diǎn)坐標(biāo)。這個模型學(xué)習(xí)了連續(xù)的手勢圖案,并且對于被遮擋只有部分可見的手部也能識別。

      為了獲得可靠數(shù)據(jù),我們手動標(biāo)注了大約30000幅具有手部骨骼關(guān)鍵點(diǎn)坐標(biāo)的真實(shí)圖像,如下所示(我們從圖像深度圖中獲取Z值,如果它相應(yīng)的坐標(biāo)存在)。為了更好地覆蓋可能的手部姿勢并對手部幾何形狀的性質(zhì)提供額外的比照,我們還在各種背景下渲染高質(zhì)量的合成手部模型,并將其映射到相應(yīng)的3D坐標(biāo)。

      上圖:傳給跟蹤網(wǎng)絡(luò)的帶標(biāo)注的校準(zhǔn)手勢圖

      下圖:帶標(biāo)注的渲染合成手部圖像

      然而,純粹的合成數(shù)據(jù)很難泛化應(yīng)用到新的數(shù)據(jù)集上。為了解決這個問題,我們使用混合訓(xùn)練模式。下圖顯示了大概的模型訓(xùn)練流程。

      Rendered synth:渲染合成圖片;real-world photos:真實(shí)圖像;hand presence:手部圖片;separable convolutional festure extractor:可分離卷積特征提?。?1 3Dkeypoints regression:21個3D關(guān)鍵點(diǎn)回歸;hand presence classification:手部分類

      手部跟蹤網(wǎng)絡(luò)的混合訓(xùn)練模式,裁剪的真實(shí)圖像和渲染的合成圖像用作預(yù)測21個3D關(guān)鍵點(diǎn)的輸入數(shù)據(jù)

      下表總結(jié)了基于訓(xùn)練數(shù)據(jù)性質(zhì)的回歸準(zhǔn)確率。綜合使用合成數(shù)據(jù)和真實(shí)數(shù)據(jù)可顯著提升性能。

      手勢識別

      基于預(yù)測出來的手部骨骼,我們用一個簡單的算法來推導(dǎo)手勢含義。首先,每個手指的狀態(tài)(如彎曲或筆直等)由多個關(guān)節(jié)的累積彎曲角度決定。然后我們將手指狀態(tài)集映射到一組預(yù)定義的手勢集合上。這種簡單卻有效的技術(shù)使我們能夠精確地估計(jì)基本的靜態(tài)手勢?,F(xiàn)有的機(jī)器學(xué)習(xí)管道支持識別不同國家的姿勢(如美國、歐洲和中國),還支持各種手勢含義,包括“拇指向上”、“握拳”、“OK”、“搖滾”和“蜘蛛俠”等。

      MediaPipe實(shí)現(xiàn)

      谷歌的手部跟蹤MediaPipe模型圖如下所示。該圖由兩個子圖組成,一個用于手部檢測,一個用于手部骨骼關(guān)鍵點(diǎn)(標(biāo)志點(diǎn))計(jì)算。

      MediaPipe的一個關(guān)鍵優(yōu)化是手掌探測器僅在必要時(shí)(很少)運(yùn)行,從而節(jié)省了大量的計(jì)算時(shí)間。

      MediaPipe地址:

      https://v

      GitHub地址:

      https://github.com/google/mediapipe

      MediaPipe是用于構(gòu)建應(yīng)用ML pipeline(例如,視頻,音頻,任何時(shí)間序列數(shù)據(jù))框架。利用MediaPipe,可以將感知管道構(gòu)建為模塊化組件的圖形,包括例如推理模型(例如,TensorFlow,TFLite)和媒體處理功能。

      谷歌在上周也將這一平臺進(jìn)行了開源,適配多種視覺檢測任務(wù)。目前在GitHub上星標(biāo)已經(jīng)達(dá)到了2k+。

      通過從當(dāng)前幀中計(jì)算手部關(guān)鍵點(diǎn)推斷后續(xù)視頻幀中的手部位置來實(shí)現(xiàn)這一點(diǎn),從而不必在每個幀上都運(yùn)行手掌檢測器。為了得到穩(wěn)定結(jié)果,手部探測器模型會輸出一個額外的標(biāo)量,用于表示手是否存在于輸入圖像中并姿態(tài)合理的置信度。只有當(dāng)置信度低于某個閾值時(shí),手部探測器模型才會重新檢測整個幀。

      Realtimeflowlimiter:實(shí)時(shí)限流器;handdetection:手部探測;detectiontorectangle:檢測到矩形;

      image cropping:圖像裁剪;handlandmark:手部標(biāo)志;landmarktorectangle:標(biāo)志成矩形;annotationrender:注釋渲染

      手部標(biāo)志模型的輸出(REJECT_HAND_FLAG)控制何時(shí)觸發(fā)手部檢測模型。這種行為是通過MediaPipe強(qiáng)大的同步構(gòu)建塊實(shí)現(xiàn)的,從而實(shí)現(xiàn)ML管道的高性能和最佳吞吐量。

      高效的ML解決方案可以實(shí)時(shí)并在各種不同的平臺和外形上運(yùn)行,但與上述簡化描述相比,其具有更高的復(fù)雜性。最后,谷歌在MediaPipe框架中將上述手部跟蹤和手勢識別管道開源,并附帶相關(guān)的端到端使用場景和源代碼。

      鏈接如下:

      https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md

      這為研究和開發(fā)人員提供了完整的可用于實(shí)驗(yàn)的程序棧,可以基于谷歌的模型來對新想法進(jìn)行原型設(shè)計(jì)。

      未來方向

      谷歌稱,未來計(jì)劃通過更強(qiáng)大和穩(wěn)定的跟蹤鎖定方法擴(kuò)展此技術(shù),來擴(kuò)大能可靠檢測的手勢數(shù)量,并支持實(shí)時(shí)變化的動態(tài)手勢檢測。

      相信這項(xiàng)技術(shù)的開源也可以促使研究和開發(fā)者社區(qū)產(chǎn)生大量的創(chuàng)意和應(yīng)用!

      相關(guān)報(bào)道:

      https://ai./2019/08/on-device-real-time-hand-tracking-with.html

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多