隨著近年來深度學(xué)習(xí)、大算力、大數(shù)據(jù)快速發(fā)展,計算機(jī)視覺、語音識別等技術(shù)都取得了非常大的進(jìn)展,綜合了多種信息模態(tài)的多模態(tài)研究已成為一個新趨勢。 對于快手而言,多模態(tài)研究也是非常重要的課題。 快手是一個記錄和分享生活的短視頻社交平臺,通過人、內(nèi)容及二者互動數(shù)據(jù)的理解,借助算法匹配推薦用戶可能感興趣的內(nèi)容。一方面,視頻可稱是典型的多模態(tài)問題,綜合了視覺、聽覺、文本多種模態(tài)信息。在視頻的基礎(chǔ)上,加上用戶行為數(shù)據(jù)就是一種更加復(fù)雜的多模態(tài)問題。目前快手在多模態(tài)技術(shù)上的應(yīng)用,一方面在于幫助用戶更好地表達(dá)與記錄,另一方面在于對視頻內(nèi)容的精準(zhǔn)理解。 多模態(tài)技術(shù)幫助用戶更好地表達(dá)與記錄1、語音轉(zhuǎn)文字打造便捷字幕生成體驗 在視頻中,對音頻部分的理解是視頻信息傳遞的重要部分??焓稚嫌泻芏嘁哉Z言講述為核心的視頻,需要大量匹配的字幕輔助觀看。視頻字幕制作其實是一件工作量很大的事情,一般需要在電腦前使用專業(yè)的編輯軟件手動逐個輸入文字。而如果通過語音識別技術(shù),把語音直接轉(zhuǎn)成文字,就可以很輕松地通過手機(jī)編輯生成一個帶字幕的視頻。 對視頻進(jìn)行語音轉(zhuǎn)寫時,面臨以下的技術(shù)難點(diǎn):首先,拍攝視頻時,麥克風(fēng)和說話者之間的距離比較遠(yuǎn),語音信號因為傳輸距離遠(yuǎn)產(chǎn)生衰減,同時麥克風(fēng)對環(huán)境噪聲的抑制能力也會減弱,造成語音信號弱,背景噪聲強(qiáng)的現(xiàn)象;其次,在房間內(nèi)拍攝時,可能因墻壁對語音信號的反射造成混響;第三,快手的用戶包括了全國各個區(qū)域,自然地包括了多樣的口音;最后,短視頻的內(nèi)容種類豐富,表達(dá)方式隨意,有些視頻還有很強(qiáng)的韻律起伏。這些因素都會影響語音識別系統(tǒng)的準(zhǔn)確率??焓轴槍@些問題,研發(fā)了語音質(zhì)量檢測、單通道混響消除、噪聲掩蔽建模等多種技術(shù),以及通過序列化建模方法提升多種口音的識別準(zhǔn)確率。 2、語音合成實現(xiàn)個性化配音 在視頻配音方面,如果用戶不喜歡男性配音,而希望實現(xiàn)女性配音的效果,就可以通過語音合成技術(shù)滿足個性化的訴求。 語音識別及合成技術(shù)都會使記錄的過程變得更加便捷、有趣,但這兩項技術(shù)在做視覺或者多媒體的圈子里面關(guān)注度不是特別高,在語音圈子里面,語音識別、語音合成也往往是兩波人在做。 隨著深度學(xué)習(xí)技術(shù)的出現(xiàn),語音識別和合成其實在某種程度上可以看做是非常對稱的兩個問題,因為語音識別是從語音到文字,語音合成是從文字到語音。語音識別,我們提取一些聲學(xué)的特征,經(jīng)過編碼器或者 Attention 的機(jī)制,實現(xiàn)從語音到文字的轉(zhuǎn)化;語音合成的技術(shù)和算法,其實也涉及編碼器或者 Attention 的機(jī)制,二者形成了比較對稱的網(wǎng)絡(luò)。所以我們把語音識別和合成看成是一個模態(tài)轉(zhuǎn)換的特例,從神經(jīng)網(wǎng)絡(luò)建模角度來看,是一個比較一致、容易解決的問題。快手的語音識別、語音合成技術(shù)原理圖如下: 3、根據(jù)視頻內(nèi)容自動生成音樂 音樂也是短視頻非常重要的一部分,為一個場景匹配合適的音樂并非易事。過去,有不少用戶在拍攝時為了與音樂節(jié)拍一致,努力配合音樂節(jié)奏拍攝,極大限制了拍攝的自由度??焓窒M脩艨梢噪S意按照自己的方式錄制視頻,對用戶拍攝的視頻內(nèi)容進(jìn)行理解后,自動生成符合視頻內(nèi)容的音樂。 利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,實現(xiàn)視覺信息到音樂要素的轉(zhuǎn)化,包括:歌曲節(jié)奏、速度、調(diào)性、情感、風(fēng)格、動機(jī)等。例如:將視頻中用戶身體扭動的時間點(diǎn)與生成音樂中的「鼓點(diǎn)」位置對齊;動作快慢決定歌曲速度等。 通過上述音樂要素,從備選曲庫中篩選合適的樂譜組成旋律空間。音樂的動機(jī)是由幾個小節(jié)組成的旋律片段,它是音樂的核心,整首歌曲都圍繞動機(jī)展開。在自動編碼器網(wǎng)絡(luò)中,動機(jī)被表示為一個向量,旋律空間被表示為若干的向量序列。在動機(jī)與旋律空間的約束下進(jìn)行采樣,生成新的向量序列,再通過解碼網(wǎng)絡(luò)生成新的旋律。同樣的動機(jī),在相同的旋律空間下,也可以生成情感、風(fēng)格相似,但表現(xiàn)上又有差異的音樂作品。常見的 AI 旋律生成算法,難以保存作曲手法,生成較長的旋律片段時,整個作品的走勢會難以控制。采用旋律空間加動機(jī)的方式,能夠有效解決該問題。對旋律進(jìn)行自動化的配器和混音,最終生成符合視頻內(nèi)容的音樂作品。 音樂生成涉及很多具體的技術(shù),其中一個問題是懂音樂的人不懂計算機(jī)科學(xué),懂計算機(jī)科學(xué)的人不懂音樂。想要把短視頻配樂這個問題研究好,需要有做音樂和做 AI 的人一起集成創(chuàng)新,這方面快手也做了非常多的工作。 4、2D 圖像驅(qū)動 3D 建模實現(xiàn) Animoji 效果 iPhoneX 問世時的一項標(biāo)志性功能,是通過結(jié)構(gòu)光攝像頭實現(xiàn) Animoji,現(xiàn)在國內(nèi)手機(jī)廠商也越來越多地采用結(jié)構(gòu)光的方式去實現(xiàn) Animoj。而快手是國內(nèi)較早實現(xiàn)不使用結(jié)構(gòu)光,只用 RGB 圖像信息就實現(xiàn) Animoji 效果的企業(yè)。 用戶不必去花上萬元去買 iphoneX,只要用一個千元的安卓手機(jī),就可在快手的產(chǎn)品上體驗 Animoji 的特效,從而能夠在不暴露臉部信息的同時展現(xiàn)細(xì)微的表情變化,例如微笑、單只眼睛睜單只眼睛閉等,讓原來一些羞于表演自己才藝的人,也可以非常自如地表達(dá)。 其實解決這樣一個問題是非常難的,即使是蘋果,也采用了結(jié)構(gòu)光這樣配置額外硬件的方式來解決。想讓每一個用戶都能享受到最尖端的技術(shù),快手面臨著硬件的約束,只能通過 2D 的 RGB 視覺信息對問題進(jìn)行建模、求解。 整個模擬人臉的過程借助了 3D 結(jié)構(gòu)恢復(fù)與 3D 信息融合,用 3D 重建技術(shù)恢復(fù)出 3D 結(jié)構(gòu),融合 2D 信息后,分析人臉特征,進(jìn)而生成虛擬形象。 3D 人臉重建需要借助快手內(nèi)部的上萬級 3D 人臉數(shù)據(jù)集,包含每個人的年齡段、人種、臉型和表情,通過人臉關(guān)鍵點(diǎn)識別技術(shù),幫助 3D 人臉重建,不論表情是哭是笑都可以重現(xiàn)出來。 此外,生成虛擬形象還要分析用戶的人臉屬性,借助分類 / 回歸 / 分割等方法,區(qū)分出性別、年齡、膚色、臉型等信息。 之后,因為生成的 3D 卡通圖像是會隨著人的表情而變化的,需要分析人臉表情,才能在卡通形象上展示出一模一樣的表情。 這里需要通過 2D 的 RGB 視覺信息對問題進(jìn)行建模求解,獲得人臉關(guān)鍵點(diǎn)和實時重建的 3D 模型,把各種模態(tài)信息做建模、做對齊,求解出人臉的表情,驅(qū)動虛擬卡通形象做各種逼真的動作。 此外,快手 Animoji 的體驗非常流暢,也需要?dú)w功于深度神經(jīng)網(wǎng)絡(luò)模型的量化。為了讓模型在手機(jī)端流暢運(yùn)行,需要進(jìn)行圖像預(yù)處理,合并多種預(yù)處理操作,對預(yù)處理的圖像內(nèi)存進(jìn)行統(tǒng)一分配和回收,利用 NEON 加速和蘋果自帶的 accelerate 加速,讓運(yùn)行庫只占 2M 的空間。 最后,在保證預(yù)測精度的前提下,快手技術(shù)團(tuán)隊對 AI 模型進(jìn)行局部的 INT8 量化,使得運(yùn)行速度可提高 1 倍以上,同時 AI 預(yù)測模型的占用空間也壓縮到將近原來的四分之一。 多模態(tài)技術(shù)如何實現(xiàn)精準(zhǔn)理解視頻內(nèi)容?除了幫助用戶更好地記錄,快手也希望通過一個更好的分享機(jī)制,讓用戶發(fā)布的視頻能夠被更多感興趣的人看到,這也涉及視頻推薦里面多模態(tài)的一些問題,其中有兩點(diǎn)值得分享: 第一,我們強(qiáng)調(diào)音頻和視覺的多模態(tài)綜合的建模,而不是僅僅是單獨(dú)的視覺或者音頻,視覺和聽覺兩種媒體的融合,會是未來一個重要趨勢。 第二,工業(yè)界和學(xué)術(shù)界所做的研究有很大區(qū)別,快手有非常多的用戶數(shù)據(jù),這些用戶數(shù)據(jù)是不在傳統(tǒng)多媒體內(nèi)容研究范疇里面的,但是工業(yè)界可以很好地利用這些數(shù)據(jù),更好地做內(nèi)容理解。 舉個例子,一個男子表演口技的視頻中,如果關(guān)閉聲音,僅憑畫面信息,我們并不知道他是在做什么,可能會覺得是在唱歌或唱戲。這說明如果僅僅是通過視覺的話,人們可能無法獲得真實的信息。我們對世界的理解一定是多模態(tài)的理解,而不僅僅是視覺的理解。 快手?jǐn)?shù)據(jù)庫中有 80 億短視頻,想要理解這么多的視頻內(nèi)容,必須借助多模態(tài)技術(shù)。我們從文本、視覺、聽覺角度去做了很多單模態(tài)的建模,包括多模態(tài)的綜合建模、有序與無序,以及多模態(tài)特征之間怎樣進(jìn)行異構(gòu)的建聯(lián),在很多任務(wù)內(nèi)部的分類上也做了改進(jìn)。 另一方面需要強(qiáng)調(diào)的是,ImageNET 等很多學(xué)術(shù)界研究內(nèi)容理解的任務(wù)有完善的標(biāo)注數(shù)據(jù)集,但是這個數(shù)據(jù)集對于工業(yè)界而言還是太小,且多樣性不夠??焓置刻煊?1.6 億用戶、超過 150 億次的視頻播放,這個數(shù)據(jù)是非常大的。如果有 150 億的標(biāo)注數(shù)據(jù),做算法就會有很大的幫助,但是現(xiàn)實上是不具備的。 怎樣將研究分析技術(shù)與海量數(shù)據(jù)更好地做到融合?快手通過融合行為數(shù)據(jù)和內(nèi)容數(shù)據(jù),進(jìn)行綜合建模。同樣大小的人工標(biāo)注量,利用海量的用戶行為數(shù)據(jù),能夠獲得比純內(nèi)容模型更好的性能,對視頻有了一個更好的理解,進(jìn)而在多媒體內(nèi)容的理解和分析方面的算法研究有了非常大的進(jìn)展。 多模態(tài)技術(shù)研究的三個難點(diǎn):語義鴻溝、異構(gòu)鴻溝、數(shù)據(jù)缺失 其實在目前來看,多模態(tài)研究難度還是非常高的。 其中大家談得比較多的是語義鴻溝,雖然近十年來深度學(xué)習(xí)和大算力、大數(shù)據(jù)快速發(fā)展,計算機(jī)視覺包括語音識別等技術(shù)都取得了非常大的進(jìn)展,但是截至現(xiàn)在,很多問題還沒有得到特別好的解決,所以單模態(tài)的語義鴻溝仍然是存在的。 另外,做語音、做圖像是有很多數(shù)據(jù)集的,大家可以利用這些數(shù)據(jù)集進(jìn)行刷分、交流自己算法的研究成果。但是多模態(tài)的數(shù)據(jù)集是非常難以構(gòu)建的,所以我們在做多模態(tài)研究時是存在數(shù)據(jù)缺失的問題的。 多模態(tài)技術(shù)的未來應(yīng)用方向展望首先,多模態(tài)技術(shù)會改變?nèi)藱C(jī)交互的方式,我們與機(jī)器交互的方式將會越來越貼近于更令人舒適、更自然的方式。比如我們剛才講的 Animoji 技術(shù),其實它帶來的是一種可以通過人臉控制手機(jī)自動生成 Avatar(虛擬動畫)的體驗。原來實現(xiàn)這些效果,需要在好萊塢專門設(shè)一個特效室來實現(xiàn)這一點(diǎn),而現(xiàn)在普通用戶都能享受這樣的技術(shù),所以人機(jī)交互會由原來重的、貴的、笨的方式轉(zhuǎn)變?yōu)楸阋说摹⒚總€人都能參與的而且便捷的方式。 第二,多模態(tài)技術(shù)會帶來新的內(nèi)容形態(tài),原來接入信息更多是從文本、頁面中獲得,現(xiàn)在有視頻,未來可能還會有 AR 或者其它的形式。多模態(tài) AR 很重要的一點(diǎn)就是強(qiáng)調(diào)沉浸感,這種沉浸感其實是通過聽覺和視覺綜合作用才能產(chǎn)生的。 第三,多模態(tài)亟需新的算法和大型的數(shù)據(jù),因為這兩者可能會是一個某種意義上可以相互折算的問題。以目前的機(jī)器學(xué)習(xí)算法來講,需要海量的數(shù)據(jù)才能解決好這個問題,因為現(xiàn)在深度學(xué)習(xí)、內(nèi)容理解的成果,某種意義上是監(jiān)督學(xué)習(xí)的成果,有足夠的樣本、算力,所以現(xiàn)在的算法能力基本上還停留在對算力和數(shù)據(jù)有著非常大要求的階段。而多模態(tài)的大型數(shù)據(jù)是非常難建的,而且多模態(tài)解的空間是更大的。因為一個模態(tài)解的空間是 n,另外一個是 m,它最后是一個乘積、一個指數(shù)級的變化,所以數(shù)據(jù)集要多大才足夠是一個很難的這個問題,可能需要新的算法來對這個問題進(jìn)行建模。 |
|