一個女孩登上了央視《對話》欄目,僅是淺唱了一首歌,便讓全場驚嘆連連。 講真,這種reaction還真沒有一點夸張。 話不多說,先來感受下這個feel: 或許你會問了,人美歌甜是沒錯,但也不至于到震驚的程度吧? 但如果說,視頻里的這個女孩,她并不是人呢? 
沒錯,她便是央美研究生畢業(yè)、畫作還參加了迪拜世博會的小冰框架虛擬人類——夏語冰。 而用小冰公司首席運營官李笛的話來說: 這是全球范圍內最高技術的人工智能歌聲合成。

△ 小冰CEO,李笛
于是,這樣一段視頻在網(wǎng)絡上發(fā)布之后,便迅速引發(fā)了網(wǎng)友們的熱議。 人類?虛擬人?傻傻分不清: 
甚至媒體競相為這段視頻貼上了這樣的標簽—— 這就是虛擬人天花板、 虛擬人夏語冰的才藝有多絕。 話題同樣引起網(wǎng)友的熱議,迅速占據(jù)各大社交平臺的熱榜,霸榜近24小時:


而說到天花板,就在剛剛,小冰的另一位虛擬人,又搞了個大新聞。
她叫陳水若,也是誕生于小冰框架的一位虛擬人歌手。 雖說都是唱歌,陳水若和夏語冰還有所不同,她主打的是民族唱法。 這不,在除夕之際,陳水若便奉上了一首《華夏》,而且還是和李玉剛合作夢幻聯(lián)動的那種! 而最近小冰虛擬人如此頻繁地亮相、表演,也在透露著一種虛擬人發(fā)展的新趨勢—— 朝著三次元邁進,還得是顏值和才華兩手抓! 如此逼真,小冰是怎么做到的?其實,早在2017年,小冰團隊就提交了專利《Creating a Conversational Chatbot of a Specific Person》,引起了學界、媒體廣泛關注。
而直到2021年12月,《Nature》刊登了來自MIT 研究團隊的論文——機器學習的技術進展,讓文本、圖像、音頻和視頻數(shù)據(jù)的超現(xiàn)實合成成為可能。 而在這條道路上,小冰團隊已然走了四年之久,可以說是在AI創(chuàng)新上做到了領先。 我們還是以夏語冰和陳水若驚艷大眾的視頻來說,它的誕生主要可以分成以下幾個流程。 首先利用小冰神經(jīng)網(wǎng)絡渲染技術 (XNR),XNR能夠做到生成一張此前完全不存在的臉,也就是AI創(chuàng)造面容。 接著,還是通過神經(jīng)網(wǎng)絡渲染技術,將虛擬人面部特征置換到視頻模板中,并進行表情控制等一系列控制行為。這比我們過去看到的 AI 換臉更復雜也更難,畢竟 AI 換臉無法更換虛擬出來的人臉,且自然度也不會像這么高。 然后,小冰會通過數(shù)字孿生技術,根據(jù)實際視頻內容,調整視頻模板,例如動作的變化、表情和表達內容的變化等。 然后就是夏語冰和陳水若的歌聲。 這里用到的是小冰超級自然語音技術,借助這個技術生成虛擬人的高質量演唱聲線(AI 創(chuàng)造聲音),并根據(jù)需要生成對應的歌聲,不需要任何配音演員。 在上面這些技術的加持下,夏語冰的面容、表情、聲音就能全部統(tǒng)一在一起,形成無法與真人區(qū)分的內容。 夏語冰和陳水若背后的這套技術,與其他很多虛擬人視頻采用的 3D 建模,然后用真人或換頭,或動捕、或用動作庫匹配等技術方案相比,最大的優(yōu)勢在于既能控制成本,同時虛擬人的自然度又極高。 而其他的技術要么成本昂貴,要么很不自然,難以兼顧。 無論從成本還是效果看,夏語冰、陳水若背后小冰框架下的虛擬人技術都可以說是未來趨勢,而小冰走在了前面。 更重要的是,這種技術主導下的小冰框架虛擬人類,擁有無可比擬的多樣性 —— 就像人的多樣性一樣,容貌多樣,內在靈魂多樣,容貌與內在相互統(tǒng)一。 這其中,內在靈魂的多樣性,技術更難,也更重要。正如那句網(wǎng)絡用語所說: 好看的皮囊千篇一律,有趣的靈魂萬里挑一。
事實上,小冰最開始思考到虛擬人類 AI being 時,就認識到了”靈魂“的重要性,并且也是從”靈魂“開始做的。 他們在這方面的基礎研究積累了八年,加上微軟在AI這個方向上30年的投入,形成了獨特的先發(fā)優(yōu)勢。 比如夏語冰,她的確有一張顏值很高的臉。但她之所以能被選入迪拜世博會,代表中國館的作品向全世界展出,也不是靠她的漂亮,而是靠她的人工智能繪畫模型,在成千上萬次創(chuàng)作中,能夠保持一個藝術家一貫的創(chuàng)作水準。 這是她真正的實力,而不是外貌。 所以,多樣性,尤其是內在靈魂的多樣性,是虛擬人發(fā)展的必然趨勢。 當然,小冰團隊對具體的技術路徑的遠景布局也很重要。 比如用神經(jīng)網(wǎng)絡渲染技術生成虛擬人豐富多樣的容貌和真實的表情動作語言,要是用傳統(tǒng) CG 技術,幾乎不可能滿足頻繁的交互需求。 還有開放域自然語言處理,超級自然語音,全雙工語音等技術,小冰也是從很早就開始了布局。如今這些技術被普遍關注,恰恰證明了他們預判的準確性。 當然,這背后也是虛擬人多樣性趨勢發(fā)展的必然結果。 就像人類世界的生活之所以精彩,更重要的是因為每個人的性格、內在是不同的,外貌的不同只是其次。 也幸而小冰在這方面擁有足夠的先發(fā)優(yōu)勢,能夠以可控的成本,孵化出海量個性迥異,同時又非常鮮活的虛擬人。 而這,也是虛擬人真正能夠為我們生活帶來更多創(chuàng)造力的關鍵。 但除了效果上的逼真,其實小冰對于虛擬人的發(fā)展,發(fā)出了一種新信號: 虛擬人,已經(jīng)步入三次元時代現(xiàn)在的虛擬人,若是不說明情況,其逼真程度真的能夠達到“瞞天過?!钡男Ч?。 很多人會將這種與人類極其相近的效果,稱之為“打破次元壁”。 但講真,視覺、聽覺效果上的逼真,僅僅是虛擬人步入三次元時代的表象。 其背后更大的意義,應當是像人一樣的,在三次元世界里創(chuàng)造價值。 例如此前便有虛擬主播N小黑、N小白,在人們毫無察覺的情況之下,連續(xù)70天播報新聞,還是24小時連軸轉的那種。 
這便在很大程度上做到了釋放人力、物力的同時,大幅提高了生產效率。
而不僅僅是新聞主播這一件事,若是上升到更高的角度來觀察,我們也不難發(fā)現(xiàn)AI虛擬人“三次元化”,已然成為一種大趨勢。 例如前一陣子在短視頻平臺一夜爆火的虛擬人柳夜熙,僅發(fā)布一條視頻便受到了全民圍觀。 
△圖源:柳夜熙官方短視頻號
再如虛擬人AYAYI,僅憑一張“證件照”,在網(wǎng)絡上瞬間爆紅(當天便有224萬瀏覽量)。 
△圖源:圖源:AYAYI官方平臺
這是AI虛擬人,正在逐步迎合大眾審美、口味的一種印證。 再從商業(yè)層面上來看,僅是2021年,虛擬人賽道上便有超過10筆的融資,嗅覺敏銳的VC們可謂是紛紛拋出了橄欖枝,著手布局。 更有行業(yè)預測顯示,到2030年,我國虛擬人整體市場規(guī)模還將達到2700億元。 而之所以能夠達到如此規(guī)模,除了上述提及的幾點之外,若是再深挖一層,那便是可能超越人類的創(chuàng)造力和多樣性。 例如像夏語冰所具備的繪畫、創(chuàng)作能力,便是能夠打破人類創(chuàng)造力的上限。 …… 那么最后一個問題便是——在“虛擬人步入三次元時代”的當下,我們又該和他們如何共生? 對此,小冰CEO李笛認為: 人工智能會成為一些新的節(jié)點,這些節(jié)點有的是創(chuàng)造者,有的是伴侶,有的甚至可能是我們每個人的替身。 他們能夠替代我們,使我們每個人能夠更好地去優(yōu)化所在的社交網(wǎng)絡和工作網(wǎng)絡、生活網(wǎng)絡。
最后的最后,你是否也想與三次元虛擬人互動,讓她給你創(chuàng)作獨一無二的作品呢? 這個可以有! 而且還是世博會級別的水墨山水畫。
|