程醉
2018年11月7日,在第五屆世界互聯(lián)網(wǎng)大會上,搜狗與新華社聯(lián)合展示了全球首個全仿真智能AI主持人?!八币灾袊侣勚鞑デ窈茷樵停唤?jīng)亮相便引起了巨大的轟動。這名AI主持人之所以成了最耀眼的明星,主要是因為“他”除了口型稍微有點兒對不上之外,不論是表情還是聲音都達到了以假亂真的地步。
那么,到底什么是全仿真智能AI主持人呢?
要搞清楚這個問題,我們就要先來具體了解一下什么是“AI”。所謂“AI”其實就是人工智能的英文縮寫。AI是計算機科學(xué)的一個分支,是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。它主要包括機器人、語言識別、圖像識別、自然語言處理以及專家系統(tǒng)等。專家系統(tǒng)是一種模擬人類專家解決問題的計算機程序系統(tǒng)。
簡單地說,全仿真智能AI主持人就是利用人工智能技術(shù),通過模仿真人主播的形象和聲音來朗讀文本內(nèi)容的數(shù)字化播報員。新聞界稱其為“AI合成主播”。
當(dāng)然,如果僅僅只是一個簡單的數(shù)字化播報員不會引起各界如此強烈的關(guān)注?!癆I合成主播”能夠結(jié)合新華社客戶端“現(xiàn)場新聞”,將“AI合成主播”與短視頻一體化生產(chǎn)制作,呈現(xiàn)令人耳目一新的新聞短視頻。“他”不僅在全球AI合成領(lǐng)域?qū)崿F(xiàn)了技術(shù)創(chuàng)新和突破,更是在新聞領(lǐng)域開創(chuàng)了實時音頻、視頻與AI真人形象合成的先河。
從官方透露的信息來看,新華社的這個“AI合成主播”主要是在搜狗“分身”技術(shù)的支持下,通過人臉關(guān)鍵點檢測、人臉特征提取、人臉重構(gòu)、唇語識別、情感遷移等多項前沿技術(shù),結(jié)合語音、圖像等多模態(tài)信息進行聯(lián)合建模訓(xùn)練,而后生成與真人無異的AI分身模型。
那么,搜狗的“分身”技術(shù)具體指的是什么呢?
搜狗“分身”技術(shù)誕生于搜狗“自然交互+知識計算”這一人工智能理念之下。這項技術(shù)讓機器首次做到逼真模擬人類說話的聲音、嘴唇動作和表情,并且將三者自然匹配,做到惟妙惟肖,這是人工智能技術(shù)在模仿人類領(lǐng)域的一個新突破。
這些人工智能技術(shù)主要包括語音合成技術(shù)、唇形合成技術(shù)、表情合成技術(shù)以及自然語言處理技術(shù)等。其中語音合成技術(shù)又涉及支持數(shù)十種音色的高表現(xiàn)力音色,使用少量數(shù)據(jù)即可生成說話人的合成音色個性化合成技術(shù),可實現(xiàn)說話人多種風(fēng)格遷移的技術(shù)等。
簡而言之,生成“AI合成主播”大致分為三步走。首先是被模仿者在鏡頭前錄制一段音頻、視頻數(shù)據(jù)。然后,“分身”技術(shù)提取被模仿者的聲音、表情、唇形等個性特征。最后,利用語音合成、表情合成、唇形合成技術(shù),再加上深度學(xué)習(xí)技術(shù)即可合成一個惟妙惟肖的AI主播。
目前,AI合成主播已經(jīng)在新華社正式上崗,并且被運用到進出口博覽會、世界互聯(lián)網(wǎng)大會等重要新聞事件的報道當(dāng)中?!八被旧夏軌蛲渌嫒酥鞑ヒ黄?,為觀眾帶來權(quán)威、及時、準確的中、英文新聞資訊。
AI合成主播相比真人主播最大的優(yōu)點就是能夠24小時不停歇地工作。不但能夠提升滾動媒體的新聞制作效率,還可以有效地降低新聞的制作成本。
那么,在了解了AI合成主播的情況之后,大家難免要為現(xiàn)在的真人主播們擔(dān)憂了。這不是活生生搶飯碗的來了嗎?
其實,就目前來看,大家的擔(dān)心還為時過早。因為,作為一名還處于研發(fā)過程中的AI新聞主播,“他”本身還有許多需要改進和完善的地方。
不過,未來基于人工智能技術(shù)的風(fēng)格各異的人類形象,在醫(yī)療、教育、媒體、法律咨詢等方面的應(yīng)用前景無疑是十分廣闊的。
(編輯 文 墨)