楊鑫悅
(北京師范大學(xué)文學(xué)院 北京 100875)
近年來,隨著人工智能技術(shù)的進一步開發(fā),語音識別、語音合成、大數(shù)據(jù)評測等方面都取得了顯著進展,機器人AI 合成主播也應(yīng)運而生。2018年11月7日,在第五屆世界互聯(lián)網(wǎng)大會上,新華社客戶端與搜狗共同發(fā)布了全球首個合成新聞主播—AI合成主播“新小浩”。AI合成主播提取了新聞廣播中真人主播的語音、唇形、面部表情和動作特征,集合語音合成、算法模型、深度學(xué)習(xí)等技術(shù)而成。
2018年,全球首個仿真智能AI 主持人誕生;2019年,全球首個阿拉伯語和俄語合成主播誕生;2020年,全球首個3D版AI合成主播誕生。人工智能的迅速發(fā)展吸引了諸多學(xué)者的注意,對AI 合成主播的研究不再拘泥于計算機技術(shù),新聞傳播、播音主持等領(lǐng)域都出現(xiàn)了相應(yīng)的研究成果。
馮梅(2021)在《人工智能背景下AI 合成主播的發(fā)展之路》一文中分析了AI 合成主播的優(yōu)勢和短板,對其未來發(fā)展持積極態(tài)度。郁江蘭(2020)分析了新華社AI合成主播2020年疫情新聞報道中內(nèi)容、技術(shù)和形式的特點,探討了媒體整合背景下人工智能合成主播的發(fā)展前景。宋國澳、麥夢佳(2020)將新小萌、新小浩、Lisa等新華社AI 合成主播作為家族,整體研究并歸納了智媒時代新聞播報的新特征及發(fā)展困境。
筆者在中國知網(wǎng)上搜索“AI主播”時,共出現(xiàn)141篇文章,但附加關(guān)鍵詞“語音”之后,僅出現(xiàn)4篇文章,而這4 篇文章均與行業(yè)的發(fā)展前景、人工智能的利弊相關(guān),而與語音本體關(guān)系不大。唯一一篇與語音相關(guān)的文章《AI播音與人工播音的語音差異性考察》,從速度、發(fā)音、停頓和重音等角度分析了AI 播音與人工廣播的差異,但文章數(shù)據(jù)多與語料統(tǒng)計相關(guān),涉及到語音本體的考察較少,且關(guān)于AI 語音準(zhǔn)確與否的界定并不明晰。因此,本文從語音相關(guān)要素入手,收集樣本語料,用Praat 軟件進行聲學(xué)分析,比較新華社手機客戶端AI 主播與新聞聯(lián)播主持人在語速、發(fā)音、停頓等方面的區(qū)別,討論AI 播音的語音特點。
語速是指單位時間內(nèi)人們在傳遞信息和溝通交流時呈現(xiàn)的詞匯數(shù)量,通常講話速度是相對的。正常情況下,使用現(xiàn)代漢語表達意思和傳播信息時,人們的語速約為240個音節(jié)/分鐘,經(jīng)過數(shù)據(jù)統(tǒng)計,廣播電視新聞播音的語速為300個音節(jié)/分鐘。
播音語速是指播音員播報稿件的速度,在數(shù)學(xué)上的計算方式為,播音語速=播報稿件總字?jǐn)?shù)÷播報時間,播音語速的單位一般為音節(jié)/分鐘。聽眾對播音語速快慢的感受受到很多方面影響,比如播音員個人的播音風(fēng)格和特點、播音技巧、說話節(jié)奏和語氣等。
本文隨機選取新華社app內(nèi)從2021年7月20日到8月18日30天內(nèi)每日一篇AI主播播報的時政新聞作為樣本語料,統(tǒng)計稿件字?jǐn)?shù)(含非中文單詞,不計空格)與播報時間,計算AI 播音語速。同時,在相同時間段內(nèi),每日選取一篇央視頻app內(nèi)《新聞聯(lián)播》節(jié)目的國內(nèi)聯(lián)播快訊為對照語料,按照相同方式計算播音員的播音語速。鑒于新華社app中AI主播播報的新聞和《新聞聯(lián)播》聯(lián)播快訊的時間基本都為20-30秒,所以在統(tǒng)計播音語速時,單位統(tǒng)一為字符/秒。
通過對比30 天內(nèi)的兩組數(shù)據(jù),發(fā)現(xiàn)AI 播音的平均語速4.98 字符/秒,播音員播音的平均語速為5.02 字符/秒,AI 播音的平均語速比播音員慢,但兩者差距不大,每秒相差0.04個字符,即每分鐘相差2.4個字符。
通過計算,AI播音語速的標(biāo)準(zhǔn)差為0.37,播音員播音語速的標(biāo)準(zhǔn)差為0.40,可見AI 播音語速的標(biāo)準(zhǔn)差較小,數(shù)值較為平均,波動較少,而播音員的播音語速存在一定波動。因此,聽眾在收聽AI 合成主播播報的新聞時,由于不同新聞的播報語速和播音風(fēng)格相差較小,收聽新聞的新鮮感可能維持在較低水平。而播音員對不同新聞的播報風(fēng)格有所不同,或莊重大方、或簡潔明快,播報節(jié)奏影響播音語速,使聽眾的聽覺和心理在接受信息時產(chǎn)生波動。
此外,在聲音傳播中,漢語語句內(nèi)部的詞與詞之間也會產(chǎn)生聚合現(xiàn)象,呈現(xiàn)“詞團”的狀態(tài),詞與詞的聚合速度也會對播音語速產(chǎn)生一定影響。經(jīng)過對比考察,發(fā)現(xiàn)在人工播音中,“自由貿(mào)易試驗區(qū)臨港新片區(qū)”“氫能產(chǎn)業(yè)發(fā)展實施方案”“同江中俄跨江鐵路大橋”等詞語聚合詞團的播音語速較快,而新聞中表示并列、遞進等關(guān)系的“完善法制”“推動發(fā)行交易管理分類趨同”“提升信息披露”等詞團的播報語速較慢。而對于AI 播音而言,不同詞團的播音語速差別不大。
本文選取8月20日新華社app 中AI 合成主播“新小浩”播報的《〈中阿經(jīng)貿(mào)關(guān)系發(fā)展進程2020年度報告〉在寧夏發(fā)布》和8月19日《新聞聯(lián)播》中嚴(yán)於信播報的《習(xí)近平向第五屆中國—阿拉伯國家博覽會致賀信》兩篇新聞中“第五屆中國—阿拉伯國家博覽會”這幾個字的讀音作為研究對象。AI 主播“新小浩”原型為新華社主播邱浩,與新聞聯(lián)播主持人嚴(yán)於信均為35歲左右男性。
提取以上兩篇新聞的語音信息后,本文利用計算機語音圖像分析軟件Praat,對音頻和數(shù)據(jù)進行處理,同時生成單元音[a][i][u]、輔音[k][t?]的語譜圖,并計算元音的共振峰數(shù)據(jù)、輔音的VOT 時間,繪制四聲聲調(diào)調(diào)型圖,對比分析AI主播和播音員在讀音方面的異同。
1.元音
1)對元音[a]的分析
圖1:AI主播[a]語譜圖
圖2:播音員[a]語譜圖
通過對AI 主播和播音員的“阿”樣本分析,得到兩幅語譜圖。計算共振峰得知,新華社AI 主播[a]的F1=971.14,F(xiàn)2=1056.58;新聞聯(lián)播播音員[a]的F1=838.47,F(xiàn)2=1509.76。
總體來說,[a]是前低不圓唇元音,第一共振峰頻率比較高,第一共振峰頻率和第二共振峰頻率差別不大。相比播音員[a]音,AI主播[a]音的F1較高,F(xiàn)2較低,即開口度相對較大,舌位相對靠后。
2)對元音[i]的分析
通過對AI 主播和播音員的“第”樣本韻母的分析,得到兩幅語譜圖。計算共振峰得知,新華社AI主播[i]音的F1=1015.59,F(xiàn)2=2452.78;新聞聯(lián)播播音員[i]音的F1=999.03,F(xiàn)2=2398.99。
總體來說,[i]是前高不圓唇元音,第一共振峰頻率比較低,第一共振峰頻率和第二共振峰頻率差別較大。相比播音員[i]音,AI 主播[i]音的F1 和F2 都偏高,即開口度相對較大,舌位相對靠前。
3)對元音[u]的分析
通過對AI 主播和播音員的“五”樣本韻母的分析,得到兩幅語譜圖。計算共振峰得知,新華社AI 主播[u]音的F1=742.85,F(xiàn)2=2180.42;新聞聯(lián)播播音員[u]音的F1=623.77,F(xiàn)2=2037.03。
總體來說,[u]是后高圓唇元音,第一共振峰頻率比較低,第一共振峰頻率和第二共振峰頻率差別較大。相比播音員[u]音,AI主播[u]音的F1和F2都偏高,即開口度相對較大,舌位相對靠前。
2.輔音
1)對輔音[k]的分析
圖7:AI主播[k]語譜圖
圖8:播音員[k]語譜圖
VOT表示嗓音的起始時間,即從輔音除阻到聲帶振動之間經(jīng)過的時間。新聞報道“第五屆中國—阿拉伯國家博覽會”中“國”的輔音[k]是不送氣清塞音,本文通過對AI 主播和播音員的“國”樣本分析,發(fā)現(xiàn)兩篇新聞中輔音[k]的VOT均約0-5毫秒。
2)對輔音[t]的分析
圖9:AI主播[t]語譜圖
圖10:播音員[t]語譜圖
本文又對AI 合成主播播報的《〈中阿經(jīng)貿(mào)關(guān)系發(fā)展進程2020年度報告〉在寧夏發(fā)布》中“投資”的“投”,以及《新聞聯(lián)播》中《習(xí)近平向第五屆中國—阿拉伯國家博覽會致賀信》中“推動”的“推”進行樣本語譜圖分析,“投”和“推”的輔音均為送氣清塞音[t]。本文通過對AI 主播和播音員的“投”和“推”樣本分析,發(fā)現(xiàn)兩篇新聞中輔音[t?]的VOT 均約超過50 毫秒,AI 播音[t?]的VOT為68毫秒,播音員播音[t?]的VOT為55毫秒。
3.聲調(diào)
本文選取AI 合成主播播報的《〈中阿經(jīng)貿(mào)關(guān)系發(fā)展進程2020年度報告〉在寧夏發(fā)布》和《新聞聯(lián)播》中《習(xí)近平向第五屆中國—阿拉伯國家博覽會致賀信》兩篇新聞中“第五屆中國—阿拉伯國家博覽會”中“阿”“伯”“覽”“會”四個字作為聲調(diào)的研究對象,利用15點聲調(diào)腳本,繪制了AI主播和播音員的四聲調(diào)型圖。
在趙元任提出的五度標(biāo)度法中,現(xiàn)代漢語普通話四個聲調(diào)的五度值分別為:陰平55、陽平35、上聲214、去聲51,同時,一個聲調(diào)可以有各種調(diào)位變體。通過觀察AI主播和播音員的四聲調(diào)型圖,可以發(fā)現(xiàn)兩者對陰平例字“阿”的讀音都屬于平調(diào),讀起來高而平;陽平例字“伯”的讀音,讀起來由中逐漸升高,AI主播讀音比播音員讀音的音調(diào)更高;上聲例字“覽”的讀音,讀起來由半高降低到低再升至次高,AI 主播和播音員讀音音調(diào)相似,但AI 主播音節(jié)中間的調(diào)值沒有降至適當(dāng)位置,存在調(diào)值不準(zhǔn)確的問題;去聲例字“會”的讀音,讀起來由高降到低,AI 主播讀音的音調(diào)過低,且音節(jié)中音高走勢變化不明顯。
總體來說,相對于播音員讀音,AI 主播讀音陰平和去聲的音調(diào)較低,上聲和去聲存在調(diào)值不準(zhǔn)確的問題,音節(jié)中音高曲折起落的變化不顯著,上聲音節(jié)中間調(diào)值音調(diào)偏高,去聲從高音到低音的音高走勢過于平緩。
通過觀察AI 主播和播音員分別播報的30 篇新聞樣本,可以發(fā)現(xiàn)兩者的播音停頓主要以標(biāo)點符號作為依據(jù)。標(biāo)點符號不僅是書面語的組成部分,也是輔助書面語記錄的符號,它用來表達停頓、語氣以及詞語的性質(zhì)和功能,其在口頭語言中的表現(xiàn)就是時間間隔。
新聞開頭部分的導(dǎo)語,比如介紹新聞時間、地點、背景、人物等的“硬式導(dǎo)語”一般不含有標(biāo)點符號。播音員在播報新聞時,會在口語中自然加入句中停頓,方便聽眾區(qū)分理解,而AI 主播無法自主識別句中的詞語關(guān)系,一般不會做出停頓。比如,《〈中阿經(jīng)貿(mào)關(guān)系發(fā)展進程2020年度報告〉在寧夏發(fā)布》這篇新聞的導(dǎo)語“在19日于寧夏舉行的第五屆中國—阿拉伯國家博覽會工商峰會上,中英文版《中阿經(jīng)貿(mào)關(guān)系發(fā)展進程2020年度報告》正式發(fā)布。”AI 主播只在破折號、逗號、句號三個地方有所停頓,而對時間、地點、事件等名詞的連用不做停頓處理,這不符合聽眾接受信息的規(guī)律和習(xí)慣,易使聽眾覺得單一、混淆。
反觀播音員播報的《習(xí)近平向第五屆中國—阿拉伯國家博覽會致賀信》這篇新聞的導(dǎo)語“8月19日,國家主席習(xí)近平向第五屆中國—阿拉伯國家博覽會致賀信?!本渲腥宋铩皣抑飨?xí)近平”和事件“向第五屆中國—阿拉伯國家博覽會致賀信”之間雖然沒有標(biāo)點符號,但播音員會根據(jù)聽眾聽音習(xí)慣,自覺加入句中停頓。
總體來說,AI 主播播報新聞的停頓絕大多數(shù)依賴標(biāo)點符號,且每次停頓的時間間隔基本相同;而播音員播報新聞時的句中停頓較為靈活,主要包括根據(jù)自身氣息需要的生理停頓、反映語法關(guān)系的語法停頓、加強節(jié)奏感的音節(jié)停頓,以及突出語義的強調(diào)停頓。此外,播音員還會根據(jù)停頓的重要與否,調(diào)整每次停頓時間,使聽眾的聽覺感受更加豐富。
AI 主播自從在新華社移動客戶端上線以來,已經(jīng)播報了一萬多條新聞。在媒體融合時代,它實現(xiàn)了新聞播報主體、播報內(nèi)容、播報過程的智能化。新華社AI 合成主播的研究團隊采用人臉識別、語音識別等技術(shù),提取社內(nèi)真人主播的發(fā)音特點及說話的動作習(xí)慣,使AI 主播在語音和外形上更接近真實主播。
實際操作中,將新聞文字內(nèi)容輸入機器后,AI 主播就可以進行實時播報,不受時間、空間的限制,能夠全天候參與新聞播音,因此,相比真人主播,AI 播音具有更強的時效性。此外,通過機器合成的語音雖然在發(fā)音上存在小問題,但總體來說,AI 算法也有助于提升新聞播報的準(zhǔn)確度和可信度。
2016年開始,短視頻流行于網(wǎng)絡(luò)平臺,逐漸成為信息傳播的重要載體。筆者統(tǒng)計新華社手機客戶端“AI 主播”欄目的新聞后,發(fā)現(xiàn)欄目主要播報幾十秒的短新聞,大多數(shù)新聞的播報時間為20-30秒,AI播報在有限時間內(nèi)整合零散信息,將核心內(nèi)容迅速傳達給聽眾,增強了用戶體驗。
但AI 新聞播報也面臨一些發(fā)展困境。AI 主播的播報形式局限于播報式,基本不會涉及新聞的另兩種播報方式—宣讀式和談話式。由于目前人工智能技術(shù)在人機交互方面還有待繼續(xù)研究,所以AI 合成主播還無法參與涉及到交流對話、談話技巧的新聞采訪、直播、訪談等工作。
視覺呈現(xiàn)方面,AI 主播雖然在外形上接近真人主播,但播報過程中面部肌肉、嘴型、表情的變化,還不能與文字內(nèi)容標(biāo)準(zhǔn)契合。聽覺感受方面,AI 主播的語速較真人主播偏慢,發(fā)音上存在單元音開口度偏大,聲調(diào)曲折變化程度不夠明顯等問題,句中停頓調(diào)整也不靈活。因此,聽眾在觀察主播和收聽新聞時,可能會有一定的違和感和不適應(yīng)。
此外,AI 主播在播音時缺少情感,語音播報中缺乏重音的強調(diào)和句子之間的語氣變化,播報不同新聞的語速、停頓基本相同,很難引起聽眾收聽新聞的情感共鳴。
本文從語速、發(fā)音、停頓三方面,分別考察了AI 播音和人工播音的語音特點,通過比較音頻、分析語譜圖和調(diào)型圖數(shù)據(jù),發(fā)現(xiàn)目前AI 合成播音已經(jīng)取得了顯著發(fā)展,在新聞播音界占據(jù)一席之地。但AI 播音與人工播音仍存在一些差異,語速方面,AI 播音語速較慢,波動較?。蝗斯げヒ粽Z速較快,波動稍大。發(fā)音發(fā)面,AI 播音的單元音[i][u]的開口度相對較大,舌位相對靠前;人工播音的單元音[i][u]的開口度相對較小,舌位相對靠后。AI播音和人工播音中不送氣清塞音[k]的VOT均約0-5毫秒,送氣清塞音[t?]的VOT均超過50毫秒。停頓方面,AI播音基本依靠標(biāo)點符號判斷停頓;人工播音的停頓除了依靠標(biāo)點符號,還有生理停頓、音節(jié)停頓、強調(diào)停頓等。
AI 播音實現(xiàn)了新聞播報的智能化,提高了新聞的時效性和可信度,播報內(nèi)容簡練,聚合能力強。但其在播報形式、視覺呈現(xiàn)、聽覺感受、情感互動上的功能比較有限,這也是未來智能語音技術(shù)在AI研究中的重點。
AI 合成主播的出現(xiàn)印證了科學(xué)技術(shù)的發(fā)展,也預(yù)示著新聞傳播在方式上的轉(zhuǎn)變趨勢,但它不會取代傳統(tǒng)主播而獨立存在,隨著人工智能在媒介融合領(lǐng)域的嘗試,人機將加強協(xié)同創(chuàng)新,走向合作共贏的局面。對此,我們應(yīng)該秉持積極態(tài)度,期待計算機和語言學(xué)領(lǐng)域的學(xué)者不斷探索、研發(fā)、應(yīng)用,提升智能語音技術(shù),促進新聞主持行業(yè)的繁榮振興?!?/p>