引言
近年來,隨著人工智能技術(shù)在媒體領(lǐng)域的應(yīng)用日益廣泛,AI配音的身影出現(xiàn)在了新聞節(jié)目、紀(jì)錄片創(chuàng)作和新媒體視頻生產(chǎn)中。相較于此前的語音喚醒、語音識(shí)別等智能語音技術(shù)的應(yīng)用,AI配音更側(cè)重語音合成的效果及“擬人化”程度,本文將結(jié)合當(dāng)下AI配音的應(yīng)用現(xiàn)狀,從聲畫關(guān)系的視角,探討該技術(shù)的階段性成效與顯著問題。
從手機(jī)端的Siri語音助手到汽車導(dǎo)航軟件里的各類定制聲音,人工智能語音技術(shù)早已在不知不覺中融入了人們的日常生活。事實(shí)上,除了較為常見的這些應(yīng)用場景之外,人工智能語音技術(shù)也在媒體創(chuàng)作和內(nèi)容生產(chǎn)等領(lǐng)域取得了階段性的成果。其中,較具有影響力的當(dāng)屬AI新聞主播和紀(jì)錄片中的AI配音。而隨著短視頻內(nèi)容生產(chǎn)的體量逐漸增大,不少新媒體平臺(tái)也開發(fā)了圖文自動(dòng)生成視頻的技術(shù),其中的AI配音應(yīng)用作為關(guān)鍵部分也備受關(guān)注。由于應(yīng)用場景的差異,在語音助手、導(dǎo)航等語音喚醒及識(shí)別的應(yīng)用方面,人們會(huì)在一定程度上產(chǎn)生與機(jī)器對話的感受。而在新聞、紀(jì)錄片或是短視頻內(nèi)容中,從受眾角度來說會(huì)不自覺地更加關(guān)注人工智能語音的“擬人化”程度,因此,媒體內(nèi)容生產(chǎn)領(lǐng)域的人工智能語音技術(shù)亟待解決如何“更像”的問題。
媒體內(nèi)容生產(chǎn)中的“文語轉(zhuǎn)換”
“文語轉(zhuǎn)換”(Text To Speech)是語音合成技術(shù)的一項(xiàng)重要應(yīng)用,它是聲學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)等多學(xué)科知識(shí)交叉研究的成果。該技術(shù)的實(shí)現(xiàn)主要分為兩個(gè)環(huán)節(jié)進(jìn)行,分別是文本處理與波形生成。在進(jìn)行文本處理時(shí)需要以音素級(jí)別為單位進(jìn)行標(biāo)注,其精細(xì)程度則依賴一套完善的語言學(xué)標(biāo)注系統(tǒng)。無論是基于何種思路的語音合成技術(shù)實(shí)現(xiàn),“文語轉(zhuǎn)換”首要解決的是語音庫的建立。相較于英文來說,漢語普通話的“文語轉(zhuǎn)換”技術(shù)實(shí)現(xiàn)要更難一些,這和語音庫方面存在很大的關(guān)系。不少相關(guān)領(lǐng)域的研究人員都曾指出,漢語語音庫的開源數(shù)據(jù)較少,這讓前端部分在構(gòu)建更為豐富的音素級(jí)別素材時(shí)就顯得有些先天不足。眾所周知,由于英文在使用范圍和技術(shù)算法的開發(fā)程度上較為成熟,其“文語轉(zhuǎn)換”的實(shí)現(xiàn)在前端部分就具有較大優(yōu)勢。而漢語普通話的語音學(xué)特質(zhì)與英文相比又更為復(fù)雜,技術(shù)人員如果在前端部分無法獲得比較有語言表現(xiàn)力的音素級(jí)別素材,最終合成的語音效果必然與真人的聲音存在差距。這方面的問題在我國現(xiàn)階段新媒體內(nèi)容生產(chǎn)中AI配音的表現(xiàn)可見一斑。
一方面,各類視頻網(wǎng)站的自媒體內(nèi)容生產(chǎn)者自發(fā)選擇了一些可提供圖文轉(zhuǎn)視頻的軟件,這類軟件中所謂的“AI智能配音”在實(shí)現(xiàn)程度上往往并不太智能。可選的聲音類型劃分較為生硬,缺少語音的修飾處理能力,聽感整體較差,或是僅在搞笑聲效等方面有亮點(diǎn)。另一方面,以知乎為代表的新媒體平臺(tái)研發(fā)了自主的圖文轉(zhuǎn)視頻功能,平臺(tái)創(chuàng)作者可以實(shí)現(xiàn)快捷的智能剪輯。知乎的智能剪輯將傳統(tǒng)的非線性編輯軟件界面進(jìn)行了“傻瓜式”的簡化,主要分為兩個(gè)軌道。基礎(chǔ)軌道上是素材,其次是字幕和聲音的軌道。在生成智能配音前,需要對文字進(jìn)行簡單地排版。此外,在其操作界面的底部還有一個(gè)朗讀設(shè)置,主要從音色、朗讀速度、配音音量三個(gè)參數(shù)角度進(jìn)行調(diào)整。但從呈現(xiàn)效果來看,AI的配音并沒有太理想的“擬人化”效果,整體聽感是接近語音喚醒類型的人工智能語音狀態(tài)。音色選擇范圍較少,限制了AI配音的多樣性。在這一類的視頻內(nèi)容中,聲音與畫面的關(guān)系時(shí)常是處在一種錯(cuò)亂的狀態(tài),聲畫的表意功能配合效果較差。無論是旅游、美食或是知識(shí)分享內(nèi)容,視頻中的主要信息來源依然來自于圖片和文字,AI配音的功能性尚不明顯。在當(dāng)下自媒體內(nèi)容生產(chǎn)中,無論是個(gè)人的創(chuàng)作參與或是新媒體平臺(tái)的統(tǒng)一操作,在AI配音的實(shí)現(xiàn)上仍沒有實(shí)質(zhì)性的進(jìn)步,這與漢語普通話“文語轉(zhuǎn)換”中的難題有著很大的關(guān)系。由于漢語普通話的聲學(xué)特性十分顯著,技術(shù)人員還需要關(guān)注停頓、重音等語音特征,這在一定程度上給漢語普通話的“文語轉(zhuǎn)換”實(shí)現(xiàn)提出了更高的技術(shù)要求。比如,在漢語普通話中,音節(jié)持續(xù)時(shí)間因各種語言和非語言因素(氣息處理等)而差異很大。如果一個(gè)句子由相同時(shí)間的音節(jié)連接,它聽起來必然會(huì)顯得非常機(jī)械化。因此,此類系統(tǒng)的設(shè)計(jì)在很大程度上依賴于普通話的特點(diǎn),它是一個(gè)基于單音節(jié)的系統(tǒng)。其基本原理是,大多數(shù)普通話語素都是單音節(jié)的,具有相對簡單的音節(jié)結(jié)構(gòu)。另一個(gè)主要考慮因素是普通話的音調(diào),因?yàn)槠胀ㄔ捠且环N特色鮮明的音調(diào)語言。即便是建構(gòu)了多種“文語轉(zhuǎn)換”的模式,現(xiàn)有技術(shù)解決的仍是一些局部問題,具體差異性問題依然難以覆蓋。如果以媒體內(nèi)容生產(chǎn)的對象來看,人工智能技術(shù)參與其中的語音合成主要表現(xiàn)為AI配音的形態(tài)。這些場景中出現(xiàn)的擬人化聲音,只有更好地與畫面等要素形成一套有效的敘事或表意系統(tǒng),它才能真正實(shí)現(xiàn)其技術(shù)成果轉(zhuǎn)化的價(jià)值,而這就對AI配音技術(shù)應(yīng)用在媒體內(nèi)容創(chuàng)作方面提出了一個(gè)無法回避的問題——聲畫關(guān)系。
聲畫關(guān)系視角下的“高品質(zhì)”AI配音
聲畫關(guān)系是個(gè)十分復(fù)雜的問題,它體現(xiàn)在影視作品的每個(gè)角落,可以說凡是視聽結(jié)合即出現(xiàn)聲畫關(guān)系,在紀(jì)錄片、新聞視頻節(jié)目、短視頻內(nèi)容中均有所體現(xiàn)。無論是從編創(chuàng)視角看聲畫構(gòu)成,還是從理論分析角度拆解或重構(gòu)聲畫文本,當(dāng)我們分析這種聲畫元素相互作用的綜合藝術(shù)時(shí),畫面和聲音實(shí)際上都是以一種語言的形式被認(rèn)知。而這種作為語言來解讀的訊息,在媒體內(nèi)容生產(chǎn)中又主要體現(xiàn)在畫面和解說這兩方面。畫面是圖像即視的語言,解說是聽覺所接收的社會(huì)語言的語音。
解說是一種社會(huì)語言的語音外在表現(xiàn),是紀(jì)錄片信息傳播的重要載體。語音作為語言的符號(hào)形式,本身沒有意義,它的信息傳播的作用是社會(huì)賦予的。當(dāng)觀眾聽到解說時(shí),是由聽覺接收一種語音訊息,再過渡到文字語言來理解,最終將其轉(zhuǎn)換為一種臆想的含義。這種想象的空間正如文學(xué)作品帶給人的無限遐想一樣,往往出現(xiàn)“有一千個(gè)讀者就有一千個(gè)哈姆雷特”的效果。這種信息處理的轉(zhuǎn)化也體現(xiàn)了解說的重要作用,它不僅開拓了受眾視野,也為畫面本身的敘事難點(diǎn)輔以化解和提升。例如,在《舌尖上的中國》的第二季第三集“三餐”中,創(chuàng)作者采用對比的平行敘事方法,選取了同在富士康工作的年輕員工楊圓圓和老員工徐磊,通過對兩人日常餐食的呈現(xiàn),映射出快餐、流水化作業(yè)、鄉(xiāng)愁、留守老人和兒童等問題。但創(chuàng)作者仍然將主視角對準(zhǔn)了富士康員工的生存與生活現(xiàn)狀?!皵?shù)百萬年輕人,在這座工業(yè)帝國里為全世界源源不斷地提供國籍模糊,更難分辨?zhèn)€人印記的全球化產(chǎn)品。一日三餐,浸透著青春和汗水?!边@段解說以簡潔的語言道出了敏感的社會(huì)問題,為一個(gè)小節(jié)的內(nèi)容提升了思想高度。解說的支撐作用在大多數(shù)紀(jì)錄片中都不可或缺,因?yàn)樽鳛橐粋€(gè)以主題形式呈現(xiàn)創(chuàng)作者意圖的影像在被觀者理解時(shí),單靠畫面的直接表現(xiàn)往往很難提煉主題或顯現(xiàn)紀(jì)錄片的視角。無論是客觀記錄實(shí)時(shí)的人生百態(tài)還是還原歷史人物,解說作為一種承擔(dān)著訊息傳遞作用的語言形式,是具有社會(huì)性含義的符號(hào)系統(tǒng)。它實(shí)際體現(xiàn)的是人類語言的或者更準(zhǔn)確地說是語音的社會(huì)屬性。
那么,AI配音能否實(shí)現(xiàn)這種體現(xiàn)社會(huì)性的解說語言的特質(zhì)呢?近年來央視推出的世界首部AI配音紀(jì)錄片《創(chuàng)新中國》給出了答案。這部紀(jì)錄片的誕生,從技術(shù)層面來說,標(biāo)志著我國的AI配音技術(shù)已經(jīng)實(shí)現(xiàn)了更加高水準(zhǔn)的媒體內(nèi)容生產(chǎn)能力,其“擬人化”的美學(xué)意義是基于技術(shù)與藝術(shù)的雙重維度。全片的解說部分全部采用人工智能語音合成技術(shù),精妙還原了已逝知名配音員李易先生的解說風(fēng)采。這部佳作的呈現(xiàn)得益于背后兩大支撐團(tuán)隊(duì),一個(gè)是國內(nèi)領(lǐng)先的人工智能語音技術(shù)供應(yīng)商科大訊飛,另一個(gè)則是國內(nèi)解說大咖聚集的頭部團(tuán)隊(duì)沐肆洲。從第一步語音庫的建立來說,AI配音此次模擬的對象人聲具有重要的基礎(chǔ)優(yōu)勢。它主要表現(xiàn)在,李易先生生前為央視紀(jì)錄頻道錄制了大量高品質(zhì)的解說聲音素材,由于都是近年來錄制的音頻,其各項(xiàng)優(yōu)質(zhì)參數(shù)都為人工智能技術(shù)的介入提供了肥沃的土壤。其次,李易先生本人標(biāo)志性的頻道聲是無可比擬的完美參照對象,他的聲音與普通人甚至其他專業(yè)配音員相比在吐字清晰度、語音規(guī)范化和語速平穩(wěn)方面都有著高標(biāo)準(zhǔn)的優(yōu)勢。因此,從“文語轉(zhuǎn)換”的角度來說,紀(jì)錄片《創(chuàng)新中國》的AI配音可謂是擁有了一個(gè)無可比擬的理想語音庫作為前提。而在其后的實(shí)施過程中,專業(yè)配音團(tuán)隊(duì)為AI配音逐字逐句的合成提供了很多聲音藝術(shù)塑造方面的指導(dǎo)。而科大訊飛的團(tuán)隊(duì)也從“音色、韻律、內(nèi)容”三個(gè)方面做了很多細(xì)微的校對與修改工作,這可以說是站在巨人肩膀上的一次AI配音技術(shù)嘗試,也對未來人工智能技術(shù)參與的高質(zhì)量媒體內(nèi)容生產(chǎn)提供了一個(gè)優(yōu)秀的行業(yè)典范。
由此可見,AI配音技術(shù)在參與以紀(jì)錄片為代表的高質(zhì)量媒體內(nèi)容生產(chǎn)時(shí),解說的“擬人化”特性建立在高品質(zhì)語音庫基礎(chǔ)上,同時(shí),也依賴對社會(huì)語音的技術(shù)實(shí)現(xiàn),因其建立在使用某種語言的人在認(rèn)同語音的特定含義的基礎(chǔ)上,解說者和聽者才能將語音作為傳播信息和接收信息的載體,聽者進(jìn)而結(jié)合圖像或文字等其他因素延展語音含義。對于解說者而言,其解說是結(jié)合畫面、字幕、音樂、音響等元素,向受眾傳達(dá)主題思想,闡釋內(nèi)容含義,抒發(fā)思想情感,傳遞美的感受。而對于受眾來說,是在這一過程中獲得美的享受。人工智能語音合成將不再局限于“助手”的角色,甚至可以成為主導(dǎo)聲畫關(guān)系的“主人”。
AI配音在聲畫關(guān)系中的定位
毫無疑問,未來AI配音技術(shù)應(yīng)用在媒體內(nèi)容生產(chǎn)中一定是朝著更加精細(xì)化的方向發(fā)展。人工智能技術(shù)作為一種新的“語言”形式參與其中,需要明確與其他聲畫語言的關(guān)系。
首先,無論是在新聞視頻節(jié)目、紀(jì)錄片或是短視頻中,畫面語言都是一種現(xiàn)實(shí)內(nèi)容的直觀呈現(xiàn)。這里的現(xiàn)實(shí)內(nèi)容可以是拍攝的紀(jì)實(shí)影像素材,也可以是影片、圖片等材料。對觀者而言,畫面語言是色彩、光線、客觀事物及人物等綜合元素的實(shí)時(shí)視覺感受。而同畫面內(nèi)容一樣以“視像”直觀體現(xiàn)的字幕語言,卻更接近于解說這種符號(hào)系統(tǒng)轉(zhuǎn)化的語言形式。字幕語言就是文字直接“走入”畫面,它同文字一樣,本質(zhì)上是沒有意義的符號(hào),是社會(huì)賦予了它特定的含義。例如“迷惑”這個(gè)中文詞語,在日文中有完全同形的語言符號(hào),但是從翻譯的角度看,含義卻不同。所以,當(dāng)一位不懂中文的日本人觀看附有中文字幕的畫面時(shí),出現(xiàn)這個(gè)詞時(shí)他可能會(huì)嘗試按照日文的含義去理解,就詞義而言,實(shí)際上就是曲解了??梢?,畫面語言和字幕語言在表意和會(huì)意上存在很大的區(qū)別,例如當(dāng)我們觀看自然類紀(jì)錄片《遷徙的鳥》時(shí),片頭畫面出現(xiàn)一輪滿月,被濃墨般的夜色籠罩著。單就這個(gè)畫面內(nèi)容來說,不同國度的觀者對它的理解應(yīng)該是一樣。但當(dāng)滿月旁的畫面上出現(xiàn)字幕時(shí),就需要掌握這門語言的觀眾才能領(lǐng)會(huì)含義。
其次,認(rèn)識(shí)字幕語言對解說語言的輔助作用。解說語言是靠聽覺接收的,具有很強(qiáng)的實(shí)效性,在一定程度上它比畫面語言更具有轉(zhuǎn)瞬即逝的特點(diǎn)。與二者相比,字幕語言就更有突出創(chuàng)作者意圖的作用。從人們獲取信息的不同渠道來看,自古以來,閱讀文字信息的方式比口耳相傳要莊重很多。另外,人們下意識(shí)地會(huì)更注意文字語言,這在紀(jì)錄片中體現(xiàn)得尤為突出。在大段解說的信息獲取后,適時(shí)出現(xiàn)的字幕能有效提高觀者的注意力。當(dāng)AI配音能夠與字幕形成較理想的配合,而不是從頭到尾鋪滿時(shí),字幕語言可以發(fā)揮更為顯性的作用。字幕語言還有一個(gè)重要的作用——“幫襯”解說。一方面,由于解說語言的“伴隨性”較強(qiáng),正如人們在交際時(shí)或多或少會(huì)丟失部分信息一樣,解說語言本身作為一種語音信息在傳遞時(shí)也容易受到多重因素影響,但當(dāng)解說詞以字幕形式出現(xiàn)時(shí),既是增加了一條通過視覺獲取信息的途徑,能有效提高觀者接收信息的完整度。
再次,要明確音樂語言對解說意境的提升作用。音樂被稱作是人類共同的語言,它是不同國度的人們都能共同感悟和欣賞的一種語言形式。這也使它從根本上有別于受社會(huì)屬性制約的解說語言。因此,解說語言的聽覺美化需要音樂語言的修飾。而縱觀當(dāng)下媒體內(nèi)容生產(chǎn)中AI配音與音樂的關(guān)系,真正起到這種修飾作用的做法并不多。在絕大多數(shù)新媒體內(nèi)容中,過于不協(xié)調(diào)的音樂或是喧賓奪主,或是直接干擾了AI配音的內(nèi)容呈現(xiàn)。解說與音樂的融合至關(guān)重要,它體現(xiàn)在音樂流動(dòng)中解說的適時(shí)介入與淡出等諸多方面,這需要解說語言創(chuàng)作者在理解音樂的基礎(chǔ)上,能夠與內(nèi)容產(chǎn)生情感共鳴。而AI配音在這方面的技術(shù)層面實(shí)現(xiàn)上要特別關(guān)注以下兩個(gè)方面。第一,體現(xiàn)節(jié)奏性。節(jié)奏是諸多藝術(shù)形式所共有的特性,不僅聽音樂時(shí)能感覺到音符韻律的節(jié)奏,當(dāng)穿過長廊或?qū)m殿式建筑時(shí)也能感受到節(jié)奏的震撼。未來AI配音的使命一定是引領(lǐng)人們感受到科技與藝術(shù)融合之美,這要求技術(shù)實(shí)現(xiàn)路徑中要特別關(guān)注到節(jié)奏的算法設(shè)計(jì),否則始終難以消除機(jī)器化的陌生感。第二,契合解說內(nèi)容。選擇與主題相關(guān)的音樂不僅能更好地引導(dǎo)受眾沉浸其中,更能為解說語言錦上添花。AI配音在與音樂的契合度方面同樣依賴更為精準(zhǔn)的算法進(jìn)行優(yōu)化。這不僅是指在類似紀(jì)錄片《創(chuàng)新中國》中的個(gè)案,而是需要逐步應(yīng)用到各類體量龐大的新媒體內(nèi)容場景中。
科技的高速發(fā)展帶動(dòng)著媒體內(nèi)容生產(chǎn)方式的日新月異。某個(gè)階段的技術(shù)手段總會(huì)存在著這樣或那樣的局限性,而在配音方面,不僅是人工智能,即便是專業(yè)創(chuàng)作者在把握聲畫語言的關(guān)系時(shí)也會(huì)有諸多遺憾和不足。當(dāng)普及性的AI配音已經(jīng)完成了基礎(chǔ)層面的信息傳達(dá)功能后,無論是技術(shù)發(fā)展還是受眾需求,都在指引著AI配音技術(shù)走向更加精細(xì)化的聲畫關(guān)系創(chuàng)作范疇。這不僅對未來的AI配音技術(shù)發(fā)展提出了更高的行業(yè)標(biāo)準(zhǔn),也在提醒著當(dāng)下的媒體內(nèi)容生產(chǎn)者一定要注重內(nèi)容產(chǎn)出的質(zhì)量。一部優(yōu)秀藝術(shù)作品的誕生需要?jiǎng)?chuàng)作者付出多方面的努力,解說語言作為一種由聽覺直觀接收的語言形式,其創(chuàng)作者占據(jù)的重要作用不言而喻。尤其是在AI配音出現(xiàn)并不斷完善后,藝術(shù)與科技高度融合的特點(diǎn)在其領(lǐng)域中會(huì)更加凸顯。如何在提高AI配音技術(shù)“擬人化”水準(zhǔn)的同時(shí),又能與構(gòu)成整體的其他部分有機(jī)結(jié)合,特別是有效把握整體的聲畫關(guān)系,這或?qū)⒊蔀閯?chuàng)作者們不斷嘗試和探索的方向。
參考文獻(xiàn):
[1]李佐豐.電視專題片聲畫語言結(jié)構(gòu)[M].北京:北京廣播學(xué)院出版社,1999:1-39,218-282.
[2]邢福義.普通話培訓(xùn)測試指要[M].武漢:華中師范大學(xué)出版社,2011:20-98.
[3]王同.《創(chuàng)新中國》解說制作全記錄[EB/OL].http://www.musizhou.com/companynews/311911206.html,2018-01-22.
[4]姜燕.影視聲音藝術(shù)與制作[M].北京:中國傳媒大學(xué)出版社,2008:308-329.
作者簡介:張璇(1991—),安徽人,高校講師,碩士研究生,現(xiàn)就職于廣州華商學(xué)院傳播與傳媒學(xué)院。