[摘要]隨著有聲書市場規(guī)模的持續(xù)擴大,當前有聲書市場面臨高質(zhì)量有聲書產(chǎn)品匱乏的問題,加之富媒體時代的到來,有聲書還需要應對廣播劇、博客、戲曲乃至有聲漫畫的競爭與沖擊,因此有聲書產(chǎn)品的升級迫在眉睫。文章從AI語音合成技術的相關概念與研究入手,通過分析有聲書的現(xiàn)狀及存在問題發(fā)現(xiàn),有聲書當前存在內(nèi)容之憂、富媒之爭、版權之困。基于此,文章結(jié)合實際案例,探究AI合成語音技術的使用對有聲書產(chǎn)業(yè)的影響,即“內(nèi)容生產(chǎn)成本降低,制作高效”“創(chuàng)作者門檻降低,質(zhì)量提升”“平臺用戶可觸達率提升”“AI合成語音,人文情感弱化”。
[關鍵詞]AI語音合成技術;有聲書;AIGC
精神生活的豐富離不開閱讀,從傳統(tǒng)媒體時代的紙質(zhì)書刊到數(shù)字媒體時代風靡的電子書,再到有聲閱讀市場的快速增長,用耳朵代替眼睛去閱讀已然成為一種全新的趨勢。在多線任務中解放眼睛和雙手,幫助視障人士獲取信息,助力老年人跨越數(shù)字鴻溝等都是耳朵經(jīng)濟的獨特優(yōu)勢。耳朵經(jīng)濟興起,促進了有聲書行業(yè)的快速增長。根據(jù)《艾媒咨詢|2020年中國有聲書行業(yè)發(fā)展趨勢研究報告》,中國的有聲書市場規(guī)模達63.6億元,持續(xù)三年增速高于30%。基于此,喜馬拉雅、荔枝FM、蜻蜓FM等專業(yè)音頻應用與網(wǎng)易云音樂、QQ音樂等音樂軟件逐漸深入有聲書領域,參與有聲書作品的生產(chǎn)與傳播。
隨著ChatGPT的發(fā)布,人工智能時代已然拉開序幕。當前,人工智能熱點應用涉及多個領域,在有聲書行業(yè)顯著推動了音頻內(nèi)容檢索、語音內(nèi)容識別和語音內(nèi)容生成等技術的發(fā)展。文章旨在針對當前有聲書行業(yè)的現(xiàn)存問題,引入AI語音合成技術,分析這一技術給有聲書生產(chǎn)與傳播帶來的影響。
AI語音合成技術被稱為“TTS”(文本到語音),是一種將計算機生成或外部輸入的文本信息轉(zhuǎn)換為可聽、流暢的音頻的技術[1]。這種技術能夠?qū)⒂脩糨斎氲奈谋巨D(zhuǎn)換為流暢自然的音頻,并支持語速、音調(diào)、音量和音頻的調(diào)節(jié)。據(jù)統(tǒng)計,2022年,全球AI語音生成市場規(guī)模約達12億美元,預計在2032年,該數(shù)據(jù)將增長至49億美元。2018年,中國電子科技大學與微軟亞洲研究院等機構(gòu)聯(lián)合推出Transformer TTS模型,該模型采納了基于自注意力機制的Transformer架構(gòu),取代了以往的內(nèi)容驅(qū)動的傳統(tǒng)注意力機制,從而實現(xiàn)了非自回歸式的語音合成。VITS模型是2021年發(fā)布的一種結(jié)合變分推理、標準化流和對抗訓練的高表現(xiàn)力語音合成模型,當前各大自媒體平臺上使用的語音合成器大多由該模型構(gòu)成[2]。VITS是首個真正實現(xiàn)了端到端的語音合成模型,它能夠直接將字符或音素映射為波形。這種通過隱變量而非頻譜串聯(lián)語音合成的聲碼器和聲學模型,豐富了語音合成的多樣性。從語音識別激活命令,讓應用程序做出相應的響應,到利用TTS引擎訓練出匹配特定書籍風格和音調(diào)的自然音色,再到利用AI算法為用戶定制個性化收聽體驗[3],隨著AI技術的不斷迭代和通用大模型及專業(yè)小模型的開發(fā),機器語音逐漸具備了情感表達能力,并在個性化語音生成、方言及外語處理等方面持續(xù)優(yōu)化,能更好地滿足用戶對有聲書的個性化需求。
一、相關研究
我國學者對AI合成語音技術的研究主要聚焦AI語音合成技術對播音行業(yè)帶來的機遇和挑戰(zhàn),其中,王海東認為,在AI語音合成技術發(fā)展的背景下,播音主持人應當重視情感制勝策略;符云柯等則結(jié)合具體的案例分析,認為在播音的吐字發(fā)聲、語流音變、語言表達等方面,AI雖然準確清晰,但其吐字發(fā)聲也存在聲不隨情動等問題;王俊杰等認為,在智媒時代,AI的應用是必然趨勢,通過人機協(xié)同傳播實現(xiàn)優(yōu)勢互補是最佳途徑;楊鑫悅結(jié)合新華社手機客戶端的AI合成主播和新聞聯(lián)播主播的播音音頻,從漢語語音學的角度探討了智能語音技術在新聞播報中的優(yōu)勢和不足;張澤宇從聲音景觀的視角深入探討了AI合成語音的構(gòu)建問題,指出在用戶創(chuàng)作與傳播個性化聲音產(chǎn)品的過程中,應用后臺通過分析用戶偏好獲得了更多控制權,這最終將導致更多同質(zhì)化AI合成語音內(nèi)容的涌現(xiàn)。
我國學者對有聲書相關的研究基本是在喜馬拉雅和蜻蜓FM等幾大有聲書平臺崛起之后才興起的,如:諸葛寰宇通過對比兩大有聲書平臺的特點、發(fā)展脈絡以及阻礙因素,肯定了移動閱讀的發(fā)展前景;李丹陽從內(nèi)容制作、營銷、硬件等方面詳細解讀了喜馬拉雅的發(fā)展策略;張雪基于疫情期間有聲讀物平臺所推出的疫情專題頁面,分析了移動音頻客戶端表現(xiàn)亮眼的因素;任曉琳以云聽App為例,詳細分析了音頻類App的營銷策略;王子碩以帆書平臺為例,詳細分析了其商業(yè)運作模式和營銷策略;童云等通過問卷調(diào)查與深度訪談,探究了有聲讀物用戶需求的新變化及特征,并據(jù)此提出了相應的媒介生產(chǎn)策略,強調(diào)這些創(chuàng)新路徑為新廣播價值鏈的重構(gòu)與轉(zhuǎn)型發(fā)展提供了有力支撐;宮承波等認為,在智媒時代,技術的迭代帶給用戶新的體驗,音頻產(chǎn)品只要順應技術的東風,重視內(nèi)容的質(zhì)量,必能吸引更多的用戶;朱赫男認為,有聲書在流動空間內(nèi)的敘事模式不斷優(yōu)化,展望有聲書在元宇宙中也將成為重要的閱讀載體;高文萱研究了有聲書在促進文學經(jīng)典作品傳播上的創(chuàng)新性作用。
目前,針對語音合成技術在有聲書行業(yè)應用的相關研究較少,如:姜澤偉通過微信讀書平臺的研究發(fā)現(xiàn),用戶在“AI語音—文字有聲化”與“真人語音—口語傳播”這兩種聲音表達形式上的使用頻率基本持平,據(jù)此認為AI語音在未來傳播史上的地位或?qū)⑴c印刷術相提并論;孫艷華的研究認為,智能合成語音技術的優(yōu)點毋庸置疑,但是其在用戶的情感感知、情感需求等方面很難替代真人有聲書;李武等人從媒介可供性角度審視,認為AI有聲書正逐步展現(xiàn)甚至超越傳統(tǒng)認知中真人有聲書所難以匹敵的生產(chǎn)與社交優(yōu)勢。
二、有聲書產(chǎn)業(yè)現(xiàn)狀與存在問題
(一)有聲書產(chǎn)業(yè)發(fā)展模式
音頻內(nèi)容的移動化與文學生產(chǎn)的數(shù)字化并非新現(xiàn)象,在廣播時代,音頻內(nèi)容已實現(xiàn)移動化傳播,而文學生產(chǎn)與傳播的數(shù)字化與電腦、電子書的流行有關[4]。在全媒體時代,移動設備的普及為有聲書發(fā)展注入了驅(qū)動力。在智媒時代社會化力量的激活下,有聲書的生產(chǎn)與制作門檻得以降低,從而打破了文學生產(chǎn)與音頻內(nèi)容制作專業(yè)化的傳統(tǒng)格局。主體性的覺醒和新技術的支撐促使有聲書產(chǎn)業(yè)不斷發(fā)展,既為用戶帶來更加生動立體的深層體驗,也更加適應當前碎片化、多元化的信息傳播場景。
有聲書主要指運用現(xiàn)代數(shù)字技術,以文字作品為主要內(nèi)容,由固定的單個或者多個表演者用聲音演繹文字內(nèi)容,并存儲為數(shù)字文件,再利用網(wǎng)絡平臺向公眾傳播的音頻產(chǎn)品[5]。由網(wǎng)絡平臺主導的有聲書內(nèi)容生產(chǎn)流程涵蓋文稿錄音、后期制作、內(nèi)容聚合和整合、以及產(chǎn)品傳播等環(huán)節(jié)。具體步驟為,有聲書的文字內(nèi)容主要被分為“出版”與“原創(chuàng)”兩類,網(wǎng)絡平臺選購合適版權后,邀請制作方進行配圖校對、文稿錄音與后期制作,并上傳至平臺。隨后,網(wǎng)絡平臺基于書名進行檢索,為有聲讀物添加相應標簽以進行分類,再依據(jù)分類將其投放至流量池,并策劃相關活動,以吸引用戶收聽。
當前,從作者、出版方、音頻制作商、音頻供應商再到用戶已然構(gòu)成了一條完整的產(chǎn)業(yè)鏈,但基于不同平臺的定位,有聲書知識付費模式各有不同。近年來,部分網(wǎng)絡平臺逐漸構(gòu)建“傳統(tǒng)的流量—廣告投放向產(chǎn)品—用戶的知識付費”的銷售模式。部分平臺選擇以免費內(nèi)容換取用戶行為數(shù)據(jù),以“免費暢聽”或“限時免費”的名義提高訪問量與播放量,實現(xiàn)間接盈利。當前,直接的盈利模式大致可分為三類:一是由平臺為付費會員提供優(yōu)質(zhì)的PGC(專業(yè)生產(chǎn)內(nèi)容)與PUGC內(nèi)容(專業(yè)用戶生產(chǎn)內(nèi)容)進行消費,如喜馬拉雅;二是借助UGC(用戶生成內(nèi)容),并采用音頻直播等形式來構(gòu)建粉絲經(jīng)濟,如荔枝FM;三是采用單本讀物或小說章節(jié)付費收聽的模式來獲取經(jīng)濟效益,如懶人聽書。知識付費的盈利模式包括內(nèi)容價值化、社交網(wǎng)絡化、場景生態(tài)化等。我國大多數(shù)有聲書平臺主要依賴內(nèi)容增值策略,即通過提升有聲書的數(shù)量、質(zhì)量及制作水平,以此作為知識付費業(yè)務的核心盈利途徑[6]。
(二)有聲書行業(yè)痛點
1.內(nèi)容之憂
盡管網(wǎng)絡平臺會自行策劃出品有聲書產(chǎn)品,但在各個網(wǎng)絡平臺依然存在大量的用戶自行生產(chǎn)的有聲書。與專業(yè)配音演員、播音員及內(nèi)容制作團隊相比,普通用戶既缺少高質(zhì)量的錄音設備,也未掌握專業(yè)的錄音技巧,更不具備后期制作的專業(yè)能力。此外,部分用戶受限于自身文化水平,創(chuàng)作時常有錯字、漏字情況發(fā)生,導致有聲書作品的內(nèi)容質(zhì)量欠佳。即便是平臺自制的PUGC內(nèi)容,也可能因合作團隊的能力水平而導致內(nèi)容質(zhì)量不高。由于有聲書體量相較廣播劇更為龐大,審核團隊通常采用抽樣聆聽的方式進行審核,面對其中出現(xiàn)的語病、錯字,可能因返音、后期過于麻煩而選擇不進行修改。因此,有聲書的內(nèi)容質(zhì)量大多參差不齊。同時,當前有聲書的主題重合度較高,內(nèi)容高度同質(zhì)化。為了獲取更高收益,各出版社或版權方傾向于將內(nèi)容同時授權給多個平臺,由于這些內(nèi)容多為高度模式化的網(wǎng)絡小說,不同平臺間的內(nèi)容大同小異,導致作品間的差異性亦不顯著。
2.富媒之爭
在互聯(lián)網(wǎng)時代,隨著各類社交平臺與應用軟件不斷涌現(xiàn),信息的豐富性與傳播形式的多樣化促使閱讀行為趨向泛化,進而使得碎片化閱讀逐漸流行起來。一方面,有聲書憑借較短的單期時長填補了用戶碎片化的時間,從而獲得廣泛認可;另一方面,有聲書的特性在一定程度上削弱了其相對傳統(tǒng)閱讀所承載的閱讀價值。當前,有聲書的單集時長大約在五到二十分鐘,以迎合用戶的閱讀習慣。然而,用戶注意力的快速轉(zhuǎn)移導致聲音形式的閱讀往往停留在較淺層次。對適合深度閱讀的高質(zhì)量書籍而言,用戶在聆聽過程中可能會面臨思考缺失的風險。在富媒時代,有聲書面臨大量其他品類聲音媒體的競爭,無論是來自外部,如廣播劇平臺貓耳FM、播客平臺小宇宙等其他平臺的競爭,還是平臺內(nèi)部,如相聲、戲曲、播客等其他板塊的引流,都對有聲書造成了一定程度的威脅。
3.版權之困
隨著傳播科技的不斷發(fā)展,移動網(wǎng)的崛起賦予了用戶前所未有的主體性,每個人都可借助移動設備實現(xiàn)信息的獲取和內(nèi)容的創(chuàng)作。然而,專業(yè)壁壘的打破使得多種問題應運而生。一般有聲書制作涉及文字作品著作權人的復制權、改編權、表演權等,AI語音背后使用的聲紋歸屬也同樣存在一定的爭議,未經(jīng)許可擅自錄制或傳播有聲書或?qū)⒚媾R侵權風險。同時,蜂擁而入的、參差不齊的草根制作者并未接受過專業(yè)的教育和培訓,版權意識薄弱,完全意識不到通過自行錄制讀物來吸引流量甚至盈利的行為可能造成侵權,這也使得有聲讀物相關的侵權案件頻繁發(fā)生。此外,紙質(zhì)書籍向電子產(chǎn)品轉(zhuǎn)化,版權應當屬于原作者還是制作方?有聲讀物相關版權的界定在我國尚未形成統(tǒng)一標準。
三、AI語音合成技術的使用對有聲書產(chǎn)業(yè)的影響
隨著AI語音合成技術融入有聲書產(chǎn)業(yè),產(chǎn)業(yè)鏈發(fā)生了若干變化:一方面,音頻制作與傳播渠道出現(xiàn)了融合趨勢,網(wǎng)絡平臺能直接運用AI語音合成技術錄制有聲書;另一方面,內(nèi)容提供與音頻制作的角色有所重疊,這意味著AI技術不僅限于合成語音,還能參與內(nèi)容創(chuàng)作??偟膩碚f,AI語音合成技術的應用對有聲書的制作與傳播產(chǎn)生了一定的沖擊與影響,具體表現(xiàn)在以下幾個方面。
(一)內(nèi)容生產(chǎn)成本降低,制作高效
AI內(nèi)容生產(chǎn)模式具有顯著的規(guī)模遞減優(yōu)勢,其成本支出主要在于模型算法開發(fā)與硬件購買等固定領
域[7]。數(shù)字化形式簡化了選擇聲音演員、制作道具、錄音、剪輯等多個環(huán)節(jié),能夠更高效地生產(chǎn)高質(zhì)量的有聲作品,滿足不同用戶的需求。例如,喜馬拉雅平臺在擁有“喜小道”“蘇小刀”“喜小迪”等多位AI主播的基礎上,聯(lián)合其他機構(gòu)打造AI主播配音演播的作品。這些AI語音不同于以往卡頓、沉悶的機械音,其經(jīng)過升級訓練,聲調(diào)音色更加自然、柔和。鑒于此,相較傳統(tǒng)的音頻生產(chǎn)方式,AI內(nèi)容生產(chǎn)模式大大提高了音頻內(nèi)容制作的生產(chǎn)效率與質(zhì)量,能夠給用戶帶來更優(yōu)質(zhì)的體驗。
(二)創(chuàng)作者門檻降低,質(zhì)量提升
根據(jù)2020年中科網(wǎng)聯(lián)數(shù)據(jù)有限公司進行的全國音頻用戶專項調(diào)查,用戶在選擇有聲書平臺時最看重的五個因素依次是:有聲書資源的豐富度(占比51.2%)、播講質(zhì)量(占比46.4%)、是否有自己喜愛的有聲書(占比39.1%)、免費內(nèi)容的多少(占比32.4%)以及有聲書內(nèi)容的分類情況(占比31.1%)。由此可見,有聲書的內(nèi)容質(zhì)量對用戶的消費選擇產(chǎn)生重要的影響。以百度語音合成技術為例,其研發(fā)的端到端細粒度建模技術使得普通用戶只需要錄制30分鐘的聲紋,就能夠生成媲美真人原聲的合成音頻。對普通用戶而言,借助AI“一鍵文字轉(zhuǎn)語音”進行有聲作品創(chuàng)作,既可以規(guī)避錯讀、漏讀等常見錯誤,也能消除錄制時產(chǎn)生的口水音、噪聲等降低有聲書質(zhì)量的因素,大大降低了后期制作的難度。由此,有聲書錄制的專業(yè)性被逐漸弱化,創(chuàng)作門檻顯著下降。同時,基于用戶個性化聲線生成的聲音具備多樣性,有助于在龐大的有聲書市場中緩解用戶審美疲勞,從而吸引更多的用戶參與創(chuàng)作,最終推動有聲書市場的持續(xù)發(fā)展。
(三)平臺用戶可觸達率提升
用戶可觸達率指用戶在特定時間段內(nèi)接觸到特定內(nèi)容、產(chǎn)品或服務的比例。一方面,AI語音合成技術使得有聲書的制作成本不斷降低,制作時間也大大縮短,有利于網(wǎng)絡平臺推出免費有聲書產(chǎn)品來吸引用戶。例如,網(wǎng)易云音樂有聲書板塊推出的片花模塊,鑒于其內(nèi)容趨向模版化、時長較短,且采用固定配音演員錄制、后期制作要求不高,適宜采用AI語音合成技術。AI語音合成技術可負責寫作、配音及配樂,生成時長三十秒至一分鐘的內(nèi)容。此舉既減輕了工作人員負擔,使他們既能專注于精品內(nèi)容的創(chuàng)作,又規(guī)避了文案作者經(jīng)驗不足導致的片花質(zhì)量波動問題,還確保了原有的引流效果。另一方面,AI語音合成技術可應對多語言需求的環(huán)境。相較人類掌握一門新的語言所需要的時間,AI語音合成技術顯然具有更大的優(yōu)勢。AI合成語音技術只要擁有足夠的樣本量和數(shù)據(jù)庫,就完全可以實現(xiàn)多語言混讀。鑒于此,網(wǎng)絡平臺利用AI語音合成技術可生成多語言版本的有聲書產(chǎn)品,無須專門聘請外國配音員,在不增添額外成本的前提下,即可實現(xiàn)不同語言有聲書的制作,有助于促進文化的廣泛傳播,讓更多國家的用戶接觸有聲書,從而擴大有聲書的用戶覆蓋范圍。
(四)AI合成語音,人文情感弱化
在有聲書的演繹中,情感始終貫穿于聲音中,構(gòu)成了作品的文化底蘊和藝術精髓,而這正是AI語音合成技術當前難以全面實現(xiàn)精準復制的重要難題。傳統(tǒng)影視作品大多通過畫面與聲音的結(jié)合來醞釀情感,當視覺畫面成為用戶關注的焦點時,作為輔助元素的聲音,其情感飽滿程度的要求就相對較低。而有聲書完全依賴聲音來營造戲劇沖突,通過聲音敘述故事情節(jié)、描繪多樣化的角色性格以及展現(xiàn)不同情境下的情感起伏。鑒于此,一部優(yōu)質(zhì)的有聲書,其配音必然不能脫離情感的表達。AI語音合成技術在多方面促進了有聲書的發(fā)展,盡管它能通過算法和大模型訓練模仿不同人的音色特征,但模型化的生成方式卻難以捕捉并再現(xiàn)人類復雜多變的情感。同時,AI語音合成技術缺乏自我思考能力,僅依賴大數(shù)據(jù)和算法中的信息描述,以及按照預設編程進行運作,這僅能處理簡單的詞句邏輯。在處理語音文字內(nèi)容的情感豐富度上,AI語音合成技術仍存在諸多不足,容易削弱用戶接收作品時的情感能量,難以激發(fā)用戶的情感共鳴,從而影響有聲書的傳播效果。以喜馬拉雅的AI系列作品“單田芳聲音重現(xiàn)”專輯為例,有用戶就評論其“沒有單老的節(jié)奏神韻,干巴巴的感覺”“只模仿了嗓音,學了個形似”。由此可見,文學和美學重視的藝術創(chuàng)造性和想象力,是AI語音合成技術難以突破的壁壘。
四、結(jié)語
隨著AI語音合成技術的日益成熟與優(yōu)化,將電子書大規(guī)模、自動化地轉(zhuǎn)化為有聲書已成為現(xiàn)實,這不僅降低了成本、提升了質(zhì)量,還擴大了用戶的覆蓋范圍。盡管當前人工智能在語音合成方面還有很大的提高空間,在版權方面也存在一定爭議,但相信隨著技術的進步,未來,AI語音合成技術在有聲書領域的應用將更加自然流暢,從而吸引更多平臺與用戶將其應用于內(nèi)容創(chuàng)作領域。隨著實踐的深入,相關法律法規(guī)和平臺管理體系都將不斷優(yōu)化,進而促進有聲書產(chǎn)業(yè)的健康發(fā)展,助力有聲書產(chǎn)品在更廣泛領域內(nèi)傳播。
[參考文獻]
[1]郭棟,肖愛云.“互聯(lián)網(wǎng)+”趨勢下人工智能在配音中的應用[J].西部廣播電視,2018(20):186-188.
[2]陳志業(yè),張智騫,王兵,等.AI語音合成技術的應用與展望[J].影視制作,2023(03):51-55.
[3]李潔,張書勤.人工智能賦能音頻產(chǎn)業(yè)功能路徑研究[J].視聽界,2023(04):36-42.
[4]HJARVARD S,HELLES R.Going Digital:Chan-ging the Game of Danish Publishing[J].Northern Lights Film and Media Studies Yearbook,2015(01):49-64.
[5]馬曉明,周欣月.有聲讀物該如何避免侵權風險[N].中國新聞出版廣電報,2017-12-14(7).
[6]王宇,孫鹿童.2CM理論視野下的有聲書發(fā)展模式及營銷策略[J].中國廣播,2022(04):9-13.
[7]王諾,畢學成,許鑫.先利其器:元宇宙場景下的AIGC及其GLAM應用機遇[J].圖書館論壇,2023(02):117-124.
[基金項目]基于語音識別的數(shù)字人交互關鍵技術研究(項目編號:Z421A23013)。
[作者簡介]趙遠杰(1999—),女,新疆沙雅人,浙江傳媒學院碩士研究生;宋霄鈺(1999—),女,浙江杭州人,浙江傳媒學院碩士研究生;秦振宇(1997—),男,河南南陽人,浙江傳媒學院碩士研究生。