摘要:人工智能技術(shù)的突飛猛進(jìn)正在重塑人類感知和理解世界的方式。繼Midjourney、Stable Diffusion等引領(lǐng)視覺生成式AI掀起新浪潮后,以ElevenLabs為代表的先進(jìn)語音合成平臺也標(biāo)志著音頻生成式AI的崛起。ElevenLabs憑借其高度擬真、富有情感、支持個性化定制的AI合成語音,造就了一種前所未有的聲音景觀,但也帶來了人聲合成泛濫對“語音身份”認(rèn)同的解構(gòu)與沖擊,由此造成社會傳統(tǒng)“語音秩序”的崩潰和重構(gòu),帶來語音身份多變與身份識別困境、語音身份盜用與社會信任危機(jī)、數(shù)字語音規(guī)訓(xùn)與意識形態(tài)操控、虛假語音煽動與社會沖突威脅等風(fēng)險。
關(guān)鍵詞:ElevenLabs;語音身份;語音秩序;數(shù)字人;人機(jī)共生;技術(shù)向善
中圖分類號:G206.3 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-3180(2025)01-0048-09
聲音,歷來不僅是個體身份的標(biāo)識,更是情感的載體、記憶的容器,是人與人之間最為私密也最為真實(shí)的紐帶。每一個熟悉的聲音都在編織著我們的情感地圖,構(gòu)建著我們的社會信任。然而,隨著以ElevenLabs為代表的新一代語音合成技術(shù)的橫空出世,傳統(tǒng)的聲音景觀開始出現(xiàn)深刻的變化,這一變化意味著人類社會生活的一種全新可能,同時也構(gòu)成了對人類文明韌性的深刻考驗(yàn)。
一、ElevenLabs:智能語音技術(shù)的突破
2024年年初,Sora橫空出世,繼ChatGPT之后,引起了社會新一輪關(guān)注和討論,使“人工智能生成內(nèi)容”(Artificial Intelligence Generated Content, AIGC)又一次成為全球關(guān)注的焦點(diǎn)。[1]而正當(dāng)大家對文生視頻大模型的討論方興未艾時,一款文字轉(zhuǎn)語音(Text-To-Speech, TTS)的AI工具——ElevenLabsa面世,再次帶來了新的震撼:僅需30秒到5分鐘左右的極少的數(shù)據(jù)集,就可以直接克隆任何一個人的聲音,完美復(fù)刻他(她)的說話方式、音色,甚至連他(她)的情緒都能復(fù)刻。最先進(jìn)之處在于,操作者不需要再額外進(jìn)行任何操作,就可以直接用同樣的聲音,流暢地說出數(shù)十國的語言。
傳統(tǒng)的語音合成多采用參數(shù)合成或拼接合成方法,依賴大量人工調(diào)校和語料積累,其生成的聲音在自然度、情感表現(xiàn)力上都難以與人聲相媲美。ElevenLabs開創(chuàng)的“端到端”語音合成范式,標(biāo)志著智能語音技術(shù)的革命性突破。
(一) ElevenLabs的技術(shù)創(chuàng)新
ElevenLabs的AI模型能夠直接建模原始語音信號,通過海量真實(shí)語音數(shù)據(jù)的自主學(xué)習(xí),掌握語音合成的內(nèi)在規(guī)律。[2]其突出優(yōu)勢體現(xiàn)在以下幾個方面:
首先,ElevenLabs率先實(shí)現(xiàn)了真正意義上的“端到端”語音合成。b有別于傳統(tǒng)的聲學(xué)特征抽取、中間表征映射等繁復(fù)步驟,其AI模型直接對原始語音信號進(jìn)行神經(jīng)網(wǎng)絡(luò)建模,并通過“端到端”的生成式對抗網(wǎng)絡(luò)(GAN)進(jìn)行模型優(yōu)化,最終實(shí)現(xiàn)從原始語音到合成語音的直接轉(zhuǎn)換。這不僅大幅提升了訓(xùn)練和生成效率,也讓合成語音更加貼近人聲?!岸说蕉恕狈妒降耐黄菩砸饬x不僅在于簡化了語音合成流程,更在于開辟了一條全新的技術(shù)路線,為下一代語音合成系統(tǒng)的發(fā)展指明了方向。
其次,ElevenLabs的合成語音在韻律、情感等細(xì)微特征的表現(xiàn)力上實(shí)現(xiàn)了質(zhì)的飛躍。傳統(tǒng)語音合成往往需要海量的專業(yè)錄音語料庫,才能在情感表達(dá)上取得有限的突破。而ElevenLabs借助深度學(xué)習(xí)技術(shù),通過對海量真實(shí)語音數(shù)據(jù)的挖掘,充分學(xué)習(xí)了語音韻律、停頓、語氣等表征人類情感的關(guān)鍵特征。此外,其獨(dú)創(chuàng)的情感編碼模塊,可以根據(jù)文本情感和說話人特征,自動推斷合成語音的情感狀態(tài),并進(jìn)行實(shí)時調(diào)整。由此,其合成語音不再是冷冰冰的“機(jī)器音”,而是一種飽含情感、栩栩如生的“類人聲”。
再次,ElevenLabs開創(chuàng)性地實(shí)現(xiàn)了語音的“few-shot learning”(少樣本學(xué)習(xí))。得益于其AI模型卓越的遷移學(xué)習(xí)能力,用戶只需提供幾分鐘的目標(biāo)音色樣本,即可快速訓(xùn)練出一個與原聲難以區(qū)分的定制化語音。這種能力過去被視為語音合成的“終極挑戰(zhàn)”,如今卻被ElevenLabs輕松攻克。由此,個性化AI語音的生成門檻被大幅拉低,為亞馬遜的Alexa、蘋果的Siri等智能語音助手的全面升級鋪平了道路。c
(二) ElevenLabs的應(yīng)用前景與行業(yè)變革
可以預(yù)見,ElevenLabs引領(lǐng)的技術(shù)變革必將掀起智能語音應(yīng)用的新一輪革命浪潮。
高度擬真的語音克隆技術(shù),為語音產(chǎn)業(yè)帶來了空前的可能。從有聲讀物、游戲配音、語音導(dǎo)航到虛擬偶像,ElevenLabs等智能語音系統(tǒng)的問世昭示著人工智能正加速滲透內(nèi)容生產(chǎn)的各個領(lǐng)域。尤其是其逼真的音色模擬以及音頻內(nèi)容的實(shí)時生成能力,不啻為聲音藝術(shù)注入了新的活力。譬如,在廣播劇創(chuàng)作中,AI配音的介入既能極大地提升制作效率,又能通過海量音色庫催生更多個性化的人物形象。再如,在有聲讀物領(lǐng)域,ElevenLabs不僅能還原名人原聲,還可為普通大眾定制“私人專屬”的聲音助手。種種技術(shù)紅利的持續(xù)釋放,無疑將助推泛語音產(chǎn)業(yè)迎來井噴式的發(fā)展。
高度擬真的語音克隆技術(shù),為情感互動帶來了空前的可能。更多個性化的聲音形象有望脫穎而出,與用戶建立更加情感化的聯(lián)結(jié)。另一方面,類人的AI之聲與情感計(jì)算、心理分析技術(shù)的結(jié)合,也將催生出虛擬心理咨詢師、智能語音社交等一系列功能性和情感性俱佳的創(chuàng)新應(yīng)用,由此開啟人機(jī)混生的嶄新圖景。
高度擬真的語音克隆技術(shù),更為社會生活領(lǐng)域帶來了空前的可能。在教育領(lǐng)域,聲音技術(shù)為個性化學(xué)習(xí)提供了有力支持。例如,針對有閱讀障礙的學(xué)生,通過調(diào)整語音速度、語調(diào)及添加語義強(qiáng)調(diào)等方式,能幫助他們更好地理解學(xué)習(xí)內(nèi)容。一些在線學(xué)習(xí)平臺利用聲音合成技術(shù),為這類學(xué)生定制專屬的有聲學(xué)習(xí)資料,大大提高了他們的學(xué)習(xí)效果。實(shí)證研究表明,使用語音合成輔助學(xué)習(xí)工具的學(xué)生,語言學(xué)習(xí)成績平均提高10—15分(滿分為100分)。[3]在語言學(xué)習(xí)方面,模擬真實(shí)語境下的多語種語音對話,為學(xué)生提供沉浸式語言學(xué)習(xí)環(huán)境,能有效提升語言聽說能力。在醫(yī)療保健領(lǐng)域,聲音技術(shù)同樣發(fā)揮著重要作用。對于視障人群,高質(zhì)量的語音合成技術(shù)將文字信息轉(zhuǎn)化為清晰、自然的語音,使他們能夠無障礙獲取醫(yī)療資訊、健康科普等內(nèi)容。在康復(fù)訓(xùn)練中,定制化的語音引導(dǎo)被應(yīng)用于語言康復(fù)訓(xùn)練,通過精準(zhǔn)控制語音節(jié)奏、音高和音量,輔助患者進(jìn)行發(fā)音矯正與語言功能恢復(fù)。[4]聲音技術(shù)的融入不再僅僅是簡單的功能補(bǔ)充,還彰顯了深刻的人文內(nèi)涵和對社會公平正義的切實(shí)探索。
與此同時,ElevenLabs開啟的語音合成技術(shù)變革,也為人工智能產(chǎn)業(yè)生態(tài)和社會形態(tài)圖景的深刻重塑埋下了伏筆。當(dāng)下,以O(shè)penAI、DeepMind為代表的科技巨頭正憑借算法和算力優(yōu)勢,力圖主導(dǎo)通用人工智能的發(fā)展方向。而ElevenLabs在智能語音合成領(lǐng)域的突破性進(jìn)展,無疑為這場人工智能競賽再添一把火??梢灶A(yù)見,谷歌、微軟、蘋果等科技巨頭勢必將語音合成視為人工智能布局的戰(zhàn)略高地,由此加劇行業(yè)競爭的復(fù)雜性。ElevenLabs的開放平臺戰(zhàn)略,為全球開發(fā)者參與語音模型的開發(fā)、優(yōu)化、商業(yè)化提供了機(jī)會,但能否撼動寡頭壟斷的局面還有待觀察。隨著技術(shù)創(chuàng)新加速演進(jìn),智能語音行業(yè)的格局想必還將出現(xiàn)新的變數(shù)。
進(jìn)而言之,ElevenLabs開創(chuàng)的語音合成新范式既為人機(jī)協(xié)同、產(chǎn)業(yè)創(chuàng)新、社會進(jìn)步開啟了想象空間,也對人類主體性、文化認(rèn)同、公共生活帶來新的挑戰(zhàn)。
二、數(shù)字時代“語音身份”的重塑及其挑戰(zhàn)
在人類文明的長河中,聲音始終以一種獨(dú)特的方式印刻著個體存在的痕跡。先秦那一枚枚按壓在竹簡木牘上的手印,見證了古人對生物特征與身份認(rèn)同關(guān)系的深刻理解。其實(shí),在漫長的歷史進(jìn)程里,聲音,這個看似易逝卻又深深嵌入人類記憶的存在,承載了比指紋更為豐富的意涵。隨著以ElevenLabs為代表的智能語音技術(shù)的飛速發(fā)展,個體“語音身份”的建構(gòu)方式正面臨前所未有的重塑。
(一)聲紋作為“語音身份”的標(biāo)識曾具有獨(dú)一無二的價值
語音的獨(dú)特性深深植根于其生理基礎(chǔ)之上。從人類發(fā)聲機(jī)制來看,聲帶作為發(fā)聲的核心器官,其長度、厚度以及緊張度的個體差異構(gòu)成了聲音獨(dú)特性的物理基礎(chǔ)。
進(jìn)而言之,這種差異不僅體現(xiàn)在聲帶的物理屬性上,更反映在整個發(fā)聲系統(tǒng)的協(xié)同運(yùn)作中,這一組合既復(fù)雜又穩(wěn)定,形成了各自獨(dú)特的節(jié)奏韻律和音高變化。這些聲學(xué)特征相互交織,形成了如同指紋般獨(dú)一無二的聲紋模式,為個體身份的精準(zhǔn)識別提供了可靠的聲學(xué)標(biāo)識。正是這種聲學(xué)特征的多維組合,使聲紋在身份識別領(lǐng)域具有獨(dú)特的應(yīng)用價值,由此形成了習(xí)焉不察但極其重要的“語音身份”建構(gòu)問題。
“你是誰,你從哪兒來,你到哪兒去”,這一“門衛(wèi)問題”,也就是“身份問題”,向來被認(rèn)為是人類社會生活最重要的問題。所謂“身份”(identity),“通常指的是一個人或?qū)嶓w的獨(dú)特特征、特性或?qū)傩?,用來識別和區(qū)分這個人或?qū)嶓w。身份可以包括個體的姓名、性別、年齡、民族、國籍、職業(yè)、文化背景、宗教信仰、性取向等各種方面”[5]。“語音身份”,指的就是特定個體借助語音而構(gòu)建出的主體地位。
“語音身份”絕非單一要素的線性組合,而是多重因素矛盾運(yùn)動的復(fù)雜系統(tǒng),是個體將生理稟賦、心理特質(zhì)、社會屬性、文化認(rèn)同等多重因素物化于語音形態(tài),并在傳播互動中獲得主體性確認(rèn)的動態(tài)過程。作為人之為社會存在物的基本標(biāo)識,“語音身份”的建構(gòu)有如下意義:一是語音的生理屬性,包括發(fā)聲器官結(jié)構(gòu)、基頻范圍等決定音色的先天稟賦;二是語音的心理特質(zhì),包括表達(dá)意圖、情感態(tài)度等影響語音韻律的主觀因素;三是語音的社會指認(rèn),包括階層、地域、種族、性別、職業(yè)等影響語音形態(tài)的社會身份;四是語音的文化內(nèi)涵,包括時代主流審美、意識形態(tài)話語等對語音風(fēng)格的規(guī)訓(xùn)機(jī)制。諸如20世紀(jì)20年代北京出現(xiàn)的“女國音”、西方社會語言學(xué)者討論的“女性語體的聲音表征”等,不僅意味著某種語音上的聲學(xué)特征,更意味著一定社會身份的建構(gòu)。
在漫長的歷史演化中,“人發(fā)其音”“聽音識人”早已深刻地融入人類的認(rèn)知模式,以至于形成了一種比政治身份、文化身份、經(jīng)濟(jì)身份等更隱蔽卻更深刻的身份標(biāo)記,從而支配著我們的行動與認(rèn)知。
(二)數(shù)字聲音正對“語音身份”造成空前的解構(gòu)
ElevenLabs的崛起正從根本上解構(gòu)“語音身份”的傳統(tǒng)建構(gòu)邏輯,并重塑個體認(rèn)同的話語圖景。
數(shù)字聲音的發(fā)展直接威脅著“公眾人物”語音身份的維護(hù)。無論播音主持、影視演員、社會名流還是政治領(lǐng)袖,都具有特定的語音身份,這一身份不僅意味著一種“主體建構(gòu)”的過程,更意味著一種特定權(quán)力。[6]ElevenLabs開創(chuàng)的超寫實(shí)語音克隆技術(shù),使個人專屬的語音特征,如聲紋、音色、腔調(diào)等生物識別信息,變得前所未有地易于模仿。這固然為普通用戶打開了扮演他者的想象空間,卻也讓公眾人物產(chǎn)生了語音身份被盜用的焦慮。聲音的唯一性是個體同一性得以確立的重要前提,然而語音克隆卻讓這種獨(dú)特性蕩然無存。當(dāng)一個人的聲音可以被任意復(fù)制,其身份認(rèn)同所依賴的穩(wěn)定性無疑遭遇了解構(gòu)。[7]尤其是對公眾人物而言,當(dāng)你的魅力元素可以不受控制地被無限復(fù)制,你還能宣稱擁有一個穩(wěn)固的“公共形象”嗎?
進(jìn)而言之,ElevenLabs引領(lǐng)的高度擬真語音合成浪潮,還從更深層次上動搖了幾乎所有個體語音身份認(rèn)同的根基。在算法賦能下,虛擬人聲不但在音色、語調(diào)等表層特征上亂真,更在情感、個性等深層風(fēng)格上實(shí)現(xiàn)了以假亂真。這意味著,當(dāng)下個體語音身份所依賴的差異性正面臨消解的危機(jī)。倘若人人都能模仿他人之聲,誰還能說自己擁有獨(dú)一無二的嗓音?當(dāng)個體難以用穩(wěn)定一致的聲音特征彰顯自我,語音難道不是淪為了可以被無限篡改的符號游戲?可以想見,當(dāng)社會語音差異被數(shù)字技術(shù)抹平,個體語音身份歸屬感將日益模糊。
更令人警醒的是,商業(yè)化驅(qū)動下大行其道的數(shù)字虛擬人設(shè),亦將“造音”技術(shù)的身份雜糅效應(yīng)推向極致。當(dāng)虛擬偶像大行其道,其高度擬真、極富感染力的聲音背后,究竟映射的是誰的情感,塑造的又是什么樣的人設(shè)?在人格面具的無限疊加中,個體的自我何以安放?這一切都預(yù)示著,當(dāng)算法掌控了語音生產(chǎn)的話語權(quán),個體語音身份認(rèn)同的主體性將面臨全面瓦解。
三、數(shù)字時代“語音秩序”的崩潰與重構(gòu)
身份的本質(zhì)不僅是個體主體性的建構(gòu)過程,更是“社會秩序”的建構(gòu)過程?!罢Z音身份”同樣如此,它不僅意味著某個個體的聲音特征和主體地位的建構(gòu),更意味著由此而來的“語音秩序”的崩潰與重構(gòu)。
任何社會的正常運(yùn)行都會體現(xiàn)為一定的秩序,所謂“語音秩序”(speech order)是指人類通過語音交互所形成的社會性規(guī)則與結(jié)構(gòu)系統(tǒng),旨在協(xié)調(diào)語音行為、維護(hù)溝通效率、保障信息傳遞、確保個體與群體在語言交流中的權(quán)益平衡。其核心是通過技術(shù)規(guī)范、社會倫理、文化共識和法律約束,對語音的產(chǎn)生、傳播、接收及反饋進(jìn)行系統(tǒng)性管理。這不僅意味著當(dāng)代語音技術(shù)(如語音識別、合成、存儲)普及帶來的新型社會關(guān)系與矛盾,更意味著一種基于歷史形成的相對穩(wěn)定的語音實(shí)踐模式。它規(guī)定了在特定社會中什么樣的語音形式被視為合法、正當(dāng)和規(guī)范,由此形塑了社會成員的日常語音互動方式,影響著語音資源的社會分配,旨在揭示語音實(shí)踐如何受到社會結(jié)構(gòu)、權(quán)力關(guān)系、意識形態(tài)等因素的制約,進(jìn)而再生成特定的社會秩序。
“語音秩序”可以被視為一種社會話語秩序的體現(xiàn),它通過語音、語體和風(fēng)格來實(shí)現(xiàn)對社會秩序的表達(dá)。在語言學(xué)層面,“語音秩序”強(qiáng)調(diào)語音的標(biāo)準(zhǔn)化和規(guī)范性,例如語音的發(fā)音、語調(diào)等方面的統(tǒng)一性;在社會文化層面,“語音秩序”反映了語音在社會互動中的功能,如身份標(biāo)識、文化傳播、社會認(rèn)同等;在技術(shù)層面,“語音秩序”涉及語音技術(shù)的應(yīng)用、語音數(shù)據(jù)的管理和隱私保護(hù)等。
(一)“語音秩序”的社會認(rèn)知圖式變化
在社會認(rèn)知領(lǐng)域,聲音不僅是一種物理聲學(xué)信號,更是個體身份在社會互動中的重要象征。從心理學(xué)角度而言,個體對聲音的感知與識別,是基于長期的社會學(xué)習(xí)和記憶形成的。在日常社會交往中,人們通過聲音所傳達(dá)的信息,如語調(diào)、語氣、方言特征等,構(gòu)建起對他人身份、性格、社會角色等方面的認(rèn)知圖式。
從社會建構(gòu)論的視角審視,個體“語音身份”的形塑,本質(zhì)上是自我建構(gòu)和社會指認(rèn)的動態(tài)過程。身份建構(gòu)既是個體通過話語表達(dá)傳遞自我、獲得認(rèn)同的過程,也是社會集體通過語言符號將個體納入特定群體的“歸類”過程。換言之,個體語音身份的同一性,既取決于自我聲音表達(dá)的連貫性,也受制于社會評價體系的一致性。[8]然而,ElevenLabs重塑的數(shù)字語音景觀卻從兩個方面加劇了這一身份認(rèn)同的不確定性。一方面,數(shù)字語音時代自我表達(dá)方式的革新,客觀上加劇了語音身份認(rèn)同的“去中心化”傾向。互聯(lián)網(wǎng)語音社區(qū)的興起,使個體獲得了更多借助聲音展演自我的機(jī)會。語音身份建構(gòu)空間不再局限于現(xiàn)實(shí)社會情境,虛擬人聲的生成、傳播、消費(fèi)成為身份認(rèn)同新的主戰(zhàn)場。然而,數(shù)字語音空間的匿名性、片段化、非線性等特點(diǎn),卻讓個體語音表達(dá)趨于碎片化。自我話語實(shí)踐的非連續(xù)性,動搖了傳統(tǒng)意義上語音身份的同一性基礎(chǔ)。[9]另一方面,個性化AI合成語音的廣泛傳播,也使社會對個體語音身份的評判標(biāo)準(zhǔn)愈發(fā)失范。在數(shù)字時代,傳統(tǒng)聲音評價體系被算法推薦、流量邏輯所綁架,個體語音身份的社會認(rèn)可度很大程度上取決于其能否迎合主流審美趣味。信息繭房中,同質(zhì)聲音不斷自我強(qiáng)化,異質(zhì)聲音則面臨邊緣化威脅。于是,社會對個體語音身份的風(fēng)格期待也愈發(fā)單一化。非主流語音腔調(diào)、草根口音風(fēng)格,其合法性地位往往受到質(zhì)疑和排斥。
可見,數(shù)字語音語境下,個體語音身份認(rèn)同正遭遇“雙向失范”:既面臨自我話語建構(gòu)連貫性的失序,又面臨社會評判體系一致性的潰散。傳統(tǒng)身份認(rèn)同所賴以建立的互動儀式,在算法霸權(quán)的侵蝕下正土崩瓦解。
(二)“語音秩序”的社會信任機(jī)制變化
在家庭場域,聲音歷來維系著親密信任:從發(fā)展心理學(xué)的視角看,個體在家庭環(huán)境中通過長期的互動與情感交流,對家庭成員的聲音形成了高度敏感的識別能力。這種識別能力不僅基于聲學(xué)特征的記憶,更與情感依戀緊密相連。例如,嬰兒在早期發(fā)育階段,便能通過母親的聲音獲得安全感和情感滿足,母親的聲音成為嬰兒認(rèn)知世界和建立情感聯(lián)系的重要媒介。隨著個體成長,家庭成員之間通過聲音傳遞的情感信息、情緒狀態(tài)以及言語習(xí)慣,進(jìn)一步強(qiáng)化了彼此之間的信任關(guān)系。神經(jīng)科學(xué)研究表明,大腦在處理家庭成員聲音時,會激活與情感加工、記憶相關(guān)的腦區(qū),如杏仁核、海馬體等,這從神經(jīng)生物學(xué)層面解釋了家庭中基于聲音的親密信任的形成機(jī)制。家庭作為社會結(jié)構(gòu)的基本單元,是聲音信任機(jī)制形成的核心場域。
在社區(qū)環(huán)境,聲音歷來構(gòu)筑著社交信賴:在傳統(tǒng)社區(qū)環(huán)境中,聲音成為構(gòu)建社交信賴關(guān)系的重要紐帶。社區(qū)作為一個地域性生活共同體,居民之間頻繁的日?;邮孤曇舫蔀楸舜俗R別與信任的重要標(biāo)識。社區(qū)成員通過聲音建立起一種基于地域文化和生活實(shí)踐的社交網(wǎng)絡(luò)。例如,鄉(xiāng)村社區(qū)中,村民們獨(dú)特的打招呼方式、方言口音以及在田間地頭、鄰里聚會中形成的聲音交流模式,構(gòu)成了社區(qū)內(nèi)部獨(dú)特的聲音景觀。這種聲音景觀不僅是社區(qū)文化的重要組成部分,更是社區(qū)成員相互識別、信任與合作的基礎(chǔ)。通過聲音,社區(qū)成員能夠快速確認(rèn)彼此身份,分享信息,解決生活中的問題,從而增強(qiáng)社區(qū)的凝聚力和穩(wěn)定性。這種基于聲音的社交信賴,是社區(qū)社會資本積累的重要方式,對社區(qū)的持續(xù)發(fā)展具有深遠(yuǎn)影響。
在行業(yè)領(lǐng)域,聲音歷來凝聚著職業(yè)認(rèn)同:在特定行業(yè)領(lǐng)域,聲音在職業(yè)認(rèn)同的形成與維系中發(fā)揮著關(guān)鍵作用。不同行業(yè)常常具有不同的聲音文化和交流模式,這些聲音特征成為從業(yè)者身份認(rèn)同的重要組成部分。例如,在音樂演奏行業(yè),音樂家們通過獨(dú)特的演奏風(fēng)格、音色控制以及對音樂作品的個性化詮釋,形成了各自獨(dú)特的聲音標(biāo)識。這種聲音標(biāo)識不僅是音樂家專業(yè)能力的體現(xiàn),更是他們在行業(yè)內(nèi)獲得認(rèn)可和身份認(rèn)同的重要依據(jù)。
但是,隨著數(shù)字聲音的快速發(fā)展,從家庭到社區(qū)到行業(yè),傳統(tǒng)的語音信任機(jī)制正在遭遇越來越多的挑戰(zhàn):社交媒體上虛假聲音的泛濫、金融領(lǐng)域中聲紋欺詐的蔓延、司法實(shí)踐中聲紋證據(jù)的失信,無不預(yù)示著一個建立在聲音真實(shí)性基礎(chǔ)上的“社會語音秩序”正在發(fā)生根本性動搖。
(三)“語音秩序”的聲音生產(chǎn)權(quán)力轉(zhuǎn)移
在傳統(tǒng)聲音生產(chǎn)的特定場域內(nèi),專業(yè)技術(shù)與專業(yè)設(shè)備共同構(gòu)建起一道幾乎難以跨越的屏障。這一技術(shù)壁壘不僅塑造了特定的生產(chǎn)關(guān)系,更在深層次上維持著一種文化權(quán)力的等級秩序。
在過去,聲音生產(chǎn)往往被專業(yè)的廣播電臺、錄音工作室等機(jī)構(gòu)所掌控,普通個體由于缺乏專業(yè)知識和昂貴的設(shè)備,很難涉足其中。然而,數(shù)字技術(shù)的強(qiáng)勢介入正逐漸改變這一局面。以ElevenLabs為代表的創(chuàng)新平臺,通過將復(fù)雜的聲音生產(chǎn)流程簡化為直觀的文本輸入方式,不僅帶來技術(shù)操作上的簡便化,更關(guān)鍵的是引發(fā)了文化生產(chǎn)權(quán)力的重新分配。ElevenLabs的用戶界面設(shè)計(jì)極為友好,即使是毫無音頻制作經(jīng)驗(yàn)的普通創(chuàng)作者,也能通過簡單的文本輸入,快速生成高質(zhì)量的語音內(nèi)容,無須再為復(fù)雜的音頻編輯技巧和聲學(xué)知識所困擾。這種轉(zhuǎn)變的意義絕不僅僅體現(xiàn)在效率提升。從本質(zhì)上講,它重新定義了數(shù)字時代文化生產(chǎn)的主體特性。以往,普通個體多為聲音文化的被動接收者,僅能消費(fèi)專業(yè)機(jī)構(gòu)產(chǎn)出的聲音內(nèi)容。如今,他們正轉(zhuǎn)變?yōu)榉e極的創(chuàng)作者,得以依據(jù)自身意愿創(chuàng)作并傳播聲音作品。
在算法賦能的新型聲音生產(chǎn)環(huán)境中,個性化定制能力的顯著提升,絕非一般意義上的技術(shù)進(jìn)步,而是預(yù)示著一種全新文化生產(chǎn)范式的誕生。這種范式的獨(dú)特之處,不僅體現(xiàn)在對音色、語調(diào)、語速等聲音的物理屬性的精準(zhǔn)把控上,更深刻地體現(xiàn)在它為文化表達(dá)開拓了嶄新的維度。當(dāng)聲音內(nèi)容借助先進(jìn)技術(shù)突破語言的限制,在不同文化語境中自由轉(zhuǎn)換時,一種前所未有的文化交流景象正逐步呈現(xiàn)。這不僅僅意味著傳播范圍的擴(kuò)大,更是對傳統(tǒng)文化傳播秩序的根本性重塑。以ElevenLabs強(qiáng)大的多語言合成功能為例,它支持三十多種語言和五十多種口音的合成,創(chuàng)作者可以輕松地將自己的作品轉(zhuǎn)化為多種語言版本。比如一部具有中國傳統(tǒng)文化特色的有聲故事,通過ElevenLabs的技術(shù),能迅速被翻譯成英語、西班牙語、阿拉伯語等多種語言,讓全球不同地區(qū)的聽眾都能領(lǐng)略到中國文化的獨(dú)特魅力。在這個過程中,聲音技術(shù)的創(chuàng)新實(shí)際上開啟了一種全新的文化生產(chǎn)與傳播模式,使各種文化都有機(jī)會在全球舞臺上展示自身特色,促進(jìn)了多元文化的共生與交流。
在這樣的技術(shù)圖景下,我們不禁要問:當(dāng)聲音不再是個體獨(dú)特性的可靠標(biāo)識,人類社會賴以維系的信任基礎(chǔ)將走向何方?當(dāng)算法可以完美復(fù)制每個人的聲音,我們是否正在進(jìn)入一個聲音身份加速解構(gòu)的時代?這些問題,不僅折射出技術(shù)進(jìn)步與人文傳統(tǒng)的深層沖突,更關(guān)乎人類社會最基本的信任機(jī)制與文化認(rèn)同的重構(gòu)。
四、數(shù)字聲音景觀重構(gòu)中的風(fēng)險與危機(jī)
在ElevenLabs引領(lǐng)的數(shù)字化聲音景觀重構(gòu)中,傳統(tǒng)“社會語音秩序”正在被顛覆,而一系列風(fēng)險與危機(jī)也在慢慢凸顯。
(一)語音身份多變與身份識別困境
聲紋是每個人與生俱來的獨(dú)特“身份證”。它攜帶著個體的生理特征、性格氣質(zhì)、文化背景等多重信息,是人格同一性的重要體現(xiàn)。從社會學(xué)角度看,語音身份是自我認(rèn)同與他者認(rèn)同的統(tǒng)一。個體通過言說塑造自我,用聲音傳遞個性,彰顯存在。社會則以聲紋為線索,將個體身份歸類、定位,形成秩序化的人際網(wǎng)絡(luò)。可以說,語音同時承載了個人與群體的雙重身份屬性。這種獨(dú)特性一旦被打破,便給身份識別帶來空前的困境。
ElevenLabs等AI企業(yè)推出的聲音克隆服務(wù),既能輕易復(fù)制他人聲紋,生成以假亂真的語音,又能生成某種特定條件的語音,由此,制造出一個又一個“數(shù)字語音分身”,幫助不同的主體在線發(fā)聲、參與內(nèi)容創(chuàng)作。不過,語音AI民主化在賦能大眾創(chuàng)造力的同時,也引發(fā)了諸多隱憂。例如,他人聲音數(shù)據(jù)的采集是否侵犯他人隱私?虛擬人聲的版權(quán)歸誰所有?……
進(jìn)而言之,擬人化、個性化、情感化的AI之聲,也將深刻影響人們的社會交往方式和文化心理。[10]倘若智能音箱、虛擬助手成為人們傾訴衷腸的對象,傳統(tǒng)人際交往的空間勢必會被虛擬互動所侵蝕。當(dāng)算法成為情感慰藉的供給者時,人的尊嚴(yán)能否在人機(jī)共生的語境下獲得新的詮釋同樣值得思考。更進(jìn)一步講,個性化合成語音對公共話語生態(tài)的影響也不容忽視。
(二)語音身份盜用與社會信任危機(jī)
語音身份識別的困難導(dǎo)致語音身份的盜用難以避免。而一旦某人的聲音被惡意克隆,其言論遭到隨意篡改,社會公眾難免對“耳聞”產(chǎn)生懷疑。尤其在當(dāng)下后真相語境下,公眾人物的演講可以被隨意篡改,權(quán)威人士的言論可能被肆意偽造,政客的公信力和企業(yè)高管的聲譽(yù)都將面臨危機(jī),“我聽到的未必是真相”恐怕將成為常態(tài)思維。人們對聲音真實(shí)性的信任危機(jī)一旦全面爆發(fā),對以音頻形式呈現(xiàn)的各類傳媒內(nèi)容的信賴度勢必大打折扣。長此以往,公信力和社會資本的流失將不可避免,人工智能生成虛假信息所導(dǎo)致的危害將是破壞性的、難以彌補(bǔ)的。這絕不僅僅是一個技術(shù)問題,更是一個關(guān)乎人類未來命運(yùn)的社會問題。
(三)數(shù)字語音規(guī)訓(xùn)與意識形態(tài)操控
ElevenLabs預(yù)示的智能語音時代,可能帶來數(shù)字聲音規(guī)范對公眾話語生態(tài)的隱性規(guī)訓(xùn)。
具體而言,當(dāng)算法推薦、智能音箱等成為主導(dǎo)個體語音消費(fèi)的核心機(jī)制,它們必然會形塑特定的語音風(fēng)格偏好。ElevenLabs重塑的數(shù)字人聲音景觀,從話語互動層面加劇了群體語音風(fēng)格的同質(zhì)化傾向。長此以往,迎合算法口味的語音腔調(diào)將獲得更多流量,進(jìn)而主導(dǎo)數(shù)字語音市場。與之相對,非主流語音風(fēng)格,如方言口音、草根腔調(diào)等,其地位則可能日益邊緣化。這種算法霸權(quán)導(dǎo)致的話語生態(tài)失衡,很可能將加劇語音表達(dá)的數(shù)字鴻溝。處于弱勢地位的語音群體,如底層勞動者、邊緣族裔等,其聲音訴求更難獲得公平對待。而這種以技術(shù)之名進(jìn)行的意識形態(tài)規(guī)訓(xùn),其隱蔽性和滲透性遠(yuǎn)甚于傳統(tǒng)話語管制。
算法推薦和同質(zhì)化傳播,使個體更多地接觸到與自身(喜好的)語音風(fēng)格相近的聲音內(nèi)容,久而久之便形成了同質(zhì)化的語音認(rèn)同群體“信息繭房”。在“回音室”效應(yīng)的強(qiáng)化下,群體語音身份認(rèn)同愈發(fā)封閉,彼此對立的語音腔調(diào)、話語風(fēng)格被放大,甚至極端化。于是,原本流動的群體語音界線被固化,族群對立情緒在同質(zhì)化聲音圖景中被推向極端。
進(jìn)而言之,當(dāng)語音造假以“歷史錄音材料”的身份出現(xiàn),更可能淪為意識形態(tài)斗爭的助推器。人聲經(jīng)由算法重組、拼貼乃至虛構(gòu),不啻為集體記憶抹去歷史經(jīng)驗(yàn)的根基??梢灶A(yù)見,借助ElevenLabs的造假能力,不同陣營制造并傳播有利于己方、攻擊對方的虛假語音將變得更加便捷。于是,“他們”塑造的形象被妖魔化,“我們”捍衛(wèi)的價值被神圣化。歷史真相的泯滅將為新一輪的話語博弈埋下隱患。
(四)虛假語音煽動與社會沖突威脅
ElevenLabs釋放的高度擬真、富有感染力的虛擬人聲,也可能成為政治沖突的助燃劑。
政客可能利用智能語音轟炸式傳播片面言論,操縱民意;不法分子可能利用智能語音系統(tǒng)批量制造深度偽造(deepfake)音頻,配合社交機(jī)器人傳播虛假信息,甚至操縱金融市場、干預(yù)選舉過程;極端政治團(tuán)體可能利用ElevenLabs的音頻生成能力,批量制造煽動性的民粹主義、種族主義爭議言論,社會語音生態(tài)的健康發(fā)展將面臨巨大挑戰(zhàn)。
更值得警惕的是,政客還可能利用智能語音偽造各種“語音事件”,挑起沖突,如偽造對方陣營代表性人物的荒謬“發(fā)言”、私下“交談”來刺激社會公眾。而語音這一富于感染力的媒介本就更易引發(fā)群體的情緒共振,一段精心編造的爭議性言論,往往比書面語言更能調(diào)動起人們的斗志。當(dāng)煽動性的音頻材料充斥于各路陣營的信息流中,群情激憤幾乎在所難免。如此,原本就勢同水火的對立方很可能進(jìn)一步激化矛盾,導(dǎo)致街頭政治的泛濫,引發(fā)暴力沖突。
隨著人工智能向通用智能邁進(jìn)的腳步日益堅(jiān)定,以ElevenLabs為代表的語音合成技術(shù)已然成為重塑歷史話語權(quán)的新型力量。當(dāng)AI工具將個體的聲音完美模仿、克隆乃至篡改,智能影像制造導(dǎo)致的“信息的扭曲和偽造問題,或?qū)⑸鐣葡蛘畏欠€(wěn)態(tài)”[11]。
由此,數(shù)字語音技術(shù)如何撬動未來政治版圖的棋局,或許正是AI治理需要直面的終極拷問。
總之,隨著ElevenLabs等智能語音系統(tǒng)的崛起,人類社會正加速邁入一個“語音造夢”的新時代。這場由人工智能引領(lǐng)的聲音革命在提供豐富的創(chuàng)意和表達(dá)可能的同時,其潛在的破壞力也令人生畏。當(dāng)虛擬人聲難辨真?zhèn)?,?dāng)語音記憶面臨解構(gòu),我們究竟該如何守護(hù)聲音世界的真善美?這一命題不僅事關(guān)人機(jī)關(guān)系的重塑,更折射出人文精神在智能革命年代的尊嚴(yán)訴求。只有捍衛(wèi)聲音真實(shí)的尊嚴(yán)、呼喚理性治理的自覺,我們方能在樂音喧囂中不失詩意棲居的方向,進(jìn)而揚(yáng)帆駛向人與技術(shù)和諧共生、多元共榮的未來之境。如何以科技向善、數(shù)字向美的姿態(tài)擁抱新的數(shù)字景觀,考驗(yàn)的正是每一個理性公民的智慧與勇氣。[12]
參考文獻(xiàn):
[1]吳冠軍,趙憲章. Sora:從技術(shù)哲學(xué)到文藝學(xué)的思考[J].文化藝術(shù)研究,2024(1).
[2]Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning[M]. Cambridge: The MIT Press, 2016. 200-400.
[3]Black, A., S. Gray, and Brown, T. \"The Impact of AI-Generated Speech in Language Learning\" [J]. Journal of Educational Technology, 2023(3).
[4]Clark, M., and R. Turner. \"Using Speech Synthesis in Rehabilitation Therapy\" [J]. Rehabilitation Medicine Journal, 2022(2).
[5]胡范鑄.元主體、社會身份、情景角色:言語主體范疇的重新分析[J].復(fù)旦學(xué)報(社會科學(xué)版),2024(3).
[6]胡范鑄.我的“新修辭學(xué)”研究四十年[J].中國語言戰(zhàn)略,2024(2).
[7]Giddens, Anthony. Modernity and Self-Identity: Self and Society in the Late Modern Age[M]. Redwood City: Stanford University Press, 1991. 264.
[8]彭增安.語言與社會身份[M]. 上海:上海外語教育出版社,2020:120-130.
[9]朱明.媒介賦權(quán)下群體自我身份認(rèn)同建構(gòu)分析[J]. 聲屏世界,2025(2).
[10]羅昕,楊心玥.演進(jìn)中的數(shù)字身份:交往特征與風(fēng)險治理[J].青年記者,2024(4).
[11]高奇琦,臺潤澤.基于世界模擬的政治非穩(wěn)態(tài):Sora的智能影像生成與歷史重塑[J].新疆師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版). 2025(2).
[12]胡范鑄,胡亦名.“數(shù)字孤獨(dú)”:數(shù)字景觀中空間認(rèn)同的斷裂及主體的異化[J].現(xiàn)代出版,2024(3).
(責(zé)任編輯:馮靜芳)
a 加拿大AI公司ElevenLabs開發(fā)的情感語音合成系統(tǒng),利用深度學(xué)習(xí)算法,通過海量語音數(shù)據(jù)的訓(xùn)練,可以高度擬真地模仿人類的語音特征、情感狀態(tài)和說話方式,為用戶提供個性化的語音合成服務(wù)。
b 參見:https://elevenlabs.io/blog/eleven-multilingual-v1/。
c 參見:https://elevenlabs.io/blog/what-is-voice-translation-and-why-does-it-matter/。