[摘要]作為人工智能(Artificial Intelligence,AI)技術(shù)在傳媒產(chǎn)業(yè)的創(chuàng)新應(yīng)用,AI主播通過各種技術(shù)手段模擬真人主播來營造身體在場的“真實”感覺。文章對AI主播的發(fā)展歷程進(jìn)行梳理,并聚焦于動力系統(tǒng)、情境認(rèn)知與認(rèn)知發(fā)展這三個與“具身性”緊密相關(guān)的維度,探討AI主播的主體性表征。隨著技術(shù)的持續(xù)賦能,如何促使AI主播的具身形態(tài)進(jìn)化為一種高度沉浸、強交互性的智能新媒介形態(tài),成為值得探索的重要課題。
[關(guān)鍵詞]人工智能時代;AI主播;具身
2022年至今,ChatGPT、Sora等生成式人工智能快速迭代。復(fù)旦大學(xué)鄧建國認(rèn)為,人工智能的發(fā)展目前呈現(xiàn)兩條日益清晰的路線,即“延展的心靈”(離身溝通型AI)和“心靈的延展”(具身溝通型AI)[1]。作為具身溝通型AI在傳媒產(chǎn)業(yè)的創(chuàng)新應(yīng)用,AI主播是基于先進(jìn)的人工智能技術(shù),通過語音合成和人臉合成等技術(shù),結(jié)合多模態(tài)信息聯(lián)合建模訓(xùn)練,最終形成的一種人工智能分身模型。AI主播通過各種技術(shù)手段模擬真實人類來營造身體在場的“真實”感覺,雖然AI主播的身體與現(xiàn)實世界的人類有所區(qū)別,但是其技術(shù)具身化本質(zhì)之下?lián)碛忻仿?龐蒂所說的主體性,這也體現(xiàn)了AI主播的多元融合特征。
一、AI主播的發(fā)展歷程
(一)誕生與早期探索階段
2001年,英國推出世界上第一個虛擬主持人“阿娜諾娃”,早期虛擬主播的特點為表情呆滯、表達(dá)機械、動作遲緩,只能夠完成最基本的語音播報。隨著深度學(xué)習(xí)技術(shù)與語音合成技術(shù)的不斷發(fā)展,AI主播開始具有擬人化的特征。2018年11月7日,全球首個智能AI主持人“新小浩”在第五屆世界互聯(lián)網(wǎng)大會上亮相。其可以根據(jù)實際需要選擇漢語或英語播報,實現(xiàn)了“聲音的文本轉(zhuǎn)化”[2]。2019年,濟南廣播電視臺與相芯科技聯(lián)合打造的虛擬主持人“小沫兒”首次亮相。這一階段的AI主播雖在形態(tài)仿真與語音合成技術(shù)的探索上已取得初步成就,但在智能化服務(wù)以及用戶互動方面,仍具有一定的局限性。
(二)互動與智能化提升階段
在本階段,人工智能技術(shù)的勃興再一次推動了AI主播的發(fā)展,為傳統(tǒng)媒體和新媒體的融合發(fā)展提供了新路徑,更智能化的AI主播成為各大媒體的新競爭領(lǐng)域。2020年5月,以新華社記者趙琬微為原型的“新小微”正式上崗,其在靈活度、可塑性、交互能力等多個方面都有大幅躍升[3]。2022年全國兩會期間,中央廣播電視總臺視聽新媒體中心推出財經(jīng)AI主播“AI王冠”,其播報語氣流暢自然,表情生動,皮膚紋理清晰,是總臺首個擁有超自然語音、超自然表情的超仿真主播[4]。AI主播具有較高的可擴展性與跨平臺兼容性,能夠在多平臺實現(xiàn)無縫部署,并通過創(chuàng)建一系列高度適配特定場景的專屬數(shù)字化身,實現(xiàn)了多元場景應(yīng)用,推動了跨媒體融合與交互體驗的深度發(fā)展。
(三)個性與定制化創(chuàng)新階段
隨著技術(shù)發(fā)展,AI主播開始具備更高級別的互動能力和智能化水平,能夠定制化生成內(nèi)容,這大幅擴展了AI主播的應(yīng)用范圍。在新興AI技術(shù)的推動下,AI主播能夠模擬更多的情感和個性化表達(dá)[5]。
從上述發(fā)展歷程可以看出,國內(nèi)AI主播的發(fā)展經(jīng)歷了從早期嘗試到技術(shù)突破,再到廣泛應(yīng)用的發(fā)展過程。隨著技術(shù)的不斷進(jìn)步和媒體行業(yè)的變革,AI主播在新聞播報、電商直播等領(lǐng)域的應(yīng)用越來越廣泛,其形象也越來越接近真人,為用戶提供了更加高效、智能和個性化的服務(wù)。
二、具身視角下AI主播的主體特征
梅洛-龐蒂指出:“通過身體,我們可以連接主體和客體。身體不是我們想知道的對象,而是我們知覺體驗的主體。”[6]其從知覺主體的角度說明了身體存在的客觀必要性。19世紀(jì)末,威廉·詹姆斯在身體與情緒的關(guān)系研究中強調(diào)了身體對心理形成的作用,打開了身體問題研究的大門,機能主義者約翰·杜威隨后將環(huán)境因素納入解釋視角,進(jìn)一步印證了身體對傳播主體存在的必要性。20世紀(jì)初,胡塞爾深化了這一觀點,闡述了身體與世界兩者關(guān)聯(lián)的意義,進(jìn)一步強化了身體的意義。唐·伊德在《技術(shù)中的身體》一書中,提出了三種“身體”[7],其中,第三種身體,媒介技術(shù)發(fā)展中一切媒介延伸出的身體具身(與技術(shù)互動的身體),是對梅洛-龐蒂提出的現(xiàn)實身體的變體和延伸,對虛擬主體和技術(shù)具身實踐有著指導(dǎo)意義。
學(xué)者李恒威和黃華新將具身性、情境認(rèn)知、認(rèn)知發(fā)展和動力系統(tǒng)認(rèn)為是“第二代認(rèn)知科學(xué)”的四個典型主張[8]。傳播學(xué)者於春則認(rèn)為,具身性是“第二代認(rèn)知科學(xué)”的核心概念,情境認(rèn)知、認(rèn)知發(fā)展和動力系統(tǒng)也都與之密切相關(guān)[9]。對AI主播的具身性,我們可以依據(jù)唐·伊德的三種“身體”理論來進(jìn)行延展解讀。AI主播的“媒介身體”與物質(zhì)身體對應(yīng),作為第一層身體含義;而人工智能技術(shù)是其具身形態(tài)的直接展現(xiàn),是其被技術(shù)構(gòu)建的身體,我們將其表述為“技術(shù)身體”,此為第二層身體含義;社會性互動是第三層身體含義,它是在與受眾的認(rèn)知、情感、行為的互動中形成的,一切AI主播的行為都直接或間接地與之相關(guān)聯(lián),所以可以將其稱為“互動身體”[10]。這也是目前學(xué)界較為常見的研究視角。但文章將聚焦于動力系統(tǒng)、情境認(rèn)知與認(rèn)知發(fā)展這三個與“具身性”緊密相關(guān)的維度,探討AI合成主播的主體性表征。
(一)AI主播的“動力系統(tǒng)”
動力系統(tǒng)理論認(rèn)為,認(rèn)知是一個系統(tǒng)的動力涌現(xiàn),同時涉及大腦、身體和世界之間的相互復(fù)雜作用,三者之間存在耦合關(guān)系,并且在事物因果關(guān)系的連接下不斷促進(jìn)整個系統(tǒng)的循環(huán)往復(fù)[11]。因此,現(xiàn)階段的AI主播被人工建構(gòu)成一個自組織且自適應(yīng)的虛擬主體。首先,AI主播呈現(xiàn)高度精準(zhǔn)的“認(rèn)知主體性”。以AI主播“新小萌”“新小浩”為例,其能夠生成與真人無異的AI分身模型。新聞生產(chǎn)者只需要輸入新聞文本,AI主播就可以模擬真人播報,并確保音頻和表情、唇動保持自然一致,具有與真人主播無異的信息傳達(dá)效果。相較于真人主播,具身化形態(tài)保障了AI主播在讀取和播報信息時的準(zhǔn)確性。其次,AI主播在傳播層面效率卓越,能全天候制作與輸出新聞,如微軟小冰在《看東方》中的應(yīng)用,不僅降低了成本,提升了效率,還豐富了新聞供給,增強了媒體影響力。最后,AI主播在表達(dá)層面能夠?qū)崿F(xiàn)穩(wěn)定有效輸出。AI主播不受真人播報中設(shè)備、技術(shù)或生理因素的干擾,音畫轉(zhuǎn)換穩(wěn)定,文本修改便捷,確保了播報質(zhì)量的穩(wěn)定性。
在AI主播“認(rèn)知動力系統(tǒng)”的主體性表征中,主體表達(dá)信息的過程促使計算中心、技術(shù)身體和環(huán)境相互聯(lián)系,并形成動態(tài)非線性且自組織的“嵌入式具身”動力系統(tǒng)[12],技術(shù)具身的穩(wěn)定性由此大于真人主體的操控性。盡管虛擬主體認(rèn)知尚不及人類思維的全面性,但其自發(fā)、自適應(yīng)、自我進(jìn)化的特性,為提供高級交互服務(wù)奠定了基礎(chǔ)。
(二)AI主播的“情境認(rèn)知”
海德格爾、梅洛-龐蒂與德雷福斯均強調(diào)身體與環(huán)境的內(nèi)在聯(lián)系,而尼采則探討了思維超越理性與非理性界限的可能性。具身化的AI主播在情境認(rèn)知中將人類賦予的信息轉(zhuǎn)化為主體性情境表征,將情境指令理性表達(dá)出來。
首先,AI主播呈現(xiàn)“獵奇主體性”,其新穎性吸引了公眾的好奇心,如3D版“新小浩”不僅能動、能變裝,還通過肢體動作傳遞豐富信息,預(yù)計未來AI主播將適應(yīng)更廣泛的工作場景,包括新聞、綜藝、訪談乃至產(chǎn)品發(fā)布會,將進(jìn)一步挑戰(zhàn)傳統(tǒng)真人主播的地位。其次,AI主播在語言層面展現(xiàn)了強大的深度學(xué)習(xí)能力。以世界上第一位多語言AI主播“小晴”為例,其基于多語言實時播報能力突破了語言障礙,促進(jìn)了國際新聞傳播。最后,AI主播在算法層面的互動能力尤為突出?;跈C器學(xué)習(xí)技術(shù)與算法挖掘模型,AI主播走向了定制化的發(fā)展道路。例如,新華社的AI主播“新小微”能夠根據(jù)不同觀眾和新聞場景調(diào)整肢體動作和表情,甚至根據(jù)新聞內(nèi)容和場景變化而調(diào)整表情、發(fā)型和服飾,從而實現(xiàn)更為精準(zhǔn)的“情境認(rèn)知”[13]。
(三)AI主播的“認(rèn)知發(fā)展”
在人類認(rèn)知能力的構(gòu)建框架內(nèi),AI主播的智能化發(fā)展正逐步突破傳統(tǒng)界限,在特定領(lǐng)域展現(xiàn)超越真人主播的潛力,特別是在電視內(nèi)容生產(chǎn)中,其具有作為信息傳播者的核心功能,即高效、準(zhǔn)確地傳遞信息,能夠聚焦于內(nèi)容本身,而非形式化的主播個體存在。這一過程體現(xiàn)了人工智能技術(shù)對信息傳播本質(zhì)的深刻理解,即通過算法優(yōu)化實現(xiàn)信息內(nèi)容的最大化傳播效果。
在播報過程中,AI主播運用先進(jìn)的人工智能技術(shù),將文本信息轉(zhuǎn)化為生動、流暢的語音,并輔以高度仿真的播報動作,達(dá)到了近乎真人的播報效果。重要的是,隨著技術(shù)的不斷進(jìn)步,AI主播追求更加細(xì)膩、深邃的情感表達(dá),注重認(rèn)知理解,開始嘗試模擬人類的“微表情”與“微神態(tài)”,這些微妙而富有深意的非言語信息,往往是真人主播在傳遞信息時不可或缺的情感紐帶。這不僅增強了AI主播的交互性與親和力,還為其在更廣泛的信息傳播場景中的應(yīng)用提供了可能。
三、未來展望
在人工智能時代背景下,AI主播的創(chuàng)新發(fā)展應(yīng)聚焦于三個方面。一是實現(xiàn)數(shù)智空間內(nèi)的跨場域融合發(fā)展,其關(guān)鍵在于有機融合物理世界與數(shù)字世界,構(gòu)建多維交互的沉浸式環(huán)境。相關(guān)主體應(yīng)通過創(chuàng)新技術(shù)手段,打破傳統(tǒng)界限,構(gòu)建無縫銜接的多維交互環(huán)境,使AI主播能夠自如穿梭于虛擬與現(xiàn)實多重場景之間,這不僅提升了用戶體驗的連貫性與沉浸感,還促進(jìn)了信息在不同場域間的自由流通與高效整合。
二是要深化智能技術(shù)迭代下的具身交互發(fā)展。相關(guān)主體應(yīng)依托前沿的人工智能算法與高精度傳感技術(shù),持續(xù)提升AI主播的感知敏銳度、理解深度及反饋精準(zhǔn)度,使AI主播的具身形態(tài)在交互過程中能夠更加精準(zhǔn)地模仿人類,無論是情感表達(dá)、語境理解還是行為反饋,均能達(dá)到高度人性化的水平,從而進(jìn)一步拉近人機之間的距離。
三是致力于促進(jìn)人機協(xié)同中的身體再造式演進(jìn),探索人機深度融合的創(chuàng)新模式。在這一過程中,AI技術(shù)不僅作為輔助工具,增強人類的身體機能與認(rèn)知能力,還賦予AI主播前所未有的表現(xiàn)力,其身體形態(tài)與呈現(xiàn)方式更GFqZhmpoq7ikD17NONYl2g==加多樣化。人機協(xié)同下的身體再造,促使AI主播能夠綜合視覺、聽覺等多重感官體驗,以量化自我為手段,動態(tài)建構(gòu)并精準(zhǔn)展示人機融合中的身體形態(tài)。展望未來,AI主播能夠進(jìn)一步將現(xiàn)實物理空間的物質(zhì)實體深度映射至虛擬網(wǎng)絡(luò)空間,形成高度逼真的數(shù)字孿生體。在跨時空的無縫融合下,AI主播將突破物理身體的局限,實現(xiàn)生產(chǎn)效率的顯著提升,達(dá)成技術(shù)與身體融合的協(xié)同效應(yīng),遠(yuǎn)超預(yù)期的“1+1>2”效果,從而開辟人工智能時代AI主播創(chuàng)新發(fā)展的嶄新路徑。
[參考文獻(xiàn)]
[1]鄧建國.“延展的心靈”和“心靈的延展”:人機傳播研究的具身AI轉(zhuǎn)向[J].新聞大學(xué),2024(03):77-90.
[2]陳倩,馮松齡.火了!中國的這個“主播”引起了全球關(guān)注[EB/OL].(2018-11-12)[2024-07-04].http://www.xinhuanet.com/world/2018-11/12/c_129991677.htm.
[3]鄔金夫.她來了!全球首位3D版AI合成主播精彩亮相[EB/OL].(2020-05-22)[2024-07-04].http://www.xinhuanet.com/politics/2020-05/20/c_1126011533.htm.
[4]央視頻再上新,總臺首個AI超仿真主播來了?。跡B/OL].(2022-03-07)[2024-07-04].https://1118.cctv.cn/2022/03/07/ARTIrSrw34I8nTpPSfAnbFQX220307.shtml.
[5]首都廣電.京聲京視|北京時間:以主流姿態(tài)激活融媒智慧[EB/OL].(2022-05-21)[2024-07-04].https://baijiahao.baidu.com/s?id=1733365399708951116&wfr=spider&for=pc.
[6]季曉峰.論梅洛-龐蒂的身體現(xiàn)象學(xué)對身心二元論的突破[J].東南學(xué)術(shù),2010(02):154-162.
[7]吳寧寧.對伊德“人-技術(shù)關(guān)系現(xiàn)象學(xué)”的辨析[J].自然辯證法通訊,2015(03):145-151.
[8]李恒威,黃華新.表征與認(rèn)知發(fā)展[J].中國社會科學(xué),2006(02):34-44.
[9]於春.傳播中的離身與具身:人工智能新聞主播的認(rèn)知交互[J].國際新聞界,2020(05):35-50.
[10]鄔建中,楊帆,李清鑫.溯源、反思與展望:AI主播的技術(shù)具身[J].青年記者,2023(04):60-63.
[11]王姝彥,申一涵.認(rèn)知整合與文化濡化[J].自然辯證法通訊,2020(02):29-35.
[12]張鐵山.復(fù)雜性視閾下的緣身認(rèn)知動力系統(tǒng)研究[J].系統(tǒng)科學(xué)學(xué)報,2011(02):51-54.
[13]新智元.全球首個3D合成主播參與新華社兩會報道,純AI驅(qū)動無需人工干預(yù)[EB/OL].(2020-05-25)[2024-07-04].https://baijiahao.baidu.com/s?id=1667653006548110112&wfr=spider&for=pc.
[基金項目]國家社會科學(xué)基金“人工智能時代電視產(chǎn)業(yè)創(chuàng)新發(fā)展研究”(項目編號:19BXW039)。
[作者簡介]鄔建中(1975—),男,重慶人,四川外國語大學(xué)新聞傳播學(xué)院教授;楊帆(1996—),男,黑龍江朝陽市人,四川外國語大學(xué)新聞傳播學(xué)院碩士研究生;黎慧斕(1998—),女,湖南邵陽人,四川外國語大學(xué)新聞傳播學(xué)院碩士研究生。