馬一民 中國傳媒大學
人的聲音是我們表達內心想法,溝通情感的一個重要方式。我們表現(xiàn)不同的情緒狀態(tài),傳達不同的信息,會用不同的語調、語氣,有輕生弱氣,有高聲大氣,有凝重深沉,有尖銳犀利,有溫順平抑、有堅強剛毅……聲音是人類溝通最重要的工具,用人工智能創(chuàng)造的聲音這些年開始出現(xiàn)在我們的生活中,如導航、手機助手、智能音箱等等。當機器有了聲音,人機交互也變得自然有趣。但人工智能在未來能否替代人類完成如配音、播音、主持等專業(yè)性較強的工作呢?在應用方面會有什么樣的限制和優(yōu)勢?
本次的研究對象是中國電視歷史上第一個正式上崗的人工智能少女“小冰”。2015年12月22日,小冰首次作為見習主持人身份亮相電視節(jié)目。為了讓虛擬少女小冰的聲音更加富有情感,研發(fā)團隊不斷用算法幫助她學習人類說話的音色,語氣、節(jié)奏和情感。讓“小冰”可以更加自然的用語言和人類溝通,也可以富有情感的講故事。研發(fā)團隊介紹,小冰的聲音是通過聲音定制技術創(chuàng)造出來的,她的聲音并不是一成不變的,而是時而高興,時而憂傷。通過聲音的變化,能讓人覺得小冰是一個有血有肉,一個情感豐富的小姑娘。新一代人工智能機器人“小冰”全聲音模型在人聲模擬技術上取得了新的成果,開始嘗試展現(xiàn)人類的情感,它將人類的情感類型分成幾個大類,將表現(xiàn)不同情感的錄音分別建立模型,使整個的聲音對連續(xù)的情感空間能夠持續(xù)建模,使其變成一個整體模型,其中任何一個點對應位置的情感都可以通過建模輸出表現(xiàn)。同時只需要采集目標說話人少量的錄音數(shù)據(jù)就可以為他定制出專屬于自己的全聲音模型,演繹豐富的聲音內容。
但“小冰”目前的發(fā)展還存在一些問題,而且近兩年來并沒有取得太大的突破,當然,人工智能的發(fā)展也為人類的生活工作帶來了很多便利。
機器與人類最大的差別就在于情感。人是自然而然表達情感的生物,機器卻只能呈現(xiàn)冷冰冰的程序代碼,無論再高級的人工智能機器人,也只是深度學習的成果,不可能有自己的思維。
在電視配音方面,人類配音員在進行有聲語言創(chuàng)作時,會分析文字背后隱藏的情感從而調動全身器官去呈現(xiàn)內在情感,而機器沒有理解力和感受力等高級生物才具備的能力,必然不能達到很好的展現(xiàn)情感這一要求。
舉個例子來說,中央電視臺綜藝《機智過人》第二季第九期就是人工智能語音機器人與人類配音員同臺對決的主題。為了測試“小冰”的配音能力是否可以“以假亂真”,進而替代人類,節(jié)目現(xiàn)場設計了一個互動游戲:三位人類配音演員和小冰分別隱藏在四扇門后,現(xiàn)場播放四個影視片段,三位人類配音演員和小冰分別進行配音后,現(xiàn)場觀眾和嘉賓猜出哪個門后的聲音是由人工智能語音機器人小冰發(fā)出的。在表演結束后,現(xiàn)場觀眾、嘉賓以及線上觀眾都非常容易的給出了正確答案。這主要是因為機器在配音的時候缺乏恰當?shù)那楦?。在配音片段《追捕》中有這樣一幕:女主人公真由美在急奔的馬背上說出了一句臺詞“我喜歡你”,當由機器人對這樣一句簡單的臺詞進行配音時,只是刻板的復制了人類的聲音去說出了這4個字。但是,配音界泰斗級人物、著名譯制片配音演員丁建華老師給大家提出了這樣的啟示:配音剛開始的時候有點兒懵,覺得好像是我說的,但是一直到“我喜歡你”這里,就感覺缺乏了一點人性,應該把真由美的一個靈魂深處的東西表達出來,應該是“偷著樂”的感覺,人類能很好的體會并表達出這種情感而機器卻很難。
正如丁建華老師所說:“她(小冰)在展現(xiàn)我40年前所配音的角色,在音色上是可以比我現(xiàn)在強,但是在細微的情感的變化上可能她會稍欠一些?!睆氖侣曇艄ぷ鞯娜?,他能夠一瞬間把這個角色內心的情感淋漓盡致的表達出來,有時候說著說著笑了,有時候說著說著哭了,有時候說著說著聲音顫抖了,像這樣的一些,可能唯有人能做到,機器人是很難做到的,這是目前人工智能配音的局限所在。
說到人工智能語音大家都能發(fā)現(xiàn)其發(fā)音的最特點是語音語調生硬,字與字之間、字詞之間不能很好的銜接停頓,有點像字與字之間的拼湊,不利于文本意思的傳達。語言表達講究按照意思劃分意群,然而人工智能技術卻無法去理解文本意思從而自行判斷停連重音等,這些工作還是得有專業(yè)配音人員的指導并提前錄入相關指令,所以根本上并沒有做到擺脫人力獨立工作,在這一點上人工智能將永遠不會超過人類的能力。
在《機智過人》節(jié)目的開始,小冰用主持人朱廣權的聲音為節(jié)目做了一個開場白:“中國智慧,機智過人,我是主持人小冰。接下來,我將為大家隆重介紹‘機智天團’——‘撒白雪’組合。他們分別是研究神經不神經的魯白、北大還行撒貝寧、聲音會百變,美貌永在線的韓雪?!奔词剐”慕榻B非常有趣,但是在音色和語音語調上還是有機器人的影子。團隊說這是因為采集朱廣權老師數(shù)據(jù)的時候,絕大部分數(shù)據(jù)是來自朱廣權在紀錄片解說的配音,由于紀錄片的語調非常平穩(wěn),只能從其他人的數(shù)據(jù)里面去學習情感的表現(xiàn),這種通用的情感雖然也可以用到主持人朱廣權的聲音上,但是它的真實度會稍微欠缺。所以這就要求人工智能在前期采集的數(shù)據(jù)足夠多、足夠全面,需要采集這個人對七情六欲等全方面的表現(xiàn)才會使人工智能對情感的呈現(xiàn)更加的真實。人工進行篩選和輸入的信息量,將直接影響人工智能的輸出表現(xiàn)。
2018年1月,中央電視臺推出了全球第一部完全采用人工智能配音的紀錄片《創(chuàng)新中國》,這部紀錄片運用智能語音和人工智能技術,讓已故的著名配音藝術家李易老師的聲音重現(xiàn)熒屏。在這次配音過程中,人工智能的語音合成技術適度的運用播音創(chuàng)作的外部技巧,如重音、停連、語氣、節(jié)奏等各種要素,將影片內容流暢的表現(xiàn)出來。也如丁建華老師說的“聽到小冰在模仿‘茜茜公主’的時候,油然而生一種親切感,就像當年一樣,非常的感動。跟我比40年前的角色,在音色上可能比現(xiàn)在的我強?!?/p>
世界上沒有一個人是完美的,所以在工作的時候難免會出現(xiàn)失誤,而且由于人體的生理結構存在一些局限,人類主播長時間的工作會讓身體狀態(tài)出現(xiàn)波動,從而影響播出效果。相比較而言,人工智能可以很好的解決這個問題:人工智能配音員的稿件預處理能力和播讀穩(wěn)定性要優(yōu)于人類配音員,不僅極少出現(xiàn)“口誤”等失誤情況,它的優(yōu)勢還體現(xiàn)在工作時間和工作地點不受約束,可以大幅度提高配音的工作效率。此外,高效率、低成本、標準化是目前語音合成的主要優(yōu)勢,如此一來,像廣告片,紀錄片這種有相對固定創(chuàng)作樣態(tài)的部分簡單工作將有可能被人工智能取代。
目前的人工智能語音機器人在音色的模仿、語句的表達和內容的處理等方面已經達到了不錯的水平,可以替代人類完成一些基礎性工作,為現(xiàn)代生活帶來了非常多的便利。但是由于機器和人類在思維和情感上有本質的不同,所以在播音主持領域只能通過更深度的學習去模仿人類,永遠不可能完全替代人類。或許在將來,人工智能還可以做到深入陪伴,給人心靈的慰藉。但同時我們也要謹慎利用這項技術,如果被不當利用,就為詐騙等犯罪提供了便捷的武器。