你的聲音是什么樣的呢?甜甜的,沙啞的,尖細(xì)的,還是低沉的?
你能靠聲音分辨說(shuō)話的人是誰(shuí)嗎?家人,同學(xué),還是老師?
你有沒(méi)有這樣的經(jīng)歷:沒(méi)有看見(jiàn)某個(gè)人的臉,只靠聲音就認(rèn)出了他?
比如《紅樓夢(mèng)》里王熙鳳的出場(chǎng)是“未見(jiàn)其人先聞其聲”,賈府里的姐姐妹妹們只聽(tīng)一句話,便知道是她了。
歸有光在《項(xiàng)脊軒志》中也提到“余扃牖而居,久之,能以足音辨人?!边@樣厲害的聽(tīng)覺(jué),是爛熟于心的結(jié)果吧。
你在放學(xué)時(shí)分,校門口吵吵嚷嚷,也仍然能準(zhǔn)確地聽(tīng)到家人的聲音。
你能“聽(tīng)聲辨人”,是因?yàn)槊總€(gè)人的聲音都有特別之處。如果聲音被“偷了”,就相當(dāng)于聲音的特點(diǎn)被偷了,大家只認(rèn)聲音就會(huì)產(chǎn)生誤會(huì)呢!
不過(guò),人與人之間相互“偷”聲音已經(jīng)司空見(jiàn)慣,比如很多人會(huì)模仿明星的聲音說(shuō)話、唱歌。那機(jī)器能“偷”人聲嗎?而且要“偷”得像真人一樣,而不是帶著機(jī)器味道的聲音!
加拿大的Adobe公司在2016年的MAX大會(huì)上展示的語(yǔ)音編輯工具Project VoCo做到了!和目前市場(chǎng)上的語(yǔ)音編輯工具不同,除了可以實(shí)現(xiàn)一些基礎(chǔ)的剪輯拼接、消除噪音之外,它還能用機(jī)器合成新的語(yǔ)音,生成新詞,堪稱“聲音版的Photoshop”。
只需要給VoCo一段20分鐘的人聲,它就能分析出人聲中的特征,然后用戶只需要打字輸入內(nèi)容,它就能根據(jù)這段人聲中的特征進(jìn)行還原。
簡(jiǎn)單地說(shuō),VoCo就是可以在理解和分析某個(gè)人的聲音之后,用同樣的聲音說(shuō)出其他不同的內(nèi)容。VoCo能夠生成原本這個(gè)聲音沒(méi)有的內(nèi)容,就像一個(gè)“聲音神偷”!
既然聲音是有特征的,那么只要擁有了這些特征,就能“偷”到別人的聲音。VoCo這么厲害,就是準(zhǔn)確地“偷”了聲音的特征并且能夠任意還原。
那么聲音的特征是什么呢?
要想知道聲音的特征,得先知道聲音是怎樣發(fā)出的。我們的聲帶震動(dòng),然后發(fā)出了聲音。說(shuō)話的時(shí)候把手放在脖子上,就可以感受到聲帶的震動(dòng)。就像鼓一樣,鼓面震動(dòng)了,才能發(fā)出鼓聲。
這種震動(dòng)就像石子丟進(jìn)湖里,湖面會(huì)蕩漾出一圈圈的漣漪,這個(gè)漣漪也叫“波紋”。聲帶震動(dòng)出的“波”也在空氣中一波又一波地傳出,只是這樣的“波”我們看不到,叫“聲波”。
我們細(xì)細(xì)回想聲音的特征,有大有小,有高有低,還有動(dòng)聽(tīng)或難聽(tīng)。這些感受,就是聲音的特征?。郝曇舻拇笮∈琼懚?,聲音的高低是音調(diào),聲音的波形是音色。人們就是根據(jù)這三個(gè)特征來(lái)區(qū)分聲音。
聲音看不見(jiàn)、摸不著,但利用儀器可以繪制出反應(yīng)聲音特征的聲波圖。如果聲波起伏很大,那么聲音就大;聲波很密集,聲音就很高;聲波形狀有規(guī)律,就是好聽(tīng)的樂(lè)音,雜亂無(wú)章就是噪音。
知道了聲音的秘密,VoCo通過(guò)20分鐘的語(yǔ)音,分析并還原出聲音的響度、音調(diào)和音色,達(dá)到了模仿修改人聲“以假亂真”的程度。
能夠模仿人聲的VoCo確實(shí)很神奇,但是仔細(xì)一想,也有讓大家擔(dān)憂的地方:如果有人利用VoCo模仿人聲做壞事,比如模仿出爸爸媽媽的聲音騙取小朋友的信任,那就有危險(xiǎn)了。
目前VoCo還在研發(fā)階段,沒(méi)有面世。大約技術(shù)人員考慮到安全和信任的問(wèn)題后,大家和VoCo見(jiàn)面的那一天,“偷”聲音的危機(jī)已經(jīng)解決,所有人都能愉快地享受新科技帶來(lái)的新境界!