如何才能使人工的語音更加人性化,獲得更多的“人說話的感覺”。德國科學家正致力于把語音轉換成數(shù)字,并利用計算方法尋找人工語音中不完善的地方。他們的目標是開發(fā)一個人類語言自我學習的數(shù)學模型,它可以使得任意對象被賦予任意的聲音,而且聽起來沒有人工合成的感覺。
人類的聲音會喚起想象,就像未曾謀面的電臺主持人或那些只在電話中聯(lián)系過的人一樣,通過聲音,人們會自然想象發(fā)出這一聲音的人的形象。“如果此時觀察聽者大腦的活動會發(fā)現(xiàn),自然的人的聲音會引起腦部那些負責感情和聯(lián)想的區(qū)域的活動。而人們聽到人工語音時,這些領域保持沉默。” 德國薩爾布呂肯大學語音專家貝恩德·莫比烏斯教授介紹說。
雖然在自動應答系統(tǒng)中,現(xiàn)代的人工語音早已遠離那種尖細,斷續(xù)且不帶口音的聲音,但是對聲音十分挑剔的人耳還是能聽出細微的差別。當語素和語言片段組成句子時,話語中最細微的語音間隙也會立即暴露。
莫比烏斯教授目前正與“多模態(tài)計算與互動”卓越集群、德國人工智能研究中心(DFKI)的計算機和信息科學家,以及心理語言學家一起工作,致力于找出人類語音的特征,并將其融入人工語音,消除語音間隙和干擾因素。
他們根據(jù)一個人們在錄音棚錄制的數(shù)字化的語料庫,在一定程度上找到了最小的語音部分,即所謂的“雙音素”。雙音素是簡短的語音單元,它從一個語音片段的中間開始,到接下來的語音段的中間結束。莫比烏斯說:“我們的語言可識別45個語音和大約2000個雙音素,其中每個時長大約只有100毫秒。有了這些工具,我們就能夠覆蓋整個語言的語音平臺?!?/p>
莫比烏斯通過這樣的方式把人工語音中的過渡平滑地串聯(lián)起來,優(yōu)化后的語言模塊可以將所有可能的組合放在一起。數(shù)學的語音合成模型是獨立于原始錄入人的語音的,因此,它可以適用于任何一個聲音的語音。未來除了通常的對話或信息系統(tǒng)外,該技術在醫(yī)學上也有新的應用。 (責任編輯:李浩)
(來源:科技日報)