楊磊 邱元陽(yáng) 劉宗凡 金琦 倪俊杰
編者按:隨著電子計(jì)算機(jī)和人工智能機(jī)器的廣泛應(yīng)用,利用機(jī)器學(xué)習(xí)算法處理音頻信號(hào)成為現(xiàn)實(shí)。使用人工智能來(lái)檢測(cè)和分類聲音可以克服人類感知限制的影響,并充分利用機(jī)器的感知和分類能力與人類的決策能力之間的優(yōu)勢(shì)互補(bǔ)。本期我們將圍繞聲音分類的應(yīng)用、聲音特征提取、聲音分類處理和音頻編輯原理等話題展開討論。
主持人:
楊磊 ?天津市第五中學(xué)
嘉 ?賓:
邱元陽(yáng) ?河南省安陽(yáng)縣職業(yè)中專
劉宗凡 ?廣東省四會(huì)市四會(huì)中學(xué)
金 ?琦 ?浙江師范大學(xué)附屬中學(xué)
倪俊杰 ?浙江省桐鄉(xiāng)市鳳鳴高中
聲音分類的應(yīng)用領(lǐng)域
楊磊:利用機(jī)器對(duì)采集到的聲音進(jìn)行分析,從而判斷有關(guān)聲音的來(lái)源、變化等重要信息的智能聲音分析系統(tǒng)逐步走入人們的生活。隨著人工智能應(yīng)用的不斷發(fā)展與進(jìn)步,依靠機(jī)器學(xué)習(xí)算法對(duì)場(chǎng)景、環(huán)境等進(jìn)行判斷從而輔助決策、音樂(lè)檢索和語(yǔ)音情感分析等成為新的技術(shù)發(fā)展方向,得到了廣泛的關(guān)注。
倪俊杰:聲音事件檢測(cè)是指對(duì)采集到的聲音數(shù)據(jù)進(jìn)行分類與檢測(cè),從而對(duì)當(dāng)前發(fā)生的事件或發(fā)聲的物體進(jìn)行判斷,目前主要是針對(duì)特定的應(yīng)用領(lǐng)域?qū)φ鎸?shí)生活環(huán)境中的聲音事件進(jìn)行分類。由于聲音是全向傳播的,相比于圖像或者視頻,基于聲音的事件檢測(cè)不會(huì)受到光線以及被遮擋等問(wèn)題的影響;同時(shí),聲音信號(hào)的采集過(guò)程簡(jiǎn)單且存儲(chǔ)需求較小,計(jì)算復(fù)雜度低,因此,基于聲音的事件檢測(cè)系統(tǒng)具備體積小、功耗低、易部署等優(yōu)勢(shì),在智慧城市、智能家居及無(wú)人駕駛等領(lǐng)域有著極為廣闊的應(yīng)用前景。聲音事件檢測(cè)主要包括單聲音事件檢測(cè)和多聲音事件檢測(cè)兩個(gè)研究方向。單聲音事件檢測(cè)用于檢測(cè)每個(gè)時(shí)間最突出的聲音事件,而多聲音事件檢測(cè)則識(shí)別場(chǎng)景中重疊的聲音事件以及單個(gè)聲音事件。與單聲音事件識(shí)別相比,由于多聲音事件識(shí)別的錄音在同一時(shí)間存在大量重疊聲音事件,因此,多聲音事件識(shí)別呈現(xiàn)更多挑戰(zhàn)。而現(xiàn)實(shí)生活中,由于天氣、環(huán)境等原因,聲音的出現(xiàn)往往不是單獨(dú)的,在判斷場(chǎng)景時(shí)也需要綜合考慮多種聲音,因此,研究中更多地關(guān)注多聲音事件檢測(cè)。
音樂(lè)流派分類是音樂(lè)信息檢索的一個(gè)重要分支,正確的音樂(lè)分類對(duì)提高音樂(lè)信息檢索的效率具有重要的意義。音樂(lè)流派是對(duì)音樂(lè)的一種描述,有多種不同的劃分方式,但是各種流派沒(méi)有確切的定義概念,常見(jiàn)的有流行、古典、金屬等。近年來(lái),互聯(lián)網(wǎng)音樂(lè)曲庫(kù)容量增加,按流派檢索音樂(lè)成為音樂(lè)信息檢索的主流方法。將音樂(lè)按流派分類,能夠滿足用戶針對(duì)某種特定風(fēng)格音樂(lè)檢索的需求,方便用戶對(duì)感興趣的音樂(lè)類型進(jìn)行快速檢索和高效管理,同時(shí)方便音樂(lè)經(jīng)銷商管理和標(biāo)注音樂(lè)類型,向用戶推薦其感興趣的音樂(lè)類型。自動(dòng)且精準(zhǔn)地進(jìn)行音樂(lè)流派分類識(shí)別可以有效減少人力成本。因此,提高音樂(lè)流派分類識(shí)別準(zhǔn)確率可以推動(dòng)音樂(lè)平臺(tái)的智能化發(fā)展,為音樂(lè)聽眾提供更好的服務(wù),提升聽眾的體驗(yàn),增加聽眾的選擇,這些都具有巨大的研究?jī)r(jià)值和經(jīng)濟(jì)價(jià)值。目前,音樂(lè)分類主要包括文本分類和基于作者、年代、音樂(lè)名稱等標(biāo)注的文本信息分類。后一種分類方式的優(yōu)點(diǎn)是易于實(shí)現(xiàn)、操作簡(jiǎn)單、檢索速度快,但缺陷也很明顯,它依賴于人工標(biāo)注的音樂(lè)數(shù)據(jù),需要耗費(fèi)大量的人力,并且人工標(biāo)注很難避免音樂(lè)信息標(biāo)注錯(cuò)誤的問(wèn)題。同時(shí),這種文本分類方式并沒(méi)有涉及音樂(lè)本身的音頻數(shù)據(jù),音頻數(shù)據(jù)包括音樂(lè)的很多關(guān)鍵特性,如音高、音色、旋律和音調(diào)等,這些特性用文本是無(wú)法標(biāo)注的;而基于內(nèi)容的分類正是對(duì)音樂(lè)的原始數(shù)據(jù)進(jìn)行特征提取,用提取的特征數(shù)據(jù)訓(xùn)練分類器,從而達(dá)到音樂(lè)分類的目的。因此,人工音樂(lè)流派分類逐漸被自動(dòng)音樂(lè)流派分類取代,自動(dòng)音樂(lè)流派分類主要依據(jù)提取特征,訓(xùn)練分類器對(duì)音頻信號(hào)進(jìn)行流派分類?;趦?nèi)容的音樂(lè)分類也成為近年來(lái)研究的熱點(diǎn)。
語(yǔ)音情感識(shí)別主要是通過(guò)識(shí)別說(shuō)話人當(dāng)下的情緒來(lái)調(diào)整系統(tǒng)響應(yīng),它通常采用計(jì)算機(jī)系統(tǒng)作為情感信息的傳遞和處理媒介,使計(jì)算機(jī)能夠正確理解和應(yīng)用人類的情感信息。情感的理解對(duì)人與人之間的交互質(zhì)量至關(guān)重要,只有敏銳地把握交互對(duì)象的情感狀態(tài)才可能理解對(duì)方表達(dá)的真正含義并做出正確的應(yīng)對(duì),進(jìn)而獲得高質(zhì)量的溝通。交互過(guò)程中的情感可通過(guò)面部表情的變化、語(yǔ)音表述的語(yǔ)氣與措辭、身體行為的反應(yīng)、心理變化所產(chǎn)生的生理體征的波動(dòng)等多種途徑表達(dá)。不同情感的表現(xiàn)往往具有相似性,即便是對(duì)具備復(fù)雜智慧系統(tǒng)的人類而言,精確判斷說(shuō)話人的情感狀態(tài)也并非易事。這些問(wèn)題引起了人們從心理學(xué)與生理學(xué)角度對(duì)情感進(jìn)行分析與研究的興趣。信息技術(shù)的發(fā)展極大地增強(qiáng)了人類和計(jì)算機(jī)之間的聯(lián)系,推動(dòng)了人工智能技術(shù)的進(jìn)步。在計(jì)算機(jī)具備越來(lái)越高的推理能力和學(xué)習(xí)能力的同時(shí),如何使計(jì)算機(jī)具有情感能力來(lái)構(gòu)建更為和諧自然的人機(jī)交互環(huán)境變得越來(lái)越重要。在人機(jī)交互技術(shù)的發(fā)展中,情感交互是人機(jī)交互更高級(jí)的階段。傳統(tǒng)的人機(jī)交互主要通過(guò)鍵盤、鼠標(biāo)、屏幕等方式進(jìn)行,只追求便利和準(zhǔn)確,無(wú)法理解和適應(yīng)人的情緒或心境。如果計(jì)算機(jī)缺乏情感理解和表達(dá)能力,就很難期望人機(jī)交互達(dá)到真正的和諧與自然。語(yǔ)音情感分類綜合包括了情感機(jī)理的研究、情感信號(hào)的獲取、情感信號(hào)的分析與識(shí)別等內(nèi)容,作為一個(gè)交叉學(xué)科,這是一個(gè)不斷成長(zhǎng)、快速發(fā)展的研究領(lǐng)域。
邱元陽(yáng):在生物識(shí)別技術(shù)專題中,我們提到過(guò)聲紋識(shí)別技術(shù),即依靠每個(gè)人發(fā)音的獨(dú)特個(gè)性特點(diǎn)來(lái)準(zhǔn)確識(shí)別發(fā)音者。人的發(fā)聲器官的各個(gè)組成部分的形態(tài)和物理特點(diǎn)各不相同,如果用電聲學(xué)儀器記錄下發(fā)音者語(yǔ)言信息的聲波頻譜,會(huì)發(fā)現(xiàn)每個(gè)人的聲紋圖譜都有差異,但又有相對(duì)穩(wěn)定性,這就使得聲紋具有生物識(shí)別的基礎(chǔ)和價(jià)值。聲紋識(shí)別的可能性來(lái)自人對(duì)聲音辨識(shí)的實(shí)踐感受。對(duì)于熟悉的人來(lái)說(shuō),他不需要看到說(shuō)話人,就能準(zhǔn)確地判斷說(shuō)話人是誰(shuí),這就為聲紋識(shí)別提供了可能。從物理學(xué)的角度來(lái)看,不同的人說(shuō)話聲音之所以不同,是因?yàn)槁曇舻念l率和音色等各不相同。尤其是音色,因?yàn)橛胸S富的泛音和諧波,可以形成千萬(wàn)種各不相同的音色,不同的樂(lè)器具有不同的音色,不同的人聲也具有不同的音色。但在實(shí)際的聲音特征采集中,會(huì)考慮到非常多的個(gè)性化特征,如聲學(xué)層面的頻譜、倒頻譜、共振峰等,解剖學(xué)層面的鼻音、呼吸音、沙啞音,以及生物學(xué)和心理學(xué)層面的韻律、節(jié)奏、速度、語(yǔ)調(diào)、音量,甚至社會(huì)學(xué)層面的方言、修辭、發(fā)音、言語(yǔ)習(xí)慣等。由此可見(jiàn),聲紋識(shí)別與語(yǔ)音識(shí)別完全不同,后者考慮的是概括出共性的識(shí)別,前者考慮的是區(qū)別出個(gè)性的識(shí)別。聲紋識(shí)別的優(yōu)勢(shì)主要有語(yǔ)音獲取方便、識(shí)別成本低廉、使用簡(jiǎn)單等。這些優(yōu)勢(shì)使得聲紋識(shí)別的應(yīng)用越來(lái)越廣,成為僅次于指紋和掌紋的生物特征識(shí)別。目前,在信息、銀行證券系統(tǒng)、公安司法等領(lǐng)域能應(yīng)用聲紋識(shí)別。但是聲紋識(shí)別也有缺陷,如身體狀況和情緒造成的聲紋特征變化、采集設(shè)備和信道對(duì)識(shí)別性能的影響、環(huán)境噪聲對(duì)識(shí)別的干擾、多人說(shuō)話場(chǎng)景下的說(shuō)話人識(shí)別(誰(shuí)在說(shuō)話)和說(shuō)話人辨認(rèn)(是誰(shuí)的話)難度較大等,這些缺陷都會(huì)影響識(shí)別的結(jié)果。聲紋識(shí)別技術(shù)還需要進(jìn)一步發(fā)展和完善。
聲音數(shù)據(jù)集與特征提取庫(kù)介紹
楊磊:算法、數(shù)據(jù)、算力是人工智能底層的三要素。深度學(xué)習(xí)算法本身是建構(gòu)在大樣本數(shù)據(jù)基礎(chǔ)上的,而且數(shù)據(jù)越多,數(shù)據(jù)質(zhì)量越好,算法結(jié)果表現(xiàn)越好。這意味著對(duì)數(shù)據(jù)的需求將會(huì)持續(xù)增加,尤其對(duì)細(xì)分場(chǎng)景數(shù)據(jù)的獲取和標(biāo)注難度不斷增高。那么,聲音分類領(lǐng)域有哪些公開的數(shù)據(jù)集呢?
劉宗凡:環(huán)境聲音分類數(shù)據(jù)集(ESC)是在一個(gè)統(tǒng)一的格式下提供短環(huán)境記錄的集合(5秒長(zhǎng)的片段,44.1千赫)。所有剪輯均摘自Freesound.org項(xiàng)目提供的公共現(xiàn)場(chǎng)記錄。根據(jù)知識(shí)共享許可條款,可以使用該數(shù)據(jù)集。該數(shù)據(jù)集包括三個(gè)子部分:①ESC-50。帶有標(biāo)簽的2000個(gè)環(huán)境聲音記錄集,包含50個(gè)聲音類別,每一類別含有40個(gè)剪輯。②ESC-10。帶有標(biāo)簽的400個(gè)環(huán)境聲音記錄集,包含10個(gè)聲音類別,每一類別有40個(gè)剪輯,它實(shí)際上是ESC-50的子集,最初創(chuàng)建為概念證明/標(biāo)準(zhǔn)化選擇的簡(jiǎn)單記錄。③ESC-US。250000個(gè)不帶有標(biāo)簽的環(huán)境聲音記錄(5秒長(zhǎng)的剪輯)數(shù)據(jù)集,它適用于無(wú)監(jiān)督的預(yù)訓(xùn)練。ESC-US數(shù)據(jù)集雖然沒(méi)有人為手動(dòng)標(biāo)注,但它包含一些原始用戶上傳音樂(lè)時(shí)提交的有關(guān)音樂(lè)流派的信息標(biāo)簽,這些標(biāo)簽可能會(huì)用于弱監(jiān)督學(xué)習(xí)(嘈雜和/或丟失標(biāo)簽)。ESC-10和ESC-50數(shù)據(jù)集中的所有數(shù)據(jù)已被劃分到五個(gè)大小均一的文件中,而且從同一原始聲音源中提取的剪輯始終被安排放在同一個(gè)文件中。
GTZAN數(shù)據(jù)集是音樂(lè)流派分類的一個(gè)實(shí)驗(yàn)樣本庫(kù),它包含10個(gè)音樂(lè)類型,即布魯斯、古典、鄉(xiāng)村、迪斯科、嘻哈、爵士、雷鬼、搖滾、金屬和流行音樂(lè),共計(jì)1000條音頻文件,它們是采樣頻率為22.05kHz、16bit單聲道、時(shí)長(zhǎng)為30s的音頻文件。音頻是在2000—2001年從各種來(lái)源收集的,包括個(gè)人CD、收音機(jī)、麥克風(fēng)錄音等,可以反映各種錄音條件。
CASIA漢語(yǔ)情感語(yǔ)料庫(kù)由中國(guó)科學(xué)院自動(dòng)化所在純凈的錄音環(huán)境下選取錄音人男聲、女聲各兩人,每人按照不同的情感朗讀文本2500句,共9600句,以16khz采樣率、16bit、pcm格式存儲(chǔ)。錄制四個(gè)專業(yè)發(fā)音人的音頻文件(有相同文本和不同文本)。通常選取7200條發(fā)音文件,其中每個(gè)人的每一種情感的300條是相同文本,也就是說(shuō)對(duì)相同的文本賦予不同的情感來(lái)閱讀,用來(lái)對(duì)比分析相同話語(yǔ)在不同情感狀態(tài)下的聲學(xué)特征以及韻律表現(xiàn)。其中每個(gè)人都包含六種不同的情緒情感狀態(tài):生氣、害怕、快樂(lè)、中性、悲傷和驚訝。
另外,還有百萬(wàn)歌曲數(shù)據(jù)集、AudioSet等大型的聲音數(shù)據(jù)集,這些聲音數(shù)據(jù)集為深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練提供了數(shù)據(jù)支持,使得訓(xùn)練出有效的網(wǎng)絡(luò)成為可能。
楊磊:數(shù)據(jù)集中包含的數(shù)據(jù)都是音頻原始數(shù)據(jù),而音頻所包含的數(shù)據(jù)信息太多,一般無(wú)法直接將原始數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)使用。因此,從音頻數(shù)據(jù)中提取出具有代表性的音樂(lè)特征成為必要手段。那么,是否有這方面的相關(guān)工具可以使用呢?
金琦:在聲音信號(hào)處理領(lǐng)域中,一些現(xiàn)有程序可用于聲音信號(hào)特征參數(shù)的提取。下面給出幾種常用的語(yǔ)音特征參數(shù)提取工具:①openSMILE是一個(gè)可用于語(yǔ)音信號(hào)處理的特征提取器,且具有高度模塊化和靈活性等特點(diǎn)。它是一款以命令行形式運(yùn)行的工具,通過(guò)配置config文件,主要用于提取音頻特征,下載網(wǎng)址:http://audeering.com/technology/opensmile/。②VOICEBOX是一個(gè)語(yǔ)音處理工具箱,它由英國(guó)倫敦帝國(guó)理工學(xué)院電氣與電子工程系的Mike Brookes維護(hù)并編寫,工具箱包含了MATLAB環(huán)境下語(yǔ)音處理的常用函數(shù),下載網(wǎng)址http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html。③Praat是一款跨平臺(tái)的多功能語(yǔ)音學(xué)專業(yè)軟件,主要用于對(duì)數(shù)字化的語(yǔ)音信號(hào)進(jìn)行分析、標(biāo)注、處理及合成等實(shí)驗(yàn),同時(shí)生成各種語(yǔ)圖和文字報(bào)表。下載網(wǎng)址:http://www.fon.hum.uva.nl/praat/。
當(dāng)然,除應(yīng)用軟件和工具箱外,Python也有一些很好用的音頻處理庫(kù),如Librosa和PyAudio。另外,還有一些基本的音頻功能的內(nèi)置模塊。下面筆者以Librosa庫(kù)為例演示提取音頻信號(hào)梅爾聲譜圖的過(guò)程。提取過(guò)程如上頁(yè)圖1所示。
步驟1:安裝,代碼如上頁(yè)圖2所示。
步驟2:導(dǎo)入音頻文件并顯示,如上頁(yè)圖3所示,代碼如上頁(yè)圖4所示。
步驟3:提取并顯示梅爾聲譜圖,如圖5所示,代碼如圖6所示。
以上演示表明,盡管提取梅爾聲譜圖的原理和過(guò)程相對(duì)復(fù)雜,但是利用Librosa庫(kù)提取非常方便,每個(gè)庫(kù)函數(shù)都有一些參數(shù)設(shè)置,這需要查看相關(guān)文檔。
人工智能算法實(shí)現(xiàn)
楊磊:基于人工智能算法的聲音分類系統(tǒng)由三個(gè)基本部分組成:信號(hào)預(yù)處理、特征提取和分類。首先進(jìn)行聲音預(yù)處理,如去噪和分割,以確定信號(hào)的有意義的單元;然后進(jìn)行特征提取,用于識(shí)別信號(hào)中可用的相關(guān)特征;最后將提取的特征向量通過(guò)分類器進(jìn)行分類處理。用于聲音分類的簡(jiǎn)化系統(tǒng)如圖7所示。在基于聲音的信號(hào)處理的第一階段,進(jìn)行聲音增強(qiáng),去除噪聲成分。第二階段包括兩個(gè)部分,即特征提取和特征選擇。從預(yù)處理的信號(hào)中提取所需的特征,并從所提取的特征中進(jìn)行選擇,這種特征提取和選擇通?;跁r(shí)域和頻域中語(yǔ)音信號(hào)的分析。在第三階段,各種分類器,如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹等被用來(lái)對(duì)這些特征進(jìn)行分類。
下面,利用tensorflow2.0和UrbanSound8K數(shù)據(jù)集簡(jiǎn)單介紹一下利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)環(huán)境音分類的過(guò)程。利用Librosa庫(kù)提取梅爾聲譜圖,得到特征矩陣(64,174,1),如下頁(yè)圖8所示。
卷積神經(jīng)網(wǎng)絡(luò)在1984年由日本學(xué)者Fukushima提出,現(xiàn)在已經(jīng)被廣泛應(yīng)用于圖像處理和聲音處理等領(lǐng)域,并取得了突破性的成果。卷積神經(jīng)網(wǎng)絡(luò)主要有兩個(gè)特點(diǎn):局部感知和權(quán)值共享。利用卷積操作進(jìn)行局部感知,接收響應(yīng)后得到特征圖,所得特征圖共享卷積核參數(shù)。多次卷積后,感受視野擴(kuò)大,逐步形成全局特性,進(jìn)而成為高層表達(dá)。卷積神經(jīng)網(wǎng)絡(luò)一般包含卷積層、池化層和全連接層。卷積層和池化層用于輸入和提取特征,全連接層用于將特征映射到維度空間中。利用Tensorflow2.0可以方便地構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),大大降低了深度學(xué)習(xí)的實(shí)踐門檻。上頁(yè)圖9所示為卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。本實(shí)例的參數(shù)設(shè)置如下:Dropout參數(shù)為0.2,激活函數(shù)為Relu,優(yōu)化器為Adam,批量數(shù)為256,迭代次數(shù)為200。構(gòu)建網(wǎng)絡(luò)代碼如上頁(yè)圖10所示。
訓(xùn)練過(guò)程中訓(xùn)練集的準(zhǔn)確率和測(cè)試集上的準(zhǔn)確率隨迭代次數(shù)的變化如上頁(yè)圖11所示。
最終利用混淆矩陣查看各個(gè)類別的訓(xùn)練效果,如圖12所示。
音頻編輯的原理和難度
邱元陽(yáng):音頻的編輯比較特殊,在聲音的處理上,我們無(wú)法做到隨心所欲。
音頻的編輯不同于圖像和視頻,因?yàn)閳D像和視頻本身是可以看到的,進(jìn)行可視化操作是理所當(dāng)然的,而聲音是不可見(jiàn)的,需要將用耳朵感受的現(xiàn)象變成可視化的操作,這樣就使難度大了很多。在音頻編輯軟件中可以很方便地添加音效,對(duì)聲音進(jìn)行合成、疊加,粗略地去除音樂(lè)中的人聲,甚至通過(guò)不同的聲道來(lái)形成環(huán)繞立體聲。在AI的加持下,Adobe的音頻編輯已經(jīng)能做到直接修改語(yǔ)音內(nèi)容。但是很基本的聲音操作,我們往往無(wú)法實(shí)現(xiàn),如可視化地對(duì)聲音本身進(jìn)行編輯修改、對(duì)每個(gè)聲音元素進(jìn)行單獨(dú)處理、剔除混亂場(chǎng)景中的某種聲音、提取需要的聲音元素等。
視頻的編輯難度也會(huì)大于圖像編輯,但是因?yàn)橐曨l可以看作圖像在時(shí)間軸上的排列,復(fù)雜和很難完成的處理至少還有對(duì)逐幀圖片進(jìn)行編輯的可能。音頻雖然也是各種聲音元素在時(shí)間軸上的排列,卻無(wú)法逐幀處理。因?yàn)槲覀儗?duì)聲音的認(rèn)識(shí)還有所欠缺,對(duì)聲音的直觀可視表達(dá)還無(wú)能為力。目前對(duì)聲音的物理學(xué)認(rèn)識(shí)還停留在聲音三要素即響度、音調(diào)和音色層面,對(duì)聲音的可視化表達(dá)還停留在“波形”上。因此,音頻編輯的界面往往就是波形的顯示和編輯。
圖像是通過(guò)視覺(jué)經(jīng)視網(wǎng)膜轉(zhuǎn)換后在大腦形成的映像,而聲音則是通過(guò)聽覺(jué)經(jīng)鼓膜傳遞給聽覺(jué)神經(jīng)在大腦形成的映像。不同的人和不同的動(dòng)物,對(duì)聲音的辨別都有差異,如海豚和蝙蝠能感受到超聲波,老鼠能感受到次聲波,而人卻感覺(jué)不到。
聲音三要素中的響度一般認(rèn)為取決于聲波的振幅,音調(diào)取決于聲波的頻率,但這些感受是主觀的,實(shí)際上與物理原理相差較大。例如,音調(diào)主要由聲音的頻率決定,但同時(shí)也與聲音強(qiáng)度有關(guān)。對(duì)一定強(qiáng)度的純音,音調(diào)隨頻率的升降而升降;對(duì)一定頻率的純音,2000Hz以下低頻純音的音調(diào)隨聲強(qiáng)增加而下降,3000Hz以上高頻純音的音調(diào)卻隨強(qiáng)度增加而上升。
最終人耳感覺(jué)到的聲音是否好聽,還取決于音色,即音頻的泛音或諧波成分。相對(duì)于某一頻段的音高是否具有一定的強(qiáng)度,在頻率范圍內(nèi)的同一音量下各頻點(diǎn)的幅度是否均衡飽滿、頻率響應(yīng)曲線是否平直、音準(zhǔn)是否穩(wěn)定、頻率的畸變和相移是否明顯、泛音是否適中、諧波是否豐富等,都決定了聲音是否優(yōu)美動(dòng)聽。
有這么多的物理特性之外的生理感覺(jué),使得聲音效果的控制和處理難度更大,而在聲音處理之前,還要對(duì)聲音進(jìn)行數(shù)字化,又涉及各種采樣、量化和壓縮處理。音頻的量化過(guò)程就是將聲音數(shù)字化,也就是模擬音頻的數(shù)字化過(guò)程,包括采樣、量化、編碼等。
因?yàn)槁曇艟哂袝r(shí)間延續(xù)性,音頻編輯也需要在時(shí)間軸上進(jìn)行。自然的聲音是連續(xù)的,數(shù)字化的聲音則是離散的,這就需要確定間隔多少時(shí)間采樣,即采樣頻率。采樣頻率越高越能真實(shí)地反映音頻信號(hào)隨時(shí)間的變化,聲音的還原就越真實(shí)越自然,但存儲(chǔ)體積也越大。為了復(fù)原波形,一次振動(dòng)中必須有2個(gè)點(diǎn)的采樣,人耳能夠感覺(jué)到的最高頻率為20kHz,因此要滿足人耳的聽覺(jué)要求,則需要至少每秒進(jìn)行40k次采樣,即40kHz的采樣率,因此,CD的采樣率確定為44.1kHz。一般8000Hz可用于電話通話,11025Hz能用于AM調(diào)幅廣播,而22050Hz和24000HZ用于FM調(diào)頻廣播,44100Hz是CD音質(zhì),48000Hz則是更加高精的高清晰音質(zhì),一些藍(lán)光音軌甚至采用了96000Hz或192000Hz的高采樣頻率。音頻編輯軟件在處理不同采樣頻率的素材時(shí),往往需要先進(jìn)行采樣頻率統(tǒng)一。
除了在時(shí)間軸上采樣,還需要量化音頻信號(hào)的幅度變化,即位深或位寬。量化位數(shù)越多,越能細(xì)化音頻信號(hào)的幅度變化。量化之后,還需要編碼,也就是按一定格式記錄采樣和量化后的數(shù)據(jù)。對(duì)記錄音頻的文件進(jìn)行播放,就是解碼的過(guò)程,音頻編輯軟件還要識(shí)別和適應(yīng)不同的編碼。為了更好地跟傳輸線路匹配,編碼之后的數(shù)據(jù)會(huì)用音頻碼率的形式來(lái)描述所需要的最低傳輸速度,這就是碼率,也就是1秒內(nèi)編碼或傳輸?shù)囊纛l數(shù)據(jù)量。采樣率、位寬、聲道數(shù)相乘,就得到碼率。
音頻數(shù)據(jù)本身是流式的,沒(méi)有明確的“幀”概念,在音頻編輯軟件中為了方便,一般取2.5ms~60ms為單位的數(shù)據(jù)量為一幀音頻。所以,音頻的幀跟視頻的幀不同,也不像視頻幀那樣可以單幀編輯。
像視頻處理一樣,處理好的音頻在存儲(chǔ)時(shí)也需要壓縮體積。當(dāng)一個(gè)頻率的聲音能量小于某個(gè)閾值(最小可聞閾)時(shí),人耳就聽不到,這就是信號(hào)的掩蔽效應(yīng)。而當(dāng)能量較大的聲音出現(xiàn)時(shí),其頻率附近的閾值會(huì)提高很多,即頻域掩蔽效應(yīng)。如果強(qiáng)音信號(hào)和弱音信號(hào)同時(shí)出現(xiàn),也會(huì)發(fā)生掩蔽效應(yīng),即時(shí)域掩蔽效應(yīng)。這些特點(diǎn)就是聲音壓縮的原理和依據(jù)。
在音頻處理中,根據(jù)噪聲的特點(diǎn),可以用濾波器進(jìn)行過(guò)濾,達(dá)到回聲消除(AEC)、噪聲抑制(ANS)等目的。將聲音的時(shí)域信號(hào)轉(zhuǎn)成頻域信號(hào)進(jìn)行分析,從頻域的角度看,濾波器就是刪除一些不需要的頻率,達(dá)到過(guò)濾效果。在自然聲音中,當(dāng)眾人同時(shí)講話時(shí),采集進(jìn)來(lái)的語(yǔ)音信號(hào)就包含了遠(yuǎn)端的回聲和近端的語(yǔ)音,兩者混合在一起,出現(xiàn)回聲,就會(huì)有漏尾和切字,這個(gè)回聲的消除就十分困難,因?yàn)榧纫Wo(hù)近端的語(yǔ)音信號(hào),又要盡量把混合進(jìn)來(lái)的遠(yuǎn)端回聲消除干凈。音頻編輯軟件一般會(huì)根據(jù)參考信號(hào)與遠(yuǎn)端回聲信號(hào)的相關(guān)性,盡量將遠(yuǎn)端回聲信號(hào)進(jìn)行消除(線性處理),同時(shí)根據(jù)殘留量進(jìn)行殘留回聲抑制和剪切(非線性處理)。當(dāng)環(huán)境噪音太大時(shí),可以對(duì)帶噪語(yǔ)音進(jìn)行VAD判斷、噪聲估計(jì),用維納濾波達(dá)到降噪效果。
所以,音頻編輯中涉及非常多的因素,而且很多是非線性的,處理起來(lái)難度很大,甚至很多基本元素都不能分離處理。而我們覺(jué)得比較神奇的部分,如變聲、立體聲,處理和實(shí)現(xiàn)起來(lái)反而比較簡(jiǎn)單。變聲(語(yǔ)音變調(diào)),簡(jiǎn)單地提高主要頻率,就是升調(diào)。因?yàn)橐欢温曇魧?shí)際上就是多種頻率正弦聲波的疊加。男女聲的變化則還要考慮音色?;祉懜?jiǎn)單,可以使原始聲音波形的輸入產(chǎn)生多個(gè)延遲波形(模擬反彈),再把多個(gè)延遲波形和原始的波形進(jìn)行疊加,產(chǎn)生最終有混響效果的聲音波形。延遲波形的個(gè)數(shù)越多,疊加產(chǎn)生的聲音波形越豐滿,產(chǎn)生層次感、空間感,混響的效果也越好。
3D立體聲的實(shí)現(xiàn),是增加了聲音的方位,通過(guò)聲音辨別出方位,從而增強(qiáng)聲音的空間感。在音頻處理算法上,可以通過(guò)頭部相關(guān)傳輸函數(shù)HRTF使用人耳和人腦的頻率振動(dòng)預(yù)知來(lái)合成3D音效。具體來(lái)說(shuō),人的大腦分辨聲源的方向是通過(guò)ITD(兩耳時(shí)間延遲量差)和IAD(兩耳音量大小差)來(lái)達(dá)到的。但是ITD和IAD不能描述聲源從正前方和正后方傳來(lái)的區(qū)別,人的耳朵卻能。這個(gè)問(wèn)題是由耳廓來(lái)解決的:聲波遇到耳廓會(huì)反彈,經(jīng)過(guò)反彈之后,它們?cè)诠哪ど袭a(chǎn)生了不同的頻率振動(dòng)。正是因?yàn)槎拇嬖?,才造成了從前面和從后面?zhèn)鱽?lái)的聲音截然不同。所以,實(shí)現(xiàn)立體聲還要加上耳廓頻率振動(dòng)這一變量。通過(guò)ITD、IAD和耳廓頻率振動(dòng)這三個(gè)特征量,就可以合成3D音效了。把這三個(gè)元素作為頭部相關(guān)傳輸函數(shù)(HRTF)的參數(shù)進(jìn)行處理,對(duì)于音頻編輯軟件來(lái)說(shuō)就不是難事了。
結(jié)語(yǔ)
希望本期討論可以讓讀者朋友們了解人工智能算法如何處理簡(jiǎn)單的聲音分類任務(wù),感受聲音的世界。聲音作為傳遞信息的媒介,依然有很多待挖掘的潛力。隨著人工智能領(lǐng)域不斷突破瓶頸,相信會(huì)有越來(lái)越多的應(yīng)用走進(jìn)我們的生活,智慧生活值得期待。