武雅琴,鄧林強,楊晨藝,呂 嘉,公徐路
(山西農業(yè)大學,山西 晉中 030801)
隨著信息技術的不斷發(fā)展,音頻信號處理技術正發(fā)揮著舉足輕重的作用。語音隸屬于音頻研究范疇,作為信息交互的媒介,相比圖像文本等其他交互方式,語音表達更加簡潔直觀。語音交互傳遞信息比較靈活自然,因此成為現(xiàn)實生活中最直接有效的溝通方式[1]。語音除了包含人想要傳達的命令之外,還包含有各種聲學特征,通過分析提取聲學特征除了可進行情感識別[2-3]、語音識別等傳統(tǒng)聲學研究外[4]、還可作為病理嗓音疾病的診斷依據(jù)[5-6],在音頻信號處理與病理嗓音醫(yī)學交叉應用領域中起到了舉足輕重的作用。
病理嗓音信號研究大都以多模態(tài)信號為主體,通過各種拾音設備和分析軟件采集、分析、保存為不同格式。涉及到拾音設備領域,目前主要氣流氣壓采集設備是美國KAY公司的言語發(fā)聲空氣動力學系統(tǒng),但由于該設備采集保存的文件格式為.NSP,現(xiàn)有多模態(tài)音頻分析軟件無法對該格式文件進行處理。此外,通過對現(xiàn)有文獻的分析,存在未完整考慮文件結構、編解碼特征、存儲格式和評測方法單一的問題。因此,本文設計一種將NSP模態(tài)轉為WAV模態(tài)的信號分析系統(tǒng),以實現(xiàn)音頻多模態(tài)分析研究的目的。
由于鮮有資料對NSP文件進行詳細介紹,因此本文采用UltraEdit軟件打開讀取該文件,通過統(tǒng)計對比的方法來分析確定文件的頭部與數(shù)據(jù)起始部分。如圖1所示,文件數(shù)據(jù)存儲為十六進制碼,每行存放16組數(shù)據(jù)。本文通過統(tǒng)計對比大量NSP文件的內碼得出:氣流氣壓信號NSP文件均以“5344415F”為界,在該分界之前為頭文件信息,該分界之后緊接的4組數(shù)據(jù)代表文件數(shù)據(jù)總數(shù),剩余部分至結束為NSP文件的真實數(shù)據(jù)部分。
圖1 NSP文件內碼圖
WAV文件格式是微軟開發(fā)的一種音頻格式,可以直接存儲聲音波形,是一種很常見、最經(jīng)典的多媒體音頻文件。本論文從文件結構、編碼特征、影響因素和存儲格式對WAV文件進行分析。
1.2.1 文件結構
在Windows環(huán)境下,大部分的多媒體文件是按照資源互換文件格式存放信息,簡稱為RIFF格式。WAV文件分為兩部分,一部分是WAV頭部文件,另一部分是PCM編碼的音頻數(shù)據(jù)部分。該文件類型遵循RIFF格式,內容以區(qū)塊(chunk)為最小單位進行存儲,一般由三個區(qū)塊組成:RIFFchunk、Format chunk和Datachunk。其中RIFFchunk代表文件標識符,Formatchunk包括WAV文件編碼格式類型、聲道數(shù)、采樣頻率、采樣位數(shù)、數(shù)據(jù)塊長度等重要參數(shù),Datachunk記錄音頻數(shù)據(jù)。
1.2.2 編碼特征
WAV文件支持非壓縮的PCM脈沖編碼調制格式。PCM脈沖編碼調制主要是對連續(xù)的模擬信號每隔一段時間進行取樣操作,變?yōu)樵跁r間軸上離散的抽樣信號,并將取樣的值按四舍五入進行量化取整,最后將取樣值按二進制碼的方式表示抽樣脈沖的幅值。
1.2.3 影響因素
1) 采樣頻率:采樣頻率也稱為采樣率,定義為每秒從連續(xù)信號中提取并組成離散信號的次數(shù),是描述聲音文件音質、音調、聲卡的質量標準。其值越高,采樣的間隔越短,即單位時間內獲得的聲音數(shù)據(jù)越多,波形的表示也就越準確。
2) 采樣位數(shù):采樣位數(shù)是衡量量化的參數(shù),是指聲卡數(shù)字信號的二進制位數(shù),即對聲音的辨析度。數(shù)值越大,分辨率也就越大,發(fā)聲能力越強,目前計算機中配置的16位聲卡的采樣位數(shù)包括8位和16位兩種。
3) 聲道數(shù):聲道數(shù)是音質傳輸?shù)闹匾笜?有單聲道和雙聲道(立體聲)之分,雙聲道在硬件中要占兩條線路,音質、音色會比單通道時表現(xiàn)更好,其數(shù)字化后數(shù)據(jù)所占的空間是單聲道的兩倍。
4) 存儲格式:對于WAV文件的Data模塊,聲道數(shù)、采樣率和采樣位數(shù)的不同,會直接影響數(shù)據(jù)的存儲格式,圖2展示了WAV文件不同采樣位數(shù)和聲道數(shù)組合的存儲格式情況。
通過對NSP和WAV文件的分析,本文得出:要設計實現(xiàn)適用于音頻多模態(tài)的信號分析系統(tǒng),實現(xiàn)NSP模態(tài)轉為WAV模態(tài)的目的,必須全面綜合考慮待處理音頻模態(tài)文件的聲道數(shù)、編碼位數(shù)、采樣率等重要指標。
本文設計的基于音頻多模態(tài)研究的信號分析系統(tǒng),主要包括預處理、數(shù)據(jù)標識、轉換生成三大模塊。首先,預處理模塊用以對NSP模態(tài)文件進行真實數(shù)據(jù)起始和終止部分的準確定位和截取保存處理,預處理模塊的輸出數(shù)據(jù)會順序傳入數(shù)據(jù)標識模塊進行采樣點定位;其次,數(shù)據(jù)標識模塊用以對預處理模塊的輸出數(shù)據(jù)根據(jù)采樣位數(shù)和通道數(shù)進行定位處理,該模塊的輸出為后續(xù)轉換生成模塊提供采樣點數(shù)據(jù);最后,轉換生成模塊結合采樣率和聲道數(shù),用以對數(shù)據(jù)標識模塊輸出的所有采樣點數(shù)據(jù)進行轉換處理,得到最終生成的WAV模態(tài)文件?;谝纛l多模態(tài)研究的信號分析系統(tǒng)設計框圖如圖3所示。
圖3 基于音頻多模態(tài)研究的信號分析系統(tǒng)設計框圖
本文采用由美國KAY公司的言語發(fā)聲空氣動力學系統(tǒng)采集保存的CD-ROM版的病理嗓音數(shù)據(jù)庫4337型,該數(shù)據(jù)庫包含來自大約700個發(fā)音人的1400多個嗓音樣本,被視為病理嗓音臨床和研究領域的經(jīng)典語料。
基于音頻多模態(tài)研究的信號分析系統(tǒng)實現(xiàn)包含以下三個步驟:
1) 預處理:將CD-ROM版的病理嗓音數(shù)據(jù)庫中存儲的NSP文件輸入預處理模塊進行數(shù)據(jù)解碼,NSP模態(tài)文件具有不同通道、采樣率和采樣位數(shù)等參數(shù)信息,基于UltraEdit軟件打開待轉換的NSP文件,根據(jù)分界線數(shù)據(jù)組“53 44 41 5F”準確定位真實數(shù)據(jù)的起始和終止部分;將全部真實數(shù)據(jù)截取復制保存,便于后續(xù)對數(shù)據(jù)進行標識處理。
2) 數(shù)據(jù)標識:基于待轉換NSP文件的通道數(shù)和采樣位數(shù),按照不同的組合情況,結合圖2的存儲結構定位NSP文件每個采樣點的數(shù)據(jù)信息(16進制編碼信息),直至全部采樣點定位結束。以輸入單通道、25 kHz、16位采樣位數(shù)的NSP模態(tài)文件為例,將按照圖2(c)格式收集采樣點。
3) 轉換生成:結合NSP模態(tài)文件的通道和采樣率信息,依據(jù)WAV文件格式對數(shù)據(jù)標識模塊獲得的所有采樣點的數(shù)據(jù)(16進制編碼信息)進行編碼處理,直至所有采樣點轉換完成停止,得到最終轉換后的對應的WAV模態(tài)文件。
為了驗證本文設計實現(xiàn)的基于音頻多模態(tài)研究的信號分析系統(tǒng)的有效性,將從文件內碼、文件參數(shù)信息、信號聲波波形和主觀聽覺感受方面進行綜合對比分析。
1) 文件內碼:如圖4,基于本文設計的系統(tǒng),將轉換生成的WAV模態(tài)文件打開后,根據(jù)WAV文件data區(qū)塊的存儲結構定位的總數(shù)據(jù)長度和data數(shù)據(jù)塊,發(fā)現(xiàn)轉換后的WAV模態(tài)文件和對應待轉化的NSP模態(tài)文件內碼信息一致,表明在轉換的過程中數(shù)據(jù)沒有發(fā)生任何丟失與改變,與預期結果相符。
圖4 系統(tǒng)轉換前后NSP和WAV文件內碼對比圖
2) 文件參數(shù)對比:將轉換后的WAV模態(tài)文件使用專業(yè)音頻處理軟件GoldWave打開,查看該文件采樣頻數(shù)、采樣位數(shù)、通道數(shù)等信息,通過對比發(fā)現(xiàn)和待轉換NSP文件參數(shù)保持一致。以輸入單通道,25 kHz、16位采樣位數(shù)的NSP模態(tài)文件為例,生成的對應的WAV模態(tài)文件在GoldWave中的參數(shù)信息如圖5所示,與待處理的NSP模態(tài)文件參數(shù)信息一致。
圖5 WAV文件參數(shù)信息圖
3) 信號聲波波形和主觀聽覺感受:如圖6,將轉換后的WAV模態(tài)文件采用專業(yè)音頻處理軟件GoldWave進行處理,通過觀察WAV信號聲波圖,可以看到波形分布均勻,有明顯的周期性,未出現(xiàn)數(shù)據(jù)截斷、缺失等問題;且從主觀聽覺感受來講,未存在卡頓、不清晰、不完整的情況。
圖6 WAV信號聲波圖
音頻信號的處理分析是人工智能領域的一個重要研究方向,隨著不同模態(tài)音頻信號在諸多領域的廣泛應用,對音頻信號分析系統(tǒng)的設計帶來了新的挑戰(zhàn)。本文通過創(chuàng)新性地構建預處理、數(shù)據(jù)標識、轉換生成三個模塊,設計實現(xiàn)一種適用于音頻多模態(tài)研究的信號分析系統(tǒng),相比現(xiàn)有技術,該系統(tǒng)克服了現(xiàn)有技術中存在的缺點和不足,同時也為各種拾音采集設備和音頻信號分析系統(tǒng)處理多模態(tài)信號提供了一種不同構思的技術方案。此外,該系統(tǒng)處理轉換的NSP格式信號與病理嗓音數(shù)據(jù)庫息息相關,也代表對音頻信號中涉及到的病理嗓音信號分析研究衍生出了一種新的技術發(fā)展趨勢,為應用于計算機和嗓音醫(yī)學診療交叉學科領域提供了技術支持,為嗓音臨床分析和研究提供了重要的支撐作用。