鄧茗月,何培宇,方安成
(四川大學(xué)電子信息學(xué)院,成都 610065)
耳鳴是在無外部聲源刺激下產(chǎn)生的聽覺感知,耳鳴發(fā)病率為11.9%~30.3%,嚴(yán)重者會(huì)產(chǎn)生焦慮、煩躁甚至抑郁等癥狀[1-2]。由于耳鳴病因和發(fā)病機(jī)制尚不確定,故現(xiàn)有的手術(shù)、藥物、經(jīng)顱磁刺激等治療手段不具普適性。而聲治療作為一種安全有效的治療方式,適用于各種類型的耳鳴患者,在臨床中已有較廣泛的應(yīng)用[3]。因此,探索耳鳴聲治療方法具有重要意義。
掩蔽療法(tinnitus masking therapy , TMT)和習(xí)服療法(tinnitus retraining therapy , TRT)為耳鳴聲治療的經(jīng)典療法[4]。TMT使用的康復(fù)音常為與患者耳鳴頻率匹配的窄帶噪聲,聽感不佳,患者難以接受;TRT使用的康復(fù)音為音樂等寬頻帶聲音,不考慮患者耳鳴頻率,治療周期長(zhǎng)且見效慢[5]。臨床試驗(yàn)表明,在慢性耳鳴的長(zhǎng)期治療中,TRT的療效比TMT更好[6]。但TRT需要長(zhǎng)時(shí)間的治療,一旦患者對(duì)康復(fù)音形成記憶,將影響治療效果。研究表明,相似不重復(fù)的音樂可以緩解耳鳴。基于分形算法映射音符合成分形音樂[7-8]、基于超混沌算法映射旋律片段合成音樂[9](其中旋律片段由個(gè)性化匹配音樂所提取的主旋律發(fā)展變換得到)、基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)合成滿足患者個(gè)性化喜好的音樂[10]等合成音樂,均具有相似不重復(fù)特性,且后兩者同時(shí)滿足患者偏好,能克服現(xiàn)有音樂在TRT長(zhǎng)期治療中反復(fù)播放導(dǎo)致重復(fù)性記憶的問題。蔡麗等[11]基于分形算法映射變換發(fā)展后的自然聲片段合成分形自然聲,其中自然聲片段頻率集中且與患者耳鳴頻率相匹配,代替?zhèn)鹘y(tǒng)TMT中聽感不佳的窄帶噪聲。漆蕾宇等[12]將無偏好分形音樂與分形自然聲結(jié)合生成康復(fù)音,實(shí)現(xiàn)同時(shí)達(dá)到TMT與TRT的治療效果,但其中分形自然聲由發(fā)展變換后的自然聲片段拼接,存在聽感重復(fù)和損失自然度的問題。羅彬、魯?shù)さ萚13-14]提出了一種綜合TMT與TRT的多元復(fù)合聲治療方案,其康復(fù)音包括三個(gè)元素:音樂、窄帶噪聲和覆蓋窄帶噪聲頻率范圍的自然聲。臨床試驗(yàn)證明,該治療方案對(duì)耳鳴起到抑制作用,對(duì)耳鳴治療具有一定的參考價(jià)值[13-17]。該方案康復(fù)音通過多元聲音互補(bǔ),對(duì)TRT不考慮患者耳鳴頻率和TMT忽略患者心理感知特征的情況有所改善。但其康復(fù)音中作為TRT和TMT的元素仍為現(xiàn)存音樂和窄帶噪聲,且其聲音元素的融合需借助第三方醫(yī)療平臺(tái)。
本研究旨在通過信號(hào)處理技術(shù)合成一體化的康復(fù)音,在保持康復(fù)音頻率特性的同時(shí),提升自然度并降低聽感重復(fù)度。因此,本研究基于IFS算法和MIDI技術(shù)提出一種多音軌個(gè)性化耳鳴康復(fù)音(multi-track personalized tinnitus rehabilitation sound, MPTRS)合成方法。該方法以匹配患者耳鳴頻段的頻率,集中分形自然聲代替窄帶噪聲,輔以流暢的類白噪聲自然聲以及相似不重復(fù)的分形音樂合成MPTRS,其中用于合成分形自然聲的自然聲片段數(shù)量大、種類豐富,可降低文獻(xiàn)[12]中分形自然聲由有限自然聲片段發(fā)展變換后合成導(dǎo)致的重復(fù)聽感,并對(duì)合成康復(fù)音的自然度有所提升,同時(shí)分形音樂由個(gè)性化匹配音樂發(fā)展而來,滿足患者偏好。由此,MPTRS可在保持精細(xì)頻率特性的同時(shí)提升心理感知特性,能滿足治療時(shí)間長(zhǎng)的需求,對(duì)耳鳴聲治療具有參考價(jià)值。
本研究合成MPTRS的原理見圖1,MPTRS包含三個(gè)元素。
圖1中①部分為fc-NS合成過程。與固定強(qiáng)度聲音相比,變化的聲音更有利于耳鳴治療,自然聲音雖然具有更高的動(dòng)態(tài)性和掩蔽閾值,但更能被患者接受。基于此,將耳鳴多發(fā)頻段劃分為若干子頻段,收集自然界中在這些頻段上頻率集中的聲音,如鳥鳴、蟬鳴、各類蟲鳴等集成為庫(kù)。根據(jù)患者匹配的耳鳴頻率,以IFS算法映射庫(kù)中相應(yīng)頻段中的自然聲片段合成fc-NS,即以這些頻率集中的豐富自然聲替代窄帶噪聲,避免窄帶噪聲聽感不佳,達(dá)到使fc-NS打破強(qiáng)度固定、實(shí)現(xiàn)變化、具有精細(xì)頻率特性的同時(shí)又具有心理感知特性的效果。
TRT中寬帶噪聲比窄帶噪聲對(duì)耳鳴更有幫助,隨著寬帶噪聲的比例增加,成功治療率呈上升趨勢(shì)。水流聲、雨聲、海浪聲都是較為有效的掩蔽信號(hào)[18-20],且此類聲音都接近白噪聲。因此,本研究將wl-NS的選取范圍集中于雨聲、流水聲、海浪聲等流暢的類白噪聲自然聲,收集此類聲音集成為庫(kù),根據(jù)個(gè)人喜好匹配wl-NS,作為康復(fù)音中的背景音。
圖1中②部分為f-Music合成過程。因滿足患者偏好的音樂更有利于治療[21-22],故本研究?jī)?yōu)選各種風(fēng)格的MIDI音樂集成為庫(kù),為患者進(jìn)行個(gè)性化匹配,將匹配后的MIDI文件進(jìn)行解析,提取其音調(diào)和節(jié)奏組合,以IFS算法映射合成時(shí)長(zhǎng)可控且相似不重復(fù)的音樂。
圖1 MPTRS的合成過程
本研究中關(guān)于MIDI文件的處理部分借助了芬蘭于韋斯屈萊大學(xué)學(xué)者Tuomas Eerola和Petri Toiviainen提出的MIDItoolbox工具。
MIDI文件不同于一般音頻文件,其本身不包含波形數(shù)據(jù)而以2進(jìn)制方式存儲(chǔ)MIDI消息。MIDI文件可解析為一個(gè)7×n的矩陣notematrix,其中包含MIDI文件的有效信息,該矩陣每一行代表一個(gè)音符事件。第一、二列分別表示為以四分音符為基準(zhǔn)的音符開始節(jié)拍和持續(xù)節(jié)拍。第三列表示MIDI通道(0~16)。第四列表示MIDI音高,中央C的值為60。第五列表示音符的音量(0~127)。第五六列分別對(duì)應(yīng)于第一二列并以秒代替節(jié)拍,表示音符演奏開始時(shí)間點(diǎn)和持續(xù)時(shí)間。
圖2為基于個(gè)性化匹配的MIDI文件提取音調(diào)值和節(jié)奏組合的過程。提取個(gè)性化匹配的MIDI文件主旋律軌,解析為notematrix,提取notematrix的pitch列,將其去重后得到主旋律中音調(diào)值集合;提取notematrix的onset(Beats)列,得到其差值序列,依據(jù)拍號(hào)將差值列順序和等于一個(gè)小節(jié)節(jié)拍總數(shù)的組合劃分為一組,即得到以小節(jié)為單位的節(jié)奏組合,將這些節(jié)奏組合去重后得到主旋律的小節(jié)節(jié)奏組合集合。以上得到的音調(diào)集合及節(jié)奏組合集合作為分形序列的映射對(duì)象,基于動(dòng)態(tài)規(guī)劃計(jì)算第一、六列,補(bǔ)充第三、五列形成新的notematrix。
為避免個(gè)性化匹配的MIDI音樂中提取的音調(diào)差值過大,新notematrix中出現(xiàn)相鄰音調(diào)突變的情況,以鍵值對(duì)的形式記錄音調(diào)值集合及原notematrix中其后出現(xiàn)過與之差值最大的音調(diào)值。遍歷新notematrix,將前后音調(diào)差值大于鍵值對(duì)記錄的,均以記錄為準(zhǔn)進(jìn)行修正。
圖2 音調(diào)和節(jié)奏組合的提取過程
本研究分別從主觀和客觀兩方面評(píng)價(jià)合成的MPTRS。招募志愿者進(jìn)行試聽,實(shí)驗(yàn)后對(duì)康復(fù)音評(píng)分,從主觀上衡量康復(fù)音的可聽性;基于耳鳴模型討論康復(fù)音的治療效果,從客觀上衡量康復(fù)音的有效性。此外,還對(duì)合成的分形音樂進(jìn)行了1/f波動(dòng)分析、分形維度以及旋律分析。
1/f波動(dòng)反映時(shí)間序列中頻率與其強(qiáng)度的反比關(guān)系,它與人安靜愉悅時(shí)心跳、腦波等周期性變化節(jié)律吻合,可使人感到和諧舒適,音樂作為一種典型的時(shí)間藝術(shù),也符合1/f波動(dòng)特性[23]。1/f波動(dòng)可由功率譜密度s/f反映,頻率f與s(f)的關(guān)系表示為式(1),進(jìn)一步表示為式(2),當(dāng)β的取值范圍為[0.5,1.5]時(shí),則認(rèn)為該信號(hào)符合1/f波動(dòng)特性。
S(f)∝f-β
(1)
ln(S(f))∝-βln(f)
(2)
圖3分別為IFS直接生成序列以及將其做放大、取模后的映射序列譜密度擬合曲線,圖4分別為生成分形音樂的音調(diào)值序列和時(shí)值序列譜密度擬合曲線。對(duì)應(yīng)式(2)的系數(shù)β分別為0.9588、0.9572、0.9581和0.9679,說明IFS序列本身符合1/f波動(dòng)特性,且其變換后所得序列、映射為音調(diào)值序列和時(shí)值序列后不破壞波動(dòng)特性。
圖3 IFS序列和映射序列的功率譜擬合曲線
在音樂中,如果連續(xù)音調(diào)的間隔i及其頻率F(i)滿足式(3),其中c為常數(shù),D為分形維數(shù),那么這樣的關(guān)系能夠稱為分形[24]。式(3)進(jìn)一步可表示為式(4)的對(duì)數(shù)關(guān)系,圖5為本研究生成f-Music的i與F(i)的對(duì)數(shù)關(guān)系擬合曲線,由圖5可知,i與F(i)的對(duì)數(shù)基本呈線性關(guān)系,滿足式(4)。
(3)
logF(i)=c′-Dlogi
(4)
3.3.1旋律輪廓旋律輪廓描述了旋律的整體形狀,通常比準(zhǔn)確的音程信息更容易認(rèn)識(shí)與記憶,其分辨率以MIDI節(jié)拍表示。圖6為從f-Music中截取第100~150拍的旋律輪廓,分辨率為0.25,觀察該段旋律輪廓可知該段旋律整體不重復(fù),音調(diào)在一定范圍內(nèi)變化,且未出現(xiàn)最值間的突變。圖7為f-Music的整體旋律輪廓,分辨率為1,可發(fā)現(xiàn)f-Music整體旋律呈現(xiàn)前后相似的特點(diǎn)。
圖4 音調(diào)序列和音符時(shí)值序列的功率譜擬合曲線
圖5 f-Music的分形維度分析
圖6 f-Music部分旋律輪廓
3.3.2相似度對(duì)比 文獻(xiàn)[9]基于超混沌合成的耳鳴康復(fù)音也涉及MIDI文件的個(gè)性化匹配,選取不同風(fēng)格的三首MIDI音樂(Sarabande、天空之城和茉莉花)作為參照,對(duì)本研究合成音樂及文獻(xiàn)[9]合成音樂與原MIDI音樂的相似度進(jìn)行計(jì)算(0~1),其中涉及音調(diào)分布、音程分布、旋律輪廓、音符時(shí)值分布的比較。
圖7 f-Music的整體旋律輪廓
見表1,相比于文獻(xiàn)[9]方法合成音樂,本研究方法合成音樂理論上與原始音樂相似度更高,更貼合受試者偏好。
表1 合成音樂與原始音樂相似度評(píng)分
耳鳴治療是否有效可以直觀地以患者的耳鳴感知是否消失或減弱來評(píng)判。文獻(xiàn)[25]基于LMS算法建立自適應(yīng)耳鳴模型,該模型根據(jù)人體耳蝸中不同部位內(nèi)聽毛細(xì)胞和聽毛細(xì)胞響應(yīng)不同頻率聲音的特點(diǎn),將聽覺通路分為若干分路,耳蝸不同受損情況對(duì)應(yīng)患者產(chǎn)生的不同頻率自發(fā)信號(hào)即為耳鳴。實(shí)驗(yàn)采用本研究合成MPTRS作為激勵(lì)輸入該耳鳴模型,觀察輸出自發(fā)信號(hào)功率是否有相應(yīng)變化來衡量有效性。
本研究對(duì)該耳鳴模型進(jìn)行了80 s的仿真實(shí)驗(yàn)。假設(shè)聽覺通路中第6、10和16分路受同等程度損傷,三條分路損傷后分別產(chǎn)生中心頻率為5 550 Hz、9 550 Hz和15 550 Hz的耳鳴(理論頻率),見圖8。針對(duì)第6分路合成MPTRS,其頻譜見圖9,兩個(gè)譜峰分別為wl-NS和fc-NS的頻率特性,wl-NS的選取范圍限定第一個(gè)譜峰位于相對(duì)低頻段,使其對(duì)低頻耳鳴具有普適性,且聽感更舒適豐富;第二個(gè)譜峰可根據(jù)所匹配的耳鳴頻率調(diào)整fc-NS,滿足相對(duì)高頻耳鳴的治療需求。
圖8 無MPTRS刺激時(shí)耳鳴模型輸出
圖9 MPTRS頻譜
10 s開始輸入康復(fù)音,70 s時(shí)撤銷康復(fù)音,圖10為輸出耳鳴時(shí)頻圖,觀察可發(fā)現(xiàn)在輸入康復(fù)音的時(shí)段,即10~70 s第6通路的耳鳴輸出功率明顯下降,第10通路的耳鳴輸出功率略有下降,第16通路的耳鳴輸出功率基本無變化。實(shí)驗(yàn)說明,本研究合成MPTRS能夠有效抑制對(duì)應(yīng)頻率段耳鳴。
本節(jié)試聽實(shí)驗(yàn)對(duì)MPTRS、文獻(xiàn)[12]合成康復(fù)音和文獻(xiàn)[13-14]康復(fù)音進(jìn)行對(duì)比分析。在相同原材料下根據(jù)三者不同需求分別合成時(shí)長(zhǎng)為5 min的康復(fù)音,分別記為frag_1、frag_2和frag_3。本試聽實(shí)驗(yàn)在人群中招募37名聽力正常的志愿者,志愿者在安靜的環(huán)境中依次試聽frag_1、frag_2和frag_3,全部試聽完后,分別對(duì)三個(gè)康復(fù)音片段的四項(xiàng)指標(biāo)(流暢度、自然度、重復(fù)度和突變度)在0~10范圍內(nèi)評(píng)分,評(píng)分結(jié)果見表2。
圖10 MPTRS刺激時(shí)耳鳴模型輸出
評(píng)分結(jié)果顯示,本研究合成康復(fù)音frag_1的試聽效果在三者中舒緩自然度最佳,重復(fù)度最低,突變度介于另兩者之間。完整流暢的wl-NS提升了康復(fù)音的舒緩度,fc-NS避免了經(jīng)相同自然聲片段變換發(fā)展后拼接出現(xiàn)的重復(fù)感,同時(shí)f-Music也降低了現(xiàn)有音樂反復(fù)播放帶來的重復(fù)感,雖然fc-NS的交替仍有一定的突變度,但自然度也有所提升,并且同時(shí)對(duì)舒緩度有所改善,能為聽者接受。
表2 康復(fù)音評(píng)分
本研究基于IFS和MIDI技術(shù)提出了一種多音軌個(gè)性化耳鳴康復(fù)音合成方法。本方法對(duì)合成康復(fù)音的聲音元素進(jìn)行了一定程度的個(gè)性化匹配,其中分形音樂在滿足相似不重復(fù)特性的同時(shí)貼合患者偏好;將傳統(tǒng)掩蔽療法中常使用的窄帶噪聲替換為頻率集中自然聲,提升了康復(fù)音的可聽性;疊加了類白噪聲自然聲,對(duì)前兩者進(jìn)行融合,豐富聽感。本研究合成康復(fù)音主觀上試聽效果舒緩自然,可滿足長(zhǎng)時(shí)間治療的需求;客觀上滿足1/f波動(dòng)、具有分維特性且輸入耳鳴模型有效。因此,本研究方法對(duì)耳鳴聲治療有一定參考價(jià)值。