摘要:本研究旨在探討如何利用人工神經網絡和深度學習等AI技術,構建個體化的私人定制音樂治療模式。研究提出的個性化音樂治療模式主要由基于Transformer架構的治療音樂個性化標注AI模型和治療音樂個性化遴選與推薦系統(tǒng)兩部分組成。盡管目前尚未有實驗數據對該模式進行驗證,但隨著技術的不斷升級,AI驅動下的個性化音樂治療有望成為未來臨床應用和技術開發(fā)的關鍵領域,因此,對這一話題的深入探討已顯得尤為迫切。
關鍵詞:個性化音樂治療" AI Transformer架構" 深度學習
一、引言
在傳統(tǒng)的臨床音樂治療中,治療師通常會使用固定的治療音樂庫,或根據與患者的深入交流和治療需求,依照通用標準從治療音樂庫中選擇合適的音樂作為處方。然而,實際應用中,由于患者的文化背景、需求層次、對音樂的理解與喜好,以及共情能力的差異,治療音樂的選用標準需因人而異。這需要不斷嘗試以了解不同治療音樂對患者的效用,并根據反饋調整音樂處方。然而,這種過程可能導致一定的負面影響:許多患者因病痛折磨,渴望快速有效的治療,往往在接受到適用其個體的治療音樂前就對音樂治療失去信心,其周圍患者也會對音樂治療望而卻步。如果僅采用單一的分類方式,根據所謂的普適性體系進行治療,往往難以確保療效。甚至因接受了與自身情況不匹配的治療,錯誤地認為音樂治療就是聽聽音樂而已。隨著科技的進步,人工智能(AI)在音樂處理和分析中的應用前景日益廣闊。將AI技術引入音樂治療領域,可為個性化音樂治療提供新工具和方法。因此,本文提出一種由AI驅動的個性化音樂治療模式,為個性化治療的實現盡微薄之力。
二、個性化音樂治療模式設計
此模式由兩部分組成,首先是基于Transformer架構的治療音樂個性化標注AI模型,該模型由經患者個性化標注后的治療音樂數據進行訓練,生成與患者主觀情感和客觀生理表現高度契合的治療音樂標注,并構建個性化治療音樂數據庫。其次是治療音樂個性化遴選與推薦系統(tǒng),該系統(tǒng)利用AI模型構建的個性化治療音樂數據庫,結合患者當前的生理和心理狀況,進行針對性的音樂遴選與推薦。系統(tǒng)還可根據患者身心狀況實時變化,動態(tài)調整治療音樂,滿足患者的實時需求。此外,該系統(tǒng)還可以根據每位患者的獨特需求,建立特需治療音樂庫,從而確保治療方案的最大包容性和有效性。此模式的流程設計如圖所示:
三、基于Transformer架構的治療音樂個性化標注AI模型
(一)治療音樂個性化標注AI模型的作用與必要性
對治療音樂進行特征標注與功能性分類是音樂治療活動的重要基礎,傳統(tǒng)方法通常依照音樂的情感色彩或應用場景進行分類,形成具有普適性的標注、分類標準。然而,這些通用標準并不總是適用于所有患者。例如,明亮的大三和弦通常給人以愉快的感覺,而暗淡的小三和弦則令人感到沉悶;大調音樂能夠激發(fā)斗志,小調音樂則容易引起負面情緒。盡管這些音樂色彩與情感共振似乎作為一種共識性標準存在于人類的集體潛意識中,但需要音樂治療的患者常常表現出不同于常人的反應模式。他們對于音樂色彩的理解與接受外部情感共振的能力由于其特殊的心理結構無法與常人使用同一標準。因此,治療音樂標注不應采用通用標準,而應基于患者的心理結構和情感需求進行個性化治療音樂標注。
榮格認為,人類共有的意識原型和潛在心理結構,通過象征、文化符號(如音樂)表達出來,對人類情感產生普遍影響。但對于有特殊心理經歷的患者,他們的個體潛意識可能產生了異質化,導致與集體潛意識產生沖突,從而對音樂表現出不同的情感反應。
弗洛伊德的精神分析理論揭示了潛意識的重要性。他認為,個體的心理行為和情感反應并不完全由意識控制,而是受到潛意識中未解沖突、壓抑情感的支配。因此,患者對音樂的感觸可能被這些潛意識力量所扭曲,導致與常人不同的情感反應。公認愉悅的音樂也可能因觸及潛意識中的痛苦記憶,而引發(fā)患者焦慮或抑郁。
因此,針對不同患者進行個性化的治療音樂標注、分類與選擇,是確保音樂治療有效性的關鍵。這種定制化模式不僅要考慮患者的當前心理狀態(tài)和生理反應,還必須結合潛意識動機和深層心理沖突。傳統(tǒng)治療模式下,為每位患者制定不同的治療音樂分類標準是不可能的。并且治療師主要依賴患者的自我陳述獲取信息,而這些信息往往只能觸及表層意識。弗洛伊德認為,潛意識動機和心理沖突常隱藏在本我中,難以通過自我意識表現出來。治療師因此面臨巨大挑戰(zhàn),難以深入挖掘和理解這些深層次的信息,更難將其與治療音樂進行有機結合。
然而,人工智能(AI)技術的發(fā)展為這一問題的解決提供了可能性。通過人工神經網絡和深度學習技術,使用含有患者標注信息的治療音樂數據進行模型訓練與優(yōu)化,AI模型能夠識別音樂特征與患者身心狀態(tài)之間的復雜關系,將音樂特征與患者的生理特征和心理表現進行數據耦合。更重要的是,AI可以處理那些隱藏在患者本我中的潛意識情感動機,將其與音樂治療中的特定元素進行耦合。AI模型因此具備與患者行為高度一致的治療音樂標注能力,能夠對所有治療音樂進行近似患者本人的個性化標注與分類,并分析其在作用于患者時可能引發(fā)的情感和生理變化。
這種個性化治療音樂標注AI模式不僅提高了治療音樂分析的精確性,還能為患者構建個性化治療音樂數據庫,使治療師更好地理解患者需求,制定更加精準的治療方案。AI模型還可以通過差異性學習和算法優(yōu)化,根據患者的反饋動態(tài)調整標注策略,確保每位患者都能獲得最適合的治療音樂,從而最大化治療效果。
(二)模型設計
得益于Google AI部門Magenta團隊為我們揭示了使用通用Transformer架構模型進行音樂項目訓練的可行性,以及其無需針對特定領域進行任何調節(jié)的優(yōu)點[1]。將此架構擴展到同屬于MIR任務的本研究中可謂是應時對景,相得益彰。
Transformer架構是目前應用于自然語言處理和其他數據處理任務的五大神經網絡之一,它由Ashish Vaswani在其2017年的論文《Attention Is All You Need》[2]中提出。Transformer架構的主要優(yōu)勢在于其能夠并行處理整個序列,提高計算效率,并且其特有的自注意力機制能夠捕捉序列中長距離的依賴關系。有研究表明將其用于AMA自動標注(automatic music annotation)領域可解決CNN與RNN只能對局部特征提取和長程依賴的問題,而并行計算更是充分利用了GPU的計算資源。[3]并且Transformer中的自注意力機制(Self-Attention Mechanism),增強了Transformer的局部特征提取能力,使得Transformer能夠更好地適應音頻信號等前后聯(lián)系緊密的數據。
綜上,治療音樂個性化標注AI模型采用Transformer架構具有其獨特優(yōu)勢,通過采用Transformer架構進行個性化音樂治療AI模型的訓練,能夠高效地完成治療音樂標注與分類任務。
對于輸入數據,選用梅爾頻譜圖與MFCC系數共同作為輸入數據,梅爾頻譜圖為主要輸入數據,MFCC系數為輔助輸入數據,由于梅爾頻譜圖符合人類的非線性聽覺特征,因此在與音樂或語音相關的AI模型中多作為主要的輸入項。使用梅爾刻度濾波器組對信號進行處理可得到梅爾頻譜圖。隨后對梅爾頻譜圖的幅值進行對數壓縮,然后對壓縮后的梅爾頻譜圖進行離散余弦變換(DCT),提取出一組倒譜系數,這些系數即梅爾頻率倒譜系數(MFCC)。其二者針對不同的音樂特征具有各自獨特優(yōu)勢。梅爾頻譜圖保留了更詳細的頻譜信息,可以更好地描述音頻信號在時間上的變化,因而將梅爾頻譜圖作為主要輸入數據。而選擇MFCC作為輔助輸入數據的原因在于其在語音特征提取中的優(yōu)勢,由于部分治療音樂具有歌詞,歌詞的語義性無疑會對患者具有一定的暗示效應,因此使用MFCC作為輔助輸入數據,可大大提高模型對音樂中具有語義性的歌詞進行理解和分析。
(三)模型訓練步驟
1.治療音樂訓練數據庫的建立
在個性化音樂治療中,治療音樂本體始終為最重要且核心的部分。治療音樂個性化標注AI模型訓練的基礎則是科學合理的治療音樂訓練數據庫的建立。
治療音樂具有廣泛的定義,并非是一種特定的音樂形式,它是一種音樂的應用范圍和價值概念。也就是說,無論何種音樂形態(tài),只要被應用到了醫(yī)療和健康之中,它就可以被稱為治療音樂,治療音樂不具備固有的音樂形式和音樂屬性,在治療音樂的使用場景中我們所重視的不是音樂的藝術、審美、娛樂價值,其最高權重表現為健康價值,也就是說治療音樂的立足點在于人的健康,任何用于治療行為中且能夠對人體健康產生積極效應的音樂都可稱為治療音樂。
也正因治療音樂幾乎可以涵蓋一切人類的音樂創(chuàng)作,所以在進行治療音樂訓練數據庫的建立時,對治療音樂的選擇尤為重要,數據庫應盡可能涵蓋每一種音樂形式或是文化背景,唯有如此才能保證患者標注數據的完整性和可信度。
2.患者標注
采用E-Prime2.0軟件在治療音樂訓練數據庫中隨機選擇音樂進行播放,在音樂播放結束后由患者進行主觀標注,主觀標注項目選用常見的6種基礎情緒,包括:快樂、悲傷、憤怒、驚訝、恐懼和厭惡??陀^標注由音樂治療師借助各項生理數據檢測儀器進行標注,治療師需實時記錄患者接受每首治療音樂時的各項生理參數變化,包括但不限于心率、血壓、血氧飽和度等容易影響情緒變化的生理參數。
標注數據采用類似李克特五級量表的評價量表對計量項目變化趨勢進行記錄,記錄項目分為1、2、3、4、5五級,3為無變化,1為顯著降低或是十分消極,5為顯著升高或是十分積極,2、4介于之間。
在完成治療音樂訓練數據庫中所有治療音樂標注工作后,將治療音樂與對應的主觀標注和客觀標注進行數據整合,得到個性化治療音樂訓練數據集,使用此數據集對治療音樂個性化標注AI模型進行訓練。
3.數據預處理
數據預處理是治療音樂個性化標注AI模型訓練過程中的重要步驟,在此步驟需要進行格式轉換、音頻分段、降噪、歸一化四個細分步驟。
使用Librosa庫將個性化治療音樂訓練數據庫中的音頻文件統(tǒng)一轉化為WAV格式;由于模型需要處理格式統(tǒng)一的項目,所以首先需要將音頻數據分割成固定長度的片段,為保證統(tǒng)一,將所有數據庫音樂分割為29秒;在此步驟對統(tǒng)一分割后的音頻數據進行降噪處理,使用Spectral Gating算法進行降噪工作;繼而歸一化音頻信號,以消除背景噪音和音量差異,確保音頻信號的一致性。
4.輸入數據提取
提取梅爾頻譜圖與MFCC系數作為輸入數據,提取步驟如下:
(1)音頻信號分幀:音頻信號通常是連續(xù)的波形數據,為了處理和分析,首先需要將其分割成多個短時間窗口(幀);(2)應用窗函數:在每一幀上應用漢明窗函數,以減少頻譜泄漏現象,防止信號在快速傅里葉變換過程中引入不必要的高頻成分;(3)快速傅里葉變換(FFT):對每個分幀的音頻信號進行快速傅里葉變換,將時間域信號轉換為頻率域信號;(4)將頻率映射到梅爾刻度:使用梅爾刻度將線性頻率軸映射到更符合人耳感知的非線性頻率軸上;(5)應用梅爾濾波器組:在梅爾刻度上應用一組三角形濾波器,每個濾波器覆蓋一部分頻率范圍;(6)計算對數功率譜:對通過每個梅爾濾波器的能量進行對數壓縮,得到對數功率譜;(7)生成梅爾頻譜圖:將所有幀的對數功率譜排列在一起,形成一個二維表示即為梅爾頻譜圖;(8)離散余弦變換(DCT):對梅爾頻譜圖的對數功率譜應用離散余弦變換,生成梅爾頻率倒譜系數MFCC。
5.模型訓練與個性化治療音樂數據
使用梅爾頻譜圖和MFCC系數作為輸入數據至通用Transformer模型進行訓練,最終得到的模型變?yōu)橹委熞魳穫€性化標注AI模型。繼而將治療音樂輸入至此AI模型之中,輸出數據便為近似患者本人標注的個性化治療音樂數據。
四、治療音樂個性化遴選與推薦系統(tǒng)
在AI驅動下的個性化音樂治療模式中,遴選與推薦系統(tǒng)是實現精準治療的關鍵環(huán)節(jié)。此系統(tǒng)通過分析患者的生理和心理數據,結合個性化治療音樂庫中的音樂特征,計算每首治療音樂與患者需求的匹配程度,并依照匹配程度進行排序后提供給音樂治療師,由音樂治療師結合自身觀點與患者狀況進行治療音樂處方的制定。遴選與推薦系統(tǒng)通過分析患者的生理和心理數據,并推薦最合適的音樂。該系統(tǒng)由數據采集、特征提取、匹配計算、遴選推薦四部分組成。
1.數據采集與特征提取
數據采集是遴選與推薦系統(tǒng)的基礎,系統(tǒng)需要采集患者的生理和心理數據,包括心率、血壓、血氧飽和度、皮膚電信號以及情緒狀態(tài)等;將原始數據轉換為統(tǒng)一的表現形式,通過對患者生理和心理指標的標準化和歸一化處理,將其同樣轉化為類似李克特五級量表的評價量表,進行患者需求特征集的構建,對患者的身心需求趨勢進行表現。
2.匹配計算與遴選推薦
匹配計算是遴選與推薦系統(tǒng)的核心,系統(tǒng)通過提取到的患者需求特征集與個性化治療音樂數據庫中的特征標注數據進行相似度匹配。個性化治療音樂數據庫由治療師使用個性化治療音樂標注AI模型,對治療音樂總庫中的音樂進行個性化標注并整理而成。繼而,系統(tǒng)采用協(xié)同過濾、余弦相似度、歐幾里得距離和加權評分等方法評估每首音樂的適用性。根據匹配計算的結果,系統(tǒng)生成推薦列表。推薦列表按照匹配度從高到低排序,選擇最適合患者的前幾首音樂進行推薦。
五、余論
本文通過將人工神經網絡、深度學習等AI技術引入個性化音樂治療之中,提出新的個性化音樂治療模式,通過個性化治療音樂標注AI模型,構建患者專屬的個性化治療音樂數據庫,并且借助治療音樂遴選與推薦系統(tǒng)實現個性化治療音樂的推薦。文章表明AI技術在個性化音樂治療領域具有廣泛的應用潛力,未來還可探尋如何將Suno、Stable Audio、MT3等AIGC音樂生成AI模型引入至個性化音樂治療模式中,根據患者反饋實時生成治療音樂。
參考文獻:
[1]Gardner, Josh, et al. \"MT3: Multi-task multitrack music transcription.\" arXiv preprint arXiv:2111.03017 (2021).
[2]Vaswani, Ashish, et al. \"Attention is all you need.\" Advances in neural information processing systems 30 (2017).
[3]焦佳輝,馬思遠,宋玉,等.基于卷積注意力機制的雙模態(tài)音樂流派分類模型MGTN[J].計算機工程與科學,2023,45(12):2226-2236.
作者簡介:劉凡,海南大學碩士研究生在讀