[中圖分類號(hào)]G424.74[文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)] 1673—1654(2025)04—022—008
歌唱是人類表達(dá)情感、傳遞文化信息的重要方式之一,也是音樂藝術(shù)的重要組成部分。在音樂教育中,培養(yǎng)學(xué)生的歌唱能力是重要的教學(xué)目標(biāo)之一。長(zhǎng)久以來,學(xué)生歌唱能力的測(cè)評(píng)主要依賴于專家主觀評(píng)價(jià)。這種方法雖然能夠綜合考量歌唱者的音準(zhǔn)、節(jié)奏、音色、完整度、表現(xiàn)力等多個(gè)方面,但其主觀性較強(qiáng),不同評(píng)委對(duì)于評(píng)價(jià)標(biāo)準(zhǔn)的理解可能存在差異,導(dǎo)致評(píng)價(jià)結(jié)果的客觀性和一致性受到影響。此外,專家評(píng)價(jià)通常需要耗費(fèi)大量的時(shí)間和人力,難以進(jìn)行大規(guī)模的測(cè)評(píng)和精細(xì)化的量化分析。針對(duì)以上問題,提出基于人工智能的歌唱測(cè)評(píng)模型。該模型通過提取學(xué)生歌唱音頻的聲學(xué)特征,并結(jié)合機(jī)器學(xué)習(xí)隨機(jī)森林算法進(jìn)行訓(xùn)練,實(shí)現(xiàn)了對(duì)學(xué)生歌唱能力客觀高效的自動(dòng)化評(píng)估。
一、研究背景
(一)專家主觀評(píng)價(jià)
2021年研發(fā)了利用手機(jī)小程序進(jìn)行歌唱測(cè)評(píng)的平臺(tái),學(xué)生在小程序中進(jìn)行錄音,教師通過隨機(jī)閱卷的方式對(duì)每一個(gè)學(xué)生的音頻從音準(zhǔn)、節(jié)奏、音色、完整度、表現(xiàn)力等五個(gè)維度進(jìn)行評(píng)分。缺點(diǎn)如前文所述十分明顯。圖1顯示了區(qū)內(nèi)某次測(cè)評(píng)的評(píng)分統(tǒng)計(jì),全區(qū)70多位教師的閱卷平均分差異較大,且難以進(jìn)行大規(guī)模測(cè)評(píng)。
(二)KTV唱歌打分技術(shù)
KTV打分系統(tǒng)主要依賴于對(duì)原唱旋律的精確匹配,對(duì)于歌唱者的音色、情感表達(dá)等方面考慮較少。此外,這些系統(tǒng)通常需要人工預(yù)先標(biāo)注歌曲的旋律信息,工作量較大。主要依賴3種技術(shù):一是域波形比較。系統(tǒng)會(huì)采集歌唱者和原唱的音頻信號(hào),在時(shí)域上逐點(diǎn)比較兩個(gè)波形的相似度。如果兩個(gè)波形在幅度、相位等方面比較接近,則認(rèn)為歌唱的音準(zhǔn)和節(jié)奏較好,得分較高。這種方法的缺點(diǎn)是容易受到噪聲和音量變化的影響。二是基于能量比較。分別計(jì)算歌唱者音頻信號(hào)和伴奏音樂的能量,然后比較兩者能量的差異。如果歌唱者的能量與伴奏音樂的能量匹配度較高,則得分較高。這種方法主要關(guān)注音量和節(jié)奏的穩(wěn)定性,但忽略了音高的準(zhǔn)確性。三是旋律特征比較。系統(tǒng)會(huì)提取原唱歌曲的旋律特征,如音高曲線、節(jié)奏信息等,并將其存儲(chǔ)為模板。當(dāng)用戶歌唱時(shí),系統(tǒng)會(huì)實(shí)時(shí)提取用戶歌唱的旋律特征,并與模板進(jìn)行比較,計(jì)算相似度。相似度越高,得分越高。這種方法能夠較好地評(píng)估音準(zhǔn)和節(jié)奏,是目前主流KTV打分系統(tǒng)的核心技術(shù)。
(三)基于人工智能的歌唱測(cè)評(píng)技術(shù)
隨著計(jì)算機(jī)技術(shù)和人工智能的快速發(fā)展,基于計(jì)算機(jī)的音頻分析技術(shù)逐漸成熟,為歌唱測(cè)評(píng)的客觀化和智能化提供了新的可能性。通過提取歌唱音頻的聲學(xué)特征,并結(jié)合機(jī)器學(xué)習(xí)算法進(jìn)行建模,可以實(shí)現(xiàn)對(duì)學(xué)生歌唱能力的自動(dòng)化評(píng)估。這種方法不僅能夠提高測(cè)評(píng)的效率和客觀性,還可以提供更為精細(xì)化的量化分析結(jié)果,為教師和學(xué)生提供更有針對(duì)性的反饋。
一些研究利用信號(hào)處理技術(shù)提取歌唱音頻的音高、音強(qiáng)、音色、節(jié)奏等特征,然后根據(jù)預(yù)設(shè)的規(guī)則或模型對(duì)學(xué)生的歌唱進(jìn)行評(píng)價(jià)。例如,使用自動(dòng)音高檢測(cè)算法來評(píng)估音準(zhǔn),使用動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法來評(píng)估節(jié)奏。這些方法能夠?qū)崿F(xiàn)客觀量化分析,但通常只能針對(duì)歌唱的某一個(gè)方面進(jìn)行評(píng)估,難以綜合考慮歌唱的各個(gè)方面。
另一些研究則利用機(jī)器學(xué)習(xí)算法對(duì)提取的音頻特征進(jìn)行建模,從而實(shí)現(xiàn)對(duì)歌唱的綜合評(píng)估。例如,一些研究使用支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)等算法對(duì)音準(zhǔn)、節(jié)奏、音色等進(jìn)行分類或回歸,評(píng)估其歌唱水平2。這些方法能夠綜合考慮歌唱的多個(gè)方面,并能夠通過訓(xùn)練數(shù)據(jù)不斷提高模型的性能。
(四)隨機(jī)森林算法
隨機(jī)森林算法作為一種優(yōu)秀的機(jī)器學(xué)習(xí)算法,在歌唱測(cè)評(píng)中具有獨(dú)特的優(yōu)勢(shì),可以有效地提高評(píng)估的準(zhǔn)確性和效率。歌唱測(cè)評(píng)涉及對(duì)音高、音強(qiáng)、節(jié)奏等連續(xù)值的預(yù)測(cè),最終是回歸問題。對(duì)比線性回歸、支持向量回歸、決策樹回歸等,隨機(jī)森林算法在各種分類和回歸問題中表現(xiàn)出色,具備以下幾個(gè)特點(diǎn):一是處理高維數(shù)據(jù)的能力。歌唱音頻的特征提取過程涉及多種時(shí)域、頻域及音色等特征,特征空間的維度較高。隨機(jī)森林通過集成多棵決策樹,有效減少了高維數(shù)據(jù)可能帶來的維度災(zāi)難,同時(shí)避免了特征間冗余信息對(duì)模型訓(xùn)練的負(fù)面影響。二是魯棒性與防過擬合能力。與單一決策樹相比,隨機(jī)森林通過構(gòu)建多個(gè)決策樹并對(duì)其結(jié)果進(jìn)行集成,能夠有效避免單棵樹的過擬合問題,從而提高模型的泛化能力。在本研究中,目標(biāo)是確保模型能夠在大規(guī)模學(xué)生歌唱數(shù)據(jù)集上穩(wěn)定運(yùn)行,隨機(jī)森林的集成特性恰好滿足了這一需求。三是處理非線性關(guān)系能力。
歌唱測(cè)評(píng)任務(wù)涉及音高、節(jié)奏、音色等多個(gè)方面的復(fù)雜特征,這些特征之間可能存在非線性關(guān)系(通過相關(guān)性分析發(fā)現(xiàn)確實(shí)如此)。隨機(jī)森林能夠有效捕捉這些復(fù)雜的非線性關(guān)系,而不像線性回歸等方法那樣依賴于特征間的線性假設(shè)。四是無需特征選擇的優(yōu)勢(shì)。在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中,特征選擇是一個(gè)必要的步驟,尤其在特征較多的情況下。隨機(jī)森林算法通過自身的特征重要性評(píng)估機(jī)制,自動(dòng)篩選出對(duì)預(yù)測(cè)有貢獻(xiàn)的特征,避免了人工特征選擇的煩瑣過程。五是可處理大樣本訓(xùn)練數(shù)據(jù)。基于香洲區(qū)的學(xué)生歌唱數(shù)據(jù)集,樣本量龐大(包含34280名學(xué)生的音頻數(shù)據(jù)和76360次評(píng)分?jǐn)?shù)據(jù))。隨機(jī)森林通過并行訓(xùn)練多棵決策樹,有效提高了訓(xùn)練和預(yù)測(cè)的效率,適合處理此類大規(guī)模數(shù)據(jù)集。
隨機(jī)森林方法也存在一些局限性。首先,由于其依賴于構(gòu)建大量決策樹,計(jì)算和內(nèi)存消耗較高,尤其在數(shù)據(jù)量大或特征維度高時(shí),訓(xùn)練和預(yù)測(cè)過程可能非常耗時(shí)。實(shí)際訓(xùn)練中確實(shí)如此,因?yàn)樗懔Σ蛔?,每完成一次?xùn)練需要近兩天,耗費(fèi)大量時(shí)間。其次,盡管隨機(jī)森林可以有效減少過擬合,但它對(duì)噪聲數(shù)據(jù)的敏感性仍然存在,特別是當(dāng)噪聲占比較大時(shí),模型的準(zhǔn)確性可能會(huì)受到影響。前期通過相關(guān)性分析和特征重要性分析對(duì)部分特征進(jìn)行了篩選,同時(shí)在目前歌唱歌詞識(shí)別率不穩(wěn)定且不高的情況下,并未直接將歌詞文本相似度作為模型特征納入訓(xùn)練,而是另外建模處理歌詞文本相似度進(jìn)行評(píng)分優(yōu)化。
二、研究方法
(一)數(shù)據(jù)集描述與預(yù)處理
數(shù)據(jù)集來源于香洲區(qū)教研部門自主開發(fā)的音樂歌唱測(cè)評(píng)小程序,該程序在過去幾年中收集了34280名學(xué)生的歌唱音頻和70多位老師的76360次評(píng)分?jǐn)?shù)據(jù)。這些數(shù)據(jù)提供了豐富的資源,可用于訓(xùn)練和測(cè)試音樂歌唱測(cè)評(píng)模型。
(二)音頻特征提取
音頻特征提取是音樂信息處理中的一個(gè)關(guān)鍵步驟,它能夠?qū)⒁纛l信號(hào)轉(zhuǎn)換為可以被機(jī)器學(xué)習(xí)算法處理的數(shù)值特征。表1顯示了提取的音頻特征。
這些特征的提取依賴于Python中的librosa庫(kù),該庫(kù)提供了豐富的音頻處理功能。同時(shí)根據(jù)音頻信號(hào)長(zhǎng)度,設(shè)置了動(dòng)態(tài)n_fft值,讓特征提取更加準(zhǔn)確。同時(shí),使用網(wǎng)格搜索和隨機(jī)搜索等參數(shù)調(diào)優(yōu)方法,結(jié)合交叉驗(yàn)證來選擇最優(yōu)的參數(shù)組合。
為了有效地捕捉音頻信號(hào)中的關(guān)鍵信息,提取了一系列音頻特征。最初,考慮了多種時(shí)域和頻域特征,包括色度圖(chroma_stft)均方根能量(rmse)頻譜質(zhì)心(spectral_centroid)頻譜帶寬(spectral_bandwidth)、頻譜滾降點(diǎn)(rolloff)、過零率(zero_crossing_rate)、梅爾頻率倒譜系數(shù)(MFCCs)、音頻時(shí)長(zhǎng)(duration)、音高(pitch)、節(jié)拍(tempo)等32種特征。然而,更多的特征可能導(dǎo)致“特征災(zāi)難”,不僅增加計(jì)算復(fù)雜度,還可能降低模型性能。為了避免這一問題,并提高訓(xùn)練效率,進(jìn)行了音頻特征優(yōu)化。具體來說,先提取所有音頻的所有能想到的可以提取的特征數(shù)據(jù),然后采用以下方法進(jìn)行分析。
第一,相關(guān)性分析。計(jì)算各特征之間的相關(guān)系數(shù),以識(shí)別高度相關(guān)的特征。如表2所示,提取某次學(xué)生歌唱考試音頻的各項(xiàng)特征及教師評(píng)分信息進(jìn)行相關(guān)性分析。雖然隨機(jī)森林算法能處理大量特征數(shù)據(jù),但是為了降低算力需求,通過相關(guān)性數(shù)據(jù)去除了部分相關(guān)性低、未通過顯著性檢驗(yàn)的特征,同時(shí)也減少訓(xùn)練時(shí)的噪聲數(shù)據(jù)。
從相關(guān)性檢測(cè)結(jié)果可知,特征與得分的相關(guān)性較弱,但是通過了顯著性檢驗(yàn),結(jié)論如下:一是樣本量大(12435個(gè)數(shù)據(jù)點(diǎn)),即使每個(gè)特征的相關(guān)性較低,也能通過統(tǒng)計(jì)檢驗(yàn)得到顯著性。采用隨機(jī)森林算法建模,通過大樣本量,模型能夠捕捉到這些微小的關(guān)系。二是這些低相關(guān)性可能反映了某些特征與得分之間的非線性關(guān)系。傳統(tǒng)的相關(guān)性分析無法完全捕捉這些非線性關(guān)系,而隨機(jī)森林能夠處理這種復(fù)雜的非線性關(guān)系,因此,即使相關(guān)性較低,仍然有可能在模型中找到有用的特征。三是雖然單個(gè)特征的相關(guān)性較低,但可能在多個(gè)特征的綜合作用下,模型能有效預(yù)測(cè)得分。以上三個(gè)相關(guān)性的特點(diǎn)恰恰是隨機(jī)森林算法在處理歌唱測(cè)評(píng)時(shí)獨(dú)特的優(yōu)勢(shì)所在。
第二,特征重要性分析。如圖2所示,在訓(xùn)練隨機(jī)森林模型后,分析每個(gè)特征對(duì)模型預(yù)測(cè)的重要性,重要性較低的特征可能會(huì)被移除,以簡(jiǎn)化模型并提高泛化能力。最終選擇chroma_stft、rmse、spectral_centroid、spectral_bandwidth、rolloff、zero_crossing_rate、mfcc1-mfcc20、pitch、tempo作為音頻提取特征。這些特征涵蓋了音頻信號(hào)的時(shí)域、頻域、音色、節(jié)奏、音高等多個(gè)維度,能夠較為全面地描述音頻的特征。
(三)訓(xùn)練與驗(yàn)證方法
模型的訓(xùn)練和驗(yàn)證采用k折交叉驗(yàn)證方法,以確保模型的泛化能力。在k折交叉驗(yàn)證中,數(shù)據(jù)集被隨機(jī)分成k個(gè)相等的部分,每次留出一部分作為測(cè)試集,其余作為訓(xùn)練集,循環(huán)k次,每次選擇不同的部分作為測(cè)試集。這種方法可以充分利用數(shù)據(jù),減少過擬合的風(fēng)險(xiǎn)。k折交叉驗(yàn)證被廣泛認(rèn)為是一個(gè)可靠的模型驗(yàn)證方法,尤其適用于評(píng)估模型在實(shí)際應(yīng)用中的表現(xiàn)。
(四)評(píng)價(jià)指標(biāo)
構(gòu)建預(yù)測(cè)學(xué)生歌唱得分的回歸模型。主要使用均方誤差(MeanSquared Error,MSE)來評(píng)估模型的性能。均方誤差MSE是預(yù)測(cè)值與真實(shí)值之差的平方的平均值,衡量了預(yù)測(cè)值偏離真實(shí)值的平均程度,數(shù)值越小,表示模型的預(yù)測(cè)精度越高。
(五)歌詞相似度分析
為進(jìn)一步提升模型的評(píng)估能力,給學(xué)生提供更具針對(duì)性的反饋,引入歌詞文本相似度對(duì)比。通過比對(duì)學(xué)生歌唱音頻識(shí)別出的歌詞與原唱歌詞,可以量化學(xué)生歌唱的完整度和準(zhǔn)確性。雖然歌唱音頻文字識(shí)別領(lǐng)域仍然面臨諸多挑戰(zhàn),尚無完美的解決方案,但本研究探索并比較了幾種常用的語(yǔ)音識(shí)別方法和工具。
1.基于Librosa與預(yù)訓(xùn)練模型的方案。該方案結(jié)合了Librosa提取的音頻特征與微調(diào)后的預(yù)訓(xùn)練模型(如Wav2Vec2.0或HuBERT)[3]。
2.基于PaddleSpeech的方案。PaddleSpeech提供了針對(duì)中文優(yōu)化的預(yù)訓(xùn)練語(yǔ)音識(shí)別模型[4]。
以上兩個(gè)方案在語(yǔ)音識(shí)別任務(wù)中表現(xiàn)出色,但經(jīng)測(cè)試歌詞識(shí)別效果一般,可能需要通過現(xiàn)有的歌唱數(shù)據(jù)進(jìn)行微調(diào),需要的特征工程和算力工程大,因此未深入嘗試,未來可作為進(jìn)一步研究的重點(diǎn)。
3.基于Librosa與傳統(tǒng)語(yǔ)音識(shí)別引擎的方案。該方案結(jié)合了Librosa的音頻處理能力與SpeechRecognition庫(kù)封裝的傳統(tǒng)語(yǔ)音識(shí)別引擎(如CMUSphinx),方案實(shí)現(xiàn)較為簡(jiǎn)單,但受限于傳統(tǒng)引擎的性能,在歌唱音頻識(shí)別任務(wù)中表現(xiàn)不佳5
4.基于Librosa、Spleeter與Whisper的方案。該方案結(jié)合了Librosa的音頻加載和預(yù)處理功能、Spleeter的人聲提取功能及OpenAI的Whisper語(yǔ)音識(shí)別系統(tǒng)。Whisper模型基于海量多語(yǔ)言、多任務(wù)的監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練,展現(xiàn)出強(qiáng)大的泛化能力。
經(jīng)過對(duì)比分析(主要是對(duì)比不同方案的歌詞文本識(shí)別相似率的比率和技術(shù)實(shí)現(xiàn)難度),最終選擇了基于Librosa、Spleeter和Whisper的方案。原音樂歌唱音頻與歌詞的識(shí)別文本相似度平均達(dá)到 72.8% ,雖然不高,但卻是一個(gè)非常重要的特征,因?yàn)槠渌卣鞫紟缀鯚o法判斷學(xué)生音頻和原唱的一致性,歌詞完整度是目前最有效的特征。具體流程如下:首先,使用Librosa加載音頻文件;然后,使用Spleeter提取人聲部分,并使用Librosa進(jìn)行降噪和音頻增強(qiáng)等預(yù)處理;最后,使用Whisper模型進(jìn)行歌詞文本提取。通過計(jì)算提取出的歌詞文本與原唱歌詞的文本相似度,量化學(xué)生歌唱的完整度。
三、實(shí)驗(yàn)結(jié)果與數(shù)據(jù)分析
經(jīng)過上述方法的實(shí)施,利用原音樂歌唱測(cè)評(píng)小程序積累的大量數(shù)據(jù)基于隨機(jī)森林算法學(xué)生歌唱測(cè)評(píng)模型完成了第一階段訓(xùn)練。經(jīng)過評(píng)估,模型得到了令人滿意的結(jié)果。以下表格展示了模型在測(cè)試集上的性能表現(xiàn)。
從表3可以看出,模型在各個(gè)評(píng)分維度和總分上都取得了較好的預(yù)測(cè)效果。MSE均在30左右,表明模型的平均預(yù)測(cè)誤差較小。R方值均在0.77以上,表明模型能夠較好地?cái)M合數(shù)據(jù)。相關(guān)系數(shù)均在0.88以上,表明模型預(yù)測(cè)值與教師評(píng)分之間存在較強(qiáng)的線性相關(guān)性。項(xiàng)目的部署實(shí)施因考慮到算力和結(jié)果反饋的時(shí)效性,最終使用了總分模型,未進(jìn)行維度測(cè)評(píng)打分,總分模型的MSE為38,預(yù)測(cè)誤差在可接受范圍內(nèi)。
為了更直觀地展示模型的預(yù)測(cè)效果,對(duì)原有一次大規(guī)模歌唱測(cè)試的成績(jī)進(jìn)行了模型重新評(píng)分,繪制了模型預(yù)測(cè)值與教師評(píng)分的散點(diǎn)圖,見圖3。
散點(diǎn)圖顯示,大部分?jǐn)?shù)據(jù)點(diǎn)都集中在對(duì)角線附近,表明模型的預(yù)測(cè)值與教師評(píng)分較為一致。
從實(shí)驗(yàn)結(jié)果可以看出,本研究提出的基于隨機(jī)森林算法的歌唱測(cè)評(píng)模型能夠有效地預(yù)測(cè)學(xué)生的歌唱水平,其預(yù)測(cè)精度甚至優(yōu)于原來的人工測(cè)評(píng)數(shù)據(jù)。這主要?dú)w功于以下幾個(gè)方面:大規(guī)模數(shù)據(jù)集為模型的訓(xùn)練提供了充足的數(shù)據(jù),提高了模型的泛化能力;提取的音頻特征和歌詞相似度特征涵蓋了歌唱的音高、音強(qiáng)、音色、節(jié)奏、完整度等多維度特征,能夠較全面地反映歌唱的特點(diǎn);采用多目標(biāo)回歸策略能夠更精細(xì)地評(píng)估歌唱的各個(gè)方面,提高了模型的預(yù)測(cè)精度;隨機(jī)森林算法具有較好的準(zhǔn)確性和泛化能力,能夠有效地處理高維數(shù)據(jù)和非線性關(guān)系。
基于機(jī)器學(xué)習(xí)的評(píng)分模型則具有以下優(yōu)勢(shì)。第一,無需人工標(biāo)注:模型通過學(xué)習(xí)大量的音頻數(shù)據(jù)和對(duì)應(yīng)的評(píng)分,自動(dòng)提取音頻特征并建立評(píng)分模型,無需人工標(biāo)注旋律信息。第二,考慮更多音頻特征:模型不僅考慮了音高、節(jié)奏等旋律特征,還考慮了音色、能量等其他音頻特征,能夠更全面地評(píng)估歌唱表現(xiàn)。第三,更好的泛化能力:模型通過學(xué)習(xí)大量的訓(xùn)練數(shù)據(jù),具有更好的泛化能力,能夠適應(yīng)不同歌唱者和不同歌曲的評(píng)分。此外,該模型展現(xiàn)了人工智能在評(píng)估過程中的客觀性、一致性和可解釋性。依據(jù)客觀的音頻特征和歌詞相似度進(jìn)行評(píng)價(jià),避免了人為評(píng)估的主觀偏差。通過快速處理大量音頻數(shù)據(jù),模型顯著提升了評(píng)估的效率。對(duì)所有音頻應(yīng)用統(tǒng)一的評(píng)估標(biāo)準(zhǔn),確保了評(píng)估結(jié)果的一致性。同時(shí)隨機(jī)森林模型進(jìn)一步提供了特征重要性的排序,能夠識(shí)別出對(duì)歌唱能力評(píng)估最為關(guān)鍵的特征。
本研究也存在一些局限性。第一,數(shù)據(jù)集的局限性:數(shù)據(jù)集全部來自某區(qū),可能存在一定的地域性偏差,未來可以考慮收集更大范圍、更多樣化的數(shù)據(jù)。第二,特征的局限性:提取的特征可能還不夠全面,未來可以探索更多、更有效的特征。第三,歌詞提取準(zhǔn)確性不高:歌唱音頻的歌詞識(shí)別本身就是一個(gè)難題,學(xué)生歌唱音頻由于歌唱環(huán)境復(fù)雜更提高了識(shí)別難度,目前正在訓(xùn)練新的歌詞識(shí)別模型,但也增加了工程難度,還需進(jìn)一步評(píng)估效果;雖然基于Librosa、Spleeter和Whisper的方案在當(dāng)前階段提供了有效的歌詞相似度評(píng)估方法,基于深度學(xué)習(xí)的端到端歌詞識(shí)別方案具有更大的潛力,能夠更有效地處理歌唱音頻中固有的復(fù)雜性;現(xiàn)初步探索了此類方案的可能性,并計(jì)劃利用已有的學(xué)生歌唱音頻數(shù)據(jù)及后續(xù)不斷積累的練習(xí)音頻數(shù)據(jù),構(gòu)建并訓(xùn)練端到端歌唱歌詞識(shí)別模型。
基于隨機(jī)森林算法的學(xué)生歌唱測(cè)評(píng)模型取得了令人滿意的結(jié)果,驗(yàn)證了該方法在歌唱測(cè)評(píng)中的有效性和優(yōu)越性,為音樂教育提供了一種客觀、高效的評(píng)價(jià)工具(可在微信小程序搜索“音樂微測(cè)評(píng)”進(jìn)行測(cè)試)。
參考文獻(xiàn):
[1]DingY,Tetsuya M.Audio Feature Extraction forDTW-basedAudio-to-Score Alignment[C]//Proceedings ofthe 1Oth InternationalConference on Computer and Communications Management,2O22:214-220.
[2] Tsai WH,Lee HC.Automatic Evaluation of Karaoke SingingBasedon Pitch,Volume,and RhythmFeatures[J].IEEETransactionsonAudio,Speech,andLanguage Processing,2011,20(4):1233-1243.
[3]BaevskiA,Hsu WN,XuQ,et al.Data2vec:A GeneralFramework for Self-Supervised Learning in Speech,VisionandLanguage [C]// International Conference on Machine Learning.PMLR,2022:1298-1312.
[4] ZhangH,Yuan T,Chen J,etal.Paddlespeech:AnEasy-ToUseAll-In-One Speech Toolkit[J].arXivpreprint arXiv:2205.12007,2022.
[5]Amos D.The Ultimate Guide to Speech Recognition WithPython[J].Real Python,2016:2-23.
[6]RadfordA,KimJW,XuT,etal.RobustSpeechRecognitionviaLarge-Scale Weak Supervision [C] // International Conference onMachineLearning.PMLR,2023:28492-28518.
Research of Singing Evaluation Model Based on the Random Forest Algorithm
Yang Huang Li Yinghui Zhuhai District Teacher Development Center,Zhuhai,Guangdong,519000
Abstract:The assessment of students'singing ability is acrucial aspect of music education,directly impacting teaching quality evaluation and students’vocal skill development.Traditional singing assessment methods,often relying on subjective expert judgment,suffer from inconsistenciesand inefficiencies.Utilizing a self-developed music assessment mini-program over three years,and collcting singing audio data from 34,280 students,accompanied by76,36O evaluationsbyover7O teachers,a student singingabilityevaluationmodel is trained by applying machine learning techniquesand using theRandom Forest algorithm.This model aims to provide objective,efficient,and intelligent singing ability assessment.The model first preprocesses theaudio,then extracts various acoustic features,including pitch,ntensity,timbre,and rhythm,along with featuresrepresenting lyrical accuracy/completeness,constructing a high-dimensional feature vector space.Finaly,the extracted features andteacherscoresareused for training andregressonanalysisviatheRandomForest algorithm toachieve objective student performance evaluation.Experimental results demonstrate the model's high accuracy in singing assessment,offering an effective approach for objective student ability evaluation.
Key words:Singing Assessment,Random Forest,Machine Learning,Artificial Intelligence
(責(zé)任編輯:陳暢、李梅)