劉 璐
(天津財經大學 天津 300000)
收集并分析含有多種類型的聲音記錄的語言數(shù)據(jù)集
劉 璐
(天津財經大學 天津 300000)
人們對于構建應用于分析帕金森癥患者的語言方式的遠程診斷以及遠程監(jiān)控的預測模型越來越有興趣。為了這個目的,我們收集了各種各樣的聲音樣本,其中包含連續(xù)的元音、單詞和句子,這些樣本都是從一套帕金森癥患者的口語練習中得來的。語言數(shù)據(jù)集是由每個人的多種話語記錄構成的,在這篇論文里,我們使用了著名的機器學習工具來研究帕金森數(shù)據(jù)集并建立有效的預測模型。
集中趨勢和離散度度量;交叉驗證;多樣本類型;語言障礙;帕金森癥的遠程診斷
聲音疾病可以簡單地使用聲音工具中的非周期振動來測量,聲音中的復雜的非線性的不定性以及混亂、空氣聲學、非高斯的隨機性可以用來增加聲音疾病診斷系統(tǒng)的臨床有用性。這篇研究的目的是設計一個計算機輔助的數(shù)據(jù)收集、儲存和分析系統(tǒng)來簡化帕金森癥的診斷和治療過程,這是在這個地方的神經病學部進行的。首先,每個病人的語言記錄、人口統(tǒng)計信息、健康背景和帕金森癥狀的處理情況都被收集和儲存。然后,解析收集到的語言記錄并從聲音樣本中挑選出一系列特征值。在帕金森癥診斷領域以及這篇研究中用到的語言數(shù)據(jù)集一般是由每個人的多種語言記錄組成的。這篇研究中收集到的數(shù)據(jù)集包含每個人的多種聲音樣本,其中有連續(xù)的元音、數(shù)字、單詞和短句等。在這篇文章中,我們也比較了其他能夠用于分析這種數(shù)據(jù)集的交叉驗證方法的成功性,這些交叉驗證方法是用于構建診斷帕金森癥的算法中的。我們使用了k-最近鄰和支持向量機的分類算法,并根據(jù)模型的精度、特異性、靈敏度和馬修斯相關系數(shù)得分來估計模型在從帕金森癥患者中區(qū)分健康人時的成功性。
這項研究中收集到的數(shù)據(jù)來源于20個帕金森癥患者(6個女性,14個男性)和20個身體健康的人(10個女性,10個男性)。實驗組由經歷0-6年帕金森癥的患者組成。實驗組每個人的年齡在43到77之間(均值是64.86,標準差是8.97),對照組的年齡分布則是在45到83之間(均值是62.55,標準差是10.79)。從所有人中得到的26個聲音樣本被記錄下來,這些樣本包括連續(xù)元音、數(shù)字、單詞和短句等。這些樣本由一群神經學家從一組旨在得到更有效的帕金森癥患者聲音的語言練習中挑選出來。這些聲音是由一個頻段在50到13000赫茲的MC-1500麥克風記錄的,麥克風被設定在96000赫茲,30分貝,并被放置在距離測試者10厘米的地方,然后測試者按要求讀或重復指定的文本內容。
在收集到上述的多種類型聲音記錄的數(shù)據(jù)集并進行我們的實驗后,我們繼續(xù)通過在相同條件下同一種醫(yī)生檢查過程來收集一個獨立的帕金森癥患者測試集。在收集這個數(shù)據(jù)集的過程中,28個帕金森癥患者僅被要求各說3次連續(xù)的元音字母“a”和“o”,這就得到了168個聲音記錄。實驗組中的病人經歷帕金森癥的時間是0到13年,年齡分布在39到79之間(均值是62.67,標準差是10.96)。我們使用這個數(shù)據(jù)集作為一個獨立的測試集來證實我們從多種聲音記錄數(shù)據(jù)集中已經得到的結果。
(一)使用留一法分類。和我們的研究一樣,之前的研究中收集到的為構建無創(chuàng)性帕金森診斷系統(tǒng)的語言數(shù)據(jù)集也包含每個受試者的多種語言記錄。使用傳統(tǒng)的逐步回歸法或留一驗證法,會因為通過抽出一些個體的訓練集樣本和測試集樣本而在訓練集和測試集上造成一個人為的重疊,從而得到一個有偏的預測模型。然而,在現(xiàn)存研究中提出的分類模型一般使用的都是留一交叉驗證法(LOSO),它將一個人的全部聲音樣本舍去做驗證,好想他是看不到的,剩下的樣本全部用來訓練。根據(jù)留一交叉驗證法,如果一個測試個體的聲音樣本中的大多數(shù)被歸類為帕金森癥患者,那么這個個體被歸類為陽性帕金森病,否則被歸為陰性。
(二)用概括性留一法分類。根據(jù)概括性留一法,每個受試者的26個聲音樣本的特征值通過集中趨勢和離散度度量得到總結,這些度量包括了均值、中位數(shù)、剔除平均值(去掉10%和25%)、標準差、四分位距、平均絕對偏差(平均絕對誤差是所有單個觀測值與算術平均值的偏差的絕對值的平均),同時產生了一種由N個樣本組成的新的數(shù)據(jù)集,其中N是受試者的數(shù)量。由于一個個體的多個樣本降為一個樣本,我們使用留一法將這個數(shù)據(jù)集的樣本輸入到2個或6個度量一組的分類器中。6個度量為一組的包含之前提到的所有度量,會根據(jù)規(guī)則有些許的不同,而兩個度量一組的則是集中趨勢和離散度度量的二元結合。通過這種方法,數(shù)據(jù)在樣本維度上會縮減而在特征維度上會增加。
在經過歸一化處理使得每一個特征值的均值為0、標準差為1后,將特征值輸入支持向量機和k近鄰分類器中來進行帕金森癥診斷。對于k近鄰分類器,使用歐氏距離度量,對于支持向量機,使用LIBSVM包和線性、徑向基核函數(shù),其中耗散值參數(shù)c是10,核寬度g是0.005。我們比較了通過對原始數(shù)據(jù)集使用不同值的k近鄰法和支持向量機法而得來的各種子集所得到的實驗結果,從結果來看,對參數(shù)k取任意值,使用傳統(tǒng)的留一交叉驗證法,幾乎可以得到一個隨機的預測結果(看馬修斯相關系數(shù))。而通過以均值作為集中趨勢、標準差作為離散度度量(k=1)的總結數(shù)據(jù)的概括留一法得到的最高MCC系數(shù)是0.3062,整體精度是65.00%。由于早期發(fā)現(xiàn)疾病可以增加治愈的機會并幫助阻止癥狀惡化,靈敏度在生物醫(yī)學領域是另一個重要的評估指標。總結數(shù)據(jù)可以發(fā)現(xiàn),使用剔除均值(去掉25%)和四分位距且k=5時,靈敏度最高,為70%。
觀察數(shù)據(jù)可見,在使用以均值作為集中趨勢、標準差作為離散度度量相結合的概括留一法時可以得到最高的精度(77.50%),這與k近鄰分類的結果一樣。這個模型的馬修斯相關系數(shù)、靈敏度和特型性也是最高的。使用線性核函數(shù)、留一法的支持向量機分類器也幾乎產生了一個隨機的預測結果(MCC=0.0006),而徑向基核函數(shù)則產生了一個較好的預測模型(MCC=0.1005)。我們可以看到,所有的概括留一法模型要比留一法模型在從健康人群中識別帕金森病人的能力上更成功。結果同樣顯示了支持向量機相較于k近鄰分類器得到的結果更穩(wěn)定。使用均值-標準差的概括留一法與傳統(tǒng)留一法的線性支持向量機之間精度差異的顯著性結果由McNemai檢驗得到(表五)。McNemai檢驗結果顯示出在顯著性水平0.05下,均值-標準差的概括留一法比傳統(tǒng)留一法的精度要高。
由于人們近期對于構建應用于分析帕金森癥患者的語言方式的遠程診斷以及遠程監(jiān)控的預測模型越來越有興趣。我們收集了各種各樣的聲音樣本和各種聲音類型,其中包括連續(xù)性元音、單詞和一組用于帕金森癥患者對話練習的語句?;趯?shù)據(jù)庫的分析,結果顯示,連續(xù)性元音與獨立詞匯和短句相比,具有更多辨別帕金森癥的特征信息。為了評估一個受試者的中心趨勢和離散度量(包括平均值,中值,截尾均值,標準差,四分間距和平均絕對離差)中哪些指標可以作為他所有記錄中的優(yōu)質代表并表現(xiàn)如何,我們嘗試了這些指標的不同組合,發(fā)現(xiàn)具有代表性的經典的均值和標準差的主體樣本改善了預測模型的廣泛性。這種代表類型作為一個獨立的數(shù)據(jù)樣本,表現(xiàn)出比使用每個受試者的每個聲音記錄更有效。使用聲音特征值的均值和標準差作為每個受試者的多種聲音記錄的一個總結性的代表,對于建立這種預測模型來說是一種有效的策略。
[1]鄭書琴.大數(shù)據(jù)時代的品牌精準營銷范式[J].視聽,2017,(03):175-176.
[2]徐謝云.基于子空間分析法的腦中風微波檢測研究[D].東華大學,2017.
[3]趙宇飛.數(shù)據(jù)挖掘技術在信息化管理中的應用探討[J].中國管理信息化,2017,(04):157.
劉璐(1991-),女,漢族,甘肅蘭州人,研究生在讀,天津財經大學,研究方向:財政。