白玲玲,韓天鵬
(1.中共阜陽市委黨校 教務處,安徽 阜陽 236034;2.阜陽師范大學 計算機與信息工程學院,安徽 阜陽 236037)
關鍵字:數(shù)據(jù)挖掘;文本挖掘;關聯(lián)規(guī)則;Apriori;TF-IDF
可穿戴和智能設備的使用以及融合技術的發(fā)展促進了健康領域的各種研究。在應用過程中平臺生成并保存了大量健康數(shù)據(jù),用戶可以有效地獲取健康信息。此外,對于持續(xù)保持健康的生活方式促進醫(yī)療保健和健康需求的增加。在醫(yī)療保健行業(yè),隨著生活習慣的改變,壽命的延長會導致人口老齡化以及慢性疾病護理等,已成為社會問題[1]。在我們的老齡化社會中,大多數(shù)老年人患有慢性病,醫(yī)療保健和促進健康是他們生活方式的重要因素[2]。在智能健康平臺中,使用電子病歷[3]和個人健康記錄建立醫(yī)療保健大數(shù)據(jù),并提供基于客戶的服務[4-5]。利用公共數(shù)據(jù)和開放API,醫(yī)療保健大數(shù)據(jù)中心可視化醫(yī)療統(tǒng)計信息并分析大數(shù)據(jù),以提供醫(yī)療支持信息,醫(yī)療支持分布,疾病統(tǒng)計和醫(yī)療管理支持[6]。企業(yè)已經開發(fā)出多種基于物聯(lián)網的智能健康設備,如智能手表、健康帶和血糖監(jiān)測設備[7]。
本文提出了一種利用文本挖掘從健康大數(shù)據(jù)中提取關聯(lián)特征信息的方法。該方法從Web收集的健康文檔中提取關聯(lián)特征信息并向用戶提供信息。
大數(shù)據(jù)分析技術用于從結構化數(shù)據(jù),半結構化數(shù)據(jù)和超出一般數(shù)據(jù)庫管理系統(tǒng)處理范圍的非結構化數(shù)據(jù)中提取和分析有意義的知識和潛在價值[7]。術語結構化數(shù)據(jù)是指固定字段中保存的數(shù)據(jù),包括關系數(shù)據(jù)庫,半結構化數(shù)據(jù)是指包含元數(shù)據(jù)和模式的數(shù)據(jù),盡管它們不保存在固定字段中,非結構化數(shù)據(jù)參考未保存在固定字段中的數(shù)據(jù),包括文本、視頻、語音、圖像和多媒體[8]。大數(shù)據(jù)的定義有時包括其準確性和價值,這取決于指數(shù)增加的數(shù)據(jù)處理類型。大數(shù)據(jù)分析技術包括現(xiàn)實挖掘[9]、文本挖掘[10]、意見挖掘[11]、社會網絡分析[12]和聚類分析[13]。
社交網絡的大數(shù)據(jù)分析用于分析對象之間的關系或關聯(lián)。結合數(shù)學圖論,利用在社交網絡中個人的識別,可以分析網絡中特定人的重要性級別,以及網絡中的整體連接性。因此,該方法用于監(jiān)視社交網絡中有影響力的成員,然后可以應用與其相關的信息[14]。大數(shù)據(jù)中的聚類分析用于計算數(shù)據(jù)的相似性,以便聚集密切相關的數(shù)據(jù)。為了確定相似性,使用距離或相關系數(shù)。聚類分析方法分為分層和非分層類型。分層方法用于測量單個對象之間的距離,然后組合閉合對象,從而創(chuàng)建樹結構[15]。非層次方法用于設置簇的數(shù)量,并將與簇的其他成員最相似的對象設置為簇的中心點;群集結果可能會根據(jù)設置[16]而有所不同。
在美國,使用醫(yī)療組織,政府和健康保險公司的綜合Health 2.0建立了醫(yī)療保健大數(shù)據(jù)。使用社交網絡和云計算,可以收集、保存、集成和管理醫(yī)療保健數(shù)據(jù)。Pillbox由美國國家醫(yī)學圖書館作為公共服務運營,提供基于醫(yī)療保健的大數(shù)據(jù)藥物搜索服務[17-18]?;诖髷?shù)據(jù),它提供有關用戶正在使用的藥物的準確信息。一年內發(fā)布了超過100萬份關于藥物的投訴。要解決這個問題,它的成本約為50美元。基于數(shù)據(jù)的大型藥物搜索服務每年可節(jié)省約5 000萬美元[19]。當用戶輸入藥物的顏色、形狀、大小、數(shù)量、名稱和生產代碼時,Pillbox使用其藥物搜索引擎提供藥物的搜索結果。通過分析Pillbox中收集的信息,可以對當前流行病的來源,污染速度和分布以及其他信息進行大數(shù)據(jù)分析[20]。
目前,云經常被用于從大數(shù)據(jù)中提取信息[21]。它們用于可視化網站、博客、新聞和社區(qū)文檔中的關鍵字或概念。強調具有高重要性的詞然后提供給用戶。根據(jù)內容的特征,它分為數(shù)據(jù)云和文本云。通常,數(shù)據(jù)云用于呈現(xiàn)數(shù)字信息,文本云呈現(xiàn)單詞。
信息提取的兩個步驟是首先將健康文檔收集作為原始數(shù)據(jù)及其預處理,其次是創(chuàng)建候選語料庫。在健康文檔收集步驟中,從基于HTML5的URL和頁面中提取諸如新聞媒體的代碼,分類代碼和文檔編號之類的信息。使用提取的信息,收集健康文檔的文本數(shù)據(jù)作為原始數(shù)據(jù)。收集了10 000份健康文件作為原始數(shù)據(jù)。在收集的原始數(shù)據(jù)中,排除了1 296個具有低相關性和低置信度的文檔。結果,使用了8 704份文件。在最后的8 704個文檔中,7 425個文檔被用作訓練集來提取關聯(lián)特征信息,剩下的1279份文件用作性能評估的測試集。在候選語料庫創(chuàng)建步驟中,通過基于N-gram的形態(tài)分析,停止詞刪除,標記和多義詞的分析,將原始數(shù)據(jù)預處理為候選語料庫。
為了收集原始數(shù)據(jù),使用數(shù)據(jù)挖掘工具R 3.4.1的rvest包來刪除網頁的健康文檔。為了提取所收集文檔的特征,使用了用于查找重復關鍵字的典型方法。文檔中反復出現(xiàn)的關鍵字可能非常重要。要提取重復的關鍵詞,有必要進行形態(tài)分析,將句子分解為小單位。文檔的形態(tài)分析結果用于創(chuàng)建語料庫。在研究中,進行了n-gram形態(tài)分析,被用作典型的自然語言處理方法。
從形態(tài)上分析健康文檔以允許其分離成各種單詞組合。在預處理的單詞組合中,提取術語頻率-反向文檔頻率(term frequency inverse document frequency,TF-IDF)值。具有高 TF-IDF 值的單詞預計在文檔中是重要的。TF-IDF是從一組多個文檔中提取具有高重要性的單詞的方法。單詞的術語頻率(TF)值越高,該單詞越重要。確定單詞TF的最簡單方法是使用文檔中單詞的頻率計數(shù)。在僅基于TF的重要性評估中,文檔中經常使用的單詞“看”,“偶數(shù)”,“說”,和“看到”被評估為重要。為了解決該問題,還評估單詞的逆文檔頻率(IDF)的重要性。IDF是在文檔集中至少找到一次單詞的文檔率的倒數(shù)。
Web文檔具有少量文本,并且針對相同主題的文檔經常根據(jù)社交環(huán)境使用類似主題來編寫。因此,與收集的文檔集中的共同主題或興趣相關的單詞的TF-IDF值較低。在健康大數(shù)據(jù)中,“風險”是一個通常在語料庫中發(fā)現(xiàn)的詞,因此其重要性被評估為低。為了克服這個問題,提出了TF-CIDF。在TF-C-IDF方法中,在單詞重要性評估中考慮標題標簽,散列標簽和文檔的強調標簽。標題標簽包括文檔的標題。從形態(tài)上分析該頭行,然后提取核心關鍵詞。散列標記“?!笔乔宄乇硎疚臋n中包含的感興趣的內容的單詞,并且被提取為核心關鍵字。強調標記用于格式化或強調HTML5中的一段文本。核心語料庫是使用title標簽,散列標簽和強調標簽提取的一組核心關鍵字。在評估從健康文檔中提取的單詞的重要性的過程中,單詞在核心語料庫中涉及的程度被認為是權重。
在所創(chuàng)建的核心語料庫中,如在公式(1)中那樣計算在單詞x被掃描n次的情況下的權重。此公式顯示從標題標記,哈希標記和強調標記中提取的核心語料庫中單詞的權重。如果在核心語料庫中找到從10個文檔中提取的候選語料庫的單詞3次,則其權重為1+3/10。
式(1)中,tx表示核心語料庫中的單詞x的頻率計數(shù),N表示文檔的總數(shù)。
其中:tf(x,y)表示文檔y中的單詞x的頻率;idf(x,y)表示在文檔y中至少找到一次單詞x的概率的倒數(shù);并且dfx是至少一次找到單詞x的文檔的數(shù)量。式(2)將基于公式(1)的核心語料庫的權重應用于TF-IDF。
Apriori挖掘算法[22]用于分析關鍵字的關聯(lián)。在每個文檔中設計用于關聯(lián)分析的事務,并且使用從健康大數(shù)據(jù)語料庫中提取的關鍵字來創(chuàng)建項目。表1列出了每個文件中設計的健康交易。交易ID是憑證編號。使用TF-C-IDF值大于1的關鍵字創(chuàng)建項目。設計的健康事務以CSV格式保存,以便進行關聯(lián)分析和高效計算。
表1 每個文件中包含的健康事務
Apriori算法用于查找事務中關鍵字的關聯(lián)。它從大數(shù)據(jù)集中的數(shù)據(jù)關系中找到關聯(lián)規(guī)則。根據(jù)關鍵詞的頻率,找到它們的關聯(lián)規(guī)則。在掃描關鍵字的頻率之后,創(chuàng)建候選集。滿足最小支持的關鍵字用于重復創(chuàng)建新的候選集。對于關聯(lián)分析,使用了數(shù)據(jù)挖掘工具Weka 3.8.1。在Apriori算法中,最小支持是大于2的值。根據(jù)創(chuàng)建的關聯(lián)規(guī)則,分析候選語料庫的潛在關聯(lián)并找到關聯(lián)關鍵字。表2顯示了健康文檔中的一些關聯(lián)關鍵字。在表中,規(guī)則R0001表示{疲勞,失眠}=>{抑郁},其中,如果規(guī)則n的置信度高且其大于1,則該規(guī)則是有意義的。
TF-C-IDF和關聯(lián)關鍵字的值用于提取關聯(lián)特征信息,該關聯(lián)特征信息由與所收集文檔的高度相關聯(lián)的關鍵字組成。關鍵字根據(jù)其TF-CIDF值以高優(yōu)先級順序對齊?;趯R的關鍵字,高關聯(lián)關鍵字用于創(chuàng)建關聯(lián)特征信息。表3顯示了從健康大數(shù)據(jù)中提取的關聯(lián)特征信息。Rank表示按照使用TF-C-IDF計算的重要性值的降序排序的關鍵字的優(yōu)先級。單詞“抑郁癥”的TF-C-IDF值最高19.753,并且該單詞與文檔關鍵詞“疲勞”,“失眠”和“心理”相關聯(lián)。“抑郁癥”:{{疲勞&&失眠=抑郁},{疲勞&&精神=抑郁},{精神=抑郁}}。這表明“抑郁癥”在健康大數(shù)據(jù)中非常重要,與吸煙、“疲勞”、“失眠”和“心理”相關的關鍵詞非常重要。使用相關的特征信息,可以向用戶推薦有關吸煙,血液循環(huán)和肺部疾病的文件。
表2 健康文檔中的部分關聯(lián)關鍵字
表3 健康大數(shù)據(jù)中提取的部分關聯(lián)特征信息
從收集的健康文檔中提取關聯(lián)特征信息,從文檔集中提取代表性或關聯(lián)關鍵字。可以根據(jù)健康文檔的收集時段或范圍靈活地改變關聯(lián)特征信息。抓取和WebBot收集互聯(lián)網上提供的健康文件的文本數(shù)據(jù)。收集的文件包括10 000份健康和醫(yī)療文件。使用收集的健康文檔,執(zhí)行基于形態(tài)分析,停用詞刪除,標記和多義詞分析的預處理過程?;陬A處理的健康文檔,創(chuàng)建候選語料庫和核心語料庫,然后將其保存到數(shù)據(jù)庫中。掃描候選語料庫的逐字TF。為了提取關聯(lián)特征信息,計算候選語料庫的IDF和TF-IDF。將核心語料庫的掃描結果用作權重,然后計算候選語料庫的TFC-IDF。在計算的TF-C-IDF的基礎上,創(chuàng)建了交易,并且使用Apriori算法來提取關聯(lián)關鍵字。使用TF-C-IDF和關聯(lián)關鍵字,提取關聯(lián)特征信息。
在結果評估中,考慮健康文件的TF,TF-IDF和TF-C-IDF值,比較F-度量和效率。使用精確度和召回率計算F-度量,其用于比較考慮TF,TFIDF和TF-C-IDF值的重要性評估結果。Recall表示實際找到的文檔與與關聯(lián)特征信息相關的文檔的比率。精度是指基于關聯(lián)特征信息從文檔搜索得到的相關文檔的比率。效率是提取的關聯(lián)特征信息中關鍵字和停用詞的數(shù)值。在公式(3)中,E表示測量效率的等式。Wn表示關鍵字的總數(shù),Nstop表示提取的關聯(lián)特征信息中涉及的停用詞的計數(shù)。
對性能評估,考慮TF,TF-IDF和TF-C-IDF,使用每個權重提取關聯(lián)特征信息。圖1展示了應用每個權重時關聯(lián)特征信息的精度、召回率、F-度量和效率值。
圖1 關聯(lián)特征信息的精度、召回率、F-度量和效率值
圖1(a)中TF-C-IDF的精度要明顯高于TF,與TF-IDF相比較,一般情況下精度要優(yōu)些;圖1(b)中 TF-C-IDF 召回率最高;圖 1(c)中 F-度量值TF-C-IDF最優(yōu);圖1(d)顯示TF-C-ID效率值要好于TF和TF-IDF。通過四個指標的比對,可以看到TF-C-IDF在提取關聯(lián)特征信息上要優(yōu)于TF和TF-IDF。因此,所提出的TF-C-IDF方法具有較高的性能。
為了有效管理和使用健康文件,本文提出了一種利用健康大數(shù)據(jù)文本挖掘提取關聯(lián)特征信息的方法。關聯(lián)特征信息主要存在于健康大數(shù)據(jù)中的核心關鍵字及其關聯(lián)關鍵字。對于健康文檔的收集,使用分析網頁的方法,僅能將文本作為原始數(shù)據(jù)進行刪除。N-gram方法對收集的作為原始數(shù)據(jù)的健康文檔進行形態(tài)學分析,并且在預處理之后創(chuàng)建候選語料庫和核心語料庫。評估單詞重要性的代表性方法是找到文檔中重復出現(xiàn)的單詞。如果重復出現(xiàn)的單詞被選為重要單詞,則相關單詞也會被評估為重要單詞,為了解決這個問題,通常應用TF-IDF。鑒于健康文件的特征,在多個文件中發(fā)現(xiàn)了諸如眼睛,心臟,脂肪和抑郁癥之類的詞語,因此在基于TF-IDF的重要性評估中這些詞語的重要性較低。為了解決這個問題,本研究使用了TF-C-IDF,其中應用了基于核心語料庫的權重。核心語料庫由使用標題標簽,散列標簽和文檔強調標簽提取的核心關鍵字組成。高度重要的單詞被分類為關鍵字集,并且在每個文檔中創(chuàng)建了事務。使用Apriori數(shù)據(jù)挖掘算法分析事務中關鍵字之間的關聯(lián)。使用創(chuàng)建的關聯(lián)關鍵字和TF-C-IDF的值,提取關聯(lián)特征信息。最后,比較了各方法的TF和TF-IDF值的F-測量和效率值。本文提出的TF-C-IDF的平均值優(yōu)于其他方法。