宮護(hù)震
(陜西國(guó)防工業(yè)職業(yè)技術(shù)學(xué)院計(jì)算機(jī)與軟件學(xué)院,陜西 西安 710300)
數(shù)據(jù)庫集成可以提升數(shù)據(jù)的傳輸能力和分類精度,數(shù)據(jù)庫集成使用范圍較廣,在數(shù)據(jù)分類、生物信息處理、數(shù)據(jù)融合等方面被廣泛應(yīng)用。目前,可采用數(shù)據(jù)庫集成方法將數(shù)據(jù)庫中多種數(shù)據(jù)進(jìn)行融合,同時(shí)采用集成學(xué)習(xí)方法將融合后的數(shù)據(jù)整合在一起,獲得集成度較高、泛化能力較強(qiáng)的數(shù)據(jù)融合結(jié)果,隨著數(shù)據(jù)種類的不斷增加,數(shù)據(jù)庫集成方法變得愈加復(fù)雜,集成效率在逐漸降低[1-2]。
為了提升異構(gòu)數(shù)據(jù)的融合和處理能力,國(guó)內(nèi)的專家學(xué)者們提出了不同的數(shù)據(jù)庫集成方法[3-4]。有學(xué)者基于機(jī)器學(xué)習(xí)提出了小型數(shù)據(jù)庫集成方法,通過建立機(jī)器學(xué)習(xí)模型,調(diào)整數(shù)據(jù)庫集成過程中的有限數(shù)據(jù)可變參數(shù),并在數(shù)據(jù)庫并行集成的基礎(chǔ)上,通過動(dòng)態(tài)數(shù)據(jù)集獲取數(shù)據(jù)庫集成模型,以數(shù)據(jù)庫集成模型實(shí)現(xiàn)小型數(shù)據(jù)庫的集成,該方法提升了機(jī)器學(xué)習(xí)的價(jià)值,通過數(shù)據(jù)庫集成模型獲得了準(zhǔn)確度較高的集成復(fù)雜度結(jié)果,但該集成方法的集成精度較低,數(shù)據(jù)失效率較高,有些學(xué)者提出了基于樸素貝葉斯的數(shù)據(jù)庫集成方法,建立了數(shù)據(jù)庫訓(xùn)練樣本模型,通過樣本模型實(shí)現(xiàn)了數(shù)據(jù)庫的集成,但該方法集成效果較差、集成時(shí)間較長(zhǎng)[5-6]。
為了解決以上問題,該文提出了基于異構(gòu)數(shù)據(jù)融合的數(shù)據(jù)庫智能集成方法,對(duì)數(shù)據(jù)集進(jìn)行了并行集成處理,最后通過實(shí)驗(yàn)研究,驗(yàn)證了該文方法的實(shí)際使用效果。
基于異構(gòu)數(shù)據(jù)融合理論,多數(shù)據(jù)源的異構(gòu)數(shù)據(jù)融合主要包括權(quán)重平均計(jì)算、D-S 證據(jù)理論選取和投票表決,具體的融合過程如圖1 所示。
圖1 多元異構(gòu)數(shù)據(jù)融合
1)權(quán)重平均計(jì)算
進(jìn)行多元異構(gòu)數(shù)據(jù)融合,通過計(jì)算各異構(gòu)數(shù)據(jù)的支持度大小判斷融合效果的優(yōu)劣,具有易操作性和高精度性,考慮異構(gòu)數(shù)據(jù)來源的重要程度等特點(diǎn),首先需建立權(quán)重指標(biāo)明確影響異構(gòu)數(shù)據(jù)融合的因素,采用權(quán)重值表示各影響因素的重要程度,各異構(gòu)數(shù)據(jù)的支持度計(jì)算公式如下[7]:
其中,I表示各異構(gòu)數(shù)據(jù)的支持度;wi表示各影響因素的權(quán)重值;tij表示異構(gòu)數(shù)據(jù)i對(duì)第j類數(shù)據(jù)融合的支持度[8]。
由于異構(gòu)數(shù)據(jù)融合影響因素重要程度的確定中包含主觀因素,因此在最終結(jié)果呈現(xiàn)上往往具有主觀性[9-10]。
2)D-S 證據(jù)理論選取
D-S 證據(jù)理論建立在基本概率分配函數(shù)基礎(chǔ)上,能夠處理異構(gòu)數(shù)據(jù)融合過程中的不確定性。D-S證據(jù)理論的原理是將所有待融合數(shù)據(jù)所有可能的融合結(jié)果構(gòu)成的空間定義為數(shù)據(jù)融合框架D,記數(shù)據(jù)融合框架的子集為2D,?A?D,定義:
其中,m(?)=0,?為空集,則m為2D上基本概率分配函數(shù),在某種程度上,表示了D-S 證據(jù)對(duì)數(shù)據(jù)融合框架子集的信任度分配。
實(shí)際應(yīng)用中,針對(duì)同一類別的數(shù)據(jù)融合因D-S證據(jù)不同,可能得到不同的m,因此,綜合考慮所有類別的D-S 證據(jù)后,得到以下m值的確定式:
其中,K為m值確定系數(shù)。
由于基本概率分配函數(shù)的計(jì)算過程較為復(fù)雜,只有在數(shù)據(jù)融合框架D中的元素全部滿足互斥條件下才能引用D-S 證據(jù)理論,因此基于D-S 證據(jù)理論的異構(gòu)數(shù)據(jù)融合方法的應(yīng)用受到一定限制,且融合速度較慢。
3)投票
將各個(gè)異構(gòu)數(shù)據(jù)視為投票者,通過比較各融合方式獲得的票數(shù)判斷數(shù)據(jù)融合的優(yōu)劣,計(jì)算公式為:
其中,ai表示第i種融合方法;Sup(ai)表示其獲得票數(shù);Supj(ai)表示數(shù)據(jù)支持度。
投票法的缺點(diǎn)在于,針對(duì)票數(shù)相同的數(shù)據(jù)融合方式,不能作出準(zhǔn)確的數(shù)據(jù)融合,具有一定的融合不確定性,在實(shí)際的結(jié)果中,往往帶有決策者的主觀意見,需對(duì)其融合結(jié)果進(jìn)行進(jìn)一步的驗(yàn)證[11-12]。
在上述異構(gòu)數(shù)據(jù)融合的基礎(chǔ)上,對(duì)多數(shù)據(jù)源的異構(gòu)數(shù)據(jù)進(jìn)行融合,將經(jīng)過數(shù)據(jù)融合后的數(shù)據(jù)輸入數(shù)據(jù)庫,按照數(shù)據(jù)類別分別存儲(chǔ)在相應(yīng)的子數(shù)據(jù)庫中,實(shí)現(xiàn)數(shù)據(jù)庫的智能集成,并通過建立公共模型、查詢處理器的查詢分配實(shí)現(xiàn)數(shù)據(jù)查詢和應(yīng)用[13]。
公共模式是在數(shù)據(jù)庫數(shù)據(jù)輸入結(jié)束時(shí)建立,其目的是便于提取數(shù)據(jù)庫的關(guān)系模式以及方便轉(zhuǎn)換關(guān)系數(shù)據(jù)模式。其中,數(shù)據(jù)庫關(guān)系模式提取的目的是構(gòu)建統(tǒng)一的共享數(shù)據(jù)庫關(guān)系模式,即統(tǒng)一化表、字段、屬性的表達(dá)格式,確保數(shù)據(jù)在提取過程中保留完整的數(shù)據(jù)信息[14]??紤]數(shù)據(jù)庫的文檔語法存儲(chǔ)規(guī)則,無法采用關(guān)系表之間的約束實(shí)現(xiàn)數(shù)據(jù)庫關(guān)系模式到共享數(shù)據(jù)庫關(guān)系模式的轉(zhuǎn)換,因此該文提出一種Schema 算法實(shí)現(xiàn)以上模式轉(zhuǎn)換。
Schema 算法的描述如下:
1)為每個(gè)異構(gòu)數(shù)據(jù)融合結(jié)果定義唯一的命名空間。
2)對(duì)每一個(gè)表、字段創(chuàng)建復(fù)雜類型元素集和子元素集,每一個(gè)子元素集代表一個(gè)數(shù)據(jù)類型,并在復(fù)雜類型元素集中插入一個(gè)復(fù)雜類型元素,各子元素集對(duì)應(yīng)的數(shù)據(jù)類型為每個(gè)表創(chuàng)建的復(fù)雜類型。
3)定義主鍵映射元素為key 屬性,外鍵映射元素為keyref數(shù)據(jù),結(jié)合表和主鍵或外鍵的關(guān)系,對(duì)表中的元素進(jìn)行屬性附加。建立的公共模型如圖2所示。
圖2 公共模型
查詢處理器的查詢分配是將用戶基于總體數(shù)據(jù)庫查詢視圖下的查詢請(qǐng)求分解為對(duì)各個(gè)子數(shù)據(jù)庫的子查詢,并將子查詢請(qǐng)求發(fā)送到相應(yīng)的數(shù)據(jù)庫,從而簡(jiǎn)化數(shù)據(jù)查詢流程,提高數(shù)據(jù)查詢精度和效率,以滿足用戶的查詢需求。
查詢分類器在執(zhí)行數(shù)據(jù)檢索和分配操作時(shí),要參考公共模式的共享數(shù)據(jù)庫關(guān)系模式,將子查詢結(jié)果準(zhǔn)確地分配給相應(yīng)子數(shù)據(jù)庫,并將提取的子查詢結(jié)果以統(tǒng)一的標(biāo)準(zhǔn)格式進(jìn)行數(shù)據(jù)輸出?;诋悩?gòu)數(shù)據(jù)融合的數(shù)據(jù)庫以XML 作為數(shù)據(jù)交換語言,主要采用的查詢分配方式包含GAV 和LAV 兩種。其中,GAV 方法能夠準(zhǔn)確地描述數(shù)據(jù)庫關(guān)系模式到單個(gè)數(shù)據(jù)的映射,其應(yīng)用要求是需為總體數(shù)據(jù)查詢視圖的每一個(gè)數(shù)據(jù)虛擬關(guān)系編寫查詢條件,明確如何從子數(shù)據(jù)庫中調(diào)取相應(yīng)查詢數(shù)據(jù)。其優(yōu)點(diǎn)為查詢速度快、準(zhǔn)確率高,缺點(diǎn)是查詢靈活性較差。LAV 查詢方法與其相反,它要求每一個(gè)子數(shù)據(jù)庫指定一個(gè)集成視圖查詢,說明集成視圖中的那些數(shù)據(jù)類型可以在相應(yīng)子數(shù)據(jù)庫中找到,其優(yōu)點(diǎn)是靈活性較強(qiáng),但查詢過程較為繁瑣,效率較低[15-16]。
為了驗(yàn)證該文提出的基于異構(gòu)數(shù)據(jù)融合的數(shù)據(jù)庫智能集成方法的實(shí)際使用效果,將基于機(jī)器學(xué)習(xí)的小型數(shù)據(jù)庫集成方法與該文方法進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中采用的數(shù)據(jù)庫含有8 組經(jīng)過融合的數(shù)據(jù)集,實(shí)驗(yàn)過程中,為保證實(shí)驗(yàn)結(jié)果的有效性和嚴(yán)謹(jǐn)性,將一半數(shù)據(jù)作為樣本數(shù)據(jù),一半數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。
首先,對(duì)比不同方法的集成精度,兩種方法在不同規(guī)模的數(shù)據(jù)集中,集成精度波動(dòng)結(jié)果如圖3 所示。
圖3 集成精度波動(dòng)結(jié)果
通過對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析可知,在樣本數(shù)據(jù)規(guī)模較小的條件下,樣本數(shù)據(jù)的數(shù)量為100 個(gè)時(shí),采用該文方法對(duì)數(shù)據(jù)庫進(jìn)行集成時(shí),集成精度較高,隨著樣本數(shù)據(jù)數(shù)量的不斷增加,兩種方法的數(shù)據(jù)庫集成精度均逐漸升高,同時(shí)數(shù)據(jù)融合波動(dòng)隨著樣本數(shù)據(jù)量的增加而降低,當(dāng)樣本數(shù)據(jù)數(shù)量相同時(shí),采用該文提出的基于異構(gòu)數(shù)據(jù)融合的數(shù)據(jù)庫智能集成方法的集成集成較高,數(shù)據(jù)融合波動(dòng)范圍較小,而采用基于機(jī)器學(xué)習(xí)的小型數(shù)據(jù)庫集成方法具有較低的集成精度,數(shù)據(jù)融合波動(dòng)范圍較大,當(dāng)樣本數(shù)據(jù)量增加到200 個(gè)時(shí),該文方法的集成精度最高,波動(dòng)范圍最小,由于集成精度越高,證明集成效果越高,集成方法越穩(wěn)定,因此通過該集成精度對(duì)比實(shí)驗(yàn)可知,該文方法的集成精度高于基于機(jī)器學(xué)習(xí)的小型數(shù)據(jù)庫集成方法的集成精度,集成效果最好。
為了對(duì)比出不同方法的數(shù)據(jù)失效率,將兩種集成方法分別應(yīng)用到數(shù)據(jù)庫的實(shí)例中,在進(jìn)行異構(gòu)數(shù)據(jù)融合時(shí),通過集成處理對(duì)融合過程進(jìn)行調(diào)整。數(shù)據(jù)融合過程為:首先從數(shù)據(jù)庫中采集部分異構(gòu)數(shù)據(jù),對(duì)異構(gòu)數(shù)據(jù)進(jìn)行融合處理,將融合后的數(shù)據(jù)信息與原始數(shù)據(jù)信息分離,再?gòu)谋镜財(cái)?shù)據(jù)庫中采集部分?jǐn)?shù)據(jù)集的交換信息,通過異構(gòu)數(shù)據(jù)融合獲得數(shù)據(jù)的融合結(jié)果,融合處理結(jié)束后,每隔5 min 記錄一次數(shù)據(jù)融合結(jié)果,并保存到本地?cái)?shù)據(jù)庫中,實(shí)驗(yàn)當(dāng)中進(jìn)行的數(shù)據(jù)融合處理選取的數(shù)據(jù)屬于隨機(jī)選取,因此數(shù)據(jù)融合具有較高的不穩(wěn)定性,沒有被選擇進(jìn)行數(shù)據(jù)融合的數(shù)據(jù)成為失效數(shù)據(jù)。兩種方法的數(shù)據(jù)失效對(duì)比結(jié)果如圖4 所示。
圖4 數(shù)據(jù)失效率實(shí)驗(yàn)結(jié)果
通過對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析可知,當(dāng)數(shù)據(jù)進(jìn)行有序融合時(shí),隨著數(shù)據(jù)集的不斷增加,采用該文提出的基于異構(gòu)數(shù)據(jù)融合的數(shù)據(jù)庫智能集成方法后,數(shù)據(jù)失效現(xiàn)象減少,失效率較低,而采用基于機(jī)器學(xué)習(xí)的小型數(shù)據(jù)庫集成方法后,隨著數(shù)據(jù)集的增加,數(shù)據(jù)失效率不降反升,數(shù)據(jù)庫集成效果較差,由此證明了該文方法的數(shù)據(jù)失效率低于基于機(jī)器學(xué)習(xí)的小型數(shù)據(jù)庫集成方法。
異構(gòu)數(shù)據(jù)融合前,不同種類的異構(gòu)數(shù)據(jù)的可變參數(shù)不同,參數(shù)不同將會(huì)影響數(shù)據(jù)庫的集成時(shí)間,當(dāng)參數(shù)處于不同的數(shù)值時(shí),統(tǒng)計(jì)不同集成方法的集成時(shí)間,集成時(shí)間對(duì)比結(jié)果如圖5 所示。
圖5 集成時(shí)間實(shí)驗(yàn)結(jié)果
對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析可知,當(dāng)兩種集成方法的可變參數(shù)相同時(shí),該文方法的數(shù)據(jù)庫集成時(shí)間較短,當(dāng)兩種方法的可變參數(shù)不同時(shí),該文提出的基于異構(gòu)數(shù)據(jù)融合的數(shù)據(jù)庫智能集成方法的集成時(shí)間短,基于機(jī)器學(xué)習(xí)的小型數(shù)據(jù)庫集成方法的集成時(shí)間較長(zhǎng)。綜上所述,該文提出的基于異構(gòu)數(shù)據(jù)融合的數(shù)據(jù)庫智能集成方法優(yōu)于基于機(jī)器學(xué)習(xí)的小型數(shù)據(jù)庫集成方法,具有較高的集成精度,較低的數(shù)據(jù)失效率,較短的數(shù)據(jù)庫集成時(shí)間,集成效果優(yōu)于機(jī)器學(xué)習(xí)的小型數(shù)據(jù)庫集成方法。
該文提出了基于異構(gòu)數(shù)據(jù)融合的數(shù)據(jù)庫智能集成方法,該方法通過對(duì)數(shù)據(jù)集進(jìn)行并行融合處理,實(shí)現(xiàn)了數(shù)據(jù)庫的智能集成,通過實(shí)驗(yàn)驗(yàn)證了基于異構(gòu)數(shù)據(jù)融合的數(shù)據(jù)庫智能集成方法優(yōu)于基于機(jī)器學(xué)習(xí)的小型數(shù)據(jù)庫集成方法,其集成精度較高、集成時(shí)間較短,數(shù)據(jù)失效率較低,集成效果更好,具有較高的應(yīng)用價(jià)值。