梁吉業(yè),錢宇華,李德玉,胡清華
1. 山西大學(xué)計算智能與中文信息處理教育部重點(diǎn)實(shí)驗室,山西 太原 030006;2. 山西大學(xué)計算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;3. 天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300072
面向大數(shù)據(jù)的粒計算理論與方法研究進(jìn)展
梁吉業(yè)1,2,錢宇華1,2,李德玉1,2,胡清華3
1. 山西大學(xué)計算智能與中文信息處理教育部重點(diǎn)實(shí)驗室,山西 太原 030006;2. 山西大學(xué)計算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;3. 天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300072
大數(shù)據(jù)的規(guī)模性、多模態(tài)性與增長性給傳統(tǒng)的數(shù)據(jù)挖掘方法帶來了挑戰(zhàn)。粒計算作為智能信息處理領(lǐng)域中大規(guī)模復(fù)雜問題求解的有效方法,探索大數(shù)據(jù)分析的粒計算理論與方法有望為應(yīng)對這些挑戰(zhàn)提供新的思路和策略。瞄準(zhǔn)若干大數(shù)據(jù)挖掘任務(wù),對數(shù)據(jù)粒化、多粒度模式發(fā)現(xiàn)與融合、多粒度/跨粒度推理等方面取得的一些進(jìn)展進(jìn)行梳理和剖析,并針對天文數(shù)據(jù)挖掘和微博數(shù)據(jù)挖掘兩個典型示范應(yīng)用領(lǐng)域的初步研究進(jìn)行了總結(jié),以期為大數(shù)據(jù)挖掘領(lǐng)域的研究做出有益的探索。
大數(shù)據(jù);粒計算;數(shù)據(jù)挖掘;信息?;欢嗔6?/p>
隨著計算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)和傳感器技術(shù),特別是現(xiàn)代網(wǎng)絡(luò)、云計算等技術(shù)的廣泛應(yīng)用,數(shù)據(jù)的生成和收集技術(shù)迅猛發(fā)展,數(shù)據(jù)量呈爆炸式增長態(tài)勢,傳統(tǒng)的數(shù)據(jù)處理技術(shù)遇到了極大挑戰(zhàn)。在生物數(shù)據(jù)分析中,無論是DNA/RNA序列數(shù)據(jù)、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù),還是代謝組數(shù)據(jù)、基因芯片數(shù)據(jù),都是大數(shù)據(jù)中的典型類型數(shù)據(jù)。在社會媒體計算中,視頻數(shù)據(jù)、語音數(shù)據(jù)、文本數(shù)據(jù)以及圖像數(shù)據(jù)等都呈現(xiàn)出快速增長的趨勢,如微博的用戶量、訪問時間以及微博信息量都快速增長。大數(shù)據(jù)在現(xiàn)代信息社會中的數(shù)據(jù)資源主體地位已成為學(xué)術(shù)界與企業(yè)界的共識,它不僅對經(jīng)濟(jì)活動與社會發(fā)展具有重要推動作用,也成為了世界主要經(jīng)濟(jì)體的戰(zhàn)略研究計劃。如何高效地從這些大數(shù)據(jù)中進(jìn)行數(shù)據(jù)挖掘成為了當(dāng)今信息科學(xué)領(lǐng)域研究的熱點(diǎn)問題。
從大數(shù)據(jù)的外在來看,大數(shù)據(jù)經(jīng)常呈現(xiàn)出大規(guī)模性、多模態(tài)性與增長性等特征,使得傳統(tǒng)的數(shù)據(jù)分析理論、方法與技術(shù)面臨可計算性、有效性與時效性等嚴(yán)峻挑戰(zhàn)。
粒計算是專門研究基于粒結(jié)構(gòu)的思維模式、問題求解方法、信息處理模式的理論、方法、技術(shù)和工具的學(xué)科,是當(dāng)前智能信息處理領(lǐng)域中一種新的計算范式。通過分析大數(shù)據(jù)的表現(xiàn)形態(tài)、大數(shù)據(jù)挖掘面臨的挑戰(zhàn)與粒計算核心理念的內(nèi)在關(guān)系可知,大數(shù)據(jù)自身具有天然的多層次/多粒度特性,數(shù)據(jù)挖掘任務(wù)也經(jīng)常呈現(xiàn)多層次/多粒度特性,而大數(shù)據(jù)挖掘算法本身也要求可計算性、有效性、高效近似求解特性。這表明大數(shù)據(jù)的分析需求和粒計算框架有很強(qiáng)的契合性。
為了應(yīng)對這些挑戰(zhàn),筆者著重在大數(shù)據(jù)的特征選擇與信息?;⒍嗔6饶J桨l(fā)現(xiàn)與融合以及復(fù)雜決策任務(wù)的多粒度/跨粒度高效推理等方面做了初步研究,取得了一些重要的研究進(jìn)展和成果。
2.1 特征選擇研究
(1)基于隨機(jī)特征映射的降維方法
核方法是一類重要的機(jī)器學(xué)習(xí)方法,具有堅實(shí)的理論基礎(chǔ)和完整的學(xué)習(xí)框架。該方法利用核函數(shù)將輸入樣本隱式地映射到一個高維甚至是無限維的特征空間,使原空間中的非線性可分樣本在特征空間中實(shí)現(xiàn)線性可分。核矩陣保有核函數(shù)及輸入樣本的全部信息,是核方法表示和處理的核心。然而,核矩陣存儲和計算的高復(fù)雜度成為核方法在大規(guī)模問題中的應(yīng)用瓶頸?;谘h(huán)隨機(jī)矩陣投影,筆者所在課題組提出了一種新的隨機(jī)特征映射方法,將輸入樣本顯式地映射到一個相對低維的隨機(jī)特征空間,從而可以應(yīng)用線性學(xué)習(xí)算法高效地求解非線性問題[1]。理論上,證明了提出的隨機(jī)特征映射方法SCRF近似核函數(shù)是無偏的,并且較之前最先進(jìn)的隨機(jī)特征映射方法Fastfood具有更低方差。同時,提出的循環(huán)隨機(jī)特征映射具有線性空間復(fù)雜度和對數(shù)線性時間復(fù)雜度低的特點(diǎn),實(shí)現(xiàn)簡單,是迄今最簡單有效的隨機(jī)特征方法。實(shí)驗驗證了SCRF的核估計準(zhǔn)確率和計算效率,并且將SCRF應(yīng)用于實(shí)際分類問題以驗證該顯式非線性降維方法的泛化性能。在核估計實(shí)驗中,提出的SCRF計算的核估計值集中在對角線,表明提出的方法效果更好;并且在計算效率上,明顯優(yōu)于Fastfood。將精確核方法(LIBSVM)和3種隨機(jī)特征映射方法(RKS、Fastfood、SCRF)的測試準(zhǔn)確率與效率(訓(xùn)練時間+測試時間)對比,可以發(fā)現(xiàn)3種隨機(jī)特征映射方法相對于精確核方法得到了相當(dāng)?shù)臏y試準(zhǔn)確率,很大程度提升了訓(xùn)練和測試效率。提出的SCRF的效率最為突出,并且隨著訓(xùn)練數(shù)據(jù)的規(guī)模增加,效率提升越明顯。因此,提出的循環(huán)隨機(jī)特征映射給出了一種高效的非線性降維方法,并且具有堅實(shí)的理論基礎(chǔ),實(shí)現(xiàn)簡單,能夠廣泛應(yīng)用于大規(guī)模訓(xùn)練與預(yù)測問題。
(2)基于字典學(xué)習(xí)的特征選擇方法
隨著手持?jǐn)?shù)字終端、工業(yè)傳感器的廣泛使用和社交網(wǎng)絡(luò)的發(fā)展,大規(guī)模的、高維的、強(qiáng)不確定性的圖像、視頻、文本以及生物信息學(xué)數(shù)據(jù)大量涌現(xiàn)。高維的數(shù)據(jù)增加了存儲負(fù)擔(dān),提高了算法的計算復(fù)雜度,降低了模型的泛化性能。因此降低特征空間維度、去除冗余和不相關(guān)的特征十分必要。
無監(jiān)督特征選擇的一個關(guān)鍵是如何生成偽的類標(biāo)記刻畫樣本空間的數(shù)據(jù)分布,從而將無監(jiān)督特征選擇問題轉(zhuǎn)化成一個有監(jiān)督問題。目前主要采用譜分析、譜聚類、矩陣分解等方法生成偽的類標(biāo)記,同時利用線性回歸的模型學(xué)習(xí)得到一個特征選擇矩陣。稀疏性也是特征選擇的一個重要部分,通常特征選擇矩陣會被要求具備組稀疏特性,以移除數(shù)據(jù)中的噪聲特征。
筆者所在課題組首次將字典學(xué)習(xí)引入無監(jiān)督特征選擇任務(wù)中,提出了一種解析—合成字典對學(xué)習(xí)方法,通過表達(dá)系數(shù)刻畫樣本空間的數(shù)據(jù)分布[2]。合成字典用于重構(gòu)樣本,而解析字典通過一個線性投影把樣本投射到表達(dá)系數(shù)空間。最后,解析字典用于評價特征重要性。本工作首次討論了范數(shù)L2,P對無監(jiān)督特征選擇的影響,并提出了利用迭代重加權(quán)最小二乘求解L2,P范數(shù)優(yōu)化問題,展示了不同P(范數(shù))值下的無監(jiān)督特征選擇效果,證明了在0<P<1的情況下,提出的模型可以收斂到一個固定點(diǎn)。在標(biāo)準(zhǔn)的數(shù)據(jù)集上,驗證了提出算法的性能優(yōu)于目前的無監(jiān)督特征選擇算法。
(3)基于壓縮表的符號數(shù)據(jù)特征選擇方法
在符號型數(shù)據(jù)特征選擇研究中,由于數(shù)據(jù)集每個特征下對象取值的數(shù)量較少,因此存在大量條件屬性取值完全相同的對象,這使得數(shù)據(jù)中蘊(yùn)含了大量的冗余信息。特別是,現(xiàn)有的特征選擇算法對于這些相同的對象大多都是作為單獨(dú)對象分別處理,這必然會導(dǎo)致大量的冗余計算,從而影響了特征選擇算法的計算效率。為此,通過用一個對象代表與其特征取值相同的所有對象,提出了一種數(shù)據(jù)壓縮表示方法,并在此基礎(chǔ)上提出了基于壓縮數(shù)據(jù)的特征選擇算法[3]。
在理論分析方面,筆者所在課題組證明了在壓縮后的數(shù)據(jù)集上得到的特征重要度與在原數(shù)據(jù)集上得到的特征重要度相等。由于特征重要度決定著每個特征被加入候選特征子集的順序,進(jìn)而決定了啟發(fā)式特征選擇的最終結(jié)果,因此從壓縮數(shù)據(jù)和原始數(shù)據(jù)獲得特征重要度一致的重要性質(zhì)就確保了基于壓縮后數(shù)據(jù)得到的特征選擇結(jié)果與原數(shù)據(jù)集得到的特征選擇結(jié)果完全一致。此外,課題組也在12個UCI公開數(shù)據(jù)集上對算法的有效性和效率進(jìn)行了驗證分析。從實(shí)驗結(jié)果可以看出,與目前文獻(xiàn)報道中最好的啟發(fā)式特征選擇算法(ACC-PR)相比,在大多數(shù)據(jù)集上基于壓縮策略的特征選擇算法(AR-CT-PR)可以在獲得相同特征選擇結(jié)果的同時,顯著減少計算特征選擇的時間消耗。這個策略在面向符號型大數(shù)據(jù)的處理時是一個重要、高效的分析策略,可在其他符號型數(shù)據(jù)分析任務(wù)中進(jìn)一步推廣使用。
2.2 信息粒化研究
(1)基于優(yōu)化求解角度的符號數(shù)據(jù)聚類準(zhǔn)則
聚類作為一類重要的信息?;椒ǎ煌木垲愃惴ɑ蛲凰惴ǖ牟煌瑓?shù)設(shè)置往往在聚類同一數(shù)據(jù)時產(chǎn)生不同的結(jié)果。因此,人們需要聚類有效性函數(shù)去評測聚類結(jié)果,并從許多聚類結(jié)果中尋找最適合于數(shù)據(jù)的劃分。面向數(shù)值型數(shù)據(jù)的聚類有效性評測方法已被人們廣泛研究。但是,針對符號數(shù)據(jù)的聚類有效性評測研究相對較少。目前,針對符號數(shù)據(jù),有3個廣泛使用的有效性評測函數(shù),其中包括:K-Modes目標(biāo)函數(shù)F、分類效用函數(shù)CU和信息熵函數(shù)E。許多符號聚類算法以它們其中之一為聚類準(zhǔn)則搜索聚類結(jié)果。當(dāng)它們在數(shù)據(jù)聚類中被使用時,有以下3個問題需要解決。
· 它們在評測聚類結(jié)果上有怎樣的共性和差異性。
· 當(dāng)它們在評測聚類結(jié)果時類間信息是否被忽略。
· 以它們其中之一為聚類準(zhǔn)則,如何確定該準(zhǔn)則在一個數(shù)據(jù)集上的取值范圍?
針對上述問題,課題組從解空間(優(yōu)化)角度,系統(tǒng)研究了這3個有效性函數(shù)[4]。首先,構(gòu)建了一個泛化的有效性函數(shù)及其優(yōu)化模型。進(jìn)一步,基于該泛化模型,分別對這些問題給出了理論性解釋。
· 建立了這些有效性函數(shù)在評測聚類有效性上的內(nèi)在關(guān)系,理論分析發(fā)現(xiàn)在評測聚類結(jié)果時,分類效用函數(shù)等效于信息熵函數(shù),K-Modes目標(biāo)函數(shù)的最優(yōu)解是分類效用函數(shù)最優(yōu)解的上界。
· 建立了這些有效性函數(shù)與類間評測函數(shù)之間的關(guān)系,理論分析發(fā)現(xiàn)最小化泛化函數(shù)等于最大化類間差異性。這暗示著使用這些類內(nèi)信息評測聚類結(jié)果時并不會忽略類間信息。
· 對于一個給定的數(shù)據(jù)集,通過放寬某些變量的約束條件,將這些有效性函數(shù)最大化和最小化優(yōu)化問題轉(zhuǎn)化為凸規(guī)劃問題,獲得其上下界,從而幫助實(shí)現(xiàn)函數(shù)的歸一化。
實(shí)驗比較了來自UCI的12個數(shù)據(jù)集上的100次聚類結(jié)果的平均有效性。相比原始的有效性函數(shù)G,歸一化后的函數(shù)的評測結(jié)果更接近于外部評測函數(shù)ARI和NMI。該研究成果為解決符號數(shù)據(jù)聚類準(zhǔn)則的選擇、聚類算法的互學(xué)習(xí)及數(shù)據(jù)特征對聚類有效性的影響等問題提供了理論基礎(chǔ)。
(2)基于半監(jiān)督的譜聚類的信息?;?/p>
圖像聚類在包含圖像檢索以及理解的實(shí)際應(yīng)用中起著重要的作用。傳統(tǒng)的圖像聚類算法考慮單一的特征和固定的距離(如歐氏距離)來度量樣本間的相似性。然而,不同的視覺特征往往能夠提供互補(bǔ)信息對圖像內(nèi)容進(jìn)行描述。此外,受限于時間和人力等的消耗,通常只獲取到少量的標(biāo)記樣本,從而使得半監(jiān)督學(xué)習(xí)成為一種必要的工具。為此,基于半監(jiān)督距離學(xué)習(xí)和多模態(tài)信息,課題組提出了半監(jiān)督的譜聚類算法對圖像進(jìn)行聚類[5]。通過提取顏色、紋理、形狀以及語義等多種特征,利用少量的標(biāo)記圖像進(jìn)行半監(jiān)督距離學(xué)習(xí),采用學(xué)習(xí)得到的度量以及高斯相似函數(shù)計算相似性,最終構(gòu)造出半監(jiān)督的拉普拉斯矩陣進(jìn)行譜聚類。采用統(tǒng)計信息進(jìn)行特征提取,可以對大小不同的圖像進(jìn)行聚類。大量實(shí)驗結(jié)果表明,提出算法的性能優(yōu)于傳統(tǒng)方法。
(3)混合數(shù)據(jù)屬性加權(quán)聚類的信息?;?/p>
在傳統(tǒng)的劃分式聚類過程中,都假定各個屬性對聚類的貢獻(xiàn)程度相同,即在相似性或相異性度量的計算中所有屬性的權(quán)重相同。而在大部分實(shí)際應(yīng)用中,用戶期望得到的聚類結(jié)果對參與聚類的各個屬性的重要程度往往并不相同,特別是在高維數(shù)據(jù)聚類過程中,樣本空間中各屬性對聚類效果貢獻(xiàn)大小不同成為一個不可回避的問題。同時兼具數(shù)值型和分類型屬性的混合數(shù)據(jù)在實(shí)際應(yīng)用中普遍存在,混合數(shù)據(jù)的聚類分析越來越受到廣泛的關(guān)注。
為解決高維混合數(shù)據(jù)聚類中屬性加權(quán)問題,課題組提出了一種基于信息熵的混合數(shù)據(jù)屬性加權(quán)聚類算法,以提升模式發(fā)現(xiàn)的效果[6]。工作主要包括:首先為了更加準(zhǔn)確客觀地度量對象與類之間的差異性,設(shè)計了針對混合數(shù)據(jù)的擴(kuò)展歐氏距離;然后,在信息熵框架下利用類內(nèi)信息熵和類間信息熵給出了聚類結(jié)果中類內(nèi)抱團(tuán)性及一個類與其余類分離度的統(tǒng)一度量機(jī)制,并基于此給出了一種屬性重要性度量方法,進(jìn)而設(shè)計了一種基于信息熵的屬性加權(quán)混合數(shù)據(jù)聚類算法。在10個UCI數(shù)據(jù)集上的實(shí)驗結(jié)果表明,提出的算法在4種聚類評價指標(biāo)下優(yōu)于傳統(tǒng)的屬性未加權(quán)聚類算法和已有的屬性加權(quán)聚類算法,并通過統(tǒng)計顯著性檢驗表明本文提出算法的聚類結(jié)果與已有算法聚類結(jié)果相比具有顯著差異性。
2.3 多粒度空間的?;淮_定性
不同的信息?;椒ê筒呗詫?dǎo)致給定數(shù)據(jù)的不同粒化結(jié)果,這意味著能夠在這個粒度水平上觀察和分析數(shù)據(jù)。認(rèn)知主體在不同的粒度水平上觀察的同一事物往往是不同的,它有一個所謂的粒結(jié)構(gòu)來刻畫。對于模糊信息粒化而言,模糊粒結(jié)構(gòu)是一個數(shù)據(jù)集誘導(dǎo)的模糊信息粒的數(shù)學(xué)結(jié)構(gòu),模糊信息粒度則用于度量一個模糊粒結(jié)構(gòu)的不確定性,也稱為?;淮_定性。
為了有效地度量粒化不確定性,已經(jīng)發(fā)展了若干形式的模糊信息粒度。然而,已有的模糊信息粒度度量有2個缺陷。一個是當(dāng)兩個模糊粒結(jié)構(gòu)的信息粒度相等時,并不意味著它們是相等的,缺乏進(jìn)一步區(qū)分模糊粒結(jié)構(gòu)差異性的方法;另一個是目前的模糊信息粒度公理化方法仍然不夠完備,不能夠區(qū)分任意兩個模糊粒結(jié)構(gòu)的粗細(xì)程度。為此,課題組引進(jìn)了一個所謂的模糊知識距離,用于刻畫模糊粒結(jié)構(gòu)之間的距離,理論分析表明它是一個距離測度,并且能夠區(qū)分任意兩個模糊粒結(jié)構(gòu)之間的差異性;為了構(gòu)造更加合理的模糊信息粒度公理化方法,基于提出的模糊知識距離提出了廣義信息粒度公理化方法[7],理論分析和實(shí)驗結(jié)果都表明提出的這些新方法能夠很好地刻畫已有方法的以上兩個不足,為模糊?;淮_定性研究提供了約束性框架。該研究為人類從不同角度、不同層次上認(rèn)識大數(shù)據(jù)時采用的信息粒度水平提供了定量刻畫方法,是面向大數(shù)據(jù)的粒計算理論與方法研究中的核心問題。
多粒度粗糙計算是通過多個粒化結(jié)構(gòu)刻畫目標(biāo)概念,必然導(dǎo)致不確定性,該理論模型中存在知識粒和知識粒結(jié)構(gòu)的不確定性,它直接決定問題求解的有效性。如何度量問題中的不確定性成為多粒度粗糙粒計算研究中的一個普遍問題。課題組借鑒了融合不確定性和不精確性的方法,提出融合信息熵、融合粗糙熵、融合信息粒度等度量,并討論它們的重要性質(zhì),初步研究了多粒度近似空間中的不確定性[8]。這是針對多個??臻g誘導(dǎo)的粒化不確定性定量分析的首次嘗試,將有助于多粒度空間的?;淮_定性的進(jìn)一步研究。
3.1 基于聯(lián)合概率估計的多模態(tài)信息融合
多模態(tài)數(shù)據(jù)分析核心問題之一是如何有效地進(jìn)行多模態(tài)信息的融合。當(dāng)前,針對一些具體領(lǐng)域或任務(wù)已經(jīng)開展了若干探索性研究,采用的主要策略是首先從不同模態(tài)數(shù)據(jù)中分別進(jìn)行特征提取或特征選擇,然后將提取出的特征合并成一個更大的特征空間,再按照傳統(tǒng)的思路在此特征空間上進(jìn)行數(shù)據(jù)挖掘。然而,這個策略可能會遇到不同變量之間語義不一致的問題。在數(shù)據(jù)挖掘等數(shù)據(jù)分析任務(wù)中,采用的分類、聚類、優(yōu)化等方法都依賴于對象之間的某種距離測度,這需要將不同變量看作不同的維度并要求在這些變量上可進(jìn)行線性運(yùn)算。在視頻分析中,通??梢詮闹刑崛〕鲆恍┪谋咎卣?、圖像特征、語音特征、場景特征等,盡管在特征向量化表示以后線性運(yùn)算可以工作,然而在文本特征和圖像特征之間進(jìn)行線性運(yùn)算的語義到底代表了什么,這些不同語義變量這樣運(yùn)算可能不是合理的,也許會影響最終的數(shù)據(jù)分析和挖掘效果。因此,如何克服不同模態(tài)特征之間的語義鴻溝是多模態(tài)數(shù)據(jù)挖掘的主要挑戰(zhàn)之一。
為此,課題組提出一類較為一般的方法,將原始異構(gòu)變量數(shù)據(jù)表轉(zhuǎn)換為一種概率意義下的數(shù)據(jù)表,核心是將原來的距離測度轉(zhuǎn)為任意兩個對象是否相等的概率[9]。為了檢驗新的數(shù)據(jù)表示方法的有效性,首先在符號數(shù)據(jù)這種單一類型數(shù)據(jù)上進(jìn)行了嘗試。具體動機(jī)如下:目前最具代表性的符號聚類算法多數(shù)都是基于0~1距離或它的擴(kuò)展版本來構(gòu)造相似性測度,然而再反映到對象的簇結(jié)構(gòu)中,由于這類距離不處在一個連續(xù)空間中,由它構(gòu)造的相似性測度和基于頻率的類中心更新可能不夠有效。實(shí)驗比較了最有代表性(聚類性能最好)的4種符號聚類算法以及筆者提出的SBC算法的兩個版本在UCI的9個數(shù)據(jù)集上的100次聚類結(jié)果的平均聚類性能。從理論分析和實(shí)驗結(jié)果可知,新的數(shù)據(jù)表示方案不僅保留了數(shù)據(jù)原始空間的簇結(jié)構(gòu),而且提供了更加豐富的測度信息。從中也可以看到,相比目前最具代表性的4種算法,提出的SBC算法在AC指標(biāo)上平均有10%的提高,在ARI指標(biāo)上平均有20%的提高。這表明提出的新數(shù)據(jù)表示方案有重要意義,為更加復(fù)雜的多模態(tài)數(shù)據(jù)分析提供了一種可資借鑒的有效方案。
3.2 基于深度神經(jīng)網(wǎng)絡(luò)的多模態(tài)特征融合與選擇
深度學(xué)習(xí)是近年來興起的一種有效的表示學(xué)習(xí)方法,已經(jīng)在語音、圖像等領(lǐng)域得到了成功的應(yīng)用和長足的發(fā)展。借鑒深度學(xué)習(xí)的特征表示方法,課題組提出了一種結(jié)合深度神經(jīng)網(wǎng)絡(luò)與組稀疏方法的多模態(tài)特征選擇算法,突破傳統(tǒng)多源異構(gòu)特征選擇算法中存在的模態(tài)異構(gòu)性帶來的障礙,使用深度學(xué)習(xí)的方法對原始的異構(gòu)多模態(tài)數(shù)據(jù)進(jìn)行多重非線性變換,得到隱藏的抽象表達(dá),將其從原始的異構(gòu)特征空間轉(zhuǎn)換到同一個特征空間之中[10]。進(jìn)而使用Group LASSO的方法對這些同構(gòu)特征進(jìn)行選擇,得到不同特征維度的權(quán)值,根據(jù)權(quán)值大小的不同選擇出與當(dāng)前給定學(xué)習(xí)任務(wù)最相關(guān)的特征維度用于最終的模式識別任務(wù)。具體地,給每一個模態(tài)都分配一個多層神經(jīng)網(wǎng)絡(luò),從而形成一個多模態(tài)深度神經(jīng)網(wǎng)絡(luò),用于將原始的異構(gòu)特征轉(zhuǎn)換為同一個語義層次的隱藏特征表達(dá),得到同構(gòu)的抽象特征。
同SVM(support vector machine,支持向量機(jī))(使用所有原始異構(gòu)特征)、MKL(multiple kernel learning,多核學(xué)習(xí))(使用所有原始異構(gòu)特征,為每一個模態(tài)分配一個核函數(shù),使用多核學(xué)習(xí)方法進(jìn)行融合核學(xué)習(xí))、GLLR(logistic regression with group LASSO,基于組LASSO的邏輯斯特回歸)(使用logistic regression with group LASSO 方法直接對原始異構(gòu)特征進(jìn)行選擇)以及MMNN(multi-modal neural network,多模態(tài)異構(gòu)神經(jīng)網(wǎng)絡(luò))(使用多模態(tài)異構(gòu)神經(jīng)網(wǎng)絡(luò)得到的同構(gòu)特征不做選擇)等方法相比,提出的模型在3個實(shí)驗數(shù)據(jù)集上訓(xùn)練SVM都取得了較好的分類效果,更是遠(yuǎn)遠(yuǎn)超過單獨(dú)使用SVM分類器的分類精度。同時注意到本文算法在對模態(tài)進(jìn)行選擇后仍然取得了最高的分類精度,印證了多模態(tài)數(shù)據(jù)中信息冗余的存在與本模型濾除無關(guān)模態(tài)的有效性。
3.3 基于證據(jù)理論的多粒度融合方法
在現(xiàn)實(shí)世界中,多數(shù)據(jù)源指對相同數(shù)據(jù)樣本采集于不同時間段或不同地方或是具有不同角度的數(shù)據(jù)描述。不同數(shù)據(jù)源的數(shù)據(jù)蘊(yùn)含著數(shù)據(jù)樣本中不同的結(jié)構(gòu)信息,表達(dá)了數(shù)據(jù)樣本間多種角度的信息。當(dāng)同一數(shù)據(jù)樣本的不同角度或者不同來源信息一起被使用時,數(shù)據(jù)樣本之間蘊(yùn)含的結(jié)構(gòu)信息將更加豐富,這些結(jié)構(gòu)信息在不同的應(yīng)用中反映了學(xué)習(xí)任務(wù)的不同角度、不同側(cè)面,要想全面理解數(shù)據(jù)中蘊(yùn)含的多種信息,需要構(gòu)造合理、有效的學(xué)習(xí)模型與算法。多源信息系統(tǒng)恰好可以用來表示這樣的多源信息。因此多源信息的組合問題可以轉(zhuǎn)化為多源信息系統(tǒng)的數(shù)據(jù)分析問題。從粒計算的角度來看,對每一個子信息系統(tǒng),根據(jù)某種?;呗陨蓪?yīng)的粒結(jié)構(gòu)。換句話說,多源信息系統(tǒng)中來自不同源的信息可以看成不同的??臻g,從而多源信息融合問題也變?yōu)槎嗔?臻g融合問題。
課題組首次通過討論經(jīng)典多粒度粗糙計算模型與證據(jù)理論之間的聯(lián)系,分別在清晰和模糊的兩個多源背景下,討論了樂觀/悲觀多粒度粗糙近似和證據(jù)理論的信任函數(shù)之間的關(guān)系, 給出了多粒度粗糙近似空間證據(jù)的基本概率指派獲取等問題[11]。借鑒K-Modes聚類的思想完成多個粒結(jié)構(gòu)的聚類,結(jié)合證據(jù)理論, 在多粒度視角下建立一類介于樂觀融合和悲觀融合之間的多粒度融合算法,稱為基于證據(jù)理論的多粒度融合算法。并利用悲觀模糊多粒度粗糙近似和模糊信任函數(shù)之間的關(guān)系,給出了粒度約簡的理論框架。這些結(jié)果在一定程度上解決了多源不確定信息的定量和定性融合問題,也增強(qiáng)處理多源信息系統(tǒng)不確定問題求解的能力,為多粒度模式的知識發(fā)現(xiàn)奠定了一定的理論基礎(chǔ)。
4.1 多粒度單調(diào)分類器
單調(diào)分類(特征屬性和決策屬性存在單調(diào)性約束)是一類重要的分類任務(wù)。集成學(xué)習(xí)通過融合多個具有一定準(zhǔn)確性和差異性的基學(xué)習(xí)器,能夠大幅度地提高機(jī)器學(xué)習(xí)系統(tǒng)的泛化能力。然而,經(jīng)典的集成學(xué)習(xí)方法通常都是通過改變原始訓(xùn)練數(shù)據(jù)集的分布得到不同的基分類器,然后對所有基分類器的輸出進(jìn)行簡單投票得到最終的決策結(jié)果。基于改變樣本分布的集成策略,通過在訓(xùn)練過程中提高分類器對不同數(shù)據(jù)的適應(yīng)能力來降低預(yù)測方差,并沒有從結(jié)構(gòu)上產(chǎn)生具有差異性的分類器。
課題組基于粒計算的思想,利用特征屬性和決策屬性存在單調(diào)性關(guān)系的先驗知識,在保序性約束的前提下,通過引入優(yōu)勢粗糙集,利用保持整體優(yōu)勢粒結(jié)構(gòu)來尋找特征子空間,不同的子空間對應(yīng)一個不同的粒結(jié)構(gòu);接著利用這些子空間來構(gòu)造基分類器(個數(shù)可自適應(yīng)確定);然后利用最大概率原理對未知對象進(jìn)行類別判別以實(shí)現(xiàn)多粒度分類器融合[12]?;诒P蛐缘玫降奶卣髯涌臻g能夠在不同粒度下保持原始特征空間與決策屬性之間的序結(jié)構(gòu)信息,從而保證了基分類器在單調(diào)分類任務(wù)中的個體性能。并且,在不同粒度下的保序性約束下,能夠得到具有不同結(jié)構(gòu)的特征子空間,從而得到具有結(jié)構(gòu)差異性的基分類器?;谧畲蟾怕试砣诤匣诸惼?,綜合了基分類器在每個類別上的性能優(yōu)勢,并且達(dá)到了基分類器之間互補(bǔ)的集成效果,相比投票方式利用了更多的決策信息。大量實(shí)驗表明了多粒度分類器可極大提高單調(diào)分類任務(wù)的泛化能力,此外,集成使用的基分類器個數(shù)很少并且個數(shù)可自適應(yīng)確定,大大降低了存儲空間和預(yù)測時間。
4.2 基于層次結(jié)構(gòu)的分類模型
物體的高層語義解釋是圖像識別中的關(guān)鍵問題。盡管機(jī)器學(xué)習(xí)算法在圖像識別方面取得了很好的結(jié)果,但其效果遠(yuǎn)不如人的智能。這是因為人類識別物體發(fā)生在高層語義空間,而目前大多數(shù)機(jī)器學(xué)習(xí)方法僅僅通過底層的視覺特征對物體進(jìn)行解釋,這些方法雖然可以很好地描述圖像的視覺內(nèi)容,但不能像人類一樣理解圖像的高層語義。例如,一個人可能會把一條狼錯誤地分類成一條狗,卻不會把一條狼錯誤地分類成一輛汽車。這是因為人類在分類時是以一種層次結(jié)構(gòu)進(jìn)行的,這種層次結(jié)構(gòu)會把兩個類之間的語義關(guān)系考慮進(jìn)去,因此可以給出語義化的分類決策。利用層次結(jié)構(gòu)分類會使得分類效果更準(zhǔn)確,也更符合人類的語義認(rèn)知。在不同視角下,類別之間表現(xiàn)出不同的類別語義關(guān)系,例如,在概念上基于詞的語義關(guān)系和在特征上基于視覺相似性。
一些研究利用多種不同類別的語義相似關(guān)系,但是多種語義相似關(guān)系往往存在不同種相似關(guān)系的不一致性,例如在圖像分類領(lǐng)域中,對比“鯨魚”和“人類”兩個類,“鯨魚”與“人類”的視覺特征相似性遠(yuǎn)小于其概念相似性,因為在生物分類學(xué)中,鯨魚和人類都屬于哺乳動物,然而其視覺特征相差很遠(yuǎn),這就會出現(xiàn)概念和視覺特征上的不一致問題。筆者提出了一種學(xué)習(xí)不同類別相似關(guān)系權(quán)值的方法,通過學(xué)習(xí)來融合得到最優(yōu)的類別相似關(guān)系,由此構(gòu)建類別間的層次結(jié)構(gòu)[13]。對于層次分類問題,本工作將層次分類問題轉(zhuǎn)化到在結(jié)構(gòu)化學(xué)習(xí)框架下,利用結(jié)構(gòu)化支持向量機(jī)進(jìn)行分類,在兩個圖像數(shù)據(jù)集中驗證了有效性。
5.1 基于太陽觀測大數(shù)據(jù)的空間天氣預(yù)報建模
太陽動力學(xué)觀測站(solar dynamics observatory,SDO)是美國宇航局(NASA)“與星同在”計劃中發(fā)射的第一顆人造衛(wèi)星,于2010年2月11日在美國亞特蘭大成功發(fā)射,預(yù)計進(jìn)行5~10年的觀測任務(wù),一直運(yùn)轉(zhuǎn)至今。它的目的是探究各種各樣的太陽活動的成因及其對地球可能產(chǎn)生的影響。SDO總共搭載了3個科學(xué)實(shí)驗儀器:大氣成像儀(atmospheric imaging assembly,AIA)、日震與磁成像儀(helioseismic and magnetic imager,HMI)和極紫外線變化實(shí)驗儀(extreme ultraviolet variability experiment,EVE)。其中,AIA利用多個紫外和極紫外波段,對太陽進(jìn)行全日面、高時空分辨率的觀測,平均每隔10 s在10個波段幾乎同時對太陽進(jìn)行成像;HMI分析太陽的磁場結(jié)構(gòu)與活動以及太陽發(fā)生的變化;EVE拍攝太陽的極紫外線輻射,具有較高的光譜分辨率、時空分辨率和精確度。
SDO代表了太陽數(shù)據(jù)在數(shù)量和質(zhì)量上新的前沿,它的成功發(fā)射,使得太陽物理研究真正進(jìn)入了大數(shù)據(jù)時代。每天拍攝150 000多張高分辨率的太陽圖像(約1.5 TB),SDO任務(wù)生成的數(shù)據(jù)將超過之前所有太陽數(shù)據(jù)的總和。
(1)數(shù)據(jù)下載
使用洛克希德馬丁太陽與天文物理實(shí)驗室(Lockheed Martin Solar and Astrophysics Laboratory,LMSAL)研發(fā)的SSWIDL程序,通過國家天文臺服務(wù)器,下載了2012年前6個月的太陽元數(shù)據(jù)(fits格式)。數(shù)據(jù)共包括9個AIA波段(分別為094、131、171、193、211、304、335、1 600、1 700)HMI磁動圖,每個波段包括7 671張圖像,每張圖像為4 096×4 096分辨率。
(2)數(shù)據(jù)預(yù)處理
為了更好地可視化,將fit格式的原始灰度圖像全部轉(zhuǎn)化為JPEG格式的RGB圖像。
(3)數(shù)據(jù)標(biāo)注
根據(jù)太陽事件知識庫(heliophysics event knowledgebase,HEK)提供的太陽事件報道信息,為每張圖像生成標(biāo)注文件(XML格式)。事件標(biāo)注共包括6種太陽活動,分別為活動區(qū)(active region,AR)、冕洞(coronal hole,CH)、暗條(filament,F(xiàn)I)、耀斑(flare,F(xiàn)L)、西格瑪型(sigmoid,SG)和黑子(sunspot,SS)及其對應(yīng)的邊界信息。
5.2 基于微博大數(shù)據(jù)的社會化推薦系統(tǒng)
5.2.1 資源建設(shè)
(1)漢語框架語義資源
課題組在山西大學(xué)漢語框架網(wǎng)(CFN)資源的基礎(chǔ)上,新構(gòu)建了67個框架,框架數(shù)量從304個增至371個,擴(kuò)充了框架語義標(biāo)注例句數(shù)量19 138條,詞元4 585個,為支撐細(xì)粒度的文本語義分析需求提供了框架語義分析資源支撐。
(2)中文文本傾向性分析COAE2015微博語料庫
構(gòu)建了中文文本傾向性分析COAE2015微博語料庫,涉及領(lǐng)域包括汽車、電子、手機(jī)、美食、娛樂、賓館等,包括15 679條微博、20 154條觀點(diǎn)句的標(biāo)注及極性標(biāo)注,并對13 787條觀點(diǎn)句標(biāo)注了24 093組細(xì)粒度觀點(diǎn)要素及極性的三元組。另外,從新浪微博爬取的521個用戶節(jié)點(diǎn)、4 936條關(guān)注關(guān)系以及每個用戶發(fā)表的微博共計543 587條,為基于微博的社會化推薦系統(tǒng)提供了數(shù)據(jù)支持。
5.2.2 相關(guān)研究成果
課題組提出了一種基于細(xì)粒度篇章級框架語義分析的漢語閱讀問答方法,給出了一種基于框架語義特征的文本零形式識別與填充方法[14],提出了基于相似性發(fā)現(xiàn)與訓(xùn)練數(shù)據(jù)調(diào)整的跨語言的文本情感傾向判別方法[15],建立了一類策略融合的跨語言文本情感傾向判別框架[16],發(fā)展了一種融合社交網(wǎng)絡(luò)信息的協(xié)同過濾推薦算法[17]。
5.2.3 應(yīng)用系統(tǒng)
研發(fā)了一個文本情感分析技術(shù)資源開放平臺,主要包括微博數(shù)據(jù)的關(guān)鍵詞抽取、觀點(diǎn)要素抽取、文本情感分類以及基于汽車論壇和汽車口碑的汽車產(chǎn)品性能分析;研發(fā)了一個基于社交網(wǎng)絡(luò)的好友推薦系統(tǒng),包括用戶模塊、興趣模塊、展示模塊以及其他附屬模塊四大功能模塊,利用用戶的微博內(nèi)容和好友關(guān)系挖掘用戶的興趣偏好,個性化地為用戶推薦相似程度高的潛在好友。
針對大數(shù)據(jù)的規(guī)模性、多模態(tài)性與增長性給傳統(tǒng)的數(shù)據(jù)挖掘方法帶來的挑戰(zhàn),本文從粒計算的視角分析了應(yīng)對這些挑戰(zhàn)可能的新思路和新策略。具體面向數(shù)據(jù)的信息?;?、特征降維、多模態(tài)信息融合、特征學(xué)習(xí)與融合、多粒度證據(jù)融合、多粒度/跨粒度推理等問題,梳理和剖析了課題組取得的一些研究進(jìn)展,并總結(jié)了在天文數(shù)據(jù)挖掘和微博數(shù)據(jù)挖掘兩個典型示范應(yīng)用領(lǐng)域方面的初步研究,以期為大數(shù)據(jù)挖掘領(lǐng)域的研究做出有益的探索。
[1] FENG C, HU Q H, LIAO S Z. Random feature mapping with signed circulant matrix projection[C]//The 24th International Joint Conference on Artificial Intelligence (IJCAI 2015), July 25-31, 2015, Buenos Aires, Argentina. California: AAAI Press, 2015: 3490-3496.
[2] ZHU P F, HU Q H, ZHANG C Q, et al. Coupled dictionary learning for unsupervised feature selection[C]// AAAI Conference on Artificial Intelligence, February 12-17, 2016, Phoenix, Arizona, USA. California: AAAI Press, 2016: 1-7.
[3] WEI W, WANG J H, LIANG J Y, et al. Compacted decision tables based attribute reduction[J]. Knowledge-Based Systems, 2015(86): 261-277.
[4] BAI L, LIANG J Y. Cluster validity functions for categorical data: a solutionspace perspective[J]. Data Mining and Knowledge Discovery, 2015, 29(6): 1560-1597.
[5] LIANG J Q, HAN Y H, HU Q H. Semi-supervised image clustering with multi-modal information[J]. Multimedia Systems, 2016, 22(2): 149-160.
[6] 趙興旺, 梁吉業(yè). 一種基于信息熵的混合數(shù)據(jù)屬性加權(quán)聚類算法[J]. 計算機(jī)研究與發(fā)展, 2016, 53(5): 1018-1028. ZHAO X W, LIANG J Y. An attribute weighted clustering algorithm for mixed data based on information entropy[J]. Computer Research and Development, 2016, 53(5): 1018-1028.
[7] QIAN Y H, LIANG J Y, DANG C Y. Fuzzy granular structure distance[J]. IEEE Transactions on Fuzzy Systems, 2015, 23(6): 2245-2259.
[8] LIN G P, LIANG J Y, QIAN Y H. Uncertainty measures for multigranulation approximation space[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2015, 23(3): 443-457.
[9] QIAN Y H, LI F J, LIANG J Y, et al. Space structure and clustering of categorical data[J]. IEEE Transactions on Neural Networks and Learning Systems, 2015: 1-13.
[10] ZHAO L, HU Q H, WANG W W. Heterogeneous feature selection with multi-modal deep neural networks and sparse group lasso[J]. IEEE Transactions on Multimedia, 2015, 17 (11): 1936-1948.
[11] LIN G P, LIANG J Y, QIAN Y H. An information fusion approach by combining multigranulation rough sets and evidence theory[J]. Information Sciences, 2015, 314(1): 184-199.
[12] QIAN Y H, XU H, LIANG J Y, et al. Fusing monotonic decision trees[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(10): 2717-2728.
[13] ZHAO S, ZOU Q. Fusing multiple hierarchies for semantic hierarchical classification[C]//The 8th International Conference on Machine Learning and Computing, February 22-23, Hong Kong, China. [S.l.:s.n.], 2016: 47-51.
[14] LI R, WU J, WANG Z Q, et al. Implicit role linking on Chinese discourse: exploiting explicit roles and frameto-frame relations[C]// The 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on NaturalLanguage Processing, July 26-31, 2015, Beijing, China. [S.l.:s.n.], 2015: 1263-1271.
[15] ZHANG P, WANG S G, LI D Y. Crosslingual sentiment classification: similarity discovery plus training data adjustment[J]. Knowledge-Based Systems, 2016, 107(1): 129-141.
[16] 張鵬, 王素格, 李德玉.一種策略融合的跨語言文本情感傾向判別方法[J]. 中文信息學(xué)報, 2016, 30(2): 32-40. ZHANG P, WANG S G, LI D Y. A multistrategy approach to cross-lingual sentiment analysis[J]. Journal of Chinese Information Processing, 2016, 30(2): 32-40.
[17] 郭蘭杰, 梁吉業(yè), 趙興旺. 融合社交網(wǎng)絡(luò)信息
的協(xié)同過濾推薦算法[J]. 模式識別與人工智能, 2016, 29(3): 281-288. GUO L J, LIANG J Y, ZHAO X W. Collaborative filtering recommendation algorithm incorporating social network information[J]. Pattern Recognition and Artificial Intelligence, 2016, 29(3): 281-288.
Research development on granular computing theory and method for big data
LIANG Jiye1,2, QIAN Yuhua1,2, Li Deyu1,2, HU Qinghua3
1. Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan 030006, China 2. School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China 3. School of Computer Science and Technology, Tianjin University, Tianjin 300072, China
Aiming at several data mining tasks, research developments on data granulation, multi-granularity pattern discovery and fusion, multi-granularity reasoning were carded and analyzed, and the preliminary study on two typical applications astronomical data mining and microblog data mining was summarized, which would be helpful for making a beneficial exploration in big data mining area.
big data, granular computing, data mining, information granulation, multi-granularity
TP391
A
10.11959/j.issn.2096-0271.2016038
梁吉業(yè)(1962-),男,博士,山西大學(xué)計算智能與中文信息處理教育部重點(diǎn)實(shí)驗室、山西大學(xué)計算機(jī)與信息技術(shù)學(xué)院教授,主要研究方向為人工智能、粒計算、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。
錢宇華(1976-),男,博士,山西大學(xué)計算智能與中文信息處理教育部重點(diǎn)實(shí)驗室、山西大學(xué)計算機(jī)與信息技術(shù)學(xué)院教授,主要研究方向為人工智能、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。
李德玉(1965-),男,博士,山西大學(xué)計算智能與中文信息處理教育部重點(diǎn)實(shí)驗室、山西大學(xué)計算機(jī)與信息技術(shù)學(xué)院教授,主要研究方向為數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)、粒計算、概念格。
胡清華(1976-),男,博士,天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院教授,主要研究方向為人工智能、機(jī)器學(xué)習(xí)、模式識別。
2016-06-20
國家自然科學(xué)基金資助項目(No.61432011, No.U1435212)
Foundation Items:The National Natural Science Foundation of China(No. 61432011, No. U1435212)