胡小生張潤晶鐘 勇
1(佛山科學(xué)技術(shù)學(xué)院電子與信息工程學(xué)院 佛山 528000)
2(佛山科學(xué)技術(shù)學(xué)院信息與教育技術(shù)中心 佛山 528000)
一種基于聚類提升的不平衡數(shù)據(jù)分類算法
胡小生1張潤晶2鐘 勇1
1(佛山科學(xué)技術(shù)學(xué)院電子與信息工程學(xué)院 佛山 528000)
2(佛山科學(xué)技術(shù)學(xué)院信息與教育技術(shù)中心 佛山 528000)
不平衡數(shù)據(jù)分類是機器學(xué)習(xí)研究領(lǐng)域中的一個熱點問題。針對傳統(tǒng)分類算法處理不平衡數(shù)據(jù)的少數(shù)類識別率過低問題,文章提出了一種基于聚類的改進(jìn) AdaBoost 分類算法。算法首先進(jìn)行基于聚類的欠采樣,在多數(shù)類樣本上進(jìn)行 K 均值聚類,之后提取聚類質(zhì)心,與少數(shù)類樣本數(shù)目一致的聚類質(zhì)心和所有少數(shù)類樣本組成新的平衡訓(xùn)練集。為了避免少數(shù)類樣本數(shù)量過少而使訓(xùn)練集過小導(dǎo)致分類精度下降,采用少數(shù)過采樣技術(shù)過采樣結(jié)合聚類欠采樣。然后,借鑒代價敏感學(xué)習(xí)思想,對 AdaBoost 算法的基分類器分類誤差函數(shù)進(jìn)行改進(jìn),賦予不同類別樣本非對稱錯分損失。實驗結(jié)果表明,算法使模型訓(xùn)練樣本具有較高的代表性,在保證總體分類性能的同時提高了少數(shù)類的分類精度。
不平衡數(shù)據(jù)分類;K 均值聚類;AdaBoost;集成學(xué)習(xí)
不平衡數(shù)據(jù)集是指在一個數(shù)據(jù)集中,某些類的數(shù)量遠(yuǎn)遠(yuǎn)大于其他類別的數(shù)量,其中類別數(shù)量多的為多數(shù)類,類別數(shù)量少的為少數(shù)類。在現(xiàn)實應(yīng)用領(lǐng)域中,廣泛存在著不平衡數(shù)據(jù)集:文本分類、醫(yī)療診斷、信用卡詐騙檢測和網(wǎng)絡(luò)入侵檢測等,在處理這些情況的過程中,少數(shù)類的識別準(zhǔn)確率更為重要,其錯分代價更大。傳統(tǒng)分類方法為保證總體分類精度,通常將少數(shù)類誤分到多數(shù)類來保證整體分類精度,實際分類效果并不理想。因此,如何有效地對不平衡數(shù)據(jù)進(jìn)行分類是當(dāng)今機器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域研究的一個熱點問題。
鑒于不平衡數(shù)據(jù)分類的重要性,國內(nèi)外學(xué)者進(jìn)行了大量研究,現(xiàn)有的不平衡數(shù)據(jù)處理方法主要有兩個方面:
(1)數(shù)據(jù)層面,改變數(shù)據(jù)的分布。最簡單的兩種方法是隨機過采樣(Oversampling)和隨機欠采樣(Undersampling),前者對少數(shù)類樣本復(fù)制使數(shù)據(jù)分布相對平衡,后者通過抽取一部分多數(shù)類樣本達(dá)到數(shù)據(jù)平衡目的。兩者各有缺點:過采樣通過不斷復(fù)制少數(shù)類而使數(shù)據(jù)規(guī)模變大,使分類器學(xué)習(xí)到的決策域變小,從而容易導(dǎo)致過擬合的問題;欠采樣由于抽取部分多數(shù)類樣本使信息丟失嚴(yán)重。目前,很多學(xué)者提出改進(jìn)的數(shù)據(jù)采樣方法[1-5]。為了避免隨機過采樣的不足,Chawla等[1]提出一種少數(shù)過采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE)算法,通過采用少數(shù)類樣本合成技術(shù)產(chǎn)生新的樣本,該算法可使少數(shù)類具有更大的泛化空間,但也可能導(dǎo)致分類器過于擬合,同時不可避免地會產(chǎn)生噪音樣例或者邊際樣例?;诖?,Batista 等提出了 SMOTE 與 Tomek links[2]相結(jié)合的數(shù)據(jù)平衡方法[3]。Yen 等[4]提出了一種基于聚類的抽樣方法SBC(Undersampling Based on Clustering)。SBC通過聚類后簇內(nèi)的多數(shù)類與少數(shù)類的比例確定抽樣參數(shù),但該算法忽略了數(shù)據(jù)分布的特征,導(dǎo)致樣本代表性差,不能反映原始數(shù)據(jù)的分布。蔣盛益等[5]提出了一趟聚類的數(shù)據(jù)下抽樣算法,根據(jù)訓(xùn)練樣本聚類后簇的特征與數(shù)據(jù)傾斜程度確定抽樣比例,該方法較好地保持了少數(shù)類信息,縮小了數(shù)據(jù)分布的差異,提高了分類的性能,但該方法面臨著如何自適應(yīng)確定抽樣比例參數(shù)以對不同密度的簇分離的問題。
(2)算法層面,修改已有的分類算法或者提出新的算法。代價敏感學(xué)習(xí)、主動學(xué)習(xí)、集成學(xué)習(xí)以及單類別學(xué)習(xí)等,是處理不平衡數(shù)據(jù)集的常見算法[6-8]。其中,代價敏感學(xué)習(xí)賦予各個類別不同的錯分代價,研究表明代價敏感學(xué)習(xí)和不平衡數(shù)據(jù)學(xué)習(xí)之間存在很強的聯(lián)系,代價敏感學(xué)習(xí)的相關(guān)理論和算法可以用來解決不平衡數(shù)據(jù)的學(xué)習(xí)問題[9]。集成學(xué)習(xí)通過對多個分類器的分類識別結(jié)果進(jìn)行融合能很好地提高單一目標(biāo)的分類識別效果,作為集成學(xué)習(xí)方法的 boosting 提升技術(shù)用于提高分類性能,無論數(shù)據(jù)集是否平衡,都可以通過 boosting 迭代創(chuàng)建集成模型,提升弱分類器的性能。當(dāng)前,將 boosting 技術(shù)應(yīng)用于不平衡數(shù)據(jù)分類主要有兩類:一種將代價敏感學(xué)習(xí)和 boosting 技術(shù)相結(jié)合,例如 AdaCost[10]和RareBoost[11];另一類是將數(shù)據(jù)采樣處理方法和boosting 技術(shù)相結(jié)合,例如 SMOTEBoost[12]。
本文提出一種融合無監(jiān)督聚類和 boosting 提升技術(shù)的不平衡數(shù)據(jù)分類算法——基于聚類改進(jìn)AdaBoost 分類算法。為了研究方便,本文主要關(guān)注二分類情況,少數(shù)類也稱為正類,多數(shù)類稱為負(fù)類,而正類、負(fù)類的類別標(biāo)簽取值分別為{+ 1,—1}。算法首先進(jìn)行基于聚類的欠采樣,在負(fù)類樣本上進(jìn)行 K 均值聚類,使聚類數(shù)量與正類樣本數(shù)量相同。之后每個聚類得到聚類質(zhì)心,將所有的聚類質(zhì)心與正類樣本組成平衡的訓(xùn)練集,參與后續(xù)改進(jìn) AdaBoost 算法的訓(xùn)練。最后借鑒代價敏感學(xué)習(xí)思想,對 AdaBoost 錯分的正類樣本賦予更大的錯分代價,進(jìn)而修改了各個基分類器的輸出決策權(quán)重,最終得到分類集成學(xué)習(xí)模型。
對于不平衡數(shù)據(jù)集,對負(fù)類樣本進(jìn)行欠采樣和在正類進(jìn)行過采樣均能改變數(shù)據(jù)分布,使數(shù)據(jù)達(dá)到平衡。但仍存在缺點:過采樣容易導(dǎo)致過度擬合問題,欠采樣則會引起信息丟失。為了抽取最具代表的訓(xùn)練樣本,需對樣本進(jìn)行劃分。本文選取 K 均值聚類方法進(jìn)行欠采樣,將訓(xùn)練集中的負(fù)類樣本聚類為 k 個不相交的子集,然后,在各子集上提取最富有代表性的樣本信息,與正類樣本組成新的平衡訓(xùn)練集。
本方法首先提取訓(xùn)練集中的正類樣本個數(shù)k,并以 k 為聚類中心數(shù)目對訓(xùn)練集中所有的負(fù)類樣本進(jìn)行 K 均值聚類,提取 k 個聚類質(zhì)心?!柏?fù)”類樣本的 k 個聚類質(zhì)心加上所有的正類樣本組成一個新的平衡訓(xùn)練集。
獲取聚類質(zhì)心的具體流程如下:
算法 1 聚類欠采樣算法:
輸入:數(shù)據(jù)集 D
輸出:平衡的訓(xùn)練集 Dtrain
(1)S=pre_process[D]; // 數(shù)據(jù)預(yù)處理
(2)train[S]=隨機取數(shù)據(jù)集 S 中的 80% 樣本,test[S]=S 中剩余的 20% 樣本;
(3)提取 train[S] 中正、負(fù)類樣本集合 S+、S—,計算 S+中正類樣本數(shù)量 k,令 K=k;
(4)對集合 S—的樣本進(jìn)行 K 均值聚類,得到k 個不相交子集及其聚類質(zhì)心;
(5)提取 k 個聚類質(zhì)心記為集合 S';
由于數(shù)據(jù)集中的屬性一般有連續(xù)型和分類型兩種,因此,在算法 1 的第一步須進(jìn)行數(shù)據(jù)預(yù)處理 pre_process() 過程。具體方法為:對于數(shù)據(jù)集中的分類型屬性,采用二進(jìn)制編碼方式進(jìn)行轉(zhuǎn)換,將分類型的屬性轉(zhuǎn)換為若干個取值 0 和 1 的屬性;而對于連續(xù)型屬性,為了消除不同量綱所造成的影響,對輸入數(shù)據(jù)進(jìn)行最大最小歸一化處理,進(jìn)而將所有數(shù)據(jù)歸一化到[0,1]之間,其公式如下所示:
其中,分別表示特征 A 上數(shù)據(jù)的最大值和最小值。
算法 1 的實質(zhì)是為了組成一個新的平衡數(shù)據(jù)集,對負(fù)類樣本進(jìn)行聚類壓縮,由聚類的質(zhì)心代表聚類的所有樣本。此方法對大規(guī)模數(shù)據(jù)(正類樣本數(shù)量比較大)能取得較好的效果,但若在正類樣本數(shù)量很小時,單純使用此方法將會導(dǎo)致輸出的平衡訓(xùn)練集過小而難以到達(dá)理想的分類精度。針對此問題,提出一個將 SMOTE 與聚類欠采樣相結(jié)合方法,在過采樣與欠采樣之間尋找一個平衡點。其中,SMOTE 通過生成合成樣本對正類樣本進(jìn)行過采樣。具體為:對于每個正類樣本 x,在其同類中查找 n 個近鄰,根據(jù)上采樣的倍率 N,在樣本 x 和被選中的近鄰樣本之間進(jìn)行隨機插值,生成新的樣本。
3.1 AdaBoost 算法簡介
AdaBoost 算法是一種典型的集成學(xué)習(xí)算法,可以有效提高單一學(xué)習(xí)器的泛化能力。它首先賦予訓(xùn)練集中每個訓(xùn)練樣例相同的初始權(quán)重,然后通過若干輪訓(xùn)練得到若干弱分類器,在每一輪訓(xùn)練結(jié)束后,增加沒有正確分類的樣本的權(quán)值,減少正確分類的樣本的權(quán)重,使系統(tǒng)在下一輪訓(xùn)練中更加關(guān)注那些分類錯誤的樣本,最后這些弱分類器通過加權(quán)集成為一個強分類器完成分類任務(wù)。算法中每個基分類器的投票權(quán)值計算如下:
子分類器 ht形成后,實例樣本的權(quán)重更新公式如下:
3.2 AdaBoost 算法改進(jìn)
在 AdaBoost 算法中,每個基分類器的投票權(quán)重是基于總體的誤分情況,目的是減少平均誤分率,也就是提高總體分類正確率。對于類別平衡的數(shù)據(jù)集來說,這種學(xué)習(xí)方法是可靠的。然而對于類別不平衡數(shù)據(jù)集,單純地追求基分類器的分類精度,對合成分類器的分類效果影響并不直接。因此為了在總體上獲得較高的精度,分離器通常傾向于忽視數(shù)量較少的正類樣本,結(jié)果使得到的分類器在正類上識別效果差。而在實際中,正類樣本的識別往往是最需要關(guān)注的。因此,本文考慮對 AdaBoost 算法中基分類器的投票權(quán)重進(jìn)行改進(jìn),使其充分考慮到正類的樣本數(shù)據(jù)。
改進(jìn) AdaBoost 算法基分類器的投票權(quán)重具體做法是對公式(3)中的 εt的定義計算方式進(jìn)行修改,進(jìn)而改變了基分類器的輸出投票權(quán)重 at。改進(jìn)方法實質(zhì)是借鑒代價敏感學(xué)習(xí)思想,對基分類器的誤分代價在各個類別上不再一視同仁,對正類樣本的錯分,賦予更大的誤分代價。假設(shè)原始訓(xùn)練集的不平衡度為 r,r=負(fù)類樣本數(shù)量/正類樣本數(shù)量,則修改公式(3):
公式(6)與公式(3)相比,在計算分類器的誤分代價時,對每個樣本實例的誤分代價乘上一個系數(shù)當(dāng)樣本為負(fù)類時,樣本誤分代價與初始算法相比不變;當(dāng)樣本為正類時,樣本誤分代價需乘上系數(shù) r。公式(6)表明,當(dāng)某個基分類器誤分較多正類樣本時,其誤分總代價 εt增大,相應(yīng)在最終決策輸出時其投票權(quán)重 at值變小。
4.1 數(shù)據(jù)集
通常情況下,將不平衡度在[1.5, 3.5)、[3.5, 9.5)、[9.5, +∞ )分別稱為低度不平衡范圍、中度不平衡范圍和高度不平衡范圍。為了評估算法的性能,選擇 8 組具有不同實際應(yīng)用背景的不同平衡度的 UCI 數(shù)據(jù),如表 1 所示。對于含有多個類別的數(shù)據(jù),采用與其他文獻(xiàn)相似的方法:將其中的一類作為少數(shù)類,合并剩下的各個類別成為一個整體為多數(shù)類。例如,將 page-blocks 的類別5 作為少數(shù)類,合并其他的類作為多數(shù)類。
4.2 評價標(biāo)準(zhǔn)
在傳統(tǒng)的分類學(xué)習(xí)中,一般采用分類精度(分類正確的樣本個數(shù)占總樣本個數(shù)的百分比)作為評價指標(biāo),然而對于不平衡數(shù)據(jù)集,這一指標(biāo)實際意義不大,因為它反映的是多數(shù)類樣本的分類測試結(jié)果。針對不平衡數(shù)據(jù),很多學(xué)者提出建立在混淆矩陣基礎(chǔ)上的 F-measure、G-mean 等評價指標(biāo)[13],混淆矩陣如下表 2 所示。
表 1 UCI 數(shù)據(jù)集Table 1. UCI datasets
表 2 混淆矩陣Table 2. Confusion matrix
在某些應(yīng)用中,人們更加關(guān)注少數(shù)類樣本的分類性能,F(xiàn)-measure 就是用于衡量少數(shù)類分類性能的指標(biāo)。F-measure 是查全率(recall)和查準(zhǔn)率(precision)的調(diào)和均值,其取值接近兩者的較小者,因此,較大 F-measure 值表示 recall 和precision 都較大:
G-mean 是一種衡量分類器整體分類性能的評價指標(biāo),其定義如下:
從定義中可以看出,G-mean 兼顧了少數(shù)類和多數(shù)類精度的平均,在保持正、負(fù)類分類精度平衡的情況下最大化兩類的精度,能夠反映出分類器的整體性能。
本文采用 F-measure 和 G-mean 作為評價標(biāo)準(zhǔn)。其中,使用 F-measure 來衡量正類的分類性能,而使用 G-mean 來衡量整體分類性能。
4.3 實驗結(jié)果
在 weka3.6.3 環(huán)境下對本文算法進(jìn)行了驗證,并且與傳統(tǒng)的分類算法 AdaBoost、SMOTEBoost 和 RUSBoost 進(jìn)行了比較,相關(guān)結(jié)果如表 3 和表 4 所示。實驗中,AdaBoost、SMOTEBoost 和 RUSBoost 算法的基分類器均采用 J48 算法,本文所提算法的基分類器則采用在小樣本平衡集上分類性能表現(xiàn)優(yōu)異的支持向量機(Support Vector Machine)算法。為比較方便起見,實驗中對數(shù)據(jù)采用五折交叉驗證(5-fold cross-validation)方式。為了保證數(shù)據(jù)在進(jìn)行分組過程中不平衡度保持一致,采用分層采樣方式,即:將數(shù)據(jù)集中的正類樣本和負(fù)類樣本分別隨機分為 5 等份,兩兩隨機組合得到 5 個大小一致的子集,將其中一份作為測試集,其余 4 個子集作為訓(xùn)練集,重復(fù) 5 次,以平均值作為最終的分類結(jié)果。
從表 3 可以看出,在少數(shù)類的識別評價度量 F-measure 值方面,本文算法具有明顯優(yōu)勢:8 組 UCI 數(shù)據(jù)集中的 6 組精度最高,特別是在高度不平衡度的 nuersery、page-blocks 數(shù)據(jù)集上,與所比較的三種算法中的最優(yōu)算法有 5% 以上的精度提升。與傳統(tǒng) AdaBoost 算法相比,在低不平衡度條件下,本文算法與之差異不明顯,但隨著不平衡度的增加,本文算法精度較高,例如在 letter、nursery、page-blocks 數(shù)據(jù)集上分別有30.7%、19.8%、31.1% 的提升。另外,隨著數(shù)據(jù)集不平衡度的增加,數(shù)據(jù)采樣方法與 Boost 技術(shù)相結(jié)合的提升方法中,SMOTEBoost 算法的少數(shù)類識別性能比 RUSBoost 算法更好。
表 3 各種方法的 F-measure 值比較Table 3. F-measure values on test datasets
表 4 各種方法的 G-mean 值比較Table 4. G-mean values on test datasets
表 4 給出了體現(xiàn)分類器對不平衡數(shù)據(jù)集的整體分類效果的評價。從中可以看出,在低度不平衡度和中度不平衡度條件下,本文算法的G-mean 值在整體上最優(yōu);而在高度不平衡條件下,G-mean 值度量指標(biāo)稍遜于所比較的算法,主要原因是在高度不平衡范圍下,所比較的三類算法中的分類器傾向于忽略正類樣本,在降低了體現(xiàn)少數(shù)類識別準(zhǔn)確率的 F-measure 值情況下,提高了整體分類性能的 G-mean 值。
本文提出一種在無監(jiān)督聚類基礎(chǔ)上的改進(jìn)AdaBoost 算法用于處理不平衡數(shù)據(jù)分類。該方法首先進(jìn)行基于聚類的欠采樣處理,對初始訓(xùn)練集上的負(fù)類樣本進(jìn)行無監(jiān)督的 K 均值聚類;同時借鑒代價敏感學(xué)習(xí)思想,對 AdaBoost 算法進(jìn)行了改進(jìn),對基分類器的不同類別樣本分類誤分賦予不對稱代價,在損失一定程度多數(shù)類分類性能的情況下,提高少數(shù)類的分類精度,以更符合實際的應(yīng)用情況。實驗結(jié)果表明,該方法在顯著降低實際參與模型訓(xùn)練樣本數(shù)量的同時,能夠取得不錯的分類性能,為大規(guī)模不平衡數(shù)據(jù)集分類問題提供了一種新的方法。
由于數(shù)據(jù)集本身的多樣性和復(fù)雜性,樣本的分布也呈現(xiàn)多樣性,如果能實現(xiàn)估計正負(fù)類樣本潛在的分布,根據(jù)不同的潛在分布設(shè)置不同的聚類方式,對算法的分類性能將會提高更多。
[1] Chawla NV, Bowyer KW, Hall LO, et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357.
[2] Tomek I. Two modifications of CNN [J]. IEEE Transactions on Systems, Man and Communications, 1976, 6(11): 769-772.
[3] Batista GE, Prati RC, Monard MC. A study of the behavior of several methods for balancing machine learning training data [J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 20-29.
[4] Yen SJ, Lee YS. Under-sampling approaches for improving prediction of the minority class in an imbalanced dataset [C] // International Conference on Intelligent Computing, Lecture Notes in Control and Information Sciences, 2006: 731-740.
[5] 蔣盛益, 苗邦, 余雯. 基于一趟聚類的不平衡數(shù)據(jù)下抽樣算法 [J]. 小型微型計算機系統(tǒng), 2012, 33(2): 232-236.
[6] He HB, Garcia EA. Learning from imbalanced data [J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.
[7] 翟云, 楊炳儒, 曲武. 不平衡類數(shù)據(jù)挖掘研究綜述 [J]. 計算機科學(xué), 2010, 37(10): 27-32.
[8] 李雄飛, 李軍, 董元方, 等. 一種新的不平衡數(shù)據(jù)學(xué)習(xí)算法 PCBoost [J]. 計算機學(xué)報, 2012, 35(2): 202-209.
[9] 凌曉峰, Sheng VS. 代價敏感分類器的比較研究 [J]. 計算機學(xué)報, 2007, 30(8): 1203-1212.
[10] Fan W, Stolfo S, Zhang J, et al. AdaCost: misclassification cost-sensitive boosting [C] // Proceedings of the 16th International Conference on Machine Learning, 1999: 97-105.
[11] Joshi MV, Kumar V, Agarwal RC. Evaluating boosting algorithms to classify rare classes: comparison and improvements [C] // Proceedings of the 1st IEEE International Conference on Data Mining, 2001: 257-264.
[12] Chawla NV, Lazarevic A, Hall LO, et al. SMOTEBoost: improving prediction of the minority class in boosting [C] // Proceedings of the 7th European Conference Principles and Practice of Knowledge Discovery in Databases, 2003: 107-119.
[13] 林智勇, 郝志峰, 楊曉偉. 若干評價準(zhǔn)則對不平衡數(shù)據(jù)學(xué)習(xí)的影響 [J]. 華南理工大學(xué)學(xué)報(自然科學(xué)版), 2010, 4(38): 126-135.
A Clustering-Based Enhanced Classification Algorithm for Imbalanced Data
HU Xiaosheng1ZHANG Runjing2ZHONG Yong1
1( College of Electronic and Information Engineering, Foshan University, Foshan 528000, China )
2( Information and Education Technology Center, Foshan University, Foshan 528000, China )
Imbalanced data exist widely in the real world and their classification is a hot topic in the field of machine learning. A clustering-based enhanced AdaBoost algorithm was proposed to improve the poor classification performance produced by the traditional algorithm in classifying the minority class of imbalanced datasets. The algorithm firstly constructs balanced training sets by the clustering-based undersampling, using K-means clustering to cluster the majority class and extract cluster centroids and then merge with all minority class instances to generate a new balanced training set. To avoid the declining of the classification accuracy caused by the shortage of training sets owing to too few minority class samples, SMOTE (Synthetic Minority Oversampling Technique) combining the clustering-based undersampling was used. Next, the misclassification loss function in the basic classifier of the AdaBoost algorithm was modified based on the costsensitive learning theory to assign asymmetric misclassification losses to samples of different classes. The experimental results show that, the proposed algorithm makes the model training samples more representative and greatly increases the classification accuracy of the minority class, keeping the overall classification performance.
imbalanced data classification; K-mean clustering; AdaBoost; ensemble learning
TP 18
A
2013-08-22
廣東高校優(yōu)秀青年創(chuàng)新人才培養(yǎng)項目(2013LYM_0097);佛山市智能教育評價指標(biāo)體系研究(DX20120220);佛山科學(xué)技術(shù)學(xué)院校級科研項目。
胡小生(通訊作者),碩士,講師,高級工程師,研究方向為機器學(xué)習(xí)和數(shù)據(jù)挖掘,E-mail:feihu@fosu.edu.cn ;張潤晶,高級工程師,研究方向為信息檢索和信息安全;鐘勇,博士,教授,研究方向為信息安全、信息檢索和云計算。