李飛 杜亮 任超宏
摘 要:非負(fù)矩陣分解(NMF)算法僅能用于對原始非負(fù)數(shù)據(jù)尋找低秩近似,而概念分解(CF)算法將矩陣分解模型擴(kuò)展到單個非線性核空間,提升了矩陣分解算法的學(xué)習(xí)能力和普適性。針對無監(jiān)督環(huán)境下概念分解面臨的如何設(shè)計或選擇合適核函數(shù)這一問題,提出基于全局融合的多核概念分解(GMKCF)算法。同時輸入多種候選核函數(shù),在概念分解框架下基于全局線性權(quán)重融合對它們進(jìn)行學(xué)習(xí),以得出質(zhì)量高穩(wěn)定性好的聚類結(jié)果,并解決概念分解模型面臨核函數(shù)選擇的問題。采用交替迭代的方法對新模型進(jìn)行求解,證明了算法的收斂性。
將該算法與基于核的K-均值(KKM)、譜聚類(SC)、KCF(Kernel Concept Factorization)、Coreg(Co-regularized multi-view spectral clustering)、RMKKM(Robust Multiple KKM)在多個真實(shí)數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明,該算法在數(shù)據(jù)聚類方面優(yōu)于對比算法。
關(guān)鍵詞:多核學(xué)習(xí);概念分解;矩陣分解;多核聚類;全局融合
中圖分類號:TP181
文獻(xiàn)標(biāo)志碼:A
文章編號:1001-9081(2019)04-1021-06
Abstract: Non-negative Matrix Factorization (NMF) algorithm can only be used to find low rank approximation of original non-negative data while Concept Factorization (CF) algorithm extends matrix factorization to single non-linear kernel space, improving learning ability and adaptability of matrix factorization. In unsupervised environment, to design or select proper kernel function for specific dataset, a new algorithm called Globalized Multiple Kernel CF (GMKCF) was proposed. Multiple candidate kernel functions were input in the same time and learned in the CF framework based on global linear fusion, obtaining a clustering result with high quality and stability and solving the problem of kernel function selection that the CF faced. The convergence of the proposed algorithm was verified by solving the model with alternate iteration. The experimental results on several real databases show that the proposed algorithm outperforms ?comparison algorithms in data clustering, such as Kernel K-Means (KKM), Spectral Clustering (SC), Kernel CF (KCF), Co-regularized multi-view spectral clustering (Coreg), and Robust Multiple KKM (RMKKM).
Key words: multiple kernel learning; Concept Factorization (CF); matrix factorization; multiple kernel clustering; global fusion
0?引言
數(shù)據(jù)挖掘從看似無序的數(shù)據(jù)中尋找有序、有價值的信息。聚類分析是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)中的一項重要技術(shù),也是國內(nèi)外學(xué)者研究的一個重點(diǎn)領(lǐng)域。聚類技術(shù)可用來探索數(shù)據(jù)的內(nèi)部結(jié)構(gòu),并就其某種相關(guān)關(guān)系進(jìn)行挖掘,因而在很多領(lǐng)域中得到廣泛應(yīng)用,例如:在電子商務(wù)中,應(yīng)用聚類算法可以發(fā)現(xiàn)不同客戶群體,有利于尋找潛在市場;在生物學(xué)領(lǐng)域,可以對基因、蛋白質(zhì)等進(jìn)行聚類研究,從而獲取對其結(jié)構(gòu)的深入認(rèn)識;在互聯(lián)網(wǎng)上,可以對微博、新聞中的文檔進(jìn)行聚類研究,從而進(jìn)行熱點(diǎn)事件發(fā)現(xiàn)等。
根據(jù)聚類算法的輸入數(shù)據(jù)類型分類,聚類算法可以分為數(shù)值型算法(如K-means[1]、非負(fù)矩陣分解(Non-negative Matrix Factorization, NMF)[2]等)、離散型(如AT-DC[3])、關(guān)系型(如NCut[4]、仿射傳播AP[5])和混合型(如圖正則的NMF(Graph regularized NMF, GNMF)[6])算法等。根據(jù)輸出結(jié)果,聚類算法分為層次聚類和劃分式聚類[1]。根據(jù)簇的描述形式,聚類算法可分為基于原型的方法(也叫簇代表元,代表性算法有K-means, K-medoids等)和基于模型的方法(代表性算法有高斯混合模型(Gaussian Mixture Model, GMM)[7])。
近年來研究人員提出許多方法進(jìn)一步提高非負(fù)矩陣分解算法的效果。文獻(xiàn)[6]提出利用數(shù)據(jù)流形結(jié)構(gòu)提升聚類結(jié)果;文獻(xiàn)[8]研究矩陣分解的稀疏性提高結(jié)果的可解釋性;文獻(xiàn)[9]研究噪聲數(shù)據(jù)上的矩陣分解提高分解結(jié)果的魯棒性。文獻(xiàn)[10]提出概念分解(Concept Factorization, CF)方法將矩陣分解從線性原始空間擴(kuò)展到非線性核空間并用于文本聚類,文獻(xiàn)[11]提出基于圖正則的概念分解算法,文獻(xiàn)[12]進(jìn)一步提出自適應(yīng)鄰居正則化的概念分解算法,文獻(xiàn)[13-15]提出基于多圖/多層/多視圖的正則化的概念分解算法,文獻(xiàn)[16-18]提出新型單視圖數(shù)據(jù)的正則化概念分解算法。值得指出的是這類正則化方法通常需要引入額外的參數(shù)用于平衡概念分解目標(biāo)函數(shù)和正則目標(biāo),但實(shí)際應(yīng)用中如何設(shè)置較為準(zhǔn)確的參數(shù)是比較困難的。
文獻(xiàn)[10]提出的核概念分解方法在實(shí)際應(yīng)用中面臨的核心問題之一是針對特定任務(wù)和數(shù)據(jù)集如何設(shè)計和選擇合適的核函數(shù)。需要進(jìn)一步指出的是,由于缺乏數(shù)據(jù)標(biāo)簽等監(jiān)督信息,核函數(shù)選擇在無監(jiān)督學(xué)習(xí)任務(wù)中變得更加困難。
為了減輕核函數(shù)選擇帶來的困難,本文提出在無監(jiān)督多核學(xué)習(xí)框架中通過全局線性加權(quán)方法從一系列初始給定的核矩陣中學(xué)習(xí)聚類質(zhì)量更高、穩(wěn)定性更好的核函數(shù)。針對本文提出的多核概念分解模型,推導(dǎo)和設(shè)計了對應(yīng)的迭代式優(yōu)化求解算法——基于全局融合的多核概念分解(Globalized Multiple Kernel CF, GMKCF)算法,并證明該算法的收斂性以及算法的時間和空間復(fù)雜度。本文提出的多核概念分解模型沒有引入額外的超參數(shù),降低了算法在實(shí)際應(yīng)用中實(shí)施部署的難度。
多個基準(zhǔn)數(shù)據(jù)集上的聚類實(shí)驗(yàn)結(jié)果表明多核聚類方法明顯優(yōu)于單核平均結(jié)果,驗(yàn)證了多核學(xué)習(xí)可以提升聚類算法性能。本文提出的多核概念分解在聚類準(zhǔn)確性、歸一化互信息和聚類純度上的性能優(yōu)于對比多核聚類方法。
1?相關(guān)工作
1.1?非負(fù)矩陣分解
針對非負(fù)值矩陣數(shù)據(jù)X∈Rd×n,Lee等[2]于1999年在《Nature》上正式提出了非負(fù)矩陣分解的基本概念。非負(fù)矩陣分解的認(rèn)知基礎(chǔ)是:對整體的感知由基于對組成整體的部分(局部)。NMF通過非負(fù)約束純加性的感知過程刻畫出數(shù)據(jù)的組成部分和數(shù)據(jù)如何由局部感知構(gòu)成的本質(zhì)。該方法用兩個低秩非負(fù)矩的乘積陣UVT近似原始非負(fù)數(shù)據(jù),其中U∈Rd×k,V∈Rn×k。非負(fù)矩陣分解方法對應(yīng)的最優(yōu)結(jié)果可以通過求解以下優(yōu)化問題[19]獲得:
從式(1)可看出:每一個樣本xi可以通過U,V的線性合并得到,即xi=∑k ukvik。因此,矩陣U可以看作是一組非負(fù)基向量,而矩陣V可以看作數(shù)據(jù)在基矩陣U下新的表示。
上述優(yōu)化問題是關(guān)于聯(lián)合(U,V)的非凸優(yōu)化問題,因此很難用非線性優(yōu)化方法得到全局最優(yōu)解。然而對于僅關(guān)于U或者僅關(guān)于V的子問題,仍然是一個凸優(yōu)化問題。其局部最優(yōu)解可以通過分塊坐標(biāo)輪換法分別求解。通用的非負(fù)矩陣分解求解算法通過以下乘法更新公式獲得:
1.2?概念分解
Xu等在文獻(xiàn)[10]中提出概念分解算法。在概念分解模型中,分解后的基向量u要求通過對原始空間樣本的非負(fù)線性組合得到,其對應(yīng)的優(yōu)化問題可以寫成:
2?本文算法
上述提到的核概念分解算法僅適用于單核數(shù)據(jù)聚類問題;然而,核方法面臨的核心問題之一是針對特定任務(wù)和數(shù)據(jù)集如何設(shè)計和選擇合適的核函數(shù)。需要進(jìn)一步指出的是,由于缺乏數(shù)據(jù)標(biāo)簽等監(jiān)督信息,核函數(shù)選擇在無監(jiān)督學(xué)習(xí)任務(wù)中變得更加困難。
為了減輕核函數(shù)選擇帶來的困難,本文提出在無監(jiān)督多核學(xué)習(xí)框架中通過全局線性加權(quán)方法從一系列初始給定的核矩陣中學(xué)習(xí)聚類質(zhì)量更高、穩(wěn)定性更好的核函數(shù)。
2.1?多核概念分解
假設(shè)一共給定m個不同的核關(guān)系數(shù)據(jù)用于聚類過程{Ki}mi=1,與此對應(yīng)的是m個不同的特征空間{Hi}mi=1。為了合并這些核空間并且使得合并后的核矩陣仍然滿足Mercer條件,可以采用基于非負(fù)全局權(quán)重線性加權(quán)的方式,即合并后的特征空間可以表示為:
2.2?多核概念分解模型求解算法
首先需要指出的是,上述多核概念分解模型整體對于所有待求變量仍然是一個非凸優(yōu)化問題,但是對于單個變量的各子優(yōu)化問題都是凸優(yōu)化問題。為此,本文提出迭代式求解算法對整體問題進(jìn)行求解,并采用分塊坐標(biāo)輪換法分別對每個變量對應(yīng)的子優(yōu)化問題進(jìn)行單獨(dú)求解。最終通過求解一系列子優(yōu)化問題,可以獲得對應(yīng)的局部最優(yōu)解。
2.2.4?多核概念算法
算法1?全局多核概念分解算法。
后處理:利用K-means算法對多核低秩表示V進(jìn)行二次聚類獲得高質(zhì)量的離散化聚類結(jié)果。
2.2.5?算法收斂性證明
式(7)中的全局多核概念分解算法是一個關(guān)于聯(lián)合({Ui}mi=1,V,w)的非凸優(yōu)化問題,因此很難用非線性優(yōu)化方法得到全局最優(yōu)解。然而對于僅關(guān)于{Ui}mi=1或者僅關(guān)于V 或者僅關(guān)于w的子問題,仍然是一個凸優(yōu)化問題。通過分塊坐標(biāo)輪換法的迭代式求解可以使整體目標(biāo)函數(shù)單調(diào)下降。并且可以很明顯看出式(7)的目標(biāo)函數(shù)是有下界的。因此,整體求解算法的收斂性可以得到保障。
具體來講,容易看出式(7)的目標(biāo)函數(shù)是有下界的(下界為0),并且式(7)的函數(shù)值隨著算法迭代每一步都是非增的(Non-increasing)。本文引入非負(fù)矩陣分解(NMF)和概念分解(CF)模型乘法更新過程(Multiplicative update rule)中常見的輔助函數(shù)(Auxiliary function)定義[10]。因?yàn)榉秦?fù)因子U的更新過程和非負(fù)因子V更新類似,本文僅給出求解非負(fù)因子V時的輔助函數(shù)證明。
此外,式(16)中關(guān)于w的問題是凸優(yōu)化問題,式(17)可以獲得最優(yōu)解。
2.2.6?算法復(fù)雜性說明
初始階段, 本文算法需要計算m個核矩陣,對應(yīng)的計算復(fù)雜性是O(mn2d),其中n是樣本個數(shù),d是特征個數(shù)。每次迭代過程中的計算量分別為:1)更新變量U,其中需要計算P+和P-,對應(yīng)的計算復(fù)雜性為O(n2k+k2n),更新U的復(fù)雜性是O(n2k)。
2)更新變量V,其中需要計算Q+和Q-,對應(yīng)的計算復(fù)雜性為O(n2k+k2n),更新V的復(fù)雜性是O(n2k)。
3)更新變量w,對應(yīng)的計算復(fù)雜性為O(m(n2k+k2n))。
4)更新變量Kw,對應(yīng)的計算復(fù)雜性為O(mn2)。
假設(shè)迭代算法在迭代t次后收斂,多核概念分解的整體復(fù)雜度表示為O(mn2d+n2t(k+m))??梢钥闯?,多核概念分解整體算法復(fù)雜性和單核概念分解在同一量級。
3?實(shí)驗(yàn)與結(jié)果分析
本文實(shí)驗(yàn)通過基準(zhǔn)測試數(shù)據(jù)集上的聚類結(jié)果對比來驗(yàn)證本文提出的多核方法在聚類問題上的有效性。
實(shí)驗(yàn)平臺的配置:PC為Intel Core i5處理器,8GB內(nèi)存,120GB硬盤;操作系統(tǒng)為Windows 10;編程環(huán)境為Matlab 2015a。
3.1?數(shù)據(jù)集的選擇
本文分別選擇了BBC、TR31、K1B、WebKB四個數(shù)據(jù)集作為測試基準(zhǔn)數(shù)據(jù)集。這些數(shù)據(jù)集經(jīng)常被用于評估聚類算法的性能,數(shù)據(jù)集的統(tǒng)計信息如表1所示。
BBC數(shù)據(jù)集包含了來自BBC新聞網(wǎng)站提供的2225份文件,對應(yīng)于2004—2005年5個主題領(lǐng)域的故事,共有5類標(biāo)簽:商業(yè)、娛樂、政治、體育、科技。
TR31數(shù)據(jù)集來自TREC收集的文本數(shù)據(jù)集,包含927個文本,分為7個類別。
K1B數(shù)據(jù)集來自WebACE項目,包括2340篇文章,這些文章來自于路透新聞的20個類別中,其中每個文檔對應(yīng)于Yahoo!的主題層次結(jié)構(gòu)中列出的網(wǎng)頁。
WebKB數(shù)據(jù)集包含了約6000個從4所高校(康奈爾大學(xué)、德克薩斯大學(xué)、華盛頓大學(xué)、威斯康星大學(xué))的計算機(jī)科學(xué)部門收集的網(wǎng)頁。每個網(wǎng)頁都標(biāo)有一個標(biāo)簽:學(xué)生、教授、課程、項目、人員、部門,以及其他。
和其他多核學(xué)習(xí)方法中的策略類似,本文使用了12種不同的核函數(shù)作為多核學(xué)習(xí)的輸入。這些核函數(shù)包括7個不同帶寬的徑向基函數(shù)(Radial Basis Function,RBF)核函數(shù)k(x, y)=exp(-‖x-y‖22δ2)d,其中令δ=tD0,且D0是樣本兩兩之間距離的平均值,而t的變化范圍包括{0.01,0.05,0.1,1,10,50,100};4個多項式核函數(shù)k(x, y)=(a+xTiy)b,其中a的取值范圍包括{0,1},b的取值范圍包括{2,4};1個余弦核函數(shù)k(x, y)=xTy‖x‖·‖y‖。最后,所有的核函數(shù)都又經(jīng)過了標(biāo)準(zhǔn)化k(x, y)=k(x, y)k(x,x)k(y, y),并且被進(jìn)一步縮放到區(qū)間[0,1]內(nèi)。
3.2?對比方法
本文實(shí)驗(yàn)是多核數(shù)據(jù)聚類實(shí)驗(yàn),實(shí)驗(yàn)中對比了單核方法和多核方法。采用的單核方法包括:基于核的K-均值(Kernel K-Means, KKM)、譜聚類(Spectual Clustering, SC)、KCF(Kernel CF)。
采用的多核方法包括:Coreg(Co-regularized multi-view spectral clustering)[20]、RMKKM(Robust Multiple KKM)[21],以及本文GMKCF算法。
針對多核實(shí)驗(yàn)數(shù)據(jù),單核方法可以獲得多組實(shí)驗(yàn)結(jié)果,為了準(zhǔn)確刻畫單核方法在不同核函數(shù)上的性能,
本文實(shí)驗(yàn)采用單核方法在多個核函數(shù)上聚類結(jié)果的平均值。
根據(jù)文獻(xiàn)[20-21]中的實(shí)驗(yàn)結(jié)果,Coreg在本文實(shí)驗(yàn)中的參數(shù)設(shè)置為0.1,RMKKM的實(shí)驗(yàn)參數(shù)設(shè)置為0.3。概念因子的個數(shù)設(shè)置為數(shù)據(jù)集中類的個數(shù)。
聚類中簇的個數(shù)設(shè)置為數(shù)據(jù)集中真實(shí)類別的個數(shù)。SC和Coreg獲得樣本低維表示后都采用K-means算法最終得到離散化的聚類結(jié)果。針對聚類算法需要初始化的問題, 本文實(shí)驗(yàn)采用隨機(jī)值對算法進(jìn)行初始化,重復(fù)實(shí)驗(yàn)20次并報告對應(yīng)的平均值。
3.3?評價指標(biāo)
因本文實(shí)驗(yàn)所采用的數(shù)據(jù)集類別標(biāo)簽已知,本文選擇三個外部評價指標(biāo)來評估算法在聚類問題上的性能,各評價指標(biāo)介紹如下:
而map(·)是置換映射函數(shù),它將簇標(biāo)簽映射到類標(biāo)簽。最佳映射可以通過Kuhn-Munkres算法獲取。ACC是0~1的值,ACC的值越大說明聚類效果越好。
其中:H(C)和H(C′)分別是類C和簇C′對應(yīng)的信息熵。容易驗(yàn)證NMI位于0~1,并且NMI的值越大說明聚類效果越好。
3)聚類純度(Purity)是一種簡單的聚類評價方法,只需計算正確聚類的樣本數(shù)占樣本總數(shù)的比例,其計算方法如下:purity=1n∑kmax(c′k,cj)
其中:用C={c1,c2,…,ck}表示真實(shí)標(biāo)簽中類的集合;用C′={c′1,c′2,…,c′k}表示聚類算法獲得的簇的集合。Purity同樣位于0~1,并且Purity的值越大說明聚類效果越好。
3.4?結(jié)果與分析
表2~4分別列出了不同的聚類方法在這些數(shù)據(jù)集上聚類準(zhǔn)確性、歸一化互信息和聚類純度的結(jié)果。
實(shí)驗(yàn)結(jié)果表明多核方法(Coreg、RMKKM和GMKCF)普遍優(yōu)于單核方法(KKM、SC和KCF)。從表2聚類準(zhǔn)確性指標(biāo)可看出多核方法在多個數(shù)據(jù)集上的平均結(jié)果達(dá)到0.5809,而單核方法的平均結(jié)果為0.4915,多核方法在聚類準(zhǔn)確性上的平均提升達(dá)到了18.2%;從表3歸一化互信息指標(biāo)可看出多核方法在多個數(shù)據(jù)集上的平均結(jié)果達(dá)到0.3741,而單核方法的平均結(jié)果為0.2463,多核方法在歸一化互信息上的平均提升達(dá)到了51.8%;從表4聚類純度指標(biāo)可看出多核方法在多個數(shù)據(jù)集上的平均結(jié)果達(dá)到0.6599,而單核方法的平均結(jié)果為0.5766,多核方法在歸一化互信息上的平均提升達(dá)到了14.4%。
實(shí)驗(yàn)結(jié)果表明本文提出的多核概念分解方法要優(yōu)于其他單核方法和多核方法。三種不同指標(biāo)上GMKCF在多個數(shù)據(jù)集上的平均結(jié)果明顯高于其他方法。
具體來看,GMKCF在聚類準(zhǔn)確性上達(dá)到0.6145,而第二名的算法Coreg為0.5664,性能提升為8.5%。GMKCF在歸一化互信息上達(dá)到0.4344,第二名為0.4032,性能提升為7.7%;GMKCF在聚類純度上達(dá)到0.6982,第二名為0.6756,性能提升為3.3%。
需要指出的是多核方法Coreg和RMKKM都帶有超參數(shù),無監(jiān)督聚類問題中如何選擇有效的超參數(shù)本身就是一個非常困難的問題。而本文提出的GMKCF算法無需設(shè)置其他特定參數(shù),極大提升了算法的實(shí)際可用性。
此外,本文提出的GMKCF算法在空間復(fù)雜度上和其他多核方法類似,都是O(n2),從時間復(fù)雜度看GMKCF和RMKKM都是O(n2),而Coreg的時間復(fù)雜度為O(n3);并且GMKCF和RMKKM中主要涉及矩陣和向量的基本操作,可以借助MapReduce等框架容易實(shí)現(xiàn)分布式部署,而Coreg由于需要計算特征空間導(dǎo)致分布式實(shí)現(xiàn)較為困難。
實(shí)驗(yàn)結(jié)果表明,本文提出的多核概念分解方法在多種聚類評價指標(biāo)上的結(jié)果要優(yōu)于其他單核和多核聚類方法,無需設(shè)置超參數(shù),并且算法復(fù)雜度較低,容易分布式部署。
4?結(jié)語
針對核概念分解模型在實(shí)際應(yīng)用中面臨的核函數(shù)選擇問題,本文提出基于多核全局融合的概念分解模型。與核概念分解模型類似,本文推導(dǎo)出對應(yīng)的迭代式乘法更新公式作為求解算法并且證明算法的收斂性。多個基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法在不引入額外超參數(shù)的情況下能夠有效提升核分解模型在實(shí)際應(yīng)用中的聚類性能。未來,我們將進(jìn)一步研究如何在分布式環(huán)境中部署實(shí)施多核概念分解算法。
參考文獻(xiàn)(References)
[1] HAN J, KAMBER M, PEI J. Data Mining: Concepts and Techniques[M]. 3rd ed. San Francisco: Margan Kaufmann, 2011: 525-527.
[2] LEE D D, HSEBASTIAN S S. Learning the parts of objects by non-negative matrix factorization [J]. Nature, 1999, 401: 788-791.
[3] CESARIO E, MANCO G, ORTALE R. Top-down parameter-free clustering of high-dimensional categorical data [J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19(12): 1607-1624.
[4] SHI J, MALIK J. Normalized cuts and image segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 888-905.
[5] FREY B J, DUECK D. Clustering by passing messages between data points[J]. Science, 2007, 315(5814): 972-976.
[6] CAI D, HE X, HAN J, et al. Graph regularized nonnegative matrix factorization for data representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1548-1560.
[7] BISHOP C M. Pattern Recognition and Machine Learning[M]. 2nd ed. New York: Springer, 2010: 291-292.
[8] HOYER P O. Non-negative matrix factorization with sparseness constraints [EB/OL]. [2018-05-10]. https://arxiv.org/abs/cs/0408 058.
[9] DU L, LI X, SHEN Y. Robust nonnegative matrix factorization via half-quadratic minimization [C]// Proceedings of the 2012 IEEE 12th International Conference on Data Mining. Piscataway, NJ: IEEE, 2012: 201-210.
[10] XU W, GONG Y. Document clustering by concept factorization [C]// SIGIR 2004: Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2004: 202-209.
[11] CAI D, HE X, HAN J. Locally consistent concept factorization for document clustering [J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(6): 902-913.
[12] PEI X, CHEN C, GONG W. Concept factorization with adaptive neighbors for document clustering [J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(2): 343-352.
[13] LEE D D, SEUNG H S. Algorithms for non-negative matrix factorization [EB/OL]. [2018-05-10]. http://papers.nips.cc/paper/1861-algorithms-for-non-negative-matrix-factorization.pdf.
[14] KUMAR A, RAI P, DAUM H. Co-regularized multi-view spectral clustering [EB/OL]. [2018-05-10]. http://www.cs.utah.edu/~piyush/recent/spectral-nips11.pdf.
[15] DU L, ZHOU P, SHI L, et al. Robust multiple kernel k-means clustering usingL21-norm [C]// Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2015: 3476-3482.
[16] LI X, SHEEN X, SHU Z, et al. Graph regularized multilayer concept factorization for data representation [J]. Neurocomputing, 2017, 238: 139-151.
[17] ZHAN K, SHI J, WANG J, et al. Adaptive structure concept factorization for multiview clustering [J]. Neural Computation, 2018, 30(2): 1080-1103.
[18] SHU Z, WU X, HUANG P, et al. Multiple graph regularized concept factorization with adaptive weights [J]. IEEE Access, 2018, 6: 64938-64945.
[19] MA S, ZHANG L, HU E, et al. Self-representative manifold concept factorization with adaptive neighbors for clustering [C]// IJCAI 2018: Proceedings of the 27th International Joint Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2018: 2539-2545.
[20] KUMAR A, RAI P, DAUM H, Ⅲ. Co-regularized multi-view spectral clustering [C]// NIPS 2011: Proceedings of the 24th International Conference on Neural Information Processing Systems. ?New York: ACM, 2011: 1413-1421.
[21] YAN W, ZHANG B, MA S, et al. A novel regularized concept factorization for document clustering [J]. Knowledge-based Systems, 2017, 135: 147-158.