張愛平,陳志彬
(湖南工業(yè)大學(xué)理學(xué)院,湖南株洲412007)
多屬性數(shù)據(jù)聚類的一種因子分析新方法
張愛平,陳志彬
(湖南工業(yè)大學(xué)理學(xué)院,湖南株洲412007)
根據(jù)因子分析法的思想,用統(tǒng)計(jì)學(xué)的方法,建立多屬性數(shù)據(jù)樣本間的相似矩陣,探索求因子載荷矩陣的有效方法,實(shí)現(xiàn)多屬性數(shù)據(jù)的樣本聚類。文中的方法是因子分析法在聚類分析中的進(jìn)一步推廣與應(yīng)用。
多屬性;樣本;相似矩陣;數(shù)據(jù)聚類
因子分析法是通過(guò)建立數(shù)學(xué)模型,用線性代數(shù)的方法,研究多屬性變量間的內(nèi)在依賴關(guān)系。用少于屬性變量個(gè)數(shù)的幾個(gè)抽象變量表示被觀測(cè)數(shù)據(jù)的基本結(jié)構(gòu),實(shí)現(xiàn)對(duì)被觀測(cè)數(shù)據(jù)變量的降維,達(dá)到簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的目的。這幾個(gè)抽象的變量通常被稱為因子,每個(gè)因子綜合地包含了多個(gè)屬性變量的信息,是一些異于可觀測(cè)原始變量的不可觀測(cè)的潛在變量。因子分析的內(nèi)容較豐富,常見的類型可以概括為兩類[1-5]:一類是R型因子分析,另一類是Q型因子分析,前者是基于變量間的相關(guān)系數(shù)矩陣,后者則基于樣本間的相似矩陣,兩種矩陣均為非負(fù)定矩陣。這兩種類型選擇因子分析的對(duì)象和計(jì)算的出發(fā)點(diǎn)不同但方法類似。在實(shí)際問(wèn)題中,由于被觀測(cè)的樣本數(shù)目n通常較大,因此Q型因子分析中的樣本相似矩陣是一個(gè)階數(shù)較高的n階方陣,其計(jì)算量與n2同階且可能是非正定的;而求解樣本相似矩陣的特征根與特征向量的計(jì)算量與n3同階。由于計(jì)算量隨階數(shù)n的增大而急劇增大,這就限制了以樣本為變量的Q型因子分析法在經(jīng)濟(jì)學(xué)﹑生物學(xué)和社會(huì)學(xué)等領(lǐng)域中的應(yīng)用。
為此,本文根據(jù)高階樣本相似矩陣與因子載荷矩陣的關(guān)系,通過(guò)間接地求解一個(gè)與高階樣本相似矩陣有聯(lián)系的低階矩陣的特征根與特征向量,探討因子載荷矩陣的計(jì)算方法。
樣本向量的均值
樣本向量的離差矩陣
引理1[6]實(shí)對(duì)稱矩陣的不同特征值的特征向量彼此正交。
引理2[6]對(duì)于n階實(shí)對(duì)稱矩陣B,必存在一個(gè)n階正交矩陣P使得(其中是以矩陣B的特征值為對(duì)角元素的對(duì)角矩陣),即實(shí)對(duì)稱矩陣都可以對(duì)角化。
引理3對(duì)于實(shí)對(duì)稱矩陣ZZT與ZTZ有如下結(jié)論:
對(duì)于p種屬性的n個(gè)樣本,首先將原始數(shù)據(jù)矩陣標(biāo)準(zhǔn)化,得矩陣,若用列向量表示,則記為,其中,i=1, 2,…,n。
如果觀測(cè)到的n個(gè)樣本之間具有強(qiáng)相似性,則可依照樣本相似性的大小將n個(gè)樣本分組,使得同組的樣本之間相似性較高,不同組的樣本之間相似性較低,實(shí)現(xiàn)樣本的聚類,并對(duì)類中樣本所具有的共性進(jìn)行分析和解析。
推論2設(shè)矩陣ZTZ的m個(gè)非零特征值為,其排列的順序由大到小,相應(yīng)于第i個(gè)特征值i的單位特征向量為。對(duì)于樣本相似矩陣,則有如下結(jié)論:
2)矩陣R與矩陣ZZT具有相同的單位特征向量,且;
3)載荷矩陣
由引理3和定理2易證,故略去證明。
例110名學(xué)生的數(shù)學(xué)與語(yǔ)文考試成績(jī)見表1。
表1 學(xué)生成績(jī)Table lStudent’s score
以這10名學(xué)生作為樣本觀測(cè)點(diǎn),共10個(gè)樣本。第i個(gè)樣本用Yi表示,它是由數(shù)學(xué)成績(jī)yi1與語(yǔ)文成績(jī)yi2構(gòu)成的二維數(shù)組,記為。試用因子分析法,按樣本與因子相似的程度將這10名學(xué)生分類,且作出合理的解釋。
矩陣ZTZ有一個(gè)非零特征值=10,對(duì)應(yīng)的單位特征向量;根據(jù)矩陣ZTZ與矩陣ZZT特征值及特征向量之間的關(guān)系,得矩陣ZZT的單位特征向量
于是得載荷矩陣
提取的公共因子只有一個(gè),即F1,樣本關(guān)于公共因子F1和特殊因子變量的數(shù)學(xué)模型表示為
根據(jù)定理1可知,第i個(gè)樣本與公共因子F1的相關(guān)系數(shù)見表2。
表2 相關(guān)系數(shù)分布Table 2The distribution of correlation coefficient
表2表明,Z4和Z10相關(guān)于公共因子F1的正方向;Z1, Z2, Z3, Z5, Z6, Z7, Z8, Z9相關(guān)于公共因子F1的反方向。因此,可將這10名學(xué)生分為2類,第一類由4號(hào)與10號(hào)學(xué)生組成;第二類為余下的8名學(xué)生組成。公共因子F1的正方向表明學(xué)生的語(yǔ)文成績(jī)優(yōu)于數(shù)學(xué)成績(jī),反方向表明學(xué)生的語(yǔ)文成績(jī)劣于數(shù)學(xué)成績(jī)。
[1]何曉群. 多元統(tǒng)計(jì)分析[M]. 北京:中國(guó)人民大學(xué)出版社,2012:142-144. He Xiaoqun. Multivariate Statistical Analysis[M]. Beijing:China Renmin University Press,2012:142-144.
[2]虞欣,鄭肇葆. 基于Q 型因子分析的訓(xùn)練樣本的選擇[J]. 測(cè)繪學(xué)報(bào),2007,36(1):67-71. Yu Xin,Zheng Zhaobao. Selection of Training Samples Based on Q-Factor Analysis[J]. Acta Geodaetica et Cartographica Sinica,2007,36(1):67-71.
[3]殷瑞飛,朱建平. 關(guān)于利用因子分析方法對(duì)變量分類的探討[J]. 統(tǒng)計(jì)與決策,2005(2):20-21. Yin Ruifei,Zhu Jianping. Using the Factor Analysis Method for the Classification Variables[J]. Statistics and Decision,2005(2):20-21.
[4]張秋瑾. 主成分分析法在多變量變動(dòng)分析中的應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2012,42(17):29-33. Zhang Qiujin. The Application of Principal Component Analysis Method in Multivariate Analysis of Changes[J]. Mathematics in Practice and Theory,2012,42(17):29-33.
[5]Ramsay J Q. Functional Components of Variation in Handwriting[J]. Journal of the American Statistic Association,2000,95(449):9-15.
[6]周勇,朱礫. 線性代數(shù)[M]. 上海:復(fù)旦大學(xué)出版社,2012:129-131. Zhou Yong,Zhu Li. Linear Algebra[M]. Shanghai:Fudan University Press,2012:129-131.
(責(zé)任編輯:鄧光輝)
A New Factor Analysis Method in Multiple Attribute Data Clustering
Zhang Aiping,Chen Zhibin
(School of Science,Hunan University of Technology,Zhuzhou Hunan 412007,China)
According to the thought of factor analysis method established the similar matrix between multiple attribute data samples by statistical methods, and explored the effective solution to the factor loading matrix for the realization of sample clustering of multiple attribute data. This method is the factor analysis method further extended and applied in clustering analysis.
multiple attribute;sample;similar matrix;data clustering
O212
A
1673-9833(2014)03-0083-05
10.3969/j.issn.1673-9833.2014.03.017
2014-03-10
湖南省教育科學(xué)研究基金資助項(xiàng)目(10C0656),湖南省教育改革基金資助項(xiàng)目(288)
張愛平(1967-),女,湖南冷水江人,湖南工業(yè)大學(xué)副教授,主要從事應(yīng)用數(shù)學(xué)方面的教學(xué)與研究,E-mail:zaping@163.com