張愛平,陳志彬
(湖南工業(yè)大學理學院,湖南株洲412007)
多屬性數(shù)據(jù)聚類的一種因子分析新方法
張愛平,陳志彬
(湖南工業(yè)大學理學院,湖南株洲412007)
根據(jù)因子分析法的思想,用統(tǒng)計學的方法,建立多屬性數(shù)據(jù)樣本間的相似矩陣,探索求因子載荷矩陣的有效方法,實現(xiàn)多屬性數(shù)據(jù)的樣本聚類。文中的方法是因子分析法在聚類分析中的進一步推廣與應用。
多屬性;樣本;相似矩陣;數(shù)據(jù)聚類
因子分析法是通過建立數(shù)學模型,用線性代數(shù)的方法,研究多屬性變量間的內(nèi)在依賴關系。用少于屬性變量個數(shù)的幾個抽象變量表示被觀測數(shù)據(jù)的基本結構,實現(xiàn)對被觀測數(shù)據(jù)變量的降維,達到簡化數(shù)據(jù)結構的目的。這幾個抽象的變量通常被稱為因子,每個因子綜合地包含了多個屬性變量的信息,是一些異于可觀測原始變量的不可觀測的潛在變量。因子分析的內(nèi)容較豐富,常見的類型可以概括為兩類[1-5]:一類是R型因子分析,另一類是Q型因子分析,前者是基于變量間的相關系數(shù)矩陣,后者則基于樣本間的相似矩陣,兩種矩陣均為非負定矩陣。這兩種類型選擇因子分析的對象和計算的出發(fā)點不同但方法類似。在實際問題中,由于被觀測的樣本數(shù)目n通常較大,因此Q型因子分析中的樣本相似矩陣是一個階數(shù)較高的n階方陣,其計算量與n2同階且可能是非正定的;而求解樣本相似矩陣的特征根與特征向量的計算量與n3同階。由于計算量隨階數(shù)n的增大而急劇增大,這就限制了以樣本為變量的Q型因子分析法在經(jīng)濟學﹑生物學和社會學等領域中的應用。
為此,本文根據(jù)高階樣本相似矩陣與因子載荷矩陣的關系,通過間接地求解一個與高階樣本相似矩陣有聯(lián)系的低階矩陣的特征根與特征向量,探討因子載荷矩陣的計算方法。
樣本向量的均值
樣本向量的離差矩陣
引理1[6]實對稱矩陣的不同特征值的特征向量彼此正交。
引理2[6]對于n階實對稱矩陣B,必存在一個n階正交矩陣P使得(其中是以矩陣B的特征值為對角元素的對角矩陣),即實對稱矩陣都可以對角化。
引理3對于實對稱矩陣ZZT與ZTZ有如下結論:
對于p種屬性的n個樣本,首先將原始數(shù)據(jù)矩陣標準化,得矩陣,若用列向量表示,則記為,其中,i=1, 2,…,n。
如果觀測到的n個樣本之間具有強相似性,則可依照樣本相似性的大小將n個樣本分組,使得同組的樣本之間相似性較高,不同組的樣本之間相似性較低,實現(xiàn)樣本的聚類,并對類中樣本所具有的共性進行分析和解析。
推論2設矩陣ZTZ的m個非零特征值為,其排列的順序由大到小,相應于第i個特征值i的單位特征向量為。對于樣本相似矩陣,則有如下結論:
2)矩陣R與矩陣ZZT具有相同的單位特征向量,且;
3)載荷矩陣
由引理3和定理2易證,故略去證明。
例110名學生的數(shù)學與語文考試成績見表1。
表1 學生成績Table lStudent’s score
以這10名學生作為樣本觀測點,共10個樣本。第i個樣本用Yi表示,它是由數(shù)學成績yi1與語文成績yi2構成的二維數(shù)組,記為。試用因子分析法,按樣本與因子相似的程度將這10名學生分類,且作出合理的解釋。
矩陣ZTZ有一個非零特征值=10,對應的單位特征向量;根據(jù)矩陣ZTZ與矩陣ZZT特征值及特征向量之間的關系,得矩陣ZZT的單位特征向量
于是得載荷矩陣
提取的公共因子只有一個,即F1,樣本關于公共因子F1和特殊因子變量的數(shù)學模型表示為
根據(jù)定理1可知,第i個樣本與公共因子F1的相關系數(shù)見表2。
表2 相關系數(shù)分布Table 2The distribution of correlation coefficient
表2表明,Z4和Z10相關于公共因子F1的正方向;Z1, Z2, Z3, Z5, Z6, Z7, Z8, Z9相關于公共因子F1的反方向。因此,可將這10名學生分為2類,第一類由4號與10號學生組成;第二類為余下的8名學生組成。公共因子F1的正方向表明學生的語文成績優(yōu)于數(shù)學成績,反方向表明學生的語文成績劣于數(shù)學成績。
[1]何曉群. 多元統(tǒng)計分析[M]. 北京:中國人民大學出版社,2012:142-144. He Xiaoqun. Multivariate Statistical Analysis[M]. Beijing:China Renmin University Press,2012:142-144.
[2]虞欣,鄭肇葆. 基于Q 型因子分析的訓練樣本的選擇[J]. 測繪學報,2007,36(1):67-71. Yu Xin,Zheng Zhaobao. Selection of Training Samples Based on Q-Factor Analysis[J]. Acta Geodaetica et Cartographica Sinica,2007,36(1):67-71.
[3]殷瑞飛,朱建平. 關于利用因子分析方法對變量分類的探討[J]. 統(tǒng)計與決策,2005(2):20-21. Yin Ruifei,Zhu Jianping. Using the Factor Analysis Method for the Classification Variables[J]. Statistics and Decision,2005(2):20-21.
[4]張秋瑾. 主成分分析法在多變量變動分析中的應用[J].數(shù)學的實踐與認識,2012,42(17):29-33. Zhang Qiujin. The Application of Principal Component Analysis Method in Multivariate Analysis of Changes[J]. Mathematics in Practice and Theory,2012,42(17):29-33.
[5]Ramsay J Q. Functional Components of Variation in Handwriting[J]. Journal of the American Statistic Association,2000,95(449):9-15.
[6]周勇,朱礫. 線性代數(shù)[M]. 上海:復旦大學出版社,2012:129-131. Zhou Yong,Zhu Li. Linear Algebra[M]. Shanghai:Fudan University Press,2012:129-131.
(責任編輯:鄧光輝)
A New Factor Analysis Method in Multiple Attribute Data Clustering
Zhang Aiping,Chen Zhibin
(School of Science,Hunan University of Technology,Zhuzhou Hunan 412007,China)
According to the thought of factor analysis method established the similar matrix between multiple attribute data samples by statistical methods, and explored the effective solution to the factor loading matrix for the realization of sample clustering of multiple attribute data. This method is the factor analysis method further extended and applied in clustering analysis.
multiple attribute;sample;similar matrix;data clustering
O212
A
1673-9833(2014)03-0083-05
10.3969/j.issn.1673-9833.2014.03.017
2014-03-10
湖南省教育科學研究基金資助項目(10C0656),湖南省教育改革基金資助項目(288)
張愛平(1967-),女,湖南冷水江人,湖南工業(yè)大學副教授,主要從事應用數(shù)學方面的教學與研究,E-mail:zaping@163.com