王冬燕
摘 要:利用多維關(guān)聯(lián)規(guī)則方法提取心理測(cè)量不同量表屬性間的關(guān)聯(lián)規(guī)則,樣本包括1958名大學(xué)新生。鑒于量表屬性較多,且數(shù)據(jù)庫龐大,傳統(tǒng)的關(guān)聯(lián)規(guī)則Apriori算法較難實(shí)現(xiàn),因此基于Apriori算法設(shè)計(jì)并實(shí)現(xiàn)了多維關(guān)聯(lián)規(guī)則的挖掘算法,并應(yīng)用于心理測(cè)量量表屬性的關(guān)系研究。實(shí)驗(yàn)表明,多維關(guān)聯(lián)規(guī)則方法能夠較快速且更加準(zhǔn)確的挖掘出屬性間的多維關(guān)聯(lián)規(guī)則,并且這些規(guī)則在心理測(cè)量工作中能夠起到指導(dǎo)作用,說明該方法是十分有效的。
關(guān)鍵詞:多維關(guān)聯(lián)規(guī)則;MMPI;16Pf
中圖法分類號(hào):TP311,B842 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2163(2015)05-
Application of Multidimensional Association Rules Method in Psychological Measurement
WANG Dongyan
(School of Psychology, Nanjing University of Chinese Medicine, Nanjing 210023,China)
Abstract The use of multidimensional association rules to extract the psychometric properties of the scale between different association rules, the sample includes 1,958 freshmen. Given the large scale property and huge databases, traditional Apriori algorithm of association rules difficult to achieve, so based on Apriori algorithm design and implementation of multidimensional association rules mining algorithm, and study the relationship between psychometric properties of the scales applied. Experimental results show that the multidimensional association rules can more quickly and more accurately excavated multidimensional association rules between attributes, and these rules work in psycho-metrics can play a guiding role, indicating that this method is very effective.
Keywords multidimensional association rule; MMPI; 16Pf
0 引 言
大學(xué)生群體,承擔(dān)著來自學(xué)業(yè)、生活、情感、就業(yè)等多重壓力,其心理健康狀況越來越得到社會(huì)各界的關(guān)注。為了更好地對(duì)大學(xué)生的心理健康狀況進(jìn)行全面了解,及時(shí)應(yīng)對(duì)各種可能發(fā)生的情況,各個(gè)高校都會(huì)在新生入學(xué)時(shí)對(duì)學(xué)生進(jìn)行各種心理測(cè)量,通常包括明尼蘇達(dá)多項(xiàng)人格測(cè)驗(yàn)(MMPI)、癥狀自評(píng)量表(SCL-90)、卡特爾十六種個(gè)性因素測(cè)試(16PF)等。其中MMPI在人格失常測(cè)量方面具有高穩(wěn)定性[1],主要用于確定被試者的心理健康水平并根據(jù)不同臨床量表的得分高低,輔助臨床診斷[2],包含566個(gè)自我描述項(xiàng)目,一般測(cè)試前399道[3]。16PF主要用于測(cè)量十六種主要的人格特征,包含187道題目[4]。SCL-90包含90項(xiàng)題目[5],能較好地反映被試的病情及其嚴(yán)重程度和變化。由于測(cè)量題目繁多,時(shí)間長,不僅使一些學(xué)生難以堅(jiān)持認(rèn)真完成測(cè)試,從而導(dǎo)致測(cè)量結(jié)果無效,同時(shí)更給施測(cè)老師帶來巨大的工作量。因此,如果可以挖掘出量表之間存在哪些關(guān)聯(lián)或者規(guī)則,對(duì)于研究者來說就可以通過一種量表的測(cè)量來預(yù)測(cè)另一種量表的結(jié)果,此時(shí)則可通過數(shù)據(jù)挖掘中的一些方法來實(shí)現(xiàn)這些需要。
近年來,國內(nèi)學(xué)者越來越多地將數(shù)據(jù)挖掘技術(shù)應(yīng)用于心理測(cè)量。余嘉元研究表明[6],粗糙集和神經(jīng)網(wǎng)絡(luò)可以有效地對(duì)心理測(cè)量數(shù)據(jù)進(jìn)行因素提取和分類。肖新攀等[7]提出采用二次學(xué)習(xí)風(fēng)范的規(guī)則生成算法,從心理學(xué)數(shù)據(jù)中提取規(guī)則。吳小剛等人[8]對(duì)通過癥狀自評(píng)量表測(cè)試,利用C4.5算法構(gòu)造決策樹并提取預(yù)測(cè)大學(xué)生心理健康狀況的規(guī)則。任麗君[9]則將多種數(shù)據(jù)挖掘方法應(yīng)用于分析學(xué)生癥狀自評(píng)量表的測(cè)量結(jié)果,發(fā)現(xiàn)了心理問題與學(xué)生屬性之間的內(nèi)在關(guān)系。鐘鏡平[10]利用改進(jìn)頻繁項(xiàng)集挖掘算法對(duì)大學(xué)生團(tuán)體心理健康進(jìn)行評(píng)估。
從以往研究發(fā)現(xiàn),數(shù)據(jù)挖掘方法確實(shí)可以有效地應(yīng)用于心理測(cè)量數(shù)據(jù)的分析,但是基本上是對(duì)某一種心理測(cè)驗(yàn)內(nèi)部的分析,而未能對(duì)量表之間的關(guān)聯(lián)程度進(jìn)行考察。本文則通過多維關(guān)聯(lián)規(guī)則的方法對(duì)不同心理測(cè)量量表屬性之間的關(guān)系進(jìn)行挖掘。分析過程中使用基于Apriori 算法的維間頻繁屬性集生成算法,將數(shù)據(jù)立方體技術(shù)運(yùn)用到Apriori算法中,提高了挖掘效率。
1 多維關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則[11-12]定義:設(shè) I = {i1, i2, … im } 是項(xiàng)的集合,記D為事務(wù)T的集合,這里事務(wù)T是項(xiàng)的集合,并且T I。對(duì)應(yīng)每一個(gè)事務(wù)有唯一的標(biāo)識(shí),記作TID。設(shè)X是一個(gè)I中項(xiàng)的集合,如果X I,那么稱事務(wù)T包含X。規(guī)則X ?Y在D中的支持度(support)是事務(wù)集中包含X和Y的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為support (X?Y),即support ( X ?Y) =?{ T: X ? Y T, T ? D}?/?D?。規(guī)則 X ?Y 在事務(wù)集中的置信度(confidence)是指包含 X 和 Y 的事務(wù)數(shù)與包含X的事務(wù)數(shù)之比,記為confidence (X ? Y ),即confidence ( X ?Y )=?{T: X ?Y T, T ?D} ?/?{T: X T, T ? D}?。
1.1 多維關(guān)聯(lián)規(guī)則概述
多維關(guān)聯(lián)規(guī)則是相對(duì)于單維數(shù)據(jù)庫內(nèi)的關(guān)聯(lián)規(guī)則而言的,是從多維的數(shù)據(jù)庫中挖掘規(guī)則的方法[13],即處理各個(gè)屬性之間的某些關(guān)系。多維關(guān)聯(lián)規(guī)則目前還沒有被應(yīng)用于心理測(cè)量的數(shù)據(jù)處理方面。本文根據(jù)數(shù)據(jù)屬性特點(diǎn),采用維間關(guān)聯(lián)規(guī)則挖掘。
具體在分析中,可以分為兩步:首先掃描經(jīng)過預(yù)處理后得到的數(shù)據(jù),在所有記錄中尋找出現(xiàn)頻繁的字段值組合;再由頻繁字段值組合推導(dǎo)出關(guān)聯(lián)關(guān)系。從記錄數(shù)據(jù)表中產(chǎn)生頻繁屬性集采用經(jīng)過改進(jìn)的基于Apriori算法的維間頻繁屬性集生成算法實(shí)現(xiàn),由各頻繁屬性集進(jìn)一步產(chǎn)生關(guān)聯(lián)規(guī)則可通過對(duì)置信度的考查較容易地完成。
1.2 數(shù)據(jù)立方體
在數(shù)據(jù)倉庫中,多維數(shù)據(jù)模型將數(shù)據(jù)按數(shù)據(jù)立方體(data cube)的形式進(jìn)行組織與構(gòu)造。數(shù)據(jù)立方體由維和事實(shí)定義。給定一個(gè)關(guān)聯(lián)規(guī)則挖掘任務(wù),其內(nèi)容涉及d1,...,dn個(gè)維,并根據(jù)用戶挖掘需求確定各維的維層次,然后從數(shù)據(jù)倉庫中生成數(shù)據(jù)立方體。其中每一維包含 |di|+1 個(gè)數(shù)值,| di |是第i 維包含的互不相同的維成員個(gè)數(shù)。在di維中,前| di |行各代表di中一個(gè)互不相同的維成員。最后一行存儲(chǔ)了一個(gè)稱之為SUM!的維成員,其中記錄了其所對(duì)應(yīng)的維的合計(jì)值,這種合計(jì)值極大地方便了關(guān)聯(lián)規(guī)則的挖掘中支持度的計(jì)算。立方體的方格中記錄的是對(duì)應(yīng)維成員的頻繁度量值,記為count。這樣涉及d1,...,dn維數(shù)據(jù)的一個(gè)關(guān)聯(lián)規(guī)則挖掘任務(wù)就對(duì)應(yīng)一個(gè) n 維的數(shù)據(jù)立方體 Cube (d1,...,dn∣count),其中d1,...,dn 是立方體的維,count是立方體的事實(shí)度量[14]。
1.3 多維關(guān)聯(lián)規(guī)則算法
輸入: a. 一個(gè)n維的數(shù)據(jù)立方體CB[d1,...,dn]
b. 最小支持度:min-sup
輸出: n維間的頻繁項(xiàng)目集L
① k=1;L=Φ;
② 對(duì)于每一維,生成1-itemset候選集
C1·di ={di維中所有互不相同的取值};
③ 生成1-itemset頻繁項(xiàng)集L1 = gen-frequent(1,c1);
④ Repeat k = k+1;
生成k-itemsets 候選集Ck = gen-candidat ( k, Lk-1);
生成k-itemsets 頻繁集Lk = gen-frenquent( k, Ck );
L=L∪Lk;
Until Lk = Φ;
函數(shù) gen-frenquent( k, Ck ),從候選集Ck中生成頻繁項(xiàng)目集Lk
Function gen_frequent( k, Ck )
Lk = Φ;
for each candidate I={i1, i2,…, ik}∈Ck do
{ frequency = k 維立方體中方格(i1, i2,…, ik)中的count值
support = frequent/total count;
if (support >min_supp) then Lk = Lk∪{I};}
函數(shù)gen-candidat ( k, Lk-1),從(k-1)頻繁項(xiàng)目集中生成k-itemset候選集Ck
Function gen-candidat ( k, Lk-1)
Ck = Φ;
for each item I1∈Lk-1
{ for each item I2∈Lk-1
{if (與有k-2個(gè)相同的項(xiàng)目,并且最后一個(gè)項(xiàng)目分別來自不同的維) then
{ c = I1 I2
if c有非頻繁的( k-1)子集,then 刪除c
else 將c加入到Ck中}}
}
return Ck
2 數(shù)據(jù)準(zhǔn)備
2.1 數(shù)據(jù)屬性
本文的數(shù)據(jù)來源于南京中醫(yī)藥大學(xué)心理咨詢中心對(duì)2010級(jí)2 554名新生在入校后所做的大學(xué)生心理健康量表,主要采用的是MMPI和16PF測(cè)量。MMPI的前399道題目主要包括 4個(gè)效度量表:疑問量表、說謊量表、詐病量表、校正量表;10個(gè)臨床量表:疑病、抑郁、癔病、精神病態(tài)、男性化-女性化、妄想狂、精神衰弱、精神分裂、輕躁狂、社會(huì)內(nèi)向。16PF是卡特爾在其人格的解釋性理論構(gòu)想的基礎(chǔ)上編制的16種人格因素問卷,共187道題目,從16個(gè)方面描述個(gè)體的人格特征,分別是:樂群性、聰慧性、穩(wěn)定性、恃強(qiáng)性、興奮性、有恒性、敢為性、敏感性、懷疑性、幻想性、世故性、憂慮性、實(shí)驗(yàn)性、獨(dú)立性、自律性、緊張性。
2.2 數(shù)據(jù)清洗
在本研究中,由于被試是分開進(jìn)行MMPI和16PF的測(cè)量,因此測(cè)試后需要將兩份數(shù)據(jù)統(tǒng)一到同一數(shù)據(jù)庫中。首先是對(duì)缺失值的處理,在本研究中,被試人數(shù)為2 554人,相對(duì)整體來說,存在缺值的被試不算太多,因此就采用了直接刪除法。多維數(shù)據(jù)異常點(diǎn)處理是將在每個(gè)維度內(nèi)的均值左右3 個(gè)標(biāo)準(zhǔn)差區(qū)間外的數(shù)據(jù)可以看作是異常點(diǎn),將其刪去[15]。本研究采用k均值聚類方法,取k等于2~11類,進(jìn)行了10次試驗(yàn),結(jié)果表明,沒有發(fā)現(xiàn)多維異常數(shù)據(jù)。另外,本研究參考MMPI量表的4個(gè)效度量表,也可以對(duì)效度較低的個(gè)案數(shù)據(jù)刪除。根據(jù)MMPI疑問量表Q,高分者有回避問題的傾向,即對(duì)問題毫無反應(yīng)或?qū)Α笆恰薄胺瘛倍歼M(jìn)行反應(yīng)的項(xiàng)目總數(shù),稱“無回答”的項(xiàng)目,將得分超過22分的被試數(shù)據(jù)刪除;根據(jù)說謊量表L的結(jié)果,高分者總想讓別人將其看得要比實(shí)際情況更好。而且,連每個(gè)人都具有的嬉笑短處也不承認(rèn)。L量表共15個(gè)題目,如果原始分超過10分,即標(biāo)準(zhǔn)分超過70分,則不能信任MMPI的結(jié)果,因此將這些數(shù)據(jù)的個(gè)案刪除。
通過數(shù)據(jù)清洗,最終共獲得1 958份有效數(shù)據(jù)。本研究采用的是靜態(tài)數(shù)值關(guān)聯(lián)規(guī)則法,將數(shù)值數(shù)據(jù)離散化。對(duì)于MMPI量表,具有中國自己的常模和標(biāo)準(zhǔn)分[16],因此以標(biāo)準(zhǔn)分60分為分界線,大于60分的設(shè)置為1,為人格正常組,不大于60分的設(shè)置為2,為人格異常組;但其中有5個(gè)量表Hs、Pd、Pt、Sc和Ma的標(biāo)準(zhǔn)分要經(jīng)過K分校正,則以70分為標(biāo)準(zhǔn)分,大于70分設(shè)置為1,不大于70分設(shè)置為2;對(duì)于16PF量表,標(biāo)準(zhǔn)分1~4分的,設(shè)置為1,為人格特征偏低組,標(biāo)準(zhǔn)分5~6分的,設(shè)置為2,為人格特征居中組,標(biāo)準(zhǔn)分7~10分的,設(shè)置為3,為人格特征偏高組。
3 多維關(guān)聯(lián)規(guī)則提取
3.1 相關(guān)系數(shù)分析
通過數(shù)據(jù)預(yù)處理過程,獲得要分析的數(shù)據(jù)屬性。主要包括MMPI和16PF兩份量表,共25個(gè)維度的屬性,MMPI中效度量表要考察的屬性是F,臨床量表要排除Mf和Si兩個(gè)屬性,這兩個(gè)屬性僅作為臨床診斷的參考。整理后,所有屬性如表1所示。
在做多維關(guān)聯(lián)分析之前,先對(duì)兩份量表的維間屬性進(jìn)行相關(guān)系數(shù)的檢驗(yàn),查看是否適合做關(guān)聯(lián)分析。由于已將原數(shù)值數(shù)據(jù)進(jìn)行了離散處理,可將離散后的屬性值看作是等級(jí)變量,由此展開Spearman相關(guān)分析(見表2),從分析結(jié)果可以看出,兩份量表各個(gè)屬性間也基本存在顯著相關(guān)性,因此可以進(jìn)行關(guān)聯(lián)分析。
3.2 維間多維關(guān)聯(lián)規(guī)則提取
通過基于Apriori算法的維間頻繁屬性集生成算法得到各頻繁項(xiàng)集后,針對(duì)每一個(gè)頻繁項(xiàng)集L,根據(jù)置信度的定義,可按照以下方法產(chǎn)生關(guān)聯(lián)規(guī)則:
( 1 ) 對(duì)于每個(gè)頻繁項(xiàng)集L, 產(chǎn)生L的所有非空子集。
( 2 ) 對(duì)于L的每個(gè)非空子集,若s-count (L)/s-count (s) ≥ Cmin,則輸出規(guī)則“s→(L-s)”。
由于規(guī)則由頻繁項(xiàng)集產(chǎn)生,因此都自動(dòng)滿足最小支持度。
本研究采用Java語言實(shí)現(xiàn)基于Apriori的多維關(guān)聯(lián)規(guī)則算法。取最小支持度為0.1,最小置信度為0.7。由于本研究需要著重了解兩份量表之間的關(guān)系,因此在得出的規(guī)則中篩選出60條相對(duì)符合條件的關(guān)聯(lián)規(guī)則,列舉若干條(以置信度降序排列)如表3所示。
從所篩選出來的關(guān)聯(lián)規(guī)則來看,確實(shí)能給研究者帶來一定的啟發(fā)。在MMPI量表中主要集中在F、D和Hy屬性上;而16PF量表則在各種人格特征上都存在相關(guān),且多數(shù)存在低分相關(guān)。例如規(guī)則D = 1 Hy = 1 ==> l = 1顯示,當(dāng)MMPI中疑病量表和抑郁量表分?jǐn)?shù)偏高時(shí),會(huì)伴隨16PF中懷疑性人格的低分;而規(guī)則q4 = 3 ==> F = 1 D = 1則表明16PF中緊張性的高分表現(xiàn)會(huì)帶來MMPI中詐病量表的高分和抑郁量表的高分。另外,在規(guī)則中的頻繁兩項(xiàng)集在一定程度上驗(yàn)證了相關(guān)分析的結(jié)果,例如c = 1 ==> F = 1,可驗(yàn)證c和F的spearman相關(guān)關(guān)系。由此可證明多維關(guān)聯(lián)規(guī)則在考察屬性相關(guān)性方面是有效的。
4 結(jié)束語
本文首次采用多維關(guān)聯(lián)規(guī)則方法分析了心理測(cè)量量表MMPI和16PF各個(gè)維度之間的關(guān)聯(lián)關(guān)系。實(shí)驗(yàn)研究表明,采用多維關(guān)聯(lián)規(guī)則分析心理測(cè)量量表維度之間的關(guān)系是可行的,挖掘出了較有意義的屬性間的關(guān)系,為實(shí)踐工作中的應(yīng)用提供了有效建議。另外,實(shí)驗(yàn)也驗(yàn)證了多維關(guān)聯(lián)規(guī)則特別適用于數(shù)據(jù)量和屬性值都比較龐大的多維數(shù)據(jù)庫中的規(guī)則挖掘。但是,在本文中挖掘出來的關(guān)系還達(dá)不到研究的設(shè)想,這和數(shù)據(jù)量的局限性有一定的關(guān)系,也可能還有更好的方法來獲得結(jié)論。因此,需要對(duì)更大的數(shù)據(jù)庫進(jìn)行挖掘,也許會(huì)有更多的規(guī)則出現(xiàn)。顯然,傳統(tǒng)的心理學(xué)統(tǒng)計(jì)方法已不能滿足日益龐大的數(shù)據(jù)庫,引入數(shù)據(jù)挖掘的方法來分析心理測(cè)量數(shù)據(jù)還是十分必要的。
參考文獻(xiàn):
[1] ROSENTHEL T L, EDWARDS N B, ACKERMAN B J, et al. Substance abuse patterns reveal contrasting personal trait[J]. J-Subst-Abuse, 1990,2(2):255.
[2] SINLIA B K, WATSON D C. Personality disorder in university students. A malt trait-multi method Matrix study[J]. J. Personal Disord,2001,(513):235-244.
[3] 《心理學(xué)百科全書》編輯委員會(huì)編.心理學(xué)百科全書[M].杭州:浙江教育出版社,1995:1757.
[4] Johnson J S, Mowrer R R. Mail Surveys among College Students: DO Initial Responders Score Differently form Non-responses On the 16PF?[J]. Psychology-rep, 2000,86(3Pt l):901-908.
[5] GRUDE T, VAGLUM P. One-year follow-up of patients with cluster C Personality discord: a prospective study comparing patients with“Pure”and comorbid conditions within cluster C, and“Pure”C with“Pure”cluster A or B conditions[J]. J-Personal-discord, 2001,15(3):216-28.
[6] 余嘉元.粗糙集和神經(jīng)網(wǎng)絡(luò)在心理測(cè)量中的應(yīng)用[J].心理學(xué)報(bào), 2008, 40(8),939-946.
[7] 肖新攀,余嘉元,姜遠(yuǎn),周志華.從心理學(xué)數(shù)據(jù)中發(fā)現(xiàn)可理解的模式[J].計(jì)算機(jī)科學(xué)與探索,2011, 5(3),247-255.
[8] 吳小剛,周萍,彭文惠.決策樹算法在大學(xué)生心理健康評(píng)測(cè)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(10),240-244.
[9] 任麗君.數(shù)據(jù)挖掘在大學(xué)生心理問題中的應(yīng)用[D].上海:華東師范大學(xué),2006.
[10] 鐘鏡平.關(guān)聯(lián)規(guī)則挖掘在心理分析中的應(yīng)用研究[D].杭州:浙江大學(xué),2007.
[11] Tan P-N, Steinbach M, Kumar V. 數(shù)據(jù)挖掘?qū)д揫M].范明,范宏建等譯.北京:人民郵電出版社,2006:258-268.
[12] WANG P J, SHI L, BAI J N, et al. Mining association rules based on Apriori algorithm and application[C]// Proof the 2009 Intl Forum on Computer Science-Technology and Applications, Chongqing, China:IITAA, 2009:141-143.
[13] 胡可云,田鳳占,黃厚寬.數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:清華大學(xué)出版社,2008:116.
[14] 彭碩, 吳昊. 基于MDPI的多維關(guān)聯(lián)規(guī)則算法的研究[J].微電子學(xué)與計(jì)算機(jī),2011,28(1),78-82.
[15] 洪偉,吳承禎. 試驗(yàn)設(shè)計(jì)與分析——原理操作案例[M].北京:中國林業(yè)出版社,2004.
[16] MMPI全國協(xié)作組.明尼蘇達(dá)多相個(gè)性測(cè)查表使用指導(dǎo)書[M].北京:中國科學(xué)院心理所,1989.