劉 斌, 朱 明, 王景華, 張 利, 李獻會
(1.合肥工業(yè)大學 計算機與信息學院,安徽 合肥 230009;2.齊魯師范學院 計算機系,山東 濟南 250002;3.合肥工業(yè)大學 機械與汽車工程學院,安徽 合肥 230009;4.洛陽軸研科技股份有限公司,河南 洛陽 471039)
用戶需求獲取作為產品概念設計最前端過程,是概念設計所要滿足的設計目標的直接來源,對于新產品開發(fā)能否成功有著至關重要的影響。國內外對用戶需求獲取進行了相關研究。文獻[1-5]通過QFD技術進行需求分析,為研究用戶需求提供了通用框架。文獻[6]采用Apriori算法挖掘用戶需求信息,實現(xiàn)了對關聯(lián)規(guī)則的有效提取。文獻[7]運用規(guī)則挖掘和模糊聚類的方法,完成了用戶需求與專家知識間的相互轉換。上述研究分別從不同角度利用不同工具研究需求信息,但是,如何將用戶需求中潛在的、變換的需求信息進行有效的提取、轉化,沒有得到很好的解決。
數(shù)據(jù)挖掘是一個從數(shù)據(jù)中找出某些模式的過程,這個過程必須是自動或是半自動的,而找出的模式應能夠解釋數(shù)據(jù)中的某些現(xiàn)象。在數(shù)據(jù)挖掘中,關聯(lián)規(guī)則挖掘是一個重要的研究方向。企業(yè)通過挖掘用戶需求信息中的關聯(lián)規(guī)則,可以發(fā)現(xiàn)歷史數(shù)據(jù)庫中暗含的設計知識,以顯式形式表達出來。本文結合數(shù)據(jù)挖掘和可拓變換,通過粒子群算法挖掘用戶需求的關聯(lián)規(guī)則知識;利用可拓變換方法生成新的可拓變換知識,以使工程師更好地理解、預測用戶的潛在需求,設計出用戶真正想要的產品。
關聯(lián)規(guī)則挖掘是由文獻[8]對購物籃分析時首先提出的,用以發(fā)現(xiàn)商品銷售中的顧客購買模式。
用戶需求信息中的關聯(lián)規(guī)則挖掘意味著生成一系列有價值的IF-THEN規(guī)則,將用戶需求信息數(shù)據(jù)分為若干屬性的集合,確定出條件屬性集合和結論屬性集合,則每個規(guī)則由來自用戶需求信息數(shù)據(jù)庫的條件屬性和結論屬性組成。例如,以摩托車產品為例,一條關聯(lián)規(guī)則可以是:IF(摩托車顏色為藍色)THEN(摩托車的價格比較便宜)。這條關聯(lián)規(guī)則可以幫助工程師理解客戶需求,在設計定制化產品時作為參考。
條件屬性集為C=(c1,c2,…,cm),每個ci表示一個條件屬性;結論屬性集D=(d1,d2,…,dn),每個di表示一個結論屬性;這里對于條件屬性cm的屬性值取值范圍為區(qū)間[1,Jm]任一整數(shù),{1,2,…,Jm}對應于條件屬性cm的所有可選項同理,結論屬性dn的屬性值所有記錄為為歷史記錄的數(shù)量。
綜上所述,基于用戶需求信息的一條關聯(lián)規(guī)則可以表示為:
支持度與置信度是描述關聯(lián)規(guī)則的2個主要指標。對于數(shù)據(jù)庫T中一條關聯(lián)規(guī)則,描述為IFETHENF,其中E包括了若干條件屬性,F(xiàn)包含了若干結論屬性。由此給出支持度sp與置信度cn的計算公式:取值范圍為區(qū)間[1,Jn]中的任一整數(shù)。數(shù)據(jù)庫中
其中,|T|為數(shù)據(jù)庫中記錄的數(shù)量;T(E&F)為記錄中同時出現(xiàn)E、F的樣本數(shù)目;T(E)為記錄中出現(xiàn)E的樣本數(shù)目。支持度描述了關聯(lián)規(guī)則普遍性,置信度用以衡量關聯(lián)規(guī)則的準確性。
本研究通過設定支持度和置信度閾值來選取關聯(lián)規(guī)則。
當前,進化型算法(Evolutionary algorithms,簡稱EAs)應用于關聯(lián)規(guī)則挖掘的方法被廣泛應用于各個領域[9-10]。應用粒子群算法挖掘關聯(lián)規(guī)則尚不多見,比較其他進化型算法,粒子群算法具有簡單、易實現(xiàn)、計算過程中需調整的參數(shù)較少等優(yōu)點。
在粒子群算法中,每一個粒子即是算法的一個候選解。粒子i的當前位置可以表示為:xi=(xi1,xi2,xi3,…,xid),其飛行速度為:vi=(vi1,vi2,vi3,…,vid);飛行歷史中的最優(yōu)位置為pi=(pi1,pi2,pi3,…,pid);所有粒子的全局最優(yōu)位置pg=(pg1,pg2,pg3,…,pgd)。速度和位置分別按(3)式、(4)式更新,即
其中,ω為慣性權重,較大時適合于對解空間進行大范圍搜索,較小時適合于進行局部搜索;c1,c2為加速常數(shù);r1,r2為[0,1]之間的隨機數(shù);t為當前迭代次數(shù);ωstart為慣性權重的起始值;ωend為慣性權重的終止值。
對企業(yè)數(shù)據(jù)庫中的用戶需求信息數(shù)據(jù)屬性進行轉換,得到符合數(shù)據(jù)挖掘的數(shù)據(jù)模式。關聯(lián)規(guī)則挖掘是在條件屬性和結論屬性之間進行的,對于粒子群算法編碼,需完成將關聯(lián)規(guī)則轉化為粒子。一條關聯(lián)規(guī)則向量S的編碼為:S=(s1,s2,…,sm,sm+1,sm+2,…,sm+n),向量的前m項對應于C= (c1,c2,…,cm),向 量 的 后n項 對 應于D=(d1,d2,…,dn)。
其中,si為區(qū)間(1,Ji+1)上均勻分布的隨機數(shù);Ji為i位對應屬性的最大屬性值;[si]表示si所對應屬性值([*]表示取下整數(shù))。
每個粒子前件項對應于條件屬性,后件項對應于結論屬性。條件屬性集中每個屬性ci及結論屬性集中每個屬性di都對應著粒子中的一個數(shù)據(jù)位,粒子為m+n維向量。
適應度函數(shù)用于評價粒子的優(yōu)劣,通過適應度函數(shù)評價,可以選出較優(yōu)的候選解集。適應度的大小顯示了粒子對于目標函數(shù)的適合程度,是用以評價粒子好壞的唯一標準。
為了得到支持度與置信度都較為滿意的關聯(lián)規(guī)則,本文采用對支持度與置信度分別設置閾值,并要求同時滿足的方法對挖掘出來的關聯(lián)規(guī)則進行評價,即選用支持度與置信度函數(shù)作為候選解的適應度評價函數(shù)。
(1)將數(shù)據(jù)庫中需求信息編碼,隨機產生初始種群,并初始化各參數(shù)。
(2)取出粒子,對該粒子進行處理,得到一條規(guī)則;對規(guī)則中的每個屬性排列組合產生潛在規(guī)則集P,計算規(guī)則集P中每個規(guī)則的適應度值,刪除小于閾值的規(guī)則,余下規(guī)則存儲于規(guī)則庫G中,并且記下P中適應度最高的規(guī)則比較個體歷史最優(yōu)和種群全局最優(yōu),并更新個體歷史最優(yōu)和種群全局歷史最優(yōu);更新粒子的速度和位置。
(3)判斷是否滿足終止條件,若滿足,算法結束;若不滿足,則返回步驟(2)繼續(xù)執(zhí)行。
(4)將規(guī)則庫G中的數(shù)字化規(guī)則進行解碼,轉化為用戶識別的關聯(lián)規(guī)則。
對于上述挖掘出的IF-THEN規(guī)則知識,分別對前件E和后件F尋求可拓變換,形成新的可拓變換規(guī)則知識[11]。
定理1 給定規(guī)則E1?F1,E2?F2。若存在條件的可拓變換φE1=E2,一定存在變換φ′,使φ′F1=F2,則存在規(guī)則:
定理2 給定規(guī)則E1?F1,E2&E3?F1。若存在條件的可拓變換φE2=E1,則存在規(guī)則:
上述定理用于對規(guī)則進行推理,以形成可拓變換規(guī)則。
以某企業(yè)摩托車產品需求信息為例。假定數(shù)據(jù)庫需求信息有車型、顏色、體積、外觀、安全性、舒適性、價格、滿意度8個屬性,共有10條用戶交易記錄,見表1所列。
表1中第1列是用戶需求的相關屬性名稱,每一行代表一條交易記錄,因用戶需求多以語言形式表述,需將屬性數(shù)字化。
表1 用戶交易記錄
由表1可見,根據(jù)實際需要將屬性分為條件屬性集C和結論屬性集D,并用區(qū)間[1,Jm+n]中任意整數(shù)表示需求屬性不同等級,即屬性值,見表2所列。
算法參數(shù)設置如下:種群規(guī)模N=20,最大迭代次數(shù)M=200,ωstart=0.9,ωend=0.4,加速常數(shù)c1=c2=2,vmin=-1,vmax=1,支持度和置信度閾值分別為sp*=0.25,cn*=0.60。
根據(jù)以上建立的數(shù)學模型與設計的算法,利用MATLAB7.0編程進行關聯(lián)規(guī)則的挖掘,最終得到滿足適應度函數(shù)的關聯(lián)規(guī)則集,都具有較高的支持度和置信度,見表3所列,得到了13條關聯(lián)規(guī)則及其2個指標值。
從表3中可以看出,挖掘出關聯(lián)規(guī)則前件項最多包含2個屬性,后件項僅含1個屬性,這樣的規(guī)則易于理解與分析。
表2 交易記錄數(shù)字化
表3 挖掘出的關聯(lián)規(guī)則
參照表1對表3中的規(guī)則加以解碼,并分別對前件和后件進行可拓變換,再運用(7)式和(8)式推理出可拓規(guī)則知識。因規(guī)則較多,這里僅以個例說明推理過程。
例如對第7條和第13條規(guī)則解碼,得到以下關聯(lián)規(guī)則。
第7條規(guī)則:IF(車價格昂貴)THEN(舒適性良好);第13條規(guī)則:IF(車體積較大&價格適中)THEN(舒適性一般)。
對上述解碼后的關聯(lián)規(guī)則存在可拓變換φ和φ′使得:
由(7)式得到可拓變換規(guī)則:
基于數(shù)據(jù)挖掘和可拓變換的需求獲取方法,將粒子群算法用于關聯(lián)規(guī)則數(shù)據(jù)挖掘,通過設定支持度和置信度閾值尋取規(guī)則知識,實現(xiàn)了挖掘用戶需求可拓規(guī)則知識的功能。因閾值選取通常依據(jù)設計者經驗進行決策,主觀性較強,故閾值大小的選取方法是下一階段重點研究的問題。
[1]許永平,石福麗,楊 峰,等.基于QFD與作戰(zhàn)仿真的艦艇裝備需求分析方法[J].系統(tǒng)工程理論與實踐,2010,30(1):167-172.
[2]熊 偉,王曉暾.基于質量功能展開的可信軟件需求映射方 法 [J].浙 江 大 學 學 報:自 然 科 學 版,2010,44(5):881-886.
[3]王曉暾,熊 偉.質量功能展開中顧客需求重要度確定的粗糙層 次 分 析 法 [J].計 算 機 集 成 制 造 系 統(tǒng),2010,16(4):763-770.
[4]宋 欣,郭 偉,劉建琴.QFD中用戶需求到技術特性的映射方 法 [J].天 津 大 學 學 報:自 然 科 學 版,2010,43(02):174-179.
[5]鮑 宏,劉光復,張 雷,等.面向綠色設計的客戶需求轉化方法研究[J].合肥工業(yè)大學學報:自然科學版,2010,33(4):481-486.
[6]Liao S S,Hsieh C,Huang Suiping.Mining product maps for new product development[J].International Journal of Production Research,2006,44(18):4027-4041.
[7]Jiao J,Zhang L,Zhang Y,et al.Association rule mining for product and process variety mapping[J].International Journal of Computer Integrated Manufacturing,2008,21(1):111-124.
[8]Avasere A,Omiecinski E,Navathe S.An efficient algorithm for mining association rules[C]//Proceedings of the AAAI Workshop on Knowledge Discovery in Databases,1994:181-192.
[9]Li Cunrong,Yang Mingzhong.Association rules data mining in manufacturing information system based on genetic algorithms[C]//3rd International Conference on Computational Electromagnetics and Its Applications,ICCEA 2004:153-156.
[10]Li Feng,Liu Ziyan.Effects of multi-objective genetic rule selection on short-term load forecasting for anomalous days[C]//2006IEEE Power Engineering Society General Meeting,PES,2006IEEE Power Engineering Society General Meeting,2006:10-100.
[11]陳文偉,楊春燕,黃金才.可拓知識與可拓知識推理[J].哈爾濱工業(yè)大學學報,2006,38(7):1094-1096.