文/張映琪吳志軍辛林嶺
決策樹CART算法在廚柜用戶研究中的應(yīng)用
文/張映琪1吳志軍1辛林嶺2
廚柜行業(yè)是我國制造業(yè)中的朝陽行業(yè),近幾年來業(yè)內(nèi)的競爭壓力不斷升溫。在以用戶為中心的時(shí)代背景下,研發(fā)出能滿足用戶期待和需求的產(chǎn)品成為企業(yè)的核心競爭力。文章以基于廚柜研發(fā)的用戶研究為出發(fā)點(diǎn),應(yīng)用決策樹理論的CART算法建立用戶研究數(shù)據(jù)的決策樹模型,并對模型進(jìn)行分析和解讀,目的在于為廚柜行業(yè)的新品研發(fā)提供思路和方法。
決策樹 CART 廚柜 用戶研究
廚柜最早出現(xiàn)于20世紀(jì)20年代德國為了滿足國內(nèi)大量的住房需求而建設(shè)的標(biāo)準(zhǔn)化公寓中,直到90年代開始由香港流傳到中國大陸,并成為我國制造業(yè)中的朝陽行業(yè)。雖然廚柜行業(yè)在中國正處于上升階段,但是伴隨著廚電、衣柜、家具等行業(yè)向廚柜行業(yè)的跨界,市場競爭已經(jīng)愈發(fā)激烈。我國工商聯(lián)的廚柜專業(yè)委員會預(yù)測道:隨著廚柜行業(yè)本身的日趨成熟,將會有一大批缺乏產(chǎn)品競爭力和不符合標(biāo)準(zhǔn)的廚柜企業(yè)間面臨淘汰[1]。開發(fā)出優(yōu)質(zhì)的產(chǎn)品成為當(dāng)下廚柜企業(yè)的核心競爭力。
廚柜即是廚房中收納各類廚房器具的物理載體,又是承載設(shè)計(jì)師設(shè)計(jì)思維的藝術(shù)載體,且與人們的日常生活緊密聯(lián)系[2]。廚柜產(chǎn)品作為西方舶來的產(chǎn)品,在審美、使用和功能等方面是否符合中國的用戶還有待研究。
根據(jù)筆者對國內(nèi)一些廚柜企業(yè)的走訪,目前國內(nèi)的廚柜企業(yè)對新產(chǎn)品開發(fā)的依據(jù)主要參照:
(1)參加國內(nèi)/國際各大展會,學(xué)習(xí)國際優(yōu)秀廚柜企業(yè)開發(fā)的新品;
(2)收集國內(nèi)近兩年室內(nèi)裝飾行業(yè)的設(shè)計(jì)風(fēng)格趨勢;
(3)結(jié)合銷量數(shù)據(jù),對銷量較好的產(chǎn)品進(jìn)行升級。
其中不乏有部分企業(yè)通過問卷、訪談等形式對用戶進(jìn)行調(diào)查,但由于沒有針對該調(diào)查形式的系統(tǒng)整理方法,造成用戶調(diào)查結(jié)果依然無法為廚柜的新品開發(fā)提供有效的依據(jù)。
在當(dāng)代以用戶為中心的設(shè)計(jì)風(fēng)潮中,挖掘用戶的期待和需求等因素,并將其融入到產(chǎn)品開發(fā)中去,正是廚柜新品研發(fā)的突破口。為了洞察用戶需求和期望,避免設(shè)計(jì)師以“自我”為中心;在廚柜產(chǎn)品開發(fā)之前應(yīng)當(dāng)對用戶進(jìn)行研究,從數(shù)據(jù)中挖掘出設(shè)計(jì)所需要的依據(jù)[3]。
對用戶進(jìn)行研究可依照“因果”關(guān)系進(jìn)行調(diào)查因素的編制,即在某種條件下會產(chǎn)生某種結(jié)果。此類用戶研究的方式邏輯性較強(qiáng),有利于研發(fā)人員對后期生成的數(shù)據(jù)進(jìn)行應(yīng)用。整個(gè)研究過程大致可分為5步:結(jié)果因素與影響因素的設(shè)置,影響因素中細(xì)分屬性的設(shè)置,各個(gè)因素的數(shù)據(jù)收集,對所有搜集的的數(shù)據(jù)進(jìn)行清洗和挖掘,將挖掘的出的數(shù)據(jù)進(jìn)行分析和應(yīng)用。
決策樹理論是一種被廣泛應(yīng)用于數(shù)據(jù)挖掘的一種技術(shù),用于決策樹生成的計(jì)算方法有很多種,最常用的有CART、C5.0、QUEST、ID3等。文章以CART算法為例,建立輔助廚柜產(chǎn)品新品開發(fā)的用戶研究決策樹模型。
1960年左右,決策樹理論被廣泛的應(yīng)用到各個(gè)領(lǐng)域中,特別是在人工智能、規(guī)則提取等方面[4],是一種能將混亂無序的因果關(guān)系進(jìn)行梳理和分類的一種技術(shù)[5]。決策樹的最終呈現(xiàn)模式是以“結(jié)果”為基點(diǎn),依照影響因素的信息純度進(jìn)行分裂開叉的樹狀圖。
在創(chuàng)建決策樹之前應(yīng)當(dāng)先把所搜集的有效數(shù)據(jù)分為訓(xùn)練集與檢驗(yàn)集。創(chuàng)建過程可分為建樹和剪枝兩個(gè)步驟,其中剪枝又可細(xì)分為預(yù)剪枝與剪枝兩個(gè)步驟:
(1)利用訓(xùn)練集建立決策樹的初型;
(2)根據(jù)前期設(shè)立的分支指數(shù)的閾值進(jìn)行預(yù)剪枝;
(3)運(yùn)用檢驗(yàn)集對決策樹的模型進(jìn)行測試、剪枝。形成最終的決策樹模型(整個(gè)過程如圖1所示)。
CART是分類回歸樹(Classi fi cation and Regression Trees)的簡寫,最早是由Breiman和Friedman 等人于1984年提出的[6]。CART算法是通過計(jì)算各個(gè)影響因素的Gini Gain指數(shù)來建立決策樹,Gini Gain指數(shù)最小的因素為最佳分裂點(diǎn)[7]。
圖1:決策樹模型創(chuàng)建過程
由于CART算法是用于建立二叉決策樹的,因此在處理多屬性的影響因素時(shí)要將屬性進(jìn)行合并計(jì)算,如:影響因素A共有{a,b,c}三個(gè)屬性,那么就會出現(xiàn)三種分組的情況({{a,b},c},{{a,c},b},{{b,c},a}),計(jì)算得出這三個(gè)組合中Gini指數(shù)最低的一組為分叉。Gini指數(shù)是計(jì)算每個(gè)影響因素中的雜質(zhì)指標(biāo),介于0-1之間,指數(shù)越大代表該影響因素越不純。公式為:
a代表屬性組合,k代表結(jié)果變量,P代表該屬性中結(jié)果變量的概率。得出屬性的Gini指數(shù)之后,便可以計(jì)算出該影響因素的Gini Gain的指數(shù),公式為:
Ni代表該屬性的數(shù)量,N代表總數(shù)量。影響因素的Gini Gain即是每個(gè)屬性概率乘以屬性Gini指數(shù)的總和。
調(diào)研用戶的形式有很多種,如問卷、訪談、影像等。文章以問卷為數(shù)據(jù)收集的手段,收集用戶關(guān)于“廚房餐廳一體化設(shè)計(jì)”的影響因素的數(shù)據(jù);并通過數(shù)據(jù)分析軟件—SPSS CLEMENTINE 12中CART算法進(jìn)行數(shù)據(jù)的計(jì)算處理,生成決策樹;最終對生成的決策樹進(jìn)行分析和解讀。
筆者通過網(wǎng)絡(luò)的方式收集了133份調(diào)查問卷,以這份數(shù)據(jù)為例建立供新產(chǎn)品開發(fā)的決策樹模型。133份問卷中男性用戶有63人占47.37%,女性用戶有70人占52.63%,20-25歲的用戶占72.18%。
問卷的“結(jié)果”因素是用戶在購買廚柜時(shí)是否會將餐廳一同設(shè)計(jì),目的在于挖掘支持餐廚一體化設(shè)計(jì)下影響因素/細(xì)分屬性所組成的規(guī)則路徑。該問題的影響因素圍繞“風(fēng)格外觀、使用功能、展現(xiàn)形式”三個(gè)方面進(jìn)行設(shè)計(jì),共設(shè)置8個(gè)影響因素、34個(gè)細(xì)分屬性(如表1所示)。
SPSS CLEMENTINE 12是市面上常用的數(shù)據(jù)挖掘軟件,能將復(fù)雜的CART計(jì)算過程通過簡單的設(shè)置后,快速精準(zhǔn)的輸出決策樹模型。以結(jié)果因素(將廚房與餐廳一體化設(shè)計(jì))設(shè)置為輸出變量,影響因素設(shè)置為輸入變量,開始進(jìn)行設(shè)置:
(1)設(shè)置隨機(jī)選取75%的數(shù)據(jù)作為訓(xùn)練集,剩余25%的數(shù)據(jù)作為檢驗(yàn)集;
(2)選擇CART算法,具體設(shè)置如下:選擇Gini指數(shù)作為建樹依據(jù)、最大樹深設(shè)置為5、將最優(yōu)裂變引起的不純度變量的最低值設(shè)置為0.0001、勾選“Prune Tree”(節(jié)點(diǎn)的分叉無法明確提高樹的精準(zhǔn)度時(shí),自動停止該節(jié)點(diǎn)的分裂。)最終模型的樹深為5層,共產(chǎn)生了9條規(guī)則路徑(其中純度為100%的路徑共6條),生成的決策樹簡化模型如圖2所示(括號中的百分?jǐn)?shù)表示該條規(guī)則路徑的純度)。
鑒于問卷設(shè)計(jì)的核心是挖掘用戶支持廚房與餐廳一體化設(shè)計(jì)的影響因素,因此從計(jì)算生成的9條規(guī)則路徑中提取結(jié)果為“是”的路徑進(jìn)行分析。結(jié)果為“是”的規(guī)則路徑共5條,分別如下:
(1)柜體表面材質(zhì)滿足(石材化/水泥化/木紋化)處理下;廚柜風(fēng)格滿足(歐式/中式/現(xiàn)代/工業(yè))風(fēng)格下;改善(洗滌區(qū)/烹飪區(qū)/切配區(qū))的體驗(yàn);
(2)柜體表面材質(zhì)滿足(石材化/水泥化/木紋化)處理下;廚柜風(fēng)格滿足(歐式/中式/現(xiàn)代/工業(yè))風(fēng)格下;改善吊柜收納的體驗(yàn)下;將周邊產(chǎn)品(全展示/僅展示器具)下;臺面材料為鋼材;
(3)柜體表面材質(zhì)滿足(石材化/水泥化/木紋化)處理下;廚柜風(fēng)格滿足(歐式/中式/現(xiàn)代/工業(yè))風(fēng)格下;改善吊柜收納的體驗(yàn)下;將周邊產(chǎn)品(不展示/僅展示小電器);
(4)柜體表面材質(zhì)滿足(鋼材化/玻璃化/單色化)處理下;廚柜風(fēng)格滿足(歐式/中式/現(xiàn)代/混搭)風(fēng)格下;擴(kuò)展(媒體/親子)功能下;色彩為(暖色系/冷色系/黑白灰);
(5)柜體表面材質(zhì)滿足(鋼材化/玻璃化/單色化)處理下;廚柜風(fēng)格滿足(歐式/中式/現(xiàn)代/混搭)風(fēng)格下;擴(kuò)展(休閑/聚會)功能。
企業(yè)在開發(fā)餐廚一體化的廚柜產(chǎn)品時(shí),可以在以上各個(gè)規(guī)則路徑的每個(gè)因素節(jié)點(diǎn)上附加成本和收益等預(yù)算數(shù)據(jù),計(jì)算出收益最大的路徑進(jìn)行開發(fā);或根據(jù)品牌的定位來篩選出最適合的規(guī)則路徑。
表1:調(diào)查問卷內(nèi)容
圖2:“廚房與餐廳一體化設(shè)計(jì)”的決策樹模型
人們對廚房的期待和需求也漸漸的隨著飲食文化、生活方式等觀念的改變而改變,單純的改變廚柜產(chǎn)品的外觀是無法開發(fā)出打動用戶的新品。廚柜產(chǎn)品是承載復(fù)雜的周邊產(chǎn)品、復(fù)雜的用戶行為的系統(tǒng),對復(fù)雜系統(tǒng)的研究和探索的方法應(yīng)該在多學(xué)科中的尋找合適的方法。只有通過科學(xué)的方法,對復(fù)雜的廚柜系統(tǒng)進(jìn)行深入分析,新品的開發(fā)才能跟上需求。
決策樹CART算法除了應(yīng)用在以用戶調(diào)研的數(shù)據(jù)建立模型之外,還能應(yīng)用于廚柜產(chǎn)品的競品分析、會展材料整理、入戶設(shè)計(jì)調(diào)查等研究。此外,文章中案例的支撐數(shù)據(jù)較少,并不能很精準(zhǔn)的推出預(yù)測結(jié)果,重在為廚柜行業(yè)新品開發(fā)提供參考的思路和方法。
(通訊作者:吳志軍)
[1]吳志軍,肖文波.廚房家具系統(tǒng)的整合設(shè)計(jì)[J].家具,2014(06):39-43.
[2]張繼娟.整體廚柜門板結(jié)構(gòu)設(shè)計(jì)的影響因素分析[J].包裝工程,2014(24):42-44+49.
[3]楊舒英,張帆.整體廚柜研發(fā)過程中的“設(shè)計(jì)調(diào)研”[J].家具與室內(nèi)裝飾,2015(10):24-27.
[4]盧東標(biāo).基于決策樹的數(shù)據(jù)挖掘算法研究與應(yīng)用[D].武漢:武漢理工大學(xué),2008.
[5]劉菲.基于決策樹技術(shù)的忠誠客戶挖掘研究[D].阜新:遼寧工程技術(shù)大學(xué),2009.
[6]Breiman L,Friedman J H, Olshen R A,et al.Classification and Regression Trees[R].Montery,CA:Wadsworth International Group,1984.
[7]陳云櫻,吳積欽,徐可佳.決策樹中基于基尼指數(shù)的屬性分裂方法[J].微機(jī)發(fā)展,2004(05):66-68.
張映琪(1994-),男,湖南科技大學(xué)碩士研究生。主要研究方向?yàn)閺N房產(chǎn)業(yè)整合設(shè)計(jì)、設(shè)計(jì)戰(zhàn)略與系統(tǒng)創(chuàng)新等。
作者單位
1.湖南科技大學(xué)湖南省中小型機(jī)電產(chǎn)品工業(yè)設(shè)計(jì)中心 湖南省湘潭市 411201
2.云南藝術(shù)學(xué)院民族民間藝術(shù)研究所 云南省昆明市 650033
國家自然科學(xué)基金項(xiàng)目(51405155);中國博士后科學(xué)基金項(xiàng)目(2015M582321);湖南省研究生科研創(chuàng)新項(xiàng)目(CX2017B677)。
吳志軍(1979-),男,湖南科技大學(xué)副教授、碩士生導(dǎo)師,博士,湖南大學(xué)與廣東工業(yè)設(shè)計(jì)城聯(lián)合培養(yǎng)設(shè)計(jì)學(xué)博士后。主要研究方向?yàn)樵O(shè)計(jì)戰(zhàn)略與系統(tǒng)創(chuàng)新、工業(yè)設(shè)計(jì)等。