楊通輝,高 玲,臧 麗
(山東師范大學(xué) 信息科學(xué)與工程學(xué)院,山東 濟南 250014)
隨著經(jīng)濟的發(fā)展,商品的種類越來越多,作為顧客自由購物場所的商店,可利用有限的營業(yè)空間,在顧客瀏覽商品時,刺激顧客的購買欲望,達到擴大銷售的目的。商品的陳列在銷售過程中扮演者重要的角色,是商品沉默的推銷員[1]。因此如何合理地對商品進行陳列[2],成為商店推銷過程的一個必須要考慮的問題。由于不同顧客購買的商品之間具有一定的相似性,可以根據(jù)不同商品間的相似性,構(gòu)造具有關(guān)聯(lián)性的商品網(wǎng)絡(luò)[3]形成聚類,并根據(jù)不同顧客購買商品的相似性的大小,運用K-means聚類算法,利用相似度代替歐氏距離,對該商品網(wǎng)絡(luò)進行聚類分析[4],劃分出相關(guān)性大的顧客群體,并根據(jù)每個群體中顧客購買每類商品的均值占總商品數(shù)得比例進行排序[5],從而得到商品陳列的依據(jù),這樣顧客在瀏覽商品時,便會刺激其購買欲望,進而達到擴大銷售的目的。如圖1所示。
K-means算法[8]屬于聚類方法中的一種劃分方法,該算法具有較好的可伸性和很高的效率,適合處理大文檔集。K-means算法將一組物理的或抽象的對象,根據(jù)它們之間的相似程度分為若干組,其中相似的對象構(gòu)成一組。它采用歐式距離作為相似性的評價指標(biāo),即認為兩個樣本的距離越近,其相似度越大。其以最大歐式距離原則選取新的聚類中心,以最小歐式距離原則進行模式歸類。
算法描述如下:
隨機選取k個點作為初始聚類中心,然后根據(jù)各個樣本到各聚類中心的距離把樣本分到各類;重新計算每個類的中心(即類中所有點平均值,也就是幾何中心),再次將各樣本根據(jù)與聚類中心的距離歸類,如此循環(huán)迭代,直到平方誤差準則函數(shù)穩(wěn)定在最小值。
如圖2所示,當(dāng)k=3時,即需要將數(shù)據(jù)對象分為3個聚類,根據(jù)以上算法描述,任意選擇3個對象作為3個初始聚類中心,聚類中心在圖中用“+”來標(biāo)注。根據(jù)與聚類中心的距離,每個對象被分配給最近的一個聚類,這樣的分布形成了虛線所描繪的圖形。
由于一個顧客的購物行為可以用購買商品的種類來表示,為了便于進行聚類分析,為每個顧客建立一個n維向量[9]用來描述顧客的行為,把每個顧客的購買記錄轉(zhuǎn)變?yōu)橄蛄?,可以看做實現(xiàn)了從數(shù)據(jù)空間到向量空間的一種映射。 比如:用 2 個向量 X=(x1,x2,……xn)、Y=(y1,y2……yn)代表顧客的購買行為,其中 X、Y 代表不同客戶,xn、yn代表每種商品的數(shù)量。若沒有購買某種商品,便記其數(shù)量為0。
為 了 比 較 2 個 向 量 X=(x1,x2, …… xn)、Y=(y1,y2……yn)的相似度的大小[10],定義了相似度函數(shù) sim(X,Y),用其來計算兩個顧客購買商品的相似度,公式如下:
比如說,在講授“空間四邊形”相關(guān)內(nèi)容的過程中,倘若老師僅僅依靠板書展示空間四邊形的平面版本,就會讓不少學(xué)生產(chǎn)生或認為“空間四邊形的兩個對角線是相交的”誤解,不利于學(xué)生建立空間立體概念。通過多媒體手段顯示旋轉(zhuǎn)運動的“空間四邊形”的三維圖形,讓學(xué)生可以真正感受到空間立體圖形的存在,從而培養(yǎng)學(xué)生的空間想象能力,讓學(xué)生通過觀察三維圖形加深理解“原來這兩條線根本沒相交!”。而在展示微課課件的過程中,可以讓學(xué)生獨立地發(fā)現(xiàn)“不在同一平面的兩條直線”,并為將來學(xué)習(xí)“異面直線”埋下伏筆。由此可知微課程可以產(chǎn)生傳統(tǒng)教學(xué)方法無法達到的教學(xué)效果,從而提高學(xué)生的學(xué)習(xí)興趣和積極性。
2個向量的相似度表示了2個顧客的興趣愛好的相似度,值越大,表示2個顧客興趣度越相似,反之,表示2個顧客的興趣度差別越大[11]。
算法的具體步驟如下:
輸入:包含n個顧客行為的數(shù)據(jù)集。
輸出:聚類數(shù)目k和k個聚類的集合。
(1)聚類數(shù) k的取值范圍為[2,kmax],步長可以變化、不固定,kmax為聚類數(shù)目的最大限定[12]。
(2)從n個數(shù)據(jù)對象中任選k個對象作為初始的聚類中心。利用興趣相似度式(1)計算出任意2個顧客之間的相似度。
(3)根據(jù)顧客之間的相似度,對數(shù)據(jù)集中的顧客進行分類,對于任意的顧客X∈n,尋找與其相似度最大的類心ck,然后 X屬于第 k類。
(4)當(dāng)所有的數(shù)據(jù)集中的顧客都確定其聚類的歸屬后,計算每個聚類的新的類心(即類中所有點相似度的平均值,也就是幾何中心)(式(2)),再次將各顧客依據(jù)相似度分類,直到誤差準則函數(shù)(式(3))穩(wěn)定在最小值。從而得到不同聚類。
(5)對聚類數(shù)目為k時的有效指數(shù) Validity(k)(式(4))進行計算,選擇 Validity值最大的k只保留下來。
(6)輸出聚類數(shù)目k和k個聚類的集合。
平均相似度公式:
誤差準則函數(shù)形式:
式中,k為要形成聚類的個數(shù),ni是第i類中樣本的個數(shù),mi是第i類樣本的均值。
有效指數(shù)定義[13]:
式中,ci表示第i個聚類的中心。
依據(jù)上面算法分成的k個顧客群體,在每類群體中,計算每種商品占商品總數(shù)的比例,依據(jù)比例的大小,由近到遠對商品進行排列,從而得到商品的排列次序。
本文根據(jù)顧客的購買記錄,根據(jù)其購買的商品間的相似性,劃分出相似性大的顧客群體,再根據(jù)每個群體中的每種商品占商品總數(shù)的比例大小進行排序,從而得到商品排序的理論依據(jù),進而使商品得到合理排序,這樣顧客在瀏覽商品時,便會刺激其購買欲望,達到擴大銷售的目的。但是每種商品,由于其品牌不同,知名度、信譽度等也不同,并且商品陳列時還要考慮場地位置,顏色搭配等,從而為商品陳列帶來新的問題,因此在為其提供基礎(chǔ)的同時為下一步工作指明了方向。
[1]傅強.超市商品陳列對消費心理的影響[J].中國商貿(mào),2010(3).
[2]朱海紅,江庭友,司丹丹,基于數(shù)據(jù)挖掘技術(shù)的商品陳列研究[J].商場現(xiàn)代化,2010(12).
[3]王金龍,徐從富,徐嬌芬,等.利用銷售數(shù)據(jù)的商品影響關(guān)系挖掘研究[J].電子科技大學(xué)學(xué)報,2007(2).
[4]崔春生,吳祈宗,王瑩,用于推薦系統(tǒng)聚類分析的用戶興趣度研究[J].計算機工程與應(yīng)用,2011(7).
[5]劉金嶺.數(shù)據(jù)挖掘技術(shù)在商品銷售預(yù)測方面的應(yīng)用[J].商場現(xiàn)代化,2008(2).
[6]BERRY M, LINOFF G.Data mining techniquesfor marketing, sales, and customer relationship management[M].2nd ed.[S.l.]: John Wiley&Sons, Inc, 2004.
[7]黃韜,劉勝輝,譚艷娜.基于 k-means聚類算法的研究[J].計算機技術(shù)與發(fā)展,2011(7).
[8]安建成,德增.一種改進的 K-means算法[J].電腦開發(fā)與應(yīng)用,2011(4).
[9]韓瑞凱,孟嗣儀,劉云,等.基于興趣相似度的社區(qū)結(jié)構(gòu)發(fā)現(xiàn)算法研究[J].計算機應(yīng)用,2010(10).
[10]Han Jiawei,KAMBER M.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.
[11]王德榮,李衛(wèi)華.網(wǎng)絡(luò)號百用戶興趣模型挖掘算法[J].現(xiàn)代計算機,2010(4).
[12]趙鳳霞、福鼎,基于K-means聚類算法的復(fù)雜網(wǎng)絡(luò)社團發(fā)現(xiàn)新算法[J].計算機應(yīng)用研究,2009(6).
[13]樊寧.K均值聚類算法在銀行客戶細分中的研究[J],.計算機仿真,2011(3).