基于K-means聚類算法的任務(wù)定價

2018-08-08 07:40:26朱家明曹綺琦潘雪航錢禮會李春忠

廈門理工學(xué)院學(xué)報 2018年3期

朱家明，曹綺琦，潘雪航，錢禮會，李春忠

(1.安徽財經(jīng)大學(xué)統(tǒng)計與應(yīng)用數(shù)學(xué)學(xué)院，安徽蚌埠 233030；2.安徽財經(jīng)大學(xué)財政與公共管理學(xué)院，安徽蚌埠 233030)

根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示，截至2017年12月，我國網(wǎng)民規(guī)模達7.72億，普及率達55.8%[1]。隨著時代進步，越來越多的企業(yè)開始通過互聯(lián)網(wǎng)尋求外部資源，一種新的非常有創(chuàng)意的發(fā)展模式正悄然興起，即眾包?！氨姲币辉~于2006年首次提出，指一個公司或機構(gòu)把過去由員工執(zhí)行的工作任務(wù)以自由自愿的形式外包給非特定的(而且通常是大型的)大眾網(wǎng)絡(luò)的做法[2]。而對于眾包任務(wù)的定價問題，不同的學(xué)者有不同策略。徐芹[3]在壟斷型市場下研究相應(yīng)平臺對雙邊用戶的定價策略，但相關(guān)影響因素的考慮不夠全面；孫信昕[4]則認(rèn)為應(yīng)該根據(jù)每個工作者提交的成本、希望的任務(wù)數(shù)量以及完成質(zhì)量對任務(wù)進行定價，但其模型適用范圍小，僅適用于任務(wù)質(zhì)量易測量的簡單任務(wù)。為此，本文采用K-means聚類算法定量分析域內(nèi)會員數(shù)量、任務(wù)點距離、任務(wù)定價與任務(wù)完成情況之間的相關(guān)性，并為任務(wù)進行合理定價。

1 數(shù)據(jù)的獲取及假設(shè)

數(shù)據(jù)來源于2017年全國大學(xué)生數(shù)學(xué)建模競賽B題。為便于解決問題，提出以下研究條件：(1)用戶選擇任務(wù)只與任務(wù)價格和自己與任務(wù)地點的距離有關(guān)，沒有其他因素的影響；(2)用戶選擇任務(wù)會權(quán)衡任務(wù)價值和自己完成任務(wù)的成本，如果成本高于價值，則用戶不會選擇該任務(wù)；(3)APP中的任務(wù)定價在用戶預(yù)訂前就已確定，與任務(wù)周圍會員的數(shù)量和會員距離的遠(yuǎn)近無關(guān)；(4)未完成任務(wù)的地理位置只考慮廣州市和深圳市(因為這兩個城市未完成任務(wù)數(shù)量比重最大)，而不考慮其他城市；(5)任務(wù)打包發(fā)布時，會員接單會完成所接的所有任務(wù)。

2 任務(wù)定價影響因素的相關(guān)性分析

2.1 研究思路

任務(wù)定價在執(zhí)行之前，故任務(wù)的定價決定執(zhí)行情況，執(zhí)行情況對定價無影響。根據(jù)已知數(shù)據(jù)，可對任務(wù)的位置進行聚類分析，從任務(wù)與中心點間的距離及任務(wù)的位置等任務(wù)定價影響因素探究定價規(guī)律，然后根據(jù)計算得出各任務(wù)區(qū)中的會員數(shù)量，與各任務(wù)區(qū)中的價格進行比較，分析定價規(guī)律[5]。

2.2 研究方法：K-means均值聚類[6]

若將n個樣品分成k類，則先選擇所有樣品中距離最遠(yuǎn)的兩個樣品xi1、xi2為聚點，使得

d(xi1,xj2)=di1j2=max{dij}。

(1)

然后選擇第3個聚點xi3，使得xi3與前兩個聚點的距離最小者等于所有其余的與xi1、xi2的較小距離中最大的，即

min{d(xi3,xir),r=1,2}=max{min{d(xj,xir),r=1,2},j≠i1,i2}。

(2)

最后按相同的原則選取xik，重復(fù)前面的步驟，直至確定k個聚點xi1,xi2,…,xik。

k-means均值聚類的步驟(樣品之間的距離采用歐氏距離)如下：

設(shè)第k個初始聚點的集合是

(3)

記

(4)

于是，將樣品分成不相交的k類，得到一個初始分類

(5)

從初始類G(0)開始計算新的聚點集合L(1)，計算

(6)

(7)

從L(1)開始再進行分類，記

(8)

得到一個新的類

(9)

重復(fù)上述步驟m次，得

(10)

(11)

與

(12)

相同，則結(jié)束計算。

變量x與變量y間的相關(guān)系數(shù)

(13)

2.3 研究結(jié)果

圖1 任務(wù)結(jié)束地區(qū)位置聚類圖Fig. 1 Map of completed task location cluster

運用MATLAB軟件編程，得到已結(jié)束任務(wù)經(jīng)度緯度的位置聚類圖如圖1。

為了研究任務(wù)點位置對定價的影響，利用已結(jié)束任務(wù)位置聚成4類的結(jié)果，運用EXCEL篩選，分別計算佛山市、深圳市、廣州市和東莞市任務(wù)定價的均值及其區(qū)域內(nèi)會員數(shù)量。結(jié)果見表1。

以4個聚類中心的位置作為定點，分別計算4個區(qū)各任務(wù)點到其中心的距離(單位：m)，分析任務(wù)價格與任務(wù)距離之間的相關(guān)關(guān)系，結(jié)果見表1。

表1 各地區(qū)任務(wù)價格和距離的相關(guān)系數(shù)、任務(wù)均價和會員數(shù)量Tab. 1 Correlation coefficient of task price and distance,mean task price and number of members by region

從表1可以看出各地區(qū)的任務(wù)價格和任務(wù)距離存在一定的相關(guān)關(guān)系，并且是正的相關(guān)關(guān)系。也就是說各任務(wù)的定價和距離有關(guān)，任務(wù)點到聚類中心的距離越大，則任務(wù)的定價越高。

由表1求出各地區(qū)任務(wù)定價的均值與會員數(shù)量間的相關(guān)系數(shù)為-0.995 7，表明這兩者顯著相關(guān)，且地區(qū)的會員數(shù)量越多，其任務(wù)定價越低。

3 基于最小二乘法對未完成任務(wù)進行重新定價

3.1 未完成任務(wù)的原因分析

圖2 未完成任務(wù)位置聚類圖Fig. 2 Location clustering of unfinished tasks

3.1.1 研究思路

對于任務(wù)未完成的原因，可以先利用MATLAB對未完成任務(wù)位置進行可視化處理，得出位置的分布特征，再進一步分析造成這種分布可能的原因，然后可以從區(qū)域內(nèi)會員數(shù)量和任務(wù)價格等方面探究這些因素是否會影響任務(wù)完成情況[7-9]。

3.1.2 研究結(jié)果

根據(jù)散點圖可知未完成情況有明顯聚集現(xiàn)象，運用MATLAB繪出了未完成任務(wù)位置的聚類圖，結(jié)果如圖2所示。

圖2中聚類中心的位置坐標(biāo)分別是(22.64°N，114.03°E)和(23.12°N，113.25°E)，在地圖上確定分別是深圳市龍華區(qū)和廣州市越秀區(qū)。由于這兩個地區(qū)內(nèi)會員數(shù)量較大，經(jīng)濟也發(fā)達，所以不存在會員不夠而任務(wù)過多的情況。綜合考慮各種影響因素，認(rèn)為價格的高低直接影響任務(wù)完成情況，并且價格越高，任務(wù)完成情況越好，反之，則越差。為此，利用EXCEL軟件，計算每個價格的任務(wù)完成率。

在統(tǒng)計學(xué)中，樣本數(shù)量在30以下的是小樣本， 30以上的是大樣本。小樣本由于樣本數(shù)量過少，不具有代表性，所以剔除了個別小樣本數(shù)據(jù)，保留任務(wù)完成數(shù)在30以上的樣本。各價格下任務(wù)完成情況的統(tǒng)計結(jié)果如表2所示。

表2 各價格下任務(wù)完成情況Tab.2 Tasks completed by price

價格和完成率的相關(guān)系數(shù)高達0.683，存在明顯的正相關(guān)關(guān)系，擬合方程為y=-0.027x5+9.611x4-1 356x3+95 713x2-3×106x+7×107。擬合曲線見圖3。

圖3 各價格下任務(wù)完成情況的擬合曲線Fig. 3 Curve of tasks completed by price

圖3中的曲線擬合的可決系數(shù)為0.8544，表明擬合程度較高。由點的分布規(guī)律可知定價低的任務(wù)完成情況明顯比定價高的任務(wù)完成情況差，所以價格的高低能直接影響任務(wù)的完成情況。而任務(wù)的定價和完成率不存在明顯的線性關(guān)系，可能是因為完成任務(wù)的難易程度不一樣，包括交通的便利性、完成成本等方面因素，難度大的任務(wù)，定價再高也必然存在不能完成的現(xiàn)象。

3.2 未完成任務(wù)的重新定價

3.2.1 研究思路

首先，對已知任務(wù)的完成情況進行篩選，得出已完成任務(wù)與未完成任務(wù)各自的分布情況；然后對價格進行排序，得到已完成任務(wù)與未完成任務(wù)的價格走向，已完成任務(wù)的價格曲線即為任務(wù)定價模型；最后由模型計算出未完成任務(wù)的新價格，再與原方案的未完成任務(wù)的價格進行比較得出結(jié)論。

3.2.2 研究方法——最小二乘法

由給定的一組測定的離散數(shù)據(jù)(xi,yi)(i=1,2,…,N)，求自變量x和因變量y的近似表達式y(tǒng)=φ(x)的方法稱為數(shù)據(jù)擬合，φ(x)稱為擬合函數(shù)。記擬合函數(shù)在xi點的偏差為δi=φ(xi)-yi(i=1,2,…,N)，那么選取φ(x)使所有偏差的平方和最小，即

(14)

這一確定擬合函數(shù)的方法稱為最小二乘法[10]。

3.2.3 研究結(jié)果

由之前的分析得知已完成任務(wù)總數(shù)為522個。4個地區(qū)未完成任務(wù)的總和為313個，其中252個分布在廣州市和深圳市，因此主要針對廣州、深圳兩市的情況進行分析。

在深圳和廣州兩市，未完成任務(wù)為252個，已完成任務(wù)為229個，對兩部分任務(wù)的價格進行升序排列，擬合曲線方程為

y=1.6×10-6x3-1.4×10-4x2+1.2×10-2x+65，

(15)

擬合曲線如圖4。

可以算出可決系數(shù)：

(16)

由可決系數(shù)來看擬合的效果比較理想。

由于已完成任務(wù)的價格視為不變，因此可以不用考慮重新調(diào)整它們的價格。經(jīng)計算，已完成任務(wù)價格均值為69.89元，未完成任務(wù)均值為67.93元，因此可以初步判斷未完成任務(wù)價格偏低。若要改進價格方案，則需適當(dāng)提高其價格。

從圖4中可以看出，在后半部分已完成任務(wù)的價格要高于未完成任務(wù)，而已完成任務(wù)價格不需調(diào)整。因此，以已完成任務(wù)價格為標(biāo)準(zhǔn)，將擬合曲線方程(15)作為新方案，計算出未完成任務(wù)的適當(dāng)價格，將新方案計算出的價格和原方案的價格進行了比較，對比結(jié)果見圖5所示。其中現(xiàn)方案代表計算給出的任務(wù)價格。

圖4 任務(wù)價格曲線圖Fig.4 Task price curve

圖5 兩種方案價格對比圖Fig.5 Two pricing options compared

由此，可以看出現(xiàn)方案的價格相較于原方案的價格有了一定程度的提高，其原因在于任務(wù)價格的提高對于會員完成任務(wù)的積極性起了很大作用，所以當(dāng)價格上升，會員完成任務(wù)的情況也會提高。

同時，該任務(wù)價格的均值為69.10元，相較于原來的67.93元有適當(dāng)提高，因此推斷，在此種方案下，任務(wù)的完成比例將會增加。

4 結(jié)語

針對“拍照賺錢”項目的任務(wù)定價，基于K-means均值聚類算法分析區(qū)域內(nèi)會員數(shù)量、任務(wù)點距離、任務(wù)定價與任務(wù)完成情況之間的相關(guān)性。結(jié)果表明：區(qū)域內(nèi)會員數(shù)量一定時，完成任務(wù)的距離越遠(yuǎn)，任務(wù)定價越高；完成任務(wù)的距離一定時，區(qū)域內(nèi)會員數(shù)量越小，任務(wù)定價越高；在區(qū)域內(nèi)會員數(shù)量足夠大的前提下，任務(wù)定價越高任務(wù)完成度越高?；诖诉M一步深入分析未完成任務(wù)，利用最小二乘法擬合出新的定價模型。計算過程中綜合利用了MATLAB和EXCEL軟件，使計算更加簡便準(zhǔn)確。K-means均值聚類算法不僅可以解決眾包服務(wù)定價問題，而且在商業(yè)、生物、保險行業(yè)等諸多領(lǐng)域都有廣泛的運用，具有一定推廣意義。