朱家明,曹綺琦,潘雪航,錢禮會,李春忠
(1.安徽財經(jīng)大學(xué)統(tǒng)計與應(yīng)用數(shù)學(xué)學(xué)院,安徽 蚌埠 233030;2.安徽財經(jīng)大學(xué)財政與公共管理學(xué)院,安徽 蚌埠 233030)
根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2017年12月,我國網(wǎng)民規(guī)模達7.72億,普及率達55.8%[1]。隨著時代進步,越來越多的企業(yè)開始通過互聯(lián)網(wǎng)尋求外部資源,一種新的非常有創(chuàng)意的發(fā)展模式正悄然興起,即眾包?!氨姲币辉~于2006年首次提出,指一個公司或機構(gòu)把過去由員工執(zhí)行的工作任務(wù)以自由自愿的形式外包給非特定的(而且通常是大型的)大眾網(wǎng)絡(luò)的做法[2]。而對于眾包任務(wù)的定價問題,不同的學(xué)者有不同策略。徐芹[3]在壟斷型市場下研究相應(yīng)平臺對雙邊用戶的定價策略,但相關(guān)影響因素的考慮不夠全面;孫信昕[4]則認(rèn)為應(yīng)該根據(jù)每個工作者提交的成本、希望的任務(wù)數(shù)量以及完成質(zhì)量對任務(wù)進行定價,但其模型適用范圍小,僅適用于任務(wù)質(zhì)量易測量的簡單任務(wù)。為此,本文采用K-means聚類算法定量分析域內(nèi)會員數(shù)量、任務(wù)點距離、任務(wù)定價與任務(wù)完成情況之間的相關(guān)性,并為任務(wù)進行合理定價。
數(shù)據(jù)來源于2017年全國大學(xué)生數(shù)學(xué)建模競賽B題。為便于解決問題,提出以下研究條件:(1)用戶選擇任務(wù)只與任務(wù)價格和自己與任務(wù)地點的距離有關(guān),沒有其他因素的影響;(2)用戶選擇任務(wù)會權(quán)衡任務(wù)價值和自己完成任務(wù)的成本,如果成本高于價值,則用戶不會選擇該任務(wù);(3)APP中的任務(wù)定價在用戶預(yù)訂前就已確定,與任務(wù)周圍會員的數(shù)量和會員距離的遠(yuǎn)近無關(guān);(4)未完成任務(wù)的地理位置只考慮廣州市和深圳市(因為這兩個城市未完成任務(wù)數(shù)量比重最大),而不考慮其他城市;(5)任務(wù)打包發(fā)布時,會員接單會完成所接的所有任務(wù)。
任務(wù)定價在執(zhí)行之前,故任務(wù)的定價決定執(zhí)行情況,執(zhí)行情況對定價無影響。根據(jù)已知數(shù)據(jù),可對任務(wù)的位置進行聚類分析,從任務(wù)與中心點間的距離及任務(wù)的位置等任務(wù)定價影響因素探究定價規(guī)律,然后根據(jù)計算得出各任務(wù)區(qū)中的會員數(shù)量,與各任務(wù)區(qū)中的價格進行比較,分析定價規(guī)律[5]。
若將n個樣品分成k類,則先選擇所有樣品中距離最遠(yuǎn)的兩個樣品xi1、xi2為聚點,使得
d(xi1,xj2)=di1j2=max{dij}。
(1)
然后選擇第3個聚點xi3,使得xi3與前兩個聚點的距離最小者等于所有其余的與xi1、xi2的較小距離中最大的,即
min{d(xi3,xir),r=1,2}=max{min{d(xj,xir),r=1,2},j≠i1,i2}。
(2)
最后按相同的原則選取xik,重復(fù)前面的步驟,直至確定k個聚點xi1,xi2,…,xik。
k-means均值聚類的步驟(樣品之間的距離采用歐氏距離)如下:
設(shè)第k個初始聚點的集合是
(3)
記
(4)
于是,將樣品分成不相交的k類,得到一個初始分類
(5)
從初始類G(0)開始計算新的聚點集合L(1),計算
(6)
(7)
從L(1)開始再進行分類,記
(8)
得到一個新的類
(9)
重復(fù)上述步驟m次,得
(10)
(11)
與
(12)
相同,則結(jié)束計算。
變量x與變量y間的相關(guān)系數(shù)
(13)
圖1 任務(wù)結(jié)束地區(qū)位置聚類圖Fig. 1 Map of completed task location cluster
運用MATLAB軟件編程,得到已結(jié)束任務(wù)經(jīng)度緯度的位置聚類圖如圖1。
為了研究任務(wù)點位置對定價的影響,利用已結(jié)束任務(wù)位置聚成4類的結(jié)果,運用EXCEL篩選,分別計算佛山市、深圳市、廣州市和東莞市任務(wù)定價的均值及其區(qū)域內(nèi)會員數(shù)量。結(jié)果見表1。
以4個聚類中心的位置作為定點,分別計算4個區(qū)各任務(wù)點到其中心的距離(單位:m),分析任務(wù)價格與任務(wù)距離之間的相關(guān)關(guān)系,結(jié)果見表1。
表1 各地區(qū)任務(wù)價格和距離的相關(guān)系數(shù)、任務(wù)均價和會員數(shù)量Tab. 1 Correlation coefficient of task price and distance,mean task price and number of members by region
從表1可以看出各地區(qū)的任務(wù)價格和任務(wù)距離存在一定的相關(guān)關(guān)系,并且是正的相關(guān)關(guān)系。也就是說各任務(wù)的定價和距離有關(guān),任務(wù)點到聚類中心的距離越大,則任務(wù)的定價越高。
由表1求出各地區(qū)任務(wù)定價的均值與會員數(shù)量間的相關(guān)系數(shù)為-0.995 7,表明這兩者顯著相關(guān),且地區(qū)的會員數(shù)量越多,其任務(wù)定價越低。
圖2 未完成任務(wù)位置聚類圖Fig. 2 Location clustering of unfinished tasks
3.1.1 研究思路
對于任務(wù)未完成的原因,可以先利用MATLAB對未完成任務(wù)位置進行可視化處理,得出位置的分布特征,再進一步分析造成這種分布可能的原因,然后可以從區(qū)域內(nèi)會員數(shù)量和任務(wù)價格等方面探究這些因素是否會影響任務(wù)完成情況[7-9]。
3.1.2 研究結(jié)果
根據(jù)散點圖可知未完成情況有明顯聚集現(xiàn)象,運用MATLAB繪出了未完成任務(wù)位置的聚類圖,結(jié)果如圖2所示。
圖2中聚類中心的位置坐標(biāo)分別是(22.64°N,114.03°E)和(23.12°N,113.25°E),在地圖上確定分別是深圳市龍華區(qū)和廣州市越秀區(qū)。由于這兩個地區(qū)內(nèi)會員數(shù)量較大,經(jīng)濟也發(fā)達,所以不存在會員不夠而任務(wù)過多的情況。綜合考慮各種影響因素,認(rèn)為價格的高低直接影響任務(wù)完成情況,并且價格越高,任務(wù)完成情況越好,反之,則越差。為此,利用EXCEL軟件,計算每個價格的任務(wù)完成率。
在統(tǒng)計學(xué)中,樣本數(shù)量在30以下的是小樣本, 30以上的是大樣本。小樣本由于樣本數(shù)量過少,不具有代表性,所以剔除了個別小樣本數(shù)據(jù),保留任務(wù)完成數(shù)在30以上的樣本。各價格下任務(wù)完成情況的統(tǒng)計結(jié)果如表2所示。
表2 各價格下任務(wù)完成情況Tab.2 Tasks completed by price
價格和完成率的相關(guān)系數(shù)高達0.683,存在明顯的正相關(guān)關(guān)系,擬合方程為y=-0.027x5+9.611x4-1 356x3+95 713x2-3×106x+7×107。擬合曲線見圖3。
圖3 各價格下任務(wù)完成情況的擬合曲線Fig. 3 Curve of tasks completed by price
圖3中的曲線擬合的可決系數(shù)為0.8544,表明擬合程度較高。由點的分布規(guī)律可知定價低的任務(wù)完成情況明顯比定價高的任務(wù)完成情況差,所以價格的高低能直接影響任務(wù)的完成情況。而任務(wù)的定價和完成率不存在明顯的線性關(guān)系,可能是因為完成任務(wù)的難易程度不一樣,包括交通的便利性、完成成本等方面因素,難度大的任務(wù),定價再高也必然存在不能完成的現(xiàn)象。
3.2.1 研究思路
首先,對已知任務(wù)的完成情況進行篩選,得出已完成任務(wù)與未完成任務(wù)各自的分布情況;然后對價格進行排序,得到已完成任務(wù)與未完成任務(wù)的價格走向,已完成任務(wù)的價格曲線即為任務(wù)定價模型;最后由模型計算出未完成任務(wù)的新價格,再與原方案的未完成任務(wù)的價格進行比較得出結(jié)論。
3.2.2 研究方法——最小二乘法
由給定的一組測定的離散數(shù)據(jù)(xi,yi)(i=1,2,…,N),求自變量x和因變量y的近似表達式y(tǒng)=φ(x)的方法稱為數(shù)據(jù)擬合,φ(x)稱為擬合函數(shù)。記擬合函數(shù)在xi點的偏差為δi=φ(xi)-yi(i=1,2,…,N),那么選取φ(x)使所有偏差的平方和最小,即
(14)
這一確定擬合函數(shù)的方法稱為最小二乘法[10]。
3.2.3 研究結(jié)果
由之前的分析得知已完成任務(wù)總數(shù)為522個。4個地區(qū)未完成任務(wù)的總和為313個,其中252個分布在廣州市和深圳市,因此主要針對廣州、深圳兩市的情況進行分析。
在深圳和廣州兩市,未完成任務(wù)為252個,已完成任務(wù)為229個,對兩部分任務(wù)的價格進行升序排列,擬合曲線方程為
y=1.6×10-6x3-1.4×10-4x2+1.2×10-2x+65,
(15)
擬合曲線如圖4。
可以算出可決系數(shù):
(16)
由可決系數(shù)來看擬合的效果比較理想。
由于已完成任務(wù)的價格視為不變,因此可以不用考慮重新調(diào)整它們的價格。經(jīng)計算,已完成任務(wù)價格均值為69.89元,未完成任務(wù)均值為67.93元,因此可以初步判斷未完成任務(wù)價格偏低。若要改進價格方案,則需適當(dāng)提高其價格。
從圖4中可以看出,在后半部分已完成任務(wù)的價格要高于未完成任務(wù),而已完成任務(wù)價格不需調(diào)整。因此,以已完成任務(wù)價格為標(biāo)準(zhǔn),將擬合曲線方程(15)作為新方案,計算出未完成任務(wù)的適當(dāng)價格,將新方案計算出的價格和原方案的價格進行了比較,對比結(jié)果見圖5所示。其中現(xiàn)方案代表計算給出的任務(wù)價格。
圖4 任務(wù)價格曲線圖Fig.4 Task price curve
圖5 兩種方案價格對比圖Fig.5 Two pricing options compared
由此,可以看出現(xiàn)方案的價格相較于原方案的價格有了一定程度的提高,其原因在于任務(wù)價格的提高對于會員完成任務(wù)的積極性起了很大作用,所以當(dāng)價格上升,會員完成任務(wù)的情況也會提高。
同時,該任務(wù)價格的均值為69.10元,相較于原來的67.93元有適當(dāng)提高,因此推斷,在此種方案下,任務(wù)的完成比例將會增加。
針對“拍照賺錢”項目的任務(wù)定價,基于K-means均值聚類算法分析區(qū)域內(nèi)會員數(shù)量、任務(wù)點距離、任務(wù)定價與任務(wù)完成情況之間的相關(guān)性。結(jié)果表明:區(qū)域內(nèi)會員數(shù)量一定時,完成任務(wù)的距離越遠(yuǎn),任務(wù)定價越高;完成任務(wù)的距離一定時,區(qū)域內(nèi)會員數(shù)量越小,任務(wù)定價越高;在區(qū)域內(nèi)會員數(shù)量足夠大的前提下,任務(wù)定價越高任務(wù)完成度越高?;诖诉M一步深入分析未完成任務(wù),利用最小二乘法擬合出新的定價模型。計算過程中綜合利用了MATLAB和EXCEL軟件,使計算更加簡便準(zhǔn)確。K-means均值聚類算法不僅可以解決眾包服務(wù)定價問題,而且在商業(yè)、生物、保險行業(yè)等諸多領(lǐng)域都有廣泛的運用,具有一定推廣意義。