王圣鳴 楊文國 陳燕 劉東陽
摘 要:“拍照賺錢”本質(zhì)上是一種新興的基于移動互聯(lián)網(wǎng)的自助式勞務(wù)眾包模式。本文選取計算任務(wù)點與最近會員的距離、周圍會員數(shù)、任務(wù)聚集程度等指標(biāo),并通過多元逐步回歸,得出定價與上述因素的關(guān)系,進而通過Logistic回歸,得出任務(wù)完成情況和各指標(biāo)的關(guān)系模型;再用層次分析法對建立的各項指標(biāo)建立3個判斷矩陣和3個對應(yīng)的定價模型,并以提高任務(wù)完成概率、降低平臺出價總和為依據(jù),最終采用的打包方案是按編號順序,確定一個任務(wù)位置的圓心和半徑,將圓內(nèi)出現(xiàn)的各任務(wù),視為一個打包發(fā)布,以包內(nèi)所有坐標(biāo)的均值表示其經(jīng)緯度坐標(biāo)。
關(guān)鍵詞:逐步回歸 Logistic回歸 層次分析法 功效系數(shù)法
中圖分類號:F71 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2018)06(a)-0244-05
“拍照賺錢”是移動互聯(lián)網(wǎng)下的一種自助式服務(wù)模式,實際上是一種新興的基于移動互聯(lián)網(wǎng)的自助式勞務(wù)眾包模式,它能夠為企業(yè)提供各種商業(yè)檢查和信息搜集,且相比傳統(tǒng)的市場調(diào)查方式可以大大節(jié)省調(diào)查成本,并有效地保證了調(diào)查數(shù)據(jù)的真實性,縮短調(diào)查的周期。因此APP成為該平臺運行的核心,而APP中的任務(wù)定價又是其核心要素。如果定價不合理,有的任務(wù)就會無人問津,而導(dǎo)致商品檢查的失敗。本文主要解決定價機制問題。
1 模型的假設(shè)及符號的使用
1.1 模型的假設(shè)(本論文基于2017年全國大學(xué)生數(shù)學(xué)建模B題而作,附件是B題所連帶的。)
假設(shè)附件二中,會員的經(jīng)緯度信息是附件一中任務(wù)發(fā)布時刻的經(jīng)緯度。
假設(shè)附件三中,任務(wù)發(fā)布時會員的經(jīng)緯度等信息不發(fā)生改變,和附件二相同。
假設(shè)交通、天氣等環(huán)境因素和社交因素對會員選擇任務(wù)干擾性很小,可以忽略。
假設(shè)每個會員拍照任務(wù)的復(fù)雜程度相同。
1.2 符號的使用及說明
為處理問題方便,將文中常用量設(shè)置符號如表1所示。
2 模型的準(zhǔn)備
根據(jù)Google地圖提供的公式模型,通過兩地經(jīng)緯度來確定其直線距離,見公式(1):
⑴
其中,、表示第一、二個點的緯度,、表示第一、二個點的經(jīng)度,6378.137表示地球半徑(單位:km)。下文涉及到求兩點距離的,均使用該公式,其誤差不超過0.2m,滿足本題的要求。
3 問題的求解
為處理問題方便,將文中常用量設(shè)置符號如表1所示。
3.1 問題1
任務(wù)的定價是一個系統(tǒng)性的問題,單純研究附件一中任務(wù)的地理位置過于簡單,利用附件一、二提供的信息,找出以下相關(guān)關(guān)系:任務(wù)點與距離其最近會員之間的距離、任務(wù)的聚集程度、周圍會員數(shù)、任務(wù)點周圍會員的信譽均值。再從這些因素中,分析研究定價規(guī)律。
3.1.1 周圍會員數(shù)的計算
首先定義周圍人數(shù):對每個會員而言,都有距離其最近的一個任務(wù)地點可選擇,每當(dāng)一個任務(wù)點成為一個會員最近的任務(wù)點,該任務(wù)點附近的會員數(shù)就累加1,直到該任務(wù)點對任何會員都不是最近任務(wù)點為止,最終累加形成的值即周圍會員人數(shù),見公式⑵。
, (2)
且當(dāng)時,;當(dāng)時,,其中:表示第個任務(wù)點到第個會員的距離,表示會員到所有任務(wù)點的最短距離。
3.1.2 任務(wù)點與距其距離最近的會員之間的距離
表示第個任務(wù)到第個會員的直線距。表示附件一給出的各任務(wù)點的任務(wù)號碼,在[1,835]中取整;表示附件二給出的各個會員的會員號碼,在[1,1877]中取整;求解第個任務(wù)點與距離其最近的會員之間的距離, 并將結(jié)果存在835行1列的矩陣中,公式表示見公式⑶(其中:且):
,
(3)
3.1.3 任務(wù)聚集程度
發(fā)布的任務(wù)集中或分散,當(dāng)某任務(wù)與其他任務(wù)較分散時,說明其位置偏僻,此時定價,若和任務(wù)相對聚集處任務(wù)的價格相似,就可能很難吸引會員前來完成。因而,以任務(wù)聚集程度來表示任務(wù)的這種空間分布特征。
原理:選定一個任務(wù)作為原點,劃定一個距離(單位:km)作為半徑,計算周邊其他任務(wù)的個數(shù),見公⑷。
, (4)
且當(dāng)時,;當(dāng)時,,其中表示第個任務(wù)點到第個任務(wù)點的直線距離。
顯然的取值會嚴(yán)重影響每個任務(wù)點對應(yīng)該值的大小,因而在后續(xù)編程計算時,我們會多次取值。為更好地理解該變量,我們令,其中表示人的行動速度,單位為。通過對進行不同的取值,可以得到不同的半徑范圍。事實上,人的行動速度不可能過快,根據(jù)資料,我們將的范圍限定為,即V8到V23。
3.1.4 周邊會員信譽度
根據(jù)會員人群在任務(wù)的周邊密集程度,對每個任務(wù)點同所有會員的坐標(biāo)進行匹配,利用距離公式,以同一任務(wù)為中心,利用sort()函數(shù)對所有會員進行距離升序處理,將最近、次近等會員歸類,求出會員的信譽度均值。在進行后續(xù)步驟前,我們還分別計算了周邊5~20個會員的信譽度均值,即均5~均20。
3.1.5 建立多元線性的逐步回歸模型并發(fā)現(xiàn)定價規(guī)律
在本題中, 我們希望從對因變量y有影響的諸多變量中,選擇全部或者一部分變量作為自變量, 應(yīng)用多元回歸分析的方法建立“最優(yōu)”回歸方程,以便預(yù)報或控制因變量。
在研究定價規(guī)律的這部分中,因變量即任務(wù)標(biāo)價,可能影響定價的因素即前文提及的四個主要因素和不同取值(包括v不同取值下的任務(wù)聚集程度等)。通過Spss軟件可以很快得出系數(shù)并進行檢驗,結(jié)果見表2。
四個指標(biāo)都通過了檢驗,由此得到附件一中定價規(guī)律適用的逐步回歸模型:
3.1.6 通過Logistic逐步回歸探究影響任務(wù)完成情況的因素
本題中的任務(wù)完成度為最典型的0-1二值因變量,可運用Logistic回歸模型,以附件一中任務(wù)完成度為因變量,4個指標(biāo)和實際標(biāo)價為解釋變量。因為四個特征值經(jīng)過逐步回歸處理過,Logistic回歸時也應(yīng)進行逐步處理。通過Spss軟件得出結(jié)果見表3。
⑴在步驟1中輸入的變量:周圍人數(shù);⑵在步驟2中輸入的變量: 任務(wù)標(biāo)價,得到Logistic回歸模型:
通過上述式子,不難發(fā)現(xiàn)任務(wù)完成情況與5個解釋變量中的周圍會員數(shù)成負(fù)相關(guān),與價格成正相關(guān)。將附件一中完成度為1、0的數(shù)據(jù)分為兩組觀察結(jié)果,見表4。
表4中的數(shù)據(jù)大小差異與Logistic模型中解釋變量的系數(shù)正負(fù)相關(guān)一致,可以用于分析任務(wù)未完成的原因:(1)未完成的任務(wù)其定價較低;(2)未完成的任務(wù)其周圍的會員數(shù)較多;(3)可能會存在一些特殊情況,產(chǎn)生隨機誤差。
3.2 問題2定價模型的建立及比較
3.2.1 運用層次分析法建立定價模型
根據(jù)問題1的結(jié)果可以看到,從會員的角度來說,在任務(wù)發(fā)布后,該任務(wù)最終完成與否,只和該任務(wù)的定價及該任務(wù)地點周邊人數(shù)有關(guān)。任務(wù)周邊人數(shù)是隨著任務(wù)發(fā)布,由周邊會員地理信息位置直接決定的,定價則和商家的定價模型如何有關(guān)。因而定價的模型對任務(wù)完成與否有著重要影響,由此對已有的定價模型進行改進。
已有的模型實際上已經(jīng)考慮到了前文的4個因素,我們通過層次分析法及其判斷矩陣,分別給四個因素賦予權(quán)重,通過∑權(quán)重·權(quán)數(shù)給定價格,并選出滿足“任務(wù)完成概率提高,且給出價格之和降低”的方案。根據(jù)前文,確立定價體系,見圖1。
構(gòu)造判斷矩陣,構(gòu)建矩陣時首先要明確兩個指標(biāo)相比,誰比誰重要,由問題一的結(jié)論分析定下以下原則:周圍會員數(shù)和任務(wù)聚集程度同等重要且程度最高,最小距離的重要程度稍次,周邊會員的信譽度均值最次。由此可以構(gòu)建3個判斷矩陣,如下所示:
通過運算后的結(jié)果見表5。
3.2.2 使用功效系數(shù)法對數(shù)據(jù)進行標(biāo)準(zhǔn)化
每個任務(wù)發(fā)布后,求出來的四個參數(shù)值的大小差異可能非常巨大,因此通過使用功效系數(shù)法,對每一個數(shù)據(jù)進都進行標(biāo)準(zhǔn)化,結(jié)果如下:
其中分別表示指標(biāo)的最大值和最小值,此時取值范圍是[0,1],表示附件一中第個任務(wù)的標(biāo)價。
3.2.3 定價模型的確立
將各個標(biāo)準(zhǔn)化后的指標(biāo)值與其權(quán)重相乘求和,可以得出定價模型:
其中為指標(biāo)的編號,取1,2,3,4依次表示周邊會員數(shù)、最小距離、任務(wù)聚集程度、周邊會員信譽度。
3.2.4 與原方案進行比較
由問題1得到完成情況的Logistic回歸模型:
Logistic回歸實質(zhì)為發(fā)生概率除以沒有發(fā)生概率再取對數(shù),可以將其進行l(wèi)ogit轉(zhuǎn)換:
,
得到第件任務(wù)完成的概率如上。
一般,以50%為界限,當(dāng)>50%,判斷此時的任務(wù)完成情況更可能為1,用>50%的任務(wù)個數(shù)占總?cè)蝿?wù)數(shù)比來表示不同定價方式下的任務(wù)完成情況,即有百分之多少的任務(wù)被完成的可能性在50%以上。某個定價方案被確定后,如果在此方案下,總的定價和小于附件一給出的定價總和,且任務(wù)完成概率高于附件一的完成度,則說明此方案優(yōu)于原方案,其具體情況見表6。
由表6結(jié)果發(fā)現(xiàn)矩陣下的定價方式>50%的任務(wù)數(shù)占比最高,且它的總定價最低,選取由矩陣構(gòu)造的權(quán)重所組成的定價模型,新的定價方式為:
3.3 問題3的求解
圖2中十字星即表示任務(wù),每個圈都是以一個任務(wù)為中心,根據(jù)標(biāo)準(zhǔn)劃分打包,一個圈里的任務(wù)群即最后打包成的一個任務(wù)。該思路以貪心算法為思路,每次選取此任務(wù)周圍最符合距離限制條件的任務(wù)進行打包。
注:有一個及以上表示此包內(nèi)除選定的圓心點外,還有一個及以上的其他點,其他依此類推。
根據(jù)上述表7的數(shù)據(jù)分析可知,由不同的任務(wù)作為起始點、按照不同順序?qū)θ蝿?wù)進行依次分析對最后的結(jié)果雖有差距,但對得出的幾組未參與打包任務(wù)進行排序:723 689 681 656 655,其平均差值為17,平均數(shù)為680.8,出錯率為2.497%,在可接受范圍,則表明選取起始任務(wù)點與依次參與任務(wù)的順序?qū)ψ詈蟮慕Y(jié)果無太大影響,可以忽視。最終我們選取按序號升序作為打包標(biāo)準(zhǔn)。
當(dāng)某幾個任務(wù)被打包發(fā)布時,原則上就將這幾個任務(wù)看成是一個任務(wù),此時根據(jù)原有的這幾個任務(wù)的經(jīng)緯度,轉(zhuǎn)換為一個新的經(jīng)緯度,以此表示這個被打包發(fā)布的任務(wù)的經(jīng)緯度。轉(zhuǎn)換方法如下:
其中,表示第i組被打包發(fā)布任務(wù)的緯度和經(jīng)度,表示第組中第個任務(wù)的緯度和經(jīng)度,表示第組被打包的發(fā)布任務(wù)中包含的任務(wù)個數(shù)。
根據(jù)上述打包方法,并對每組的經(jīng)緯度用上面的方法重新計算,可以得到一組新的任務(wù)排列,當(dāng)定價通過定價模型確定后,再利用的logit轉(zhuǎn)化值,求出任務(wù)完成情況的概率,問題即得解見表8。
由表8結(jié)果發(fā)現(xiàn)矩陣下的定價方式>50%的任務(wù)數(shù)占比最高,且它的總定價最低,選取由矩陣構(gòu)造的權(quán)重所組成的定價模型,新的定價方式為:
最終完成情況為,97.09%的任務(wù)被完成的可能性在50%以上,優(yōu)于第二問中的定價方案和原始定價方案。
3.4 問題4的求解
通過問題3的分析,可以發(fā)現(xiàn)將任務(wù)打包發(fā)布能夠明顯提高任務(wù)的完成情況。因此,將附件三中的任務(wù)也進行打包處理,其打包方法同問題3。
根據(jù)問題三打包方法,并對每組的經(jīng)緯度用上面的方法重新計算,可以得到一組新的任務(wù)排列,當(dāng)定價通過定價模型確定后,再利用的logit轉(zhuǎn)化值,求出任務(wù)完成情況的概率,問題即得解見表9。
由表9結(jié)果發(fā)現(xiàn)矩陣下的定價方式>50%的任務(wù)數(shù)占比最高,且它的總定價最低,選取由 矩陣構(gòu)造的權(quán)重所組成的定價模型,新的定價方式為:
實施效果:
(1)此方案明顯提高任務(wù)的完成情況,所有的任務(wù)都有50%以上的可能性被完成。
(2)此方案價格控制的較為合理,在三個指標(biāo)體系中價格最低。
4 模型的驗證
在問題1中得到定價規(guī)律模型后,代入每個任務(wù)的、、、值,可以反向計算出附件一中每個任務(wù)的理論定價,對理論定價和實際定價進行方差分析,得到結(jié)果見表10~表11。
P兩組數(shù)據(jù)無顯著差異,證明了問題1中的發(fā)現(xiàn)定價規(guī)律符合實際情況。
5 模型的改進
(1)利用“Google地球”,所有任務(wù)集中分布在廣州、東莞、佛山、深圳.在解決問題1時,可以在問題1中,我們將每個任務(wù)的經(jīng)緯度按城市分成四類。按每個城市的經(jīng)濟水平(如將四個城市2016年GDP總量,比值歸一化),設(shè)置一個新的參數(shù),重新進行定價關(guān)于五個因素的多元逐步回歸和完成情況、關(guān)于六個因素的Logistic回歸,得到新的定價規(guī)律。
(2)關(guān)于附件二中提到的預(yù)定任務(wù)限額和預(yù)定任務(wù)開始時間,考慮到這兩個因素都是由會員信譽值參考得出的,所以選擇影響定價和完成概率的四個指標(biāo)時,未納入預(yù)定任務(wù)限額和預(yù)定任務(wù)時間這兩個因素,僅考慮會員的信譽值。而實際情況中,不應(yīng)只簡單地考慮信譽值,任務(wù)限額和開始時間也應(yīng)進行分析。
參考文獻(xiàn)
[1] 劉震,吳廣.Spss統(tǒng)計分析和應(yīng)用[M].北京:中國中醫(yī)藥出版社,2016.
[2] 劉仁權(quán).Spss統(tǒng)計分析教程[M].北京:電子工業(yè)出版社, 2011.