張宇
摘要: 隨著移動互聯(lián)網(wǎng)技術的發(fā)展,像拍照賺錢等自助式勞務空間眾包平臺變得日益盛行。該文通過給出的拍照任務數(shù)據(jù),分析得到商品的任務定價規(guī)律,找出任務未完成的原因,再通過比較原標價方案,給項目設計出一個合理的任務標價方案。
Abstract: With the development of mobile Internet technology, self-service labor crowdsourcing platforms like photo-making earn money become more and more popular. Through the given camera task data, the article analyzes the task pricing rules of goods, finds out the reason of the task is not completed, and then designs a reasonable task price plan for the project by comparing the original price plan.
關鍵詞: 拍照賺錢;任務定價;多元線性回歸;聚類分析;0-1檢驗;二元Logistic回歸
Key words: take pictures to make money;task pricing;multiple linear regression;cluster analysis;0-1 test;binary Logistic regression
中圖分類號:F272.1;F224 文獻標識碼:A 文章編號:1006-4311(2018)19-0085-06
0 引言
“拍照賺錢”是當下使用互聯(lián)網(wǎng)來完成指定任務從而獲得酬勞的新興服務模式,同時帶給公司與客戶之間的合作新機遇。用戶對道路兩旁街景、店鋪,或是某種商品上架的拍攝,并且成功上傳圖片,就可獲得對任務所標定的傭金。用戶也可以承包某個區(qū)域,也就是說,這個區(qū)域的拍照任務聯(lián)合在一起拍攝,這樣也會得到已經標定的對應傭金。隨著互聯(lián)網(wǎng)的普及越來越大,用戶的創(chuàng)新創(chuàng)業(yè)熱情以及能力蘊藏著巨大能量和價值,勞務眾包平臺能大大降低調查成本,打破傳統(tǒng)企業(yè)創(chuàng)新來源的局限,在范圍內尋求各用戶創(chuàng)意支持,增加大眾的積極性,充分運用公眾的智慧,同時有效保證了拍照數(shù)據(jù)的真實性,縮短了拍照的調查周期。
APP對任務的合理標價以及拍照商品的位置和會員信息等是任務完成情況的重要要素。會員離拍攝商品距離遠,定價不合理等,都會導致拍攝任務完成情況不佳,而會員的地理位置、預定任務開始時間、預定限額、信譽值也對任務的完成情況有重要影響[1]。
“拍照賺錢”模式的發(fā)展合理有效的擴大了電商的營業(yè)范圍,逐漸形成了一個全新的“無形商品”電子商務運營模式。這種模式迅速的崛起,但是理論研究明顯落后于社會實踐要求導致這種眾包平臺在進一步的發(fā)展中明顯受阻[2,3],所以建立眾包平臺的出價是一種新興的服務標價模型,它的建立大大豐富了服務標價理論,具有十分強勁的理論實踐意義。
1 指標體系的構建
針對真實生活場景,根據(jù)深圳和廣州地區(qū)某一任務的任務及會員信息(任務信息包括:任務位置(GPS)、任務標價、任務執(zhí)行情況。會員信息包括:會員位置(GPS)、預訂任務限額、預訂任務開始時間、信譽值)探討影響“拍照賺錢”任務定價的因素,給出從區(qū)域位置問題、用戶收益問題、人力問題三個維度探討拍照任務定價因素。
1.1 潛在價格影響因素分析[4]
對眾包平臺軟件任務進行分析,從區(qū)域位置問題、收益問題、人力問題三個維度提出5個可能影響軟件眾包價格因素的潛在因素。各個因素的度量方法及統(tǒng)計描述屬性如圖1所示。
1.2 聚類分析
對樣品和指標(變量)進行分類主要采用聚類分析法,而求取樣品以及類之間的距離有多種方法,其中主要使用歐式距離和最短距離法。
1.2.1 數(shù)據(jù)標準化
由于所選數(shù)據(jù)的量綱和數(shù)值大小都不一致,數(shù)值的變化范圍也不同,因此必須首先對所選數(shù)據(jù)進行標準化處理,如果有n個樣本,n個樣本有m個指標,且每個變量可表示為xij,均值為
1.2.2 聚類
距離:對樣品進行聚類時,“靠近”往往由某種距離來刻畫。若每個樣品有p個指標,故每個樣品可以看成p維空間中的一個點, n個樣品就組成p維空間中的n個點,樣品與指標構成一個矩陣,此時就可以用距離來度量樣品之間的接近程度。
令xij表示第i個樣品的第j個指標, dij表示第i個樣品與第j個樣品之間的距離,最常見最直觀的計算距離的方法是:
當各變量的測量值相差懸殊時,為了計算的準確性,需先將數(shù)據(jù)標準化,然后用標準化后的數(shù)據(jù)進行計算。
根據(jù)K-means聚類,對會員的位置信息(GPS)進行聚類,得到6個聚類中心的位置以及6個類別的會員數(shù)量及位置,如表1。
1.3 相關性分析
相關分析是描述兩個變量間關系的密切程度,主要由相關系數(shù)值表示,當相關系數(shù)r的絕對值越接近于1,則表示兩個變量間的相關性越顯著。雙變量系數(shù)測量的主要指標有卡方類測量、Spearman相關系數(shù)、Pearson相關系數(shù)等,由于項目任務的經緯度數(shù)據(jù)為定距數(shù)據(jù),則在進行兩者間的相關性檢驗時用其中t統(tǒng)計量服從n-2個自由度的t分布。
軟件眾包任務標價與各潛在因素之間的Pearson相關性分析計算結果詳見表2。在0.05的顯著性水平下,與軟件眾包任務標價顯著相關的因素包括:任務距用戶距離x1、用戶密度x2、用戶平均信譽值x3、任務之間距離x4。
1.4 多元線性回歸模型
多元回歸分析是研究多個變量之間關系的回歸分析方法,確定變量之間數(shù)量的可能形式,并用數(shù)學模型表示如下:
式中b0為截據(jù);b1,…,bk為偏回歸系數(shù);?著為殘差;
其中多元模型的矩陣表達式:
根據(jù)R方值的大小,可判斷出多元線性回歸方程的契合度,觀察模型后退5次得到R方值與標準估計的誤差,R2=0.715,可知方程的吻合性較高。
考慮到與軟件眾包標價顯著相關的因素間有可能出現(xiàn)彼此相關,即因素間不獨立的情況,如果直接使用這些因素建立多元回歸模型,模型中將出現(xiàn)多重共線性,造成回歸結果混亂。為了消除多重共線性對分析結果的干擾,我們采用具有最優(yōu)變量篩選效果的逐步回歸方法建立分析模型,不停地增加變量并考慮剔除之前的變量的可能性,直至增加變量已經不能導致模型的殘差平方和顯著減少(F統(tǒng)計量檢驗不通過)或增加任一變量,該變量對標價的影響均不顯著(t統(tǒng)計量檢驗不通過)。逐步回歸不僅使模型變得簡單,還使自變量對因變量的影響清晰地展現(xiàn)出來,結果更可信,也更容易解釋。使用逐步回歸方法建立軟件眾包標價分析模型的過程中自變量逐個引入,邊引入邊檢查有沒有可能剔除某個變量。
建立模型,要對模型進行擬合度檢驗,回歸方程的顯著性檢驗就是檢驗樣本回歸方程的變量的線性關系是否顯著,即能否根據(jù)樣本來推斷總體回歸方程中的多個回歸系數(shù)中至少有一個不等于0,主要是說明樣本回歸方程R2的顯著性。檢驗的方法用方差分析,這時因變量Y的總體變異系本分解為回歸平方和與誤差平方和,即表示為:
根據(jù)相關性的分析,任務標價與任務距用戶距離、用戶密度、用戶平均信譽值、任務之間距離中相關性較大的幾項,用SPSS分析多元線性回歸,得出線性關系的擬合方程。
根據(jù)表4中R方值的大小,可判斷出多元線性回歸方程的契合度,觀察模型后退4次得到R方值與標準估計的誤差,R2=0.604,可知方程的吻合性較高。最后由表5得到任務標價與任務距用戶距離、用戶密度、用戶平均信譽值、任務之間距離的回歸方程為:
對m個任務價格的實際值和預測值比較后,得出β值,則認為在置信水平β下,任務的實際價格與預測價格不存在顯著性差異。
分析表5的結果,可以知道,對于未完成的任務來說,313個評分檢驗中,有78.6%的評價結果中,預測價格高于實際價格(置信水平為95%),說明實際價格偏低,導致任務未完成。這樣的結果,符合之前實際情況,說明模型可行性較強。
1.6 未完成原因的分析
根據(jù)模型以及圖2的分析,任務未完成主要是由于:①對比任務完成點距離用戶與未完成點的距離,可以得到未完成任務點距用戶的距離較已完成點偏遠,可能是由于用戶往往不太愿意前往距離遠的地區(qū);②用戶密度高的區(qū)域相比低密度區(qū)域任務完成情況較好,大多因為同一個任務點被多個用戶共同預定,大大提高了該點任務的完成度;③用戶信譽值較高的區(qū)域任務完成度普遍較好,良好的用戶信譽值保障了該點的任務即使被用戶接單而不違約,則任務完成情況有所提高;④任務之間距離過大的區(qū)域相比任務間距密集區(qū)的用戶接單情況鮮有問津,故完成度不高,往往是用戶會因為完成其中一點任務而難以繼續(xù)完成另一點任務,或者是兩點任務都難以完成,最終放棄這兩點的任務,棄單也會導致任務未完成。同時,不同地區(qū)的GDP值,地區(qū)之間的地形差異,交通發(fā)達情況,高程情況都有可能導致任務未完成。
2 優(yōu)化定價模型
2.1 選取影響因素的原則
完備性、客觀及可操作性原則。影響因素體系作為一個完整體系,可以從不同的方面反映任務定價不同,也可以反映整個任務定價的實時變化,保證回歸結果的客觀準確性,體現(xiàn)不同影響因素對APP拍照賺錢任務定價的影響。影響因素體系的建立需要保證在實際的運用中能夠體現(xiàn)其價值所在,所以選取每個因素都必須具有可操作性,從而使得整個影響因素體系簡明,易操作有實際應用功能。
映射原則。有時評價任務定價的某個目標時,很難找到直接反映該問題的指標,這時我們可以從目標實現(xiàn)所需要的某些現(xiàn)象進行相關的映射提煉,即哪些現(xiàn)象可以反映我們所需的目標的變化情況。
2.2 選取過程
影響因素的選取是一個抽象具體事物和反復錘煉的邏輯思維判斷過程。在尋求新的任務定價時,任務和會員地理位置、會員信息、實際地域的交通、經濟、地形差異等都會影響到對任務的定價影響,這就需要我們對復雜的指標進行精確的篩選。
根據(jù)指標的選取原則,構建的影響因素體系如圖3所示。
根據(jù)圖3,我們可以看出,為了構建合理實際的任務定價因素體系,我們選取了八個影響因素,分別為:任務距用戶距離,單位區(qū)域用戶密度,用戶平均信譽值,任務之間相隔距離,區(qū)域的GDP總值,任務點附近的城市道路網(wǎng)密度,會員搶單時間,任務點附近的用戶限額總量。
2.3 相關性分析
雙變量系數(shù)主要測量指標有很多,Pearson相關數(shù)據(jù)適用于聯(lián)合分布為二維正態(tài)分布的兩個隨機變量,Spearman相關系數(shù)對變量分布沒有要求。項目任務的各個數(shù)據(jù)的潛在因素與參與度的聯(lián)合分布不一定滿足正態(tài)分布,因此檢驗時使用Spearman相關系數(shù)度量各潛在因素與參與度之間的相關性。Spearman相關系數(shù)計算時需先對數(shù)據(jù)排秩,其計算公式為:
其中t檢驗服從自由度為n-2的t分布??紤]到與軟件眾包標價顯著相關的因素間有可能。
2.4 影響因素的分析處理
2.4.1 定性分析
定性分析,是指依據(jù)現(xiàn)實驗和主、客觀分析方法,對于某種事物的本質屬性、發(fā)展趨勢或多種事物之間的相關關系給予直觀、概括性表述的一種分析方法。結合問題一,八個因素對任務定價都有一定影響。任務距用戶距離越近,用戶越有可能接單;單位區(qū)域用戶密度高,則接單的用戶也會增多;較高的會員信譽值大大保證了接單用戶會及時完成接單任務;任務之間相隔距離遠會降低用戶接單興致,可能使得任務流單;區(qū)域的GDP總值可以間接表明該區(qū)域中的用戶數(shù)量,用戶接單執(zhí)行情況等信息;任務點附近的城市道路網(wǎng)密度越大,該區(qū)域用戶接單并完成越方便,可以加強該區(qū)域用戶的接單率;會員較早的搶單,則會更早的選擇較有利的任務位置,將接單情況將更好;任務點附近的用戶限額如果偏低,將抑制該區(qū)域任務接單并完成水平,說明較高的用戶限額是有利的。
2.4.2 定量分析
①區(qū)域的GDP總值。把各個任務點的地理位置導入google地圖,利用智能交互軟件定位出每個位置所屬于的城市及區(qū)域,采集題中所給任務點經緯度數(shù)據(jù),全都對應落在了廣東省深圳市的南山區(qū)、寶安區(qū)、鹽田區(qū)、福田區(qū)、羅湖區(qū)、龍崗區(qū),和廣東省廣州市天河區(qū)、增城區(qū)、黃埔區(qū)、蘿崗區(qū)、番禺區(qū)、海珠區(qū)、白云區(qū)、荔灣區(qū)、南沙區(qū)、越秀區(qū)、花都區(qū)、從化區(qū),以及東莞市、佛山市、清遠市和惠州市之中。收集這些行政區(qū)域2016年的GDP總量數(shù)據(jù)資料[6,7],并對任務點的位置與GDP數(shù)據(jù)一一配對組合。
②任務點附近的城市道路網(wǎng)密度。是指任一任務點周圍一定面積下依道路網(wǎng)內的道路中心線長度與依道路網(wǎng)所服務的用地面積之比,利用Python編程,結合google智能交互軟件對每一任務點,及任務點周邊道路長度和用地面積的精確定位,任務標價低區(qū)對應著交通密集區(qū),把計算得出的每一個任務點道路網(wǎng)密度與該點位置一一匹配組合。
③會員搶單時間。定義為在一定區(qū)域范圍內所有會員訂單搶單時間的平均值與這個區(qū)域內任一一點的搶單時間的差值,先把所有搶單時間的單位轉化為“天”,利用Python分析計算得到每一任務點的會員搶單時間,再與該點經緯度位置一一組合。
④任務點附近的用戶限額總量。在一定區(qū)域范圍內所有會員訂單限額之和。
2.4.3 二元Logistic回歸模型
Logistic回歸屬于概率型非線性回歸,它是研究二分類觀察結果與一些影響因素之間關系的一種多變量分析方法。例如,在流行病學研究中,經常需要分析疾病與各危險因素之間的定量關系,為了正確說明關系,需要排除一些混雜因素的影響。對于線性回歸分析,由于應變量Y是一個二值變量(通常取值1或0),不滿足應用條件,尤其當各因素都處于低水平或高水平時,預測值Y值可能超出0~1范圍,出現(xiàn)不合理都現(xiàn)象。用Logistic回歸分析則可以較好的解決上述問題。Logistic回歸模型的基本形式如下:
因此,對因變量P按照ln(P/(1-P))的形式進行對數(shù)變換,可以將Logistic回歸問題轉化為線性回歸問題,在按照多元線性回歸的方法求解回歸參數(shù)。對于P取值只有0和1的情況,在實際中不是直接對P進行回歸,而是先定義一個單調連續(xù)的概率函數(shù)π:
然后只需要對原始數(shù)據(jù)進行合理的映射處理,就可以用線性回歸方法得到回歸系數(shù),最后再根據(jù)π和P的映射關系進行反映射得到P的值。
2.5 模型的求解
2.5.1 數(shù)據(jù)計算
根據(jù)公式任務點附近的城市道路網(wǎng)密度?籽=l/S
其中,L為路網(wǎng)內道路總長度;S為路網(wǎng)所服務的用地面積
其中,in為在一定區(qū)域范圍內某一個會員的訂單限額。
2.5.2 相關性分析
通過Matlab計算得到各個影響因素的值。軟件眾包任務標價與各潛在因素之間的Spearman相關性分析計算結果詳見表6。在0.05的顯著性水平下,與軟件眾包任務標價顯著相關的因素包括:任務距用戶距離x1、用戶密度x2、用戶平均信譽值x3、任務之間距離x4、區(qū)域的GDP總值x5、任務點附近的城市道路網(wǎng)密度x6、會員搶單時間x7、任務點附近的用戶限額總量x8。
從任務標價分析與任務限額總量因素的相關系分析,得出與搶單時間、路網(wǎng)密度、任務地區(qū)GDP相關性較為顯著,任務限額總量與任務標價的相關性r=0.056>0.05,所以任務限額總量與任務標價關系顯著性較差,將任務限額總量因素剔除。
根據(jù)表7中R方值的大小,可判斷出多元線性回歸方程的契合度,觀察模型后退4次得到R方值與標準估計的誤差,R2=0.537,可知方程的吻合性較高。結合問題一,最后得到任務標價與任務距用戶距離x1、用戶密度x2、用戶平均信譽值x3、任務之間距離x4、區(qū)域的GDP總值x5、任務點附近的城市道路網(wǎng)密度x6、會員搶單時間x7的回歸方程為:
2.5.3 Logistic回歸
先驗數(shù)據(jù)的處理:
首先將附件一中的任務完成情況作為歷史完成情況來分析,根據(jù)合理推斷,在任務點歷史情況中處于完成情況下,如果設計的新定價比任務歷史價格高,那么該點實際情況一定也是完成。同理,也可以推斷出,在歷史情況中任務處于未完成情況下,如果任務點的新定價比歷史價格低,那么該點實際情況一定也是未完成。根據(jù)這種推理,我們將新的定價方案價格和附件價格對比,根據(jù)附件數(shù)據(jù)的完成情況分析得到了404組先驗數(shù)據(jù)。接下來我們利用SPSS軟件以任務完成情況作為因變量、定價影響因素作為自變量建立二元Logistic回歸模型,根據(jù)404組先驗數(shù)據(jù),預測得到剩下的423組數(shù)據(jù),最后綜合先驗數(shù)據(jù)與預測數(shù)據(jù)發(fā)現(xiàn)新定價方案任務完成率(完成的任務個數(shù)占總任務個數(shù)的比例)相比原方案提升了6.47%。
根據(jù)模型與原方案的對比,新任務定價方案考慮了:增加區(qū)域的GDP總值因素,相比之前更加精確的表明了該區(qū)域中的用戶數(shù)量,用戶接單執(zhí)行情況等信息;如果任務點附近的城市道路網(wǎng)密度增大,則該區(qū)域用戶更容易接單,更想接單;會員越早搶單則會越早的選擇較有利的任務位置,搶單時間一個重要影響因素;任務點附近的用戶對預定任務的限額也會影響任務定價,說明較高的用戶限額量有利。
3 模型的推廣
移動互聯(lián)網(wǎng)的自助式勞務眾包平臺是目前基于“互聯(lián)網(wǎng)+”平臺的O2O(offlinc-to-online)經營模式,因此該平臺在市場上具有廣泛的應用前景。此定價模型可以廣泛應用于社會經濟的各個領域內,不僅適用于分析不同位置APP定價高低程度,還可推廣運用于出租車資源的“供求匹配”模型,以及國際油價行走趨勢研究等定價用戶需求關系的情況中。
參考文獻:
[1]劉曉鋼.眾包中任務發(fā)布者出價行為的影響因素研究[D].重慶大學,2012.
[2]高銘,王毅.眾包項目風險評估模型研究[J].管理現(xiàn)代化,2016(03):105-107.
[3]孫信昕.眾包環(huán)境下的任務分配技術研究[D].揚州大學,2016.
[4]安思錦,翟健.軟件眾包參與度影響因素分析及預測模型[J].計算機系統(tǒng)應用,2015(10):9-16.