宋彥秋,屈紹建 (上海理工大學(xué) 管理學(xué)院,上海200093)
在當(dāng)今社會(huì)中,眾籌已經(jīng)逐漸成為一種重要的籌資渠道,與傳統(tǒng)的籌資方式相比,眾籌具有募資成本低以及速度快的優(yōu)點(diǎn),故而眾籌也成為人們投資的一種熱門趨勢(shì)。全球最大的眾籌平臺(tái)Kickstarter 于2009年推出。在過(guò)去的9年中,該平臺(tái)上的眾籌總額的增長(zhǎng)速度有所下降。因此,研究人員應(yīng)重視眾籌產(chǎn)品的成功率,以促進(jìn)供應(yīng)鏈眾籌的發(fā)展。但是眾籌成功率卻呈現(xiàn)出逐年遞減的狀態(tài),對(duì)于這種狀況,要加強(qiáng)眾籌經(jīng)濟(jì)的管理。對(duì)于眾籌項(xiàng)目的成功與否,以及銷售階段是否可以獲得較高的利潤(rùn),許多研究學(xué)者也對(duì)相關(guān)的因素進(jìn)行了研究[1-2]。
近幾年,相關(guān)研究學(xué)者對(duì)眾籌經(jīng)濟(jì)管理做出了相關(guān)的研究:楊智斌[3]等人研究了影響眾籌項(xiàng)目成功的因素,得出了眾籌目標(biāo)的額度、關(guān)注數(shù)量、剩余的天數(shù)等因素對(duì)科技類產(chǎn)品眾籌的項(xiàng)目融資成功率有著顯著的影響。同時(shí)Stanislav[4]等人從傳統(tǒng)的風(fēng)險(xiǎn)融資研究中汲取教訓(xùn),股權(quán)眾籌中的市場(chǎng),執(zhí)行和代理風(fēng)險(xiǎn)也會(huì)影響眾籌的成功率。劉思成[5]等人分析得出了消費(fèi)者的參與行為對(duì)產(chǎn)品眾籌有著一定影響的結(jié)果。陳文文[6]分別從眾籌發(fā)起者和眾籌平臺(tái)兩個(gè)方面,提出相關(guān)建議來(lái)吸引更多支持者加入,提高產(chǎn)品眾籌的成功率。Wang[7]等人研究了評(píng)論和回復(fù)特征的影響,包括評(píng)論的數(shù)量,文本的長(zhǎng)度,評(píng)論中包含的情感以及回復(fù)的長(zhǎng)度和速度。推薦系統(tǒng)旨在為用戶推薦其可能感興趣的項(xiàng)目,個(gè)性化推薦系統(tǒng)(RS) 能有效地為用戶推薦感興趣的項(xiàng)目。王偉[8]等人考慮到了數(shù)據(jù)的極端稀疏性,采用二分圖的模型對(duì)眾籌產(chǎn)品進(jìn)行個(gè)性化推薦。同時(shí),隨著大數(shù)據(jù)的發(fā)展,當(dāng)今的社會(huì)正處于AI 突破性發(fā)展的時(shí)代。機(jī)器學(xué)習(xí)和人工智能也已成為越來(lái)越多的人討論的話題,甚至是學(xué)術(shù)界和企業(yè)界的熱門話題。范鑫鑫[9]也采用了機(jī)器學(xué)習(xí)的方法來(lái)解決項(xiàng)目推薦中的數(shù)據(jù)稀疏性和冷啟動(dòng)問(wèn)題,主要是依靠用戶的評(píng)分?jǐn)?shù)據(jù)來(lái)處理問(wèn)題。因此結(jié)合時(shí)代的發(fā)展和解決問(wèn)題的性質(zhì),本文采用機(jī)器學(xué)習(xí)的方法對(duì)支持者進(jìn)行眾籌產(chǎn)品的推薦,以此來(lái)提高眾籌產(chǎn)品的成功率,進(jìn)而提高發(fā)起者的利潤(rùn)以及促進(jìn)供應(yīng)鏈眾籌的發(fā)展。王偉[8]等人采用二分圖算法獲取用戶和項(xiàng)目的節(jié)點(diǎn),同時(shí)與協(xié)同過(guò)濾相結(jié)合進(jìn)而進(jìn)行相似度的眾籌項(xiàng)目推薦。同時(shí),機(jī)器學(xué)習(xí)和人工智能也已成為越來(lái)越多的人討論的話題,甚至是學(xué)術(shù)界和企業(yè)界的熱門話題。1994年,Agrawal 和Skrikant[10]提出了最有影響力的頻繁項(xiàng)集算法,用于挖掘布爾關(guān)聯(lián)規(guī)則—先驗(yàn)算法。劉萍[11]以消費(fèi)者的能力和動(dòng)機(jī)兩個(gè)方面對(duì)消費(fèi)者參與互聯(lián)網(wǎng)的眾籌行為進(jìn)行了研究,研究影響消費(fèi)者參與行為意愿的主要因素。
綜合考慮各種相關(guān)研究,我們考慮到不同的支持者會(huì)根據(jù)自己的選擇進(jìn)行項(xiàng)目的投資,可能根據(jù)自己的品味偏好,也可能根據(jù)眾籌項(xiàng)目對(duì)支持者的吸引程度,也就是對(duì)眾籌項(xiàng)目的支持者進(jìn)行推薦。而這種情況下我們是沒(méi)有辦法通過(guò)網(wǎng)絡(luò)平臺(tái)恒定支持者的特征屬性,因此也沒(méi)有辦法根據(jù)支持者的特征向量直接分類來(lái)進(jìn)行眾籌產(chǎn)品的推薦。本文主要從支持者的行為記錄上進(jìn)行分析。同時(shí)不同物品之間屬性的多樣性,我們沒(méi)有很好的辦法去選擇哪個(gè)特征向量作為分類的指標(biāo),從而在一定程度上使得分類的關(guān)聯(lián)程度較弱,所以本文采用Apriori 算法的基礎(chǔ)上進(jìn)行分類來(lái)優(yōu)化傳統(tǒng)的分類方法,能更好地為不同的支持者實(shí)現(xiàn)眾籌產(chǎn)品的推薦。
本文所提出的方法是Apriori 算法進(jìn)行分類的融合,1993年R.Agrawal 等人首先提出了在交易數(shù)據(jù)項(xiàng)目間挖掘出關(guān)聯(lián)規(guī)則的問(wèn)題,這對(duì)本文所要解決的眾籌產(chǎn)品的個(gè)性化推薦問(wèn)題提供了更為有效的方法。通過(guò)Apriori 算法會(huì)得到兩個(gè)評(píng)估指標(biāo):支持度(Suppor)t 和置信度(Confidence)。支持度就是指在所有眾籌項(xiàng)目中同時(shí)包含有支持者Rm和Rn的百分比。置信度是在一個(gè)眾籌項(xiàng)目中有Rm支持的基礎(chǔ)上,Rn也支持該項(xiàng)目所占的比例。反映了規(guī)則的把握程度。
利用Apriori 算法分析得到的置信度(Confidence) 來(lái)表示支持者之間的關(guān)聯(lián)強(qiáng)度Smn。在得出相似的支持者后,會(huì)對(duì)模型進(jìn)行測(cè)試,機(jī)器學(xué)習(xí)中最為常用的性能評(píng)估指標(biāo):準(zhǔn)確率(Accuracy),精確率(Precision)。其中涉及到一個(gè)混淆矩陣,包含:真正(True Positive):實(shí)際為“1”類,被正確預(yù)測(cè)為“1”類;真負(fù)(True Negative):實(shí)際為“0”類,被正確預(yù)測(cè)為“0”類;假正(False Positive):實(shí)際為“0”類,被錯(cuò)誤預(yù)測(cè)為“1”類;假負(fù)(False Negative):實(shí)際為“1”類,被錯(cuò)誤預(yù)測(cè)為“0”類。
召回率就是預(yù)測(cè)的結(jié)果中為“1”類的占樣本中為“1”類的百分比。即Recall= (TP )/ (TP+FN )。精確率就是在所有被預(yù)測(cè)為“1”類的樣本中,實(shí)際為“1”類的樣本的概率。它是針對(duì)預(yù)測(cè)結(jié)果來(lái)講的,即Precision=TP/ (TP+FP )。
本文將整個(gè)模型過(guò)程分為三個(gè)階段:
階段一:本文中,我們把項(xiàng)目類型定義為Ai,每個(gè)類型下保留j 個(gè)眾籌項(xiàng)目,這些眾籌項(xiàng)目記為Pij,對(duì)i 類眾籌產(chǎn)品分別分析m 個(gè)支持者之間的關(guān)聯(lián)強(qiáng)度Simn,然后求得m 個(gè)支持者之間的最終關(guān)聯(lián)強(qiáng)度Smn。對(duì)于每一類的眾籌產(chǎn)品我們會(huì)有j 條的眾籌產(chǎn)品的信息,而對(duì)于每一條的眾籌產(chǎn)品我們也會(huì)有m 個(gè)支持者。我們將每個(gè)項(xiàng)目下的支持者記錄為一條事務(wù)Tij,一個(gè)事務(wù)里包含一個(gè)或多個(gè)支持者Rm,如T11: [R1,R3,R4,R5,R7]表示第一類項(xiàng)目下的第一個(gè)眾籌項(xiàng)目的支持者是R1,R3,R4,R5,R7。
基于Apriori 算法的支持者之間相關(guān)度計(jì)算輸入:數(shù)據(jù)集D,眾籌類型Ai,支持者Rm,事務(wù)Tij,最小支持度Smin輸出:第m 個(gè)支持者和第n 個(gè)支持者之間的關(guān)聯(lián)度Smn Begin for all Ai for all Tij do for all Rm do 1-item=frozenset Rm c1= {1-item }End for ck= Size-k items{}End for for all 1-item do if item_count [1-item ]/t_nu()m >=Smin L1·add (C1)End for confidenceimn=Number T Rm∩Rn( )/Number (T (Rm ))Simn=confidenceimn End for End( )
階段二:本階段主要是基于第一階段所獲得的支持者的關(guān)聯(lián)強(qiáng)度將支持者進(jìn)行分類,即具有相似行為的支持者聚為一類。本階段的分類算法采用K-NN 的思想,將最為接近的支持者歸為一類。
階段三:基于前兩個(gè)階段的操作,我們已經(jīng)得到了模型實(shí)施的結(jié)果,接下來(lái)就是要預(yù)測(cè)該模型性能,因此用測(cè)試集進(jìn)行模型的測(cè)試。結(jié)合實(shí)際情況,本階段使用的模型測(cè)試指標(biāo)是機(jī)器學(xué)習(xí)中最為常用的性能評(píng)估指標(biāo):精確率和召回率。
借助python 爬蟲技術(shù)從眾籌網(wǎng)上獲取所需要的支持者記錄的信息。該眾籌網(wǎng)有“公益”、“農(nóng)業(yè)”、“出版”、“娛樂(lè)”、“藝術(shù)”、“區(qū)塊鏈”和“其他”七種類型的眾籌項(xiàng)目,如圖1,通過(guò)抓取的數(shù)據(jù)顯示,“區(qū)塊鏈”類型的項(xiàng)目就只存在一個(gè)項(xiàng)目,因此,本文只從剩下的六種項(xiàng)目類型進(jìn)行分析。下面開始對(duì)六種類型的項(xiàng)目中分別抓取若干個(gè)眾籌項(xiàng)目信息(如圖2)。
圖1 眾籌網(wǎng)項(xiàng)目類別
圖2 眾籌項(xiàng)目的支持者記錄
本文對(duì)抓取到的信息進(jìn)行預(yù)處理,對(duì)六種不同類型的項(xiàng)目進(jìn)行篩選,選出眾籌進(jìn)度超過(guò)100%的眾籌項(xiàng)目,也就是眾籌項(xiàng)目融資成功,每種類型的項(xiàng)目下都保留100 個(gè)眾籌成功的項(xiàng)目。除此之外,由于數(shù)據(jù)過(guò)于稀疏,只保留在6 種項(xiàng)目類型中出現(xiàn)支持者次數(shù)最多的前10 名支持者,以便于模型可以更加準(zhǔn)確地對(duì)相同支持者進(jìn)行分類。將六種類型的項(xiàng)目信息分成訓(xùn)練集和測(cè)試集,測(cè)試模型的可靠性和效率。
把項(xiàng)目類型定義為Ai(i=1 ,2,…,6 ),訓(xùn)練集中,每個(gè)類型下保留100 個(gè)眾籌項(xiàng)目,這些眾籌項(xiàng)目記為Pij(i=1,2,…,6; j=1,2,…,100 ),測(cè)試集中,每個(gè)類型下保留20 個(gè)眾籌項(xiàng)目。每個(gè)項(xiàng)目中的支持者記錄作為一個(gè)事務(wù),記為Tij。每個(gè)事務(wù)中包含有支持者Rm,并且項(xiàng)目數(shù)m 的取值范圍是[1,10 ]。本文就是采用Apriori 算法分析出的置信度作為這10 個(gè)人的關(guān)聯(lián)強(qiáng)度,之后再采用K-NN算法的思想對(duì)其進(jìn)行分類。在訓(xùn)練過(guò)程中,分別對(duì)六種類型的項(xiàng)目進(jìn)行分析,求出六種類型中這10 個(gè)支持者之間的關(guān)聯(lián)強(qiáng)度Simn(m=1,2,…,10; n=1,2,…10 and m≠n ),然后綜合求出10 個(gè)支持者之間最終的關(guān)聯(lián)強(qiáng)度Smn。以A1類眾籌項(xiàng)目為例:將該類項(xiàng)目中收集到的100 條眾籌成功項(xiàng)目,整理后的結(jié)果如表1 所示。
表1 支持者間的關(guān)聯(lián)強(qiáng)度S1mn (A1 )
如果將S1mn大于0.5 的視為支持者Rm和Rn強(qiáng)關(guān)聯(lián)。根據(jù)結(jié)果所得,R1和R4、R5、R8強(qiáng)關(guān)聯(lián);R2和R3、R6、R10強(qiáng)關(guān)聯(lián),和R9關(guān)聯(lián)度次之;R3和R2、R6強(qiáng)關(guān)聯(lián),和R9關(guān)聯(lián)度次之;R4和R1、R5強(qiáng)關(guān)聯(lián),和R8關(guān)聯(lián)度次之;R5和R4、R8強(qiáng)關(guān)聯(lián),和R1關(guān)聯(lián)度次之;R6和R2、R3、R7強(qiáng)關(guān)聯(lián),和R9、R10關(guān)聯(lián)度次之;R7和R2、R6、R9有較高的關(guān)聯(lián)度;R8和R5強(qiáng)關(guān)聯(lián),和R1、R4關(guān)聯(lián)度次之;R9和R2、R10強(qiáng)關(guān)聯(lián),和R3關(guān)聯(lián)度次之;R10和R2、R3、R9強(qiáng)關(guān)聯(lián)。
同理可得,對(duì)于A2,A3,A4,A5,A6類型的眾籌項(xiàng)目,同樣的步驟分別求得S2mn,S3mn,S4mn,S5mn,S6mn,然后根據(jù)得支持者最終的關(guān)聯(lián)強(qiáng)度Smn。最終結(jié)果如表2 所示。
表2 最終的關(guān)聯(lián)強(qiáng)度Smn
綜上所述,可以得到支持者之間的關(guān)聯(lián)性為:R1和R4、R8強(qiáng)關(guān)聯(lián),和R5關(guān)聯(lián)度次之;R2和R3、R10強(qiáng)關(guān)聯(lián),和R6關(guān)聯(lián)度次之;R3和R2、R9、R10強(qiáng)關(guān)聯(lián),和R6、R7關(guān)聯(lián)度次之;R4和R1、R5強(qiáng)關(guān)聯(lián),和R8關(guān)聯(lián)度次之;R5和R4、R8強(qiáng)關(guān)聯(lián),和R1關(guān)聯(lián)度次之;R6和R2、R7強(qiáng)關(guān)聯(lián),和R3、R9關(guān)聯(lián)度次之;R7和R6、R9有較高的關(guān)聯(lián)度;R8和R1、R4和R5有較高的關(guān)聯(lián)度;R9和R2、R10強(qiáng)關(guān)聯(lián),和R3、R6、R7關(guān)聯(lián)度次之;R10和R2強(qiáng)關(guān)聯(lián),和R3、R9關(guān)聯(lián)度次之。
具體的層次分類圖如圖3、圖4 所示:
圖3 分類1 (R1 ,R4,R5,R8)
圖4 分類2 (R2,R3,R6,R7,R9,R10)
經(jīng)過(guò)關(guān)聯(lián)度和分類分析,相似的支持者可以根據(jù)同類支持最多的項(xiàng)目類型來(lái)選擇自己下一個(gè)要支持的項(xiàng)目。
觀察測(cè)試集數(shù)據(jù),每個(gè)項(xiàng)目都有一個(gè)支持者記錄,如P11有(R1、R3、R5、R8)即可以認(rèn)為支持P11項(xiàng)目的“0”類支持者,因?yàn)樵谠摋l支持者P11記錄中R1、R5、R8都為“0”類,R3為“1”類,“0”類的支持者個(gè)數(shù)所占比重大,所以P11項(xiàng)目為“0”類支持者所要支持的項(xiàng)目。因此,對(duì)于R1、R5、R8都是被正確劃分為負(fù)例,R3是被錯(cuò)誤的劃分為負(fù)例。此時(shí)會(huì)有TN=3,F(xiàn)N=1。以此類推進(jìn)行分析其他項(xiàng)目,可得:
表3 綜合比較結(jié)果
統(tǒng)計(jì)可得,本文模型分類的準(zhǔn)確率和精度都大約為90%左右,這個(gè)指標(biāo)評(píng)估價(jià)值數(shù)在機(jī)器學(xué)習(xí)中的評(píng)估指標(biāo)中算是高的,也間接證明該模型的性能比較好,能夠正確的將相同支持者進(jìn)行分類,進(jìn)而進(jìn)行推薦。我們發(fā)現(xiàn)Wang[14]等人總結(jié)的一些方法的準(zhǔn)確率和召回率都低于本文的方法,稀疏數(shù)據(jù)的具體比較如表3 所示。
綜上所述,本文提出的方法優(yōu)于其他五種推薦方法,能夠更好地為眾籌投資人推薦合適的眾籌項(xiàng)目。比如本文 中 到 了 兩 類:Cluster 1 (R1,R4,R5,R8);Cluster 2(R2,R3,R6,R7,R9,R10)。如果已知R1支持了項(xiàng)目2、3、8、9,那在分類的基礎(chǔ)上,如果R5支持了項(xiàng)目3 的情況下,接下來(lái)他可以選擇支持項(xiàng)目2、項(xiàng)目8 和項(xiàng)目9,這樣將相似的支持者歸類后進(jìn)行推薦,可以提高支持者成功的機(jī)率,進(jìn)一步提高眾籌項(xiàng)目成功的概率,從而促進(jìn)供應(yīng)鏈眾籌的發(fā)展。
眾籌過(guò)程中的支持者也可以根據(jù)自己的喜好來(lái)支持相對(duì)應(yīng)的眾籌產(chǎn)品,讓一些有創(chuàng)造力的人獲取他們可能的資金,為大多數(shù)的企業(yè)和個(gè)人提供了機(jī)會(huì),以便實(shí)現(xiàn)他們的夢(mèng)想。在眾籌產(chǎn)品的融資過(guò)程中,每個(gè)支持者都有自己的特征偏好,因此平臺(tái)在第一時(shí)間可以向支持者推薦適合的眾籌項(xiàng)目。然而,本文發(fā)現(xiàn)沒(méi)有辦法通過(guò)網(wǎng)絡(luò)平臺(tái)恒定支持者的特征屬性,因此也沒(méi)有辦法根據(jù)支持者的特征向量直接分類來(lái)進(jìn)行眾籌產(chǎn)品的推薦。一些研究學(xué)者也對(duì)推薦算法進(jìn)行了研究,但對(duì)于稀疏程度嚴(yán)重的眾籌數(shù)據(jù)來(lái)講,很少有學(xué)者做到更高質(zhì)量的推薦。與此同時(shí),大數(shù)據(jù)時(shí)代的發(fā)展,機(jī)器學(xué)習(xí)和人工智能也成為越來(lái)越多人討論的話題。越來(lái)越多的問(wèn)題也可以通過(guò)機(jī)器學(xué)習(xí)方法來(lái)高效解決。因此本文采用機(jī)器學(xué)習(xí)的方法對(duì)支持者進(jìn)行眾籌產(chǎn)品的推薦,以此來(lái)提高眾籌產(chǎn)品的成功率,進(jìn)而提高發(fā)起者的利潤(rùn)以及促進(jìn)供應(yīng)鏈眾籌的發(fā)展。
本文的研究也存在一些局限性。因此,在未來(lái)的研究中,可以擴(kuò)寬研究范圍,除了消費(fèi)者行為的影響,可以增加社交網(wǎng)絡(luò)中其他消費(fèi)者的相關(guān)影響即感知價(jià)值行為,進(jìn)一步優(yōu)化眾籌項(xiàng)目的選擇,為眾籌經(jīng)濟(jì)的發(fā)起者和支持者提供更多的管理建議。