蔡丹丹 王斌
摘要:結(jié)合在線短租市場(chǎng)固有的特點(diǎn),分析信息質(zhì)量對(duì)于消費(fèi)者信息采納和決策行為的作用機(jī)制。在研究方法上,選擇了多屬性決策模型對(duì)目標(biāo)商品進(jìn)行排序,確定產(chǎn)品總效用、產(chǎn)品特征-情感和權(quán)重,利用TOPSIS算法,對(duì)目標(biāo)商品進(jìn)行排序。結(jié)合在線短租市場(chǎng)特點(diǎn)基礎(chǔ)上,對(duì)大量在線評(píng)論數(shù)據(jù)進(jìn)行處理,多維度考慮評(píng)論信息對(duì)產(chǎn)品排序的影響。
關(guān)鍵詞:在線短租;信息采納模型;評(píng)論挖掘;TOPSIS算法
中圖分類(lèi)號(hào):F27文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2019.15.032
1問(wèn)題描述
本文主要考慮評(píng)論信息對(duì)電子商務(wù)網(wǎng)站產(chǎn)品排序影響。設(shè)目標(biāo)產(chǎn)品集為X={X1,X2,…,Xm},目標(biāo)產(chǎn)品的在線評(píng)論集合為Ei= {e1i,e2i,…,eQii},Qi表示產(chǎn)品i的評(píng)論數(shù)量,i= 1,2,…,m;q= 1,2,…,Qi。用C = {C1,C2,…,Cn}表示評(píng)論中涉及的產(chǎn)品屬性的集合;U(eqi)表示評(píng)論eqi的總效用;用ω表示產(chǎn)品屬性的權(quán)重向量,可以用向量表示為ω=(ω1,ω2,…,ωn)T,則ωj≥0且∑nj=1ωj=1。
本文需要解決的問(wèn)題是,通過(guò)現(xiàn)在的在線評(píng)論信息Ei,抽取出產(chǎn)品的屬性,即集合C,以及每個(gè)產(chǎn)品屬性所代表的權(quán)重ω,并通過(guò)這些信息,對(duì)目標(biāo)產(chǎn)品進(jìn)行排序。
2模型構(gòu)建
本文結(jié)合在線短租市場(chǎng)在線評(píng)論的特點(diǎn),結(jié)合消費(fèi)者購(gòu)買(mǎi)決策五階段模型和信息采納模型,構(gòu)建模型。在模型構(gòu)建中,簡(jiǎn)化了共識(shí)性因素對(duì)產(chǎn)品排序的影響,將研究重點(diǎn)放在中心路徑上,研究在線評(píng)論信息的質(zhì)量對(duì)于產(chǎn)品排序的影響,模型思路框架見(jiàn)圖1。
3在線評(píng)論效用
3.1評(píng)論長(zhǎng)度
本文將評(píng)論長(zhǎng)度具體量化為評(píng)論中所包含的字符數(shù)量。通常來(lái)說(shuō),評(píng)論文本越長(zhǎng),則其中包含的內(nèi)容也就越豐富,涉及的維度也就越多,其中包含的有用信息也越多,代表越強(qiáng)的可信度。因此,較長(zhǎng)的評(píng)論文本可以一定程度上增加閱讀者的感知有用性,降低購(gòu)買(mǎi)的不確定性。
num=count(word)(1)
u1eqi=ln(num+1)ln(num*+1)(2)
其中,word代表評(píng)論中所包含的文字?jǐn)?shù)量,num*代表在線評(píng)論中長(zhǎng)度最長(zhǎng)的評(píng)論的文字?jǐn)?shù),可表示為num*=max (num),且0≤u1(eqi))≤1。
3.2評(píng)論時(shí)效性
評(píng)論時(shí)效性指評(píng)論消息發(fā)布與被閱讀兩者之間的時(shí)間差。差值越小,意味著評(píng)論越新,即評(píng)論的時(shí)效性越強(qiáng)。雖然不同市場(chǎng)的表現(xiàn)規(guī)律不同,但是不同維度的異質(zhì)性穩(wěn)定性隨著時(shí)間的推移而降低。
u2 (eqi)=exp (Tqi-TnowTnow-T*i)(3)
其中,Tqi表示消費(fèi)者發(fā)表評(píng)論的時(shí)間,Tnow表示消費(fèi)者進(jìn)行產(chǎn)品選擇的時(shí)間,即產(chǎn)品評(píng)論被閱讀的時(shí)間,T*i表示該產(chǎn)品評(píng)論中,最早發(fā)表的時(shí)間,也就是說(shuō),T*i= min { Tqi},特別地,當(dāng)Tqi=T*i時(shí),u2(eqi)=0.37,可見(jiàn),0.37≤u2 (eqi))≤1。
3.3圖片評(píng)論數(shù)
評(píng)論信息中,除了包含文字信息外,還會(huì)包含圖片信息,且圖片信息是對(duì)文字信息的內(nèi)容補(bǔ)充。根據(jù)大量文獻(xiàn)研究表明,圖片評(píng)論數(shù)對(duì)在線評(píng)論有用性有正向影響。另外來(lái)說(shuō),圖片信息由于其包含的內(nèi)容更加直觀、真實(shí),有助于幫助消費(fèi)者對(duì)產(chǎn)品本身有更好的了解。因此,圖片評(píng)論信息可以加強(qiáng)閱讀者的感知有用性。
u3eqi=exp (N-N*N*)(4)
其中,N代表評(píng)論中包含的圖片數(shù)量,N*=max (N),代表在線評(píng)論中最多的圖片數(shù)量。特別地,當(dāng)N=0時(shí),u3 (eqi)= 0.37,可見(jiàn),0.37≤u3 (eqi))≤1。
4產(chǎn)品特征-情感配對(duì)
4.1產(chǎn)品特征抽取
商品特征是評(píng)論信息的重要組成部分之一,同時(shí)也是消費(fèi)者關(guān)注的具體內(nèi)容。對(duì)于一件有形的商品來(lái)說(shuō),它的特征可以是商品外觀、質(zhì)量、服務(wù)態(tài)度等各個(gè)方面,消費(fèi)者對(duì)一個(gè)產(chǎn)品的喜好,歸根到底是對(duì)產(chǎn)品的各項(xiàng)特征的喜好。產(chǎn)品特征就是指產(chǎn)品所包含的各類(lèi)屬性,包括它的包裝、功能、質(zhì)量、外形、服務(wù)等,這些都是吸引消費(fèi)者做出選擇的關(guān)鍵性因素。因此,我們對(duì)產(chǎn)品的在線評(píng)論進(jìn)行分析,就是探究在線評(píng)論中包含哪些吸引消費(fèi)者的特征。
本文產(chǎn)品特征抽取采用的是關(guān)聯(lián)規(guī)則的方法,通過(guò)尋找頻繁項(xiàng)集實(shí)現(xiàn)產(chǎn)品特征的抽取。本文采用的是Apriori算法,通過(guò)算法抽取評(píng)論中具有頻繁項(xiàng)集作為產(chǎn)品特征,在算法的應(yīng)用中,頻繁項(xiàng)集僅考慮3項(xiàng)及其以下項(xiàng)集,同時(shí),通過(guò)最小支持度對(duì)頻繁項(xiàng)集進(jìn)行篩選。
4.2產(chǎn)品特征-情感傾向詞對(duì)抽取
情感傾向是用戶(hù)進(jìn)行評(píng)論時(shí),就產(chǎn)品的某個(gè)特征,發(fā)表的具有主觀性的評(píng)價(jià)語(yǔ)言,這些評(píng)論語(yǔ)言都具有感覺(jué)色彩,因此在評(píng)論分析中,需要找到產(chǎn)品特征所對(duì)應(yīng)的情感詞。一般情況下來(lái)說(shuō),情感詞和產(chǎn)品特征都是成對(duì)出現(xiàn)的,為了確保產(chǎn)品特征和情感詞兩者之間存在對(duì)應(yīng)關(guān)系,我們通過(guò)權(quán)重對(duì)兩者進(jìn)行衡量,用pair
4.3情感極性判定
4.3.1構(gòu)建情感詞典
情感詞典是分析情感詞極性的基礎(chǔ),是一種基于語(yǔ)義的方法,它可以用于計(jì)算詞語(yǔ)、句子或者文檔的情感極性。本文的情感詞典構(gòu)建來(lái)源于HowNet、NTUSD以及評(píng)論語(yǔ)料。其中,HowNet和NTUSD提供不針對(duì)具體領(lǐng)域的,具有通用性的情感詞。由于本文是對(duì)在線評(píng)論進(jìn)行情感分析,其中會(huì)涉及到很多網(wǎng)絡(luò)詞匯,因此在HowNet和NTUSD的基礎(chǔ)上,結(jié)合網(wǎng)絡(luò)詞匯加入到詞典中。將情感詞分為褒義、中性和貶義這三個(gè)集合,分別用符號(hào)O +,O'和O-表示,部分含義如表1所示。
4.3.2判斷情感極性
文本進(jìn)行詞性標(biāo)注后,本文以其中的形容詞作為情感詞進(jìn)行分析,通過(guò)LTP語(yǔ)言技術(shù)平臺(tái),進(jìn)行依存句法分析,存儲(chǔ)屬性-情感詞對(duì),再根據(jù)情感詞典的方法對(duì)情感極性進(jìn)行判斷。設(shè)Oqij表示評(píng)論eqi中關(guān)于屬性Cj的情感詞,P(Oqij) 表示情感詞Oqij的極性,公式為
P(Oqij)=10-1若Oqij∈V+若Oqij∈V'若Oqij∈V-(5)
4.3.3處理程度副詞
消費(fèi)者在發(fā)表評(píng)論時(shí),不僅會(huì)用情感詞表示產(chǎn)品的特征,同時(shí)還會(huì)使用程度副詞加強(qiáng)情感。參照HowNet程度副詞表,按照表達(dá)的情感程度,可以將它劃分為兩類(lèi),用deg(Oqij)來(lái)表示,則deg(Oqij) = 1,2,含義如表2所示,公式表示為
deg(Oqij)=12Oqij∈Φ1Oqij∈Φ2(6)
其中,Φ1代表情感強(qiáng)度為1的副詞集合,Φ2代表情感強(qiáng)度為2的副詞集合。
4.3.4處理否定詞
情感詞可以充分表達(dá)消費(fèi)者的情感傾向,但是,其中的否定詞對(duì)情感傾向的極性有關(guān)鍵影響。當(dāng)情感詞之前出現(xiàn)否定詞詞,所表示的情感極性有可能就完全相反。在否定詞處理中,主要考慮以下兩種情況,一是否定詞是對(duì)另一否定詞的否定,即出現(xiàn)兩個(gè)否定詞時(shí),并不會(huì)影響情感極性;但是當(dāng)只有一個(gè)否定詞時(shí),則是對(duì)情感極性的完全否定,情感極性完全相反。因此認(rèn)為可以以否定詞出現(xiàn)的個(gè)數(shù)來(lái)判斷否定詞對(duì)情感極性的影響。令N表示情感詞Oqij前否定詞的個(gè)數(shù)。因此,關(guān)于就評(píng)論eqi,其表達(dá)的關(guān)于產(chǎn)品屬性Cj的情感強(qiáng)度可用下式來(lái)衡量:
Scoreeqi)= P(Oqij)* deg(Oqij)*(-1)qijN(7)
在數(shù)據(jù)處理中,若評(píng)論信息中并未出現(xiàn)關(guān)于屬性Cj的情感詞,則我們認(rèn)為該評(píng)論信息的情感值為ψ,可用公式表示為Scoreeqi=ψ。但是,若評(píng)論信息中未出現(xiàn)任何屬性值,那么認(rèn)為該評(píng)論對(duì)產(chǎn)品的所有屬性表達(dá)的情感相同。可見(jiàn),當(dāng)Scoreeqi≠ψ時(shí),Scoreeqi= -2,-1,0,1,2。
5基于TPOSIS算法的產(chǎn)品排序模型
Technique for Order Preference by Similarity to an Ideal Solution是1981年,由C.L.Hwang聯(lián)合K.Yoon提出的,簡(jiǎn)稱(chēng)為T(mén)OPSIS算法。TOPSIS算法主要用于對(duì)有限數(shù)量的目標(biāo)產(chǎn)品進(jìn)行優(yōu)劣排序。TOPSIS算法中,首先計(jì)算在理想狀態(tài)下的最優(yōu)目標(biāo),其次通過(guò)各目標(biāo)產(chǎn)品與理想最優(yōu)解之間的距離來(lái)進(jìn)行判斷,同時(shí),該方法要求各效用函數(shù)具有單調(diào)遞增(或遞減)性。
5.1在線評(píng)論效用計(jì)算
評(píng)論eqi的總效用為
U(eqi)=αu1(eqi)+βu2(eqi)+γu3(eqi)(8)
i= 1,2,…,m;q = 1,2,…,Q;;其中,α,β,γ≥0 且α+β+γ= 1。
5.2產(chǎn)品屬性權(quán)重
在產(chǎn)品特征處理過(guò)程中,已經(jīng)將產(chǎn)品的特征進(jìn)行頻繁項(xiàng)集處理,得到產(chǎn)品的屬性集合。用yqij表示評(píng)論eqi中包含的屬性集合,若評(píng)論eqi中未提取出屬性詞,則yqij=φ。若評(píng)論中某屬性出現(xiàn)的頻率越高,則代表該屬性受到更多的人重視,即該屬性在消費(fèi)者心中的權(quán)值越高,以統(tǒng)計(jì)的方法,將各屬性集合所在評(píng)論的效用進(jìn)行累加,并以此代表屬性的權(quán)重,則屬Cj的權(quán)重可表示為
wj=∑mi=1∑Qiq=1Ueqiτjeqi∑nj=1∑mi=1∑Qiq=1Ueqiτjeqi(9)
其中:τjeqi=1,0,yqij≠φyqij=φ;∑mi=1∑Qiq=1U(eqi)τj(eqi)表示包含屬性Cj集合的評(píng)論的總效用值。
5.3構(gòu)建決策矩陣
用H = { H1 =-2,H2 =-1,H3 = 0,H4 = 1,H5= 2}表示評(píng)論信息中,產(chǎn)品特征所代表的情感等級(jí)集合。為了表達(dá)產(chǎn)品在不同情感等級(jí)上的差異性,本文采用隨機(jī)形式表達(dá)消費(fèi)者的情感傾向。
首先,記ξij表示產(chǎn)品Xi關(guān)于屬性Cj的隨機(jī)評(píng)價(jià)值,那么ξij就可以用公式10表示其概率分布函數(shù)。
Pξij=Hk=pkij,k=1,2,…,5(10)
其中,
pkij=∑Qiq=1ψk(Scoreeqij)∑Nk=1∑Qiq=1ψk(Scoreeqij)(11)
ψkScoreeqij=1,0,Scoreeqij=HkScoreeqij≠Hk,pkij∈[0,1]且∑Nk=1pkij=1,其中,N代表需要決策的產(chǎn)品數(shù)。因此,我們可以求出針對(duì)目標(biāo)產(chǎn)品的離散概率分布函數(shù),即決策矩陣,用M=[P(ξij)]m*n表示,具體表達(dá)形式間表3。
5.4消費(fèi)者購(gòu)買(mǎi)決策模型
首先,確定關(guān)于候選商品Xi對(duì)商品特征Cj的特征值的累積分布函數(shù),則ξij的累積分布函數(shù)如下:
Fijx=∑ξijSymbolcB@
xP(ξij)(12)
根據(jù)公式(12),可以得到累計(jì)分布函數(shù)形式的決策矩陣M︿=[P(ξij)]m*n,進(jìn)而可以求出目標(biāo)產(chǎn)品的正負(fù)理想分布函數(shù),用函數(shù)F+j(x)和F-j(x)表示。
由于本文是對(duì)產(chǎn)品的優(yōu)劣進(jìn)行排序,因此采用的是效益型指標(biāo)的確定方式。具體求解方式如下:
F+j=maxFij(x)|i=1,2,…,m,j=1,2,…,n(13)
F-j=minFij(x)|i=1,2,…,m,j=1,2,…,n(14)
由公式5-10和公式5-11,可確定正理想點(diǎn)F+和負(fù)理想點(diǎn)F-。
F+=F+1x,F(xiàn)+2x,…,F(xiàn)+nx(15)
F-=F-1x,F(xiàn)-2x,…,F(xiàn)-nx(16)
結(jié)合產(chǎn)品特征所對(duì)應(yīng)的權(quán)重ω=(ω1,ω2,…,ωn),可求得目標(biāo)產(chǎn)品Pi的正負(fù)理想點(diǎn)距離,用函數(shù)D+i和D-i表示。
D+i=∑nj=1ωj*∫ΩjFijx-F+jxdx,i=1,2,…,m(17)
D-i=∑nj=1ωj*∫ΩjFijx-F-jxdx,i=1,2,…,m(18)
其中,Ωj=[H1,Hk],k=1,2,3,4,5。
根據(jù)已經(jīng)求出的正負(fù)理想點(diǎn)距離,可求得關(guān)于目標(biāo)產(chǎn)品Pi的貼近度,用函數(shù)CCi表示。
CCi=D-iD-i+D+i,i=1,2,…,m(19)
顯然我們可以看出,貼進(jìn)度CCi的取值越大,代表目標(biāo)產(chǎn)品Pi與正理想點(diǎn)的距離越近,同時(shí)離負(fù)理想點(diǎn)的距離越遠(yuǎn),也就說(shuō)明目標(biāo)產(chǎn)品Pi越好。因此,最后可以根據(jù)CCi取值的大小判斷目標(biāo)產(chǎn)品的優(yōu)劣。
6數(shù)據(jù)驗(yàn)證
在數(shù)據(jù)驗(yàn)證階段,選擇途家網(wǎng)為代表進(jìn)行研究。本文隨機(jī)選擇5家店鋪,獲取這5家店鋪的在線評(píng)論數(shù)據(jù),依據(jù)上文提到的技術(shù)手段和算法對(duì)數(shù)據(jù)進(jìn)行分析,然后應(yīng)用多屬性決策模型對(duì)這5家店鋪進(jìn)行排序。
本文在途家網(wǎng)中,選擇城市為大理,根據(jù)首頁(yè)推薦隨機(jī)挑選前5家店鋪,但店鋪選擇的過(guò)程中,盡量考慮店鋪的價(jià)格在同一個(gè)區(qū)間范圍內(nèi),根據(jù)推薦頁(yè)的店鋪情況來(lái)看,除部分店鋪的價(jià)格在100元以下或者一些別墅套件在500元以上,其他大多數(shù)的店鋪價(jià)格均保持在100-300之間,其中以100-200之間尤其多,因此將店鋪的價(jià)格確定在100-200,最終確定的店鋪分別為:大理古城小貓民宿(X1)、閑暇小筑(X2)、大理古城邊的小院子合院(X3),洱海邊雅致雙床房(X4),泊新民宿-情侶蜜月陽(yáng)光大床房(X5),價(jià)格分別為:116、134、179、170、188。在抓取在線評(píng)論的同時(shí),也抓取了其他信息如下:(1)評(píng)論發(fā)布者的用戶(hù)名;(2)評(píng)論者點(diǎn)評(píng)時(shí)間;(3)圖片評(píng)論數(shù)。通過(guò)Gooseaker獲得這5家店鋪的在線評(píng)論信息,每家店鋪收集的在線評(píng)論數(shù)據(jù)如表4所示。
則可根據(jù)(公式12~19)計(jì)算得到關(guān)于產(chǎn)品X1,X2,X3,X4,X5的貼進(jìn)度分別為CC1=0.301,CC2=0.411,CC3=0.565,CC4=0.169,CC5=0.538。因此,候選商品的排序?yàn)閄3>X5>X2>X1>X4,即X3的綜合評(píng)價(jià)較好,潛在消費(fèi)者可以選擇X3進(jìn)行。
7結(jié)論
本文結(jié)合在線短租市場(chǎng)的特點(diǎn),通過(guò)對(duì)在線評(píng)論的處理,研究評(píng)論信息對(duì)產(chǎn)品排序的影響,通過(guò)對(duì)現(xiàn)有的評(píng)論信息進(jìn)行處理,并依據(jù)TOPSIS算法得到了最公正的產(chǎn)品排序。該方法的主要特點(diǎn)在于:評(píng)論信息數(shù)據(jù)量大,同時(shí)也易于獲取,本文考慮了在線評(píng)論的效用、產(chǎn)品特征和情感傾向?qū)οM(fèi)者的影響,多維度分析,彌補(bǔ)了現(xiàn)有方法對(duì)在線評(píng)論信息處理過(guò)于粗糙的缺點(diǎn)。
參考文獻(xiàn)
[1]姜廣田.解決隨機(jī)多屬性決策問(wèn)題的若干理論與方法研究[D].沈陽(yáng):東北大學(xué),2010.
[2]張艷輝,李宗偉.在線評(píng)論有用性的影響因素研究:基于產(chǎn)品類(lèi)型的調(diào)節(jié)效應(yīng)[J].管理評(píng)論,2016,28(10):123-132.
[3]李金海,何有世,馬云蕾,等.基于在線評(píng)論信息挖掘的動(dòng)態(tài)用戶(hù)偏好模型構(gòu)建[J].情報(bào)雜志,2016,35(9):192-198.
[4]張艷豐,李賀,翟倩,等.基于模糊TOPSIS分析的在線評(píng)論有用性排序過(guò)濾模型研究——以亞馬遜手機(jī)評(píng)論為例[J].圖書(shū)情報(bào)工作,2016,(13):109-117.
[5]李永海.一種使用在線評(píng)論信息的商品購(gòu)買(mǎi)決策分析方法[J].運(yùn)籌與管理,2018.