崔澤豪 羅養(yǎng)霞 劉卓文 董雨萌
摘要:基于大數(shù)據(jù)分析指導(dǎo)銷售策略,提高經(jīng)濟(jì)銷售量是網(wǎng)絡(luò)銷售的核心問題之一。論文基于數(shù)據(jù)分析挖掘情感詞,構(gòu)建詞向量矩陣;通過最小平方擬合動態(tài)分析產(chǎn)品評級變化趨勢;然后通過互信息法構(gòu)建評級模型,研究市場關(guān)注的商品屬性及滿意度關(guān)系;進(jìn)而確定產(chǎn)品的設(shè)計特征與成功和失敗的衡量標(biāo)準(zhǔn),從而找到合適的銷售策略。
關(guān)鍵詞:在線銷售;情感特征詞;互信息度量;KNN分析算法
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2020)06-0219-02
0 引言
在線銷售蓬勃發(fā)展,帶來了大量的產(chǎn)品評論,產(chǎn)品評論對潛在顧客具有參考價值,對商家具有商業(yè)價值,基于大數(shù)據(jù)分析經(jīng)濟(jì)銷售在線評論以促進(jìn)銷售策略。在線評論依附于某種產(chǎn)品存在,針對產(chǎn)品本身以及其具有的屬性進(jìn)行評價,研究采用依存句法分析對評論文本進(jìn)行長句分割,然后對分割后的評論文本構(gòu)建詞向量,再對單字進(jìn)行過濾,提取出特征詞,進(jìn)而統(tǒng)計特征詞出現(xiàn)的次數(shù);為了方便分析評論文本特征詞和評級與時間的關(guān)系,將時間劃分為片段化,利用最小平方擬合得出指數(shù)和線性趨勢線,分析在線評論文本特征詞與產(chǎn)品評級隨著時間動態(tài)變化特點和趨勢,以此來確定可以作為追蹤的數(shù)據(jù)指標(biāo)并關(guān)注產(chǎn)品聲譽(yù)的變化;按照文本和評級,采用KNN算法對在線評論文本的產(chǎn)品屬性詞在每個產(chǎn)品評級下的出現(xiàn)頻率進(jìn)行統(tǒng)計,進(jìn)而確定產(chǎn)品失敗和成功的衡量標(biāo)準(zhǔn)與銷量的關(guān)系,確定產(chǎn)品銷售決策。
1 基于數(shù)據(jù)挖掘的銷售行為分析模型構(gòu)建
1.1 構(gòu)建評論句詞向量
數(shù)據(jù)預(yù)處理直接影響數(shù)據(jù)的分析結(jié)果,會干擾結(jié)果的解釋,所以需要進(jìn)行詞性標(biāo)注預(yù)處理,構(gòu)建評論句詞向量[2]。通過獲取詞頻、定義和捕捉情感詞、計算每個等級中情感詞的頻率,計算互信息值,來獲取名詞、形容詞和動詞組成評論詞向量,其中表示名詞,表示形容詞,表示動詞。
1.2 基于特征詞信息熵的特征評級
信息熵來度量特征詞分類的穩(wěn)定性,特征詞熵愈小,系統(tǒng)的穩(wěn)定性愈大。首先,給予每個情感特征的權(quán)重計算,再通過訓(xùn)練文本分類,對情感特征詞進(jìn)行評分,計算特征詞信息熵,熵值越小,系統(tǒng)的確定性越大,然后對所有情感詞進(jìn)行權(quán)重的歸一化處理。
1.3 基于互信息的特征項過濾
基于互信息對情感詞進(jìn)行分析,統(tǒng)計每個等級出現(xiàn)的情感詞頻,并且計算每個詞在每一類的互信息值[1],如公式(1)所示。
互信息的特征項過濾,僅保留特征性較高的詞,對普遍性較高的詞,如分布較均勻、不同類中分布差異不大的詞,則過濾掉。
1.4 基于依存句法分析構(gòu)建屬性詞-詞頻模型
對評論句進(jìn)行依存句法分析,并且將句子按照詞性分割。通過匹配句子中詞性的不同,尋找句子成分的邊界,并添加逗號,完成分割[2]。詞性標(biāo)注能判定句子中每個詞的詞性,判定該詞在劇中所處的成分外,更能體現(xiàn)詞與詞之間的依存關(guān)系,通過聯(lián)合多個詞的句法和詞性標(biāo)注的方式,加入了大量的上下文特征。
實驗通過Python程序,在Matplot仿真情感詞在不同評級下的互信息值,采用KNN分類算法對文本進(jìn)行分類,系統(tǒng)在訓(xùn)練集中對待分類文本,找與其最近的個近鄰,這個近鄰中的大多數(shù)屬于哪一類別,就把待分類文本歸為哪一類。具體步驟如圖1所示。
建立了基于依存句法分析構(gòu)建屬性詞-詞頻模型,以此來為后續(xù)的基于時間模式的情感詞評論文本和評級模型來做基礎(chǔ)模型,便于統(tǒng)計和觀察基于時間模式下,產(chǎn)品評論和評級的變化趨勢,對產(chǎn)品聲譽(yù)好壞進(jìn)一步挖掘評定。
2 基于時間模式的情感詞評論和評級模型
2.1 基于時間的用戶評論行為分析
從兩方面進(jìn)行分析:一是分析在線用戶評論行為的時間分布規(guī)律,分別以月和年為時長片段,作為統(tǒng)計用戶評論行為的基礎(chǔ)時間序列;二是將評論的時間間隔作為時間序列,分別計算不同時間序列的用戶評論行為規(guī)律,并將時間間隔進(jìn)行階段劃分,分析各個階段用戶評論數(shù)據(jù)的特征[3]。
2.2 不同評級的趨勢線擬合
應(yīng)用趨勢線,即回歸分析,應(yīng)用趨勢線擬合數(shù)據(jù),預(yù)測未來銷售情況[4]。將產(chǎn)品評級作為因變量,按時間段(年)作為數(shù)據(jù)自變量,進(jìn)行趨勢分析[5],如圖2所示。
可以看出,不同評級數(shù)據(jù)變化與年階段增長數(shù)據(jù)趨勢線擬合。包含情感的評論文本和產(chǎn)品評級有直接緊密的聯(lián)系,隨著評論文本里負(fù)面情感詞的增加,產(chǎn)品的評級降低,直接影響客戶對產(chǎn)品的購買和評價,決定下一步的銷售策略因素最大。
3 結(jié)語
此模型從從多個角度分析商業(yè)行為,注重各個因素之間的關(guān)系,運(yùn)用大量數(shù)據(jù)進(jìn)行仿真和模擬,使數(shù)據(jù)挖掘更具有說服力。不足之處是對噪音數(shù)據(jù)的處理不夠,下一步將引入評論中的否定詞、無特殊意義的字母,符號等,結(jié)合時效性進(jìn)行深度分析。
參考文獻(xiàn)
[1] 胡云鳳.基于主題模型的在線評論分析方法研究[D].西安:西安電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院,2017.
[2] 石翠.依存句法分析研究綜述[J].智能計算機(jī)與應(yīng)用,2016,3(6):47-48.
[3] 安靜.基于依存句法分析與序列標(biāo)注的英文長句機(jī)器翻譯[J].蘭州理工大學(xué)學(xué)報,2018,44(1):101-102.
[4] 張艷豐.在線用戶評論行為時間序列關(guān)聯(lián)特征規(guī)律研究[D].吉林:吉林大學(xué)管理學(xué)院,2018.
[5] 崔永生.在線評論文本挖掘?qū)﹄娚痰挠绊懷芯縖J].中國商貿(mào),2018(33):17-23.