姚 潔,孟小璐
(福州外語(yǔ)外貿(mào)學(xué)院,福州 350202)
2018年6月阿里和微博聯(lián)合發(fā)布了電商營(yíng)銷(xiāo)的“u微計(jì)劃”,將打通雙方平臺(tái)的用戶數(shù)據(jù),實(shí)現(xiàn)微博種草、阿里拔草。也就是說(shuō),以后微博推送的內(nèi)容會(huì)更符合消費(fèi)者喜好,誘發(fā)消費(fèi)者“剁手”的可能性也越大。目前,主流的電商企業(yè)也都想方設(shè)法利用微博進(jìn)行品牌營(yíng)銷(xiāo),其主要看中微博所帶來(lái)的口碑營(yíng)銷(xiāo)、人際傳播等效應(yīng)。而微博用戶數(shù)眾多,所涉及的話題領(lǐng)域廣,電商企業(yè)發(fā)布的營(yíng)銷(xiāo)微博往往被這些雜亂無(wú)章的信息淹沒(méi),因此對(duì)電商微博的主題挖掘就尤為重要。
近年來(lái),主題模型是文本挖掘領(lǐng)域的一個(gè)熱門(mén)話題,而LDA模型以其優(yōu)秀的降維能力和良好的擴(kuò)展性被廣泛應(yīng)用。例如,Phan等[1]通過(guò)LDA模型在Web片段文本搜索的準(zhǔn)確度上有了進(jìn)一步的提升;唐杰等[2-3]成功地將LDA模型應(yīng)用到專利挖掘中。但是由于微博篇幅較短,通過(guò)共同出現(xiàn)的詞來(lái)判斷文本相似度的方法其準(zhǔn)確度不高,挖掘效果不理想。為了規(guī)避短文本數(shù)據(jù)噪聲大的問(wèn)題,基于模型擴(kuò)展的方法也層出不窮。例如,Zhang等[4]利用頻率統(tǒng)計(jì)的方法讓話題更靠前;Wayne等[5]提出了Twitter-LDA來(lái)規(guī)避非熱點(diǎn)詞匯,解決文本短和高頻詞的問(wèn)題。但是這些方法需要事先訓(xùn)練和人工干預(yù),而且主題少。
LDA模型是由Blei等[6]提出的一種適用于話題提取的概率生成式主題模型,是一種無(wú)監(jiān)督學(xué)習(xí),主要依靠詞之間的關(guān)聯(lián)來(lái)挖掘主題的詞袋模型。LDA基于分層式的貝葉斯模型,其中包含文檔、主題和詞3層。其模型如圖1所示。
LDA 3層結(jié)構(gòu)形成“文檔-主題”和“主題-詞”兩個(gè)矩陣,其主要思想可以理解成兩個(gè)物理過(guò)程:
圖1 LDA模型
在現(xiàn)實(shí)中,文檔及其每篇文檔的詞的組成都是已知的,再通過(guò)Gibbs抽樣方法求得未知變量和。對(duì)于特定詞t,可得:
LDA主題模型能夠有效地解決電商微博文本的稀疏性、高緯性、語(yǔ)法不規(guī)范性及主題分布不一致等問(wèn)題。但同時(shí),電商微博的文本形式也存在自身的特點(diǎn),如標(biāo)簽(電商微博文本中采用哈希標(biāo)簽,其格式為“#話題名稱#”。這類(lèi)文本能夠有效地表達(dá)熱點(diǎn)話題,具有重要的用戶特征和日期特征。)、時(shí)間戳、轉(zhuǎn)發(fā)數(shù)及評(píng)論數(shù)。如果撇開(kāi)這些屬性直接在海量的微博消息中進(jìn)行熱點(diǎn)話題的挖掘,往往準(zhǔn)確率和效率都不大理想。針對(duì)電商微博的這些特殊的文本形式,同時(shí)借鑒LDA主題模型,提出了一種新的電商微博熱點(diǎn)挖掘模型MALDA(又稱多屬性的LDA)。
MA-LDA模型的主要思想:首先挑選高轉(zhuǎn)發(fā)和高評(píng)論數(shù)的潛在熱點(diǎn)電商微博(轉(zhuǎn)發(fā)、評(píng)論數(shù)的閾值為1 000)[7]。接著通過(guò)時(shí)效性原則(即在某一特定時(shí)間內(nèi)頻繁出現(xiàn)),將一個(gè)關(guān)于時(shí)間因素的二值變量X引入MA-LDA模型中。最后我們將哈希標(biāo)簽也合并到MA-LDA模型中,從而提高主題的準(zhǔn)確性??蚣芤?jiàn)圖2。
圖2 MA-LDA框架結(jié)構(gòu)
MA-LDA是在LDA的基礎(chǔ)上擴(kuò)展而來(lái)的,其模型如圖3所示。該模型在原有LDA模型基礎(chǔ)上增加了如下幾個(gè)參數(shù):
1)兩種不同的主題類(lèi)型,產(chǎn)生兩個(gè)變量,即熱點(diǎn)主題分布→和一般主題分布→。
2)為了判別電商微博主題是否為熱點(diǎn),保證時(shí)效性,加入了一個(gè)與時(shí)間相關(guān)的二值變量x,其中,xw表示詞的時(shí)間分布的二值變量;xd表示文檔的時(shí)間分布的二值變量。并引入某一詞wi的時(shí)間特征值Sw,其計(jì)算公式如下:
其中:fw,t是詞w在t∈(1,T)上出現(xiàn)的頻率;favg是對(duì)應(yīng)的fw,t的平均值。當(dāng)Sw>0.5時(shí),就認(rèn)為該詞為熱詞。模型中的xw和xd則可通過(guò)Sw判定:
最終,x的結(jié)果由xw和xd經(jīng)過(guò)或運(yùn)算得到(x=0時(shí)為熱點(diǎn)主題,否則為一般主題)。
3)定義了詞和文檔的標(biāo)簽向量→λv={λ1,λ2,…,λw,…,λV}和→λm={λ1,λ2,…,λm,…,λM},主要用于熱點(diǎn)主題相關(guān)的文檔生成。
圖3 MA-LDA模型圖
其核心公式如下:
與LDA相同,MA-LDA模型的參數(shù)估計(jì)也同樣使用Gibbs抽樣。得到電商微博熱點(diǎn)主題相關(guān)的兩個(gè)變量如下:
MA-LDA模型的評(píng)估實(shí)驗(yàn)數(shù)據(jù)主要通過(guò)騰訊微博官方API結(jié)構(gòu)獲得,通過(guò)人工收集和整理,得到較為影響力的30多家電商企業(yè)在2017-01-01—2018-01-01之間發(fā)布的微博數(shù)據(jù),共58 973條,其中包含微博文本、用戶ID、標(biāo)簽、時(shí)間、轉(zhuǎn)發(fā)數(shù)及評(píng)論數(shù)等相關(guān)信息。
為了有效挖掘電商微博的熱點(diǎn)話題,對(duì)這些數(shù)據(jù)進(jìn)行了如下處理:
1)首先根據(jù)轉(zhuǎn)發(fā)和評(píng)論數(shù)的閾值篩選熱點(diǎn)話題,并計(jì)算詞的時(shí)間分布特征,初始化Sw,xw,xd和x。
2)選用中科院計(jì)算基數(shù)研究所推出的中文分詞系統(tǒng)ICTCLAS對(duì)微博文本屬性進(jìn)行預(yù)處理,包括對(duì)微博文本預(yù)料進(jìn)行分詞、詞性標(biāo)注、去除標(biāo)點(diǎn)符號(hào)、停用詞、表情詞等。
3)抽取標(biāo)簽詞,即微博中的“?!!敝g的內(nèi)容,并對(duì)標(biāo)簽向量→λv和→λm進(jìn)行初始化。
4)英文詞匯進(jìn)行詞干化處理。
在參數(shù)設(shè)置上,根據(jù)相關(guān)文獻(xiàn)的研究,分別對(duì)Dirichlet先驗(yàn)參數(shù)→α和→β設(shè)置為0.5和0.1[8-9]。
1)電商微博熱詞概率降序排序。顯示了MA-LDA和傳統(tǒng)LDA主題模型的主題熱詞,并按照降序排序,如表1、2所示:
表1 傳統(tǒng)LDA模型主題分布
表2 MA-LDA模型主題分布
表1、2分別顯示了兩個(gè)模型各自主題降序排序的熱詞,可以看出MA-LDA模型熱詞挖掘的準(zhǔn)確率高于傳統(tǒng)LDA模型,而且MA-LDA模型挖掘的熱詞均為數(shù)據(jù)集中的熱詞,而LDA模型并非都是熱詞。因此,MA-LDA模型可更準(zhǔn)確且有效地挖掘各主題下的熱詞。
本文提出的MA-LDA模型是對(duì)傳統(tǒng)LDA模型的擴(kuò)展,其優(yōu)勢(shì)主要有:
1)對(duì)于電商微博文本,其熱點(diǎn)話題挖掘準(zhǔn)確率高。
2)通過(guò)設(shè)置轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)等參數(shù)過(guò)濾掉了不重要的信息,提高了運(yùn)行效率。
3)主題數(shù)和迭代數(shù)對(duì)熱點(diǎn)話題的識(shí)別影響較小。
MA-LDA模型能夠有效解決稀疏性導(dǎo)致的文檔關(guān)聯(lián)相對(duì)較弱的問(wèn)題;短文本語(yǔ)義信息有限;高緯性所帶來(lái)的挖掘效率低;微博信息隨機(jī)性強(qiáng)等問(wèn)題。但是該模型對(duì)話題的生存周期較敏感,主要適應(yīng)于短時(shí)間內(nèi)被普遍關(guān)注的電商微博。同時(shí),該模型需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,在整個(gè)主題挖掘的時(shí)效性上低于傳統(tǒng)LDA模型。
重慶理工大學(xué)學(xué)報(bào)(自然科學(xué))2019年12期