董振濤
摘要:評論文本中的詞符合冪律分布,使LDA模型詞的分布偏向高頻詞,導致主題相似度大,表達能力下降。提出冪函數(shù)加權LDA(Latent Dirichlet Allocation)模型以提高低頻詞的表達能力。使用iForest算法,選擇出與眾不同且具有價值的評論集合。實驗結果表明,選擇的評論子集特征覆蓋率較高,且有較高的平均信息量。
關鍵詞:LDA;iForest;特征覆蓋率;平均信息量
DOIDOI:10.11907/rjdk.172218
中圖分類號:TP301
文獻標識碼:A文章編號文章編號:16727800(2018)001003803
Abstract:The words in review text conform to the power law distribution, which makes the distribution of LDA model tends to highfrequency words. Topics similarity is large and expression ability drops. Therefore, a power law function weighted LDA (Latent Dirichlet Allocation) model is proposed to improve the expressive power of lowfrequency words. Finally, iForest algorithm is used to select a different and valuable set of comments. Experimental results show that the feature coverage of selected comment subsets is higher and it has higher average information.
Key Words:LDA; iForest; feature; coverage; average information
0引言
網絡購物已成為人們生活不可或缺的一部分。用戶在購買商品前,往往喜歡瀏覽商品評論,從而了解商品的具體信息。但隨著評論數(shù)量的急劇增長,用戶瀏覽并分析這些信息變得不現(xiàn)實[1],大量的評論造成信息過載[2]。因此,從大量的評論中選出一組具有代表性的評論子集展示給用戶變得愈加重要,評論選擇也成為學者的研究熱點。Tsaparas等[3]把評論選擇轉化為一個最大特征覆蓋率問題,使用改進的貪心算法[4]選擇評論子集,但容易選擇出內容過長的評論。Ganesan等[5]提出基于ngram模型獲取評論總結,從大量的評論中總結出具有代表性和可讀性的短語,此種方式結果過于簡潔,反映的信息較片面。有學者提出根據(jù)商品的特征評分和獲得支持的得分對評論進行質量排名,取TopN個評論作為評論子集,確保其質量優(yōu)良[6],但也不能完全排除選中長評論的可能。上述方法易受高頻詞的影響,忽視低頻且重要的詞,因此本文提出冪函數(shù)加權LDA模型的評論選擇方法,提高低頻詞的表達能力,從而找出一組較特殊的且信息量較高的評論推送給用戶。
1問題定義
本文提出的冪函數(shù)加權LDA模型,將評論文本轉化為空間向量,使用高效的IForest算法找出特殊的、有意義的、與眾不同的評論子集。
定義R為評論集,R={r1,r2,…,rn},n為評論個數(shù),這些評論涵蓋了用戶關注的全部商品特征A={a1,a2,…,am},m為給定的特征詞個數(shù)。評論選擇的任務就是從R個評論中選擇K個評論作為子集,S={r1,r2,…,rk},SR且kn。
圖2中,AAI表示全部評論特征詞的平均信息量。SAAI表示評論子集中特征詞的平均信息量。引入冪函數(shù)特征詞加權后,評論子集特征詞的平均信息量高于SAAI,說明評論子集包含更多的低頻特征詞。在相同的
主題數(shù)下,隨著σ增大,平均信息量不一定增加。未引入加權函數(shù)和擴充系數(shù)時,評論子集的平均信息量與主題個數(shù)無關。引入加權函數(shù)和擴充系數(shù)后,每個擴充系數(shù)都對應一個較優(yōu)的主題數(shù),使評論子集平均信息量最大。
4結語
傳統(tǒng)LDA模型難以兼顧有意義且重要的低頻特征詞,因此提出一種冪函數(shù)加權LDA模型用于評論選擇。引入特征加權函數(shù)和擴充系數(shù),調整詞頻權重,兼顧了低頻特征詞,不僅提高了評論子集的平均信息量,而且提高了特征覆蓋率。
參考文獻:
[1]LAPPAS T, CROVELLA M, TERZI E. Selecting a characteristic set of reviews[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM,2012:832840.
[2]NGUYEN T S, LAUW H W, TSAPARAS P. Review selection using microreviews[J]. Knowledge & Data Engineering IEEE Transactions on,2015,27(4):10981111.
[3]TSAPARAS P, NTOULAS A, TERZI E. Selecting a comprehensive set of reviews[C]. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, Ca, Usa, August. DBLP,2011:168176.
[4]LU Y, ZHAI C X, SUNDARESAN N. Rated aspect summarization of short comments[C]. Rated Aspect Summarization of Short Comments Yue,2009:131140.
[5]GANESAN K, ZHAI C X, VIEGAS E. Micropinion generation:an unsupervised approach to generating ultraconcise summaries of opinions[EB/OL]. http://academic.research.microsoft.com/ 2012:869878.
[6]余文喆,沙朝鋒,何曉豐,等.考慮觀點多樣性的評論選擇問題[J].計算機研究與發(fā)展,2015,52(5):10501060.
[7]張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法[J].計算機應用,2013,33(6):15871590.
[8]張小平,周雪忠,黃厚寬,等.一種改進的LDA主題模型[J].北京交通大學學報,2010,34(2):111114.
[9]LIU F T, KAI M T, ZHOU Z H. Isolationbased anomaly detection[J]. Acm Transactions on Knowledge Discovery from Data,2012,6(1):139.
[10]LIU F T, KAI M T, ZHOU Z H. Isolation forest[C]. Eighth IEEE International Conference on Data Mining. IEEE,2008:413422.
(責任編輯:杜能鋼)