• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于MKL-SVM的網(wǎng)絡(luò)購(gòu)物評(píng)論分類方法

      2012-04-29 00:44:03胡瀚
      計(jì)算機(jī)時(shí)代 2012年4期
      關(guān)鍵詞:文本分類

      胡瀚

      摘要: 購(gòu)物網(wǎng)站在線評(píng)論系統(tǒng)收集了大量的顧客評(píng)價(jià)。支持向量機(jī)(SVM)是一種有效的文本分類方法,可以用于跟蹤和管理顧客意見,但是SVM存在訓(xùn)練收斂速度慢,分類精度難以提高等缺點(diǎn)。文章提出利用異質(zhì)核函數(shù)性的不同特性,解決支持向量機(jī)(SVM)數(shù)據(jù)泛化學(xué)習(xí)能力弱的問題,提高SVM的分類精度,通過對(duì)顧客購(gòu)物評(píng)論進(jìn)行分類,解決購(gòu)物網(wǎng)站海量顧客評(píng)論分析的問題,幫助企業(yè)及時(shí)進(jìn)行顧客反饋,提升服務(wù)水平。

      關(guān)鍵詞: 網(wǎng)絡(luò)購(gòu)物評(píng)論; 文本分類; SVM; 多核學(xué)習(xí)

      中圖分類號(hào):F406.2文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8228(2012)04-43-03

      A classification method of online reviews based on MKL-SVM

      Hu Han

      (Dujiangyan north street elementary school experiment foreign language school, Dujiangyan, Sichuan 610054, China)

      Abstract: An online shopping website accumulates a large number of customer reviews for goods and enterprise services. Support Vector Machine (SVM) is an efficient classification method and can be used to track and manage customer reviews. But SVM has some weaknesses, for example, its slow speed of training convergence and uneasy raise of classification accuracy. The author presents the use of heterogeneous nuclear function of different characteristics, which may resolve SVMs problem of weak generalization ability to learn and improve SVM classification accuracy. Through classification of online customer reviews, shopping sites may resolve the issues of critical analysis of mass data, and effectively help enterprises to improve service levels.

      Key words: customer review; text classification; SVM; multiple kernel learning

      0 引言

      購(gòu)物網(wǎng)站都建立有顧客評(píng)論系統(tǒng),收集顧客對(duì)于商品及網(wǎng)站服務(wù)的體驗(yàn)感受。由于購(gòu)物評(píng)論表達(dá)形式繁雜、內(nèi)容隨意、句型多樣,給企業(yè)有效跟蹤和管理用戶評(píng)論意見,帶來了很大的難度。

      文本分類(text categorization)應(yīng)用分類函數(shù)或分類模型,把文本映射到多個(gè)類別中的某一類,使檢索或查詢的速度更快,準(zhǔn)確率更高。文本分類在自然語言處理與理解、信息組織與管理、內(nèi)容信息過濾等領(lǐng)域有著廣泛的應(yīng)用。主要分類方法有:貝葉斯、決策樹、支持向量機(jī)(Support Vector Machines, SVM)、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。其中SVM通過分隔面模式擺脫了樣本分布、冗余特征以及過度擬合等因素的影響,具有很好的泛化學(xué)習(xí)能力[1]。但是SVM存在訓(xùn)練收斂速度慢,分類精度難以提高等缺點(diǎn)。

      核函數(shù)是SVM解決非線性問題的方法,受限于單個(gè)核函數(shù)性能,使得SVM泛化學(xué)習(xí)能力有限,分類精度難以提升。多核學(xué)習(xí)(Multiple Kernel Learning,MKL)利用對(duì)同質(zhì)(homogeneous)或異質(zhì)(heterogeneous)核函數(shù)優(yōu)化整合,提高了SVM的學(xué)習(xí)能力和泛化性能。在處理大量異質(zhì)數(shù)據(jù)時(shí),MKL具有很好的靈活性,且分類結(jié)果更清晰,便于解決現(xiàn)實(shí)應(yīng)用問題[2],但MKL涉及較多的相關(guān)參數(shù)的優(yōu)化。對(duì)MKL研究目前主要集中在圖像識(shí)別領(lǐng)域[3,4]。本文通過校準(zhǔn)算法確定MKL異質(zhì)核函數(shù)的優(yōu)化權(quán)系數(shù)和核參數(shù),建立基于多核學(xué)習(xí)的支持向量機(jī)(Multiple Kernel Learning SVM, MKL-SVM)文本分類模型,提升SVM在評(píng)論分類中的應(yīng)用效果。

      1 MKL-SVM方法描述

      1.1 SVM核函數(shù)

      SVM是基于統(tǒng)計(jì)學(xué)理論中的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,具有高泛化性能的通用學(xué)習(xí)機(jī)。設(shè)分割面,樣本集線性可分時(shí),SVM通過一個(gè)分割超平面,把訓(xùn)練樣本點(diǎn)分類,使兩類訓(xùn)練點(diǎn)到分割面的最小距離之和分類間隔(margin)最大[5]。分類間隔margin=2/||ω||,使間隔最大等價(jià)于使||ω||2最小。最優(yōu)分類面的求解可以轉(zhuǎn)化為優(yōu)化問題:

      s.t.

      利用Lagrange優(yōu)化可將上述問題轉(zhuǎn)為其對(duì)偶問題:求解下列函數(shù):

      max:

      s.t.和。

      最優(yōu)分類函數(shù)是

      。

      上述式中a:為L(zhǎng)agrange非負(fù)乘子

      將低維的輸入空間數(shù)據(jù)通過非線性映射函數(shù)映射到高維屬性空間,輸入空間線性不可分問題在屬性空間將轉(zhuǎn)化為線性可分問題。這種非線性映射函數(shù)稱之為核函數(shù)[6]。設(shè)x在χ對(duì)應(yīng)一個(gè)映射到高緯空間,φ(x)為核映射函數(shù),K核函數(shù)為,,SVM尋找的超平面胃。此時(shí)目標(biāo)函數(shù)變?yōu)椋?/p>

      考慮最大分割和訓(xùn)練誤差,優(yōu)化公式為:

      s.t.

      1.2 多核學(xué)習(xí)

      設(shè)函數(shù)集合M由多個(gè)核函數(shù)K1…Km組成,核函數(shù)對(duì)應(yīng)的映射函數(shù)是φ1…φM。MKL[7]公式:

      s.t.

      其中ωk表示φk在整個(gè)學(xué)習(xí)機(jī)中的權(quán)重。

      其中00, k=1,2….M;多核學(xué)習(xí)核函數(shù)KMKL是Ki的凸線性組合:;最終的分類函數(shù)。

      1.3 MKL-SVM及優(yōu)化參數(shù)計(jì)算

      MKL-SVM核函數(shù)的選擇取決于對(duì)數(shù)據(jù)處理的要求。具有全局性的核函數(shù)和局部性的核函數(shù)的分類性能互補(bǔ),可以使用不同核函數(shù)組成多核核函數(shù)[8],但是如果MKL異質(zhì)核函數(shù)種類過多,會(huì)使SVM訓(xùn)練過于復(fù)雜。因此,本研究選用M=2,核函數(shù)選擇了:Gaussian徑向基核函數(shù)RBF (Radial Basis Function)。局部核函數(shù)具有較好的學(xué)習(xí)能力,而泛化推廣能力較弱。多項(xiàng)式核函數(shù)(Polynomial Function, PF)是一個(gè)全局性核函數(shù),具有較好的泛化推廣能力,而學(xué)習(xí)能力則要弱些。Sigmoid核函數(shù)在神經(jīng)網(wǎng)絡(luò)的應(yīng)用中,具有良好的全局分類性能。對(duì)有下面2種實(shí)現(xiàn)形式:

      MKL-SVM計(jì)算中核參數(shù)σ、d、β0、β需要尋找合適的值使得SVM測(cè)試錯(cuò)誤率最小。權(quán)系數(shù)λ對(duì)MKL-SVM起著關(guān)鍵作用也需要進(jìn)行尋優(yōu)。核參數(shù)和權(quán)系數(shù)的確定是MKL-SVM非常重要的環(huán)節(jié)。本文利用核函數(shù)之間的關(guān)系等價(jià)于核矩陣之間的關(guān)系,結(jié)合交叉驗(yàn)證技術(shù)LOO和核校準(zhǔn)(kernelalignment)[9],建立如下優(yōu)化求解步驟:

      ①,表示兩個(gè)核矩陣之間的內(nèi)積。

      核校準(zhǔn)度量k1與k2在樣本集S上的差異。核校準(zhǔn)是一個(gè)標(biāo)量值,體現(xiàn)了不同核函數(shù)之間的差異關(guān)系。

      ② 對(duì)k1,k2使用LOO方法,求出核參數(shù),使達(dá)到最大的核參數(shù)。

      ③ 定義函數(shù)

      ④ 構(gòu)造一個(gè)權(quán)參數(shù)λ和乘子αi的拉格朗日方程,構(gòu)造二次規(guī)劃子問題:

      ⑤ 重復(fù)步驟④直到誤差最小,算法收斂到最優(yōu)的λ值。

      2 實(shí)例分析

      2.1 評(píng)估標(biāo)準(zhǔn)和分類維度

      表1購(gòu)物評(píng)論分類維度

      [[評(píng)論對(duì)象&編號(hào)&維度&解釋&售前服務(wù)&A1&購(gòu)買咨詢&是否提供在線問答解決顧客疑問&A2&信息提供全面性&網(wǎng)站商品信息是否滿足顧客需求&商品&B1&定價(jià)&價(jià)格浮動(dòng)給顧客帶來的影響&B2&商品特征&對(duì)商品使用感受&網(wǎng)站服務(wù)&C1&支付方式&網(wǎng)站方便、種類多、安全&C2&內(nèi)部配貨、調(diào)貨&企業(yè)內(nèi)部訂單處理速度&C3&信息溝通&及時(shí)傳遞商品處理信息給顧客&物流服務(wù)&D1&及時(shí)性&物流時(shí)間是否合理&D2&態(tài)度&快遞服務(wù)、送貨上門態(tài)度&D3&質(zhì)量&外包裝磨損、安全&售后服務(wù)&E1&換、退貨&問題商品的處理&]]

      對(duì)于需要分類的n個(gè)狀態(tài),我們以ce表示對(duì)第i個(gè)狀態(tài)分類出的正確信息個(gè)數(shù),te表示沒有分類出的正確信息個(gè)數(shù),fe為錯(cuò)誤信息個(gè)數(shù)。以精確度P(Precision)表示系統(tǒng)正確分類信息占所有分類信息的比例,;召回率R(Recall)表示系統(tǒng)分類出的正確信息占所有可能正確信息的比例,。評(píng)論模型性能需要同時(shí)考慮P和R,為此引入,其中β是P和R的相對(duì)權(quán)重,決定對(duì)P側(cè)重還是對(duì)R側(cè)重,通常設(shè)定為1。F值越大,說明分類性能越好。

      圍繞購(gòu)物網(wǎng)站服務(wù)流程,本研究結(jié)合顧客購(gòu)物評(píng)論中的常見主題,總結(jié)出了評(píng)論的分類維度(表1)。

      2.2 方法評(píng)估與應(yīng)用

      本文從卓越亞馬遜、當(dāng)當(dāng)網(wǎng)等購(gòu)物網(wǎng)站,下載了不同商品的3000條購(gòu)物評(píng)論。隨機(jī)抽取2000條作為訓(xùn)練集,其余作為測(cè)試集,對(duì)比幾種方法F值。從圖1可以看出,單核SVM中Gaussian RBF優(yōu)于Polynomial;而MKL-GP和MKL-GS分類性能都優(yōu)于單核SVM。其中MKL-GP效果好于MKL-SG,這是由于Sigmoid函數(shù)在某些特定條件下,才滿足核函數(shù)對(duì)稱、半正定的要求,因此影響了其分類的性能。

      圖1不同方法分類F值

      表2數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

      [[樣本量&Polynomial

      SVM (F值)&Gaussian RBF

      SVM(F值)&MKL-GS

      SVM(F值)&MKL-GP

      SVM(F值)&300&0.6573&0.6639&0.5081&0.6047&600&0.6894&0.7429&0.7026&0.7493&1000&0.7047&0.7579&0.8081&0.8169&2000&0.7715&0.8040&0.8559&0.8621&3000&0.7745&0.8037&0.8551&0.8676&]]

      本文使用不同的樣本量對(duì)兩種算法進(jìn)行對(duì)比,其中F值使用均值。從表2可以看出,在樣本量不夠大時(shí),MKL-GS受Sigmoid函數(shù)特性影響性能較差;隨著樣本數(shù)量的增加,MKL優(yōu)勢(shì)逐漸明顯,表現(xiàn)出優(yōu)于單核SVM的分類性能;樣本量到2000之后,SVM分類性能的提升就不明顯,有待更進(jìn)一步優(yōu)化。

      3 結(jié)束語

      網(wǎng)絡(luò)購(gòu)物評(píng)論分析需要多種技術(shù)的結(jié)合。MKL-SVM方法通過集成學(xué)習(xí)發(fā)揮異質(zhì)核函數(shù)不同特性,實(shí)現(xiàn)了購(gòu)物評(píng)論分類性能的提升。本文所做的工作僅僅是購(gòu)物評(píng)論分析的第一步,還需要結(jié)合文本挖掘、情感分析、營(yíng)銷分析等方法,才能幫助企業(yè)掌握消費(fèi)者的感受,給予更多智能化的決策建議。網(wǎng)絡(luò)上存在各類評(píng)論、新聞、博客、微博,對(duì)這些文本的分類分析,只要通過優(yōu)選核函數(shù)以及相關(guān)參數(shù),可以參照MKL-SVM方法獲取更好的分類性能。

      參考文獻(xiàn):

      [1] 蘇金樹,張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006.17(9):1848~1859

      [2] F. R. Bach, G. R. G. Lanckriet, M. I. Jordan. Multiple kernel learning, conic duality, and the SMO algorithm[C]. Process 21st International Conference Machine Learn, 2004:6~14

      [3] S. Sonnenburg, G. Ratsch, C. Schafer. Large scale multiple kernel learning [J]. Machine Learning Research, 2006.7(12):1531~1565

      [4] Koji Tsuda, Gunnar R?tsch, et al. learning to predict the leave one out error of kernel based classifiers [J].Process International Conference Artificial Neural Networks.2001.21(3):331~338

      [5] Smits, G.F., Jordaan, E.M. Improved SVM regression using mixtures of kernels Neural Networks[C]. Proceedings of the 2002 International Joint Conference,2002.5:2785~2790

      [6] A. Rakotomamonjy, F. Bach, S. Canu, Y. Grandvalet, More efficiency in multiple-kernel learning[C]. Proc. 24th Int. Conf. Mach. Learn., Corvallis.2007.6:775~782

      [7] Mingqing Hu, Yiqiang Chen, James Tin-Yau Kwok. Building Sparse Multiple-Kernel SVM Classifiers [J].IEEE TRANSACTIONS ON NEURAL NETWORKS. 2009.20(5):1~12

      [8] 劉向東,駱斌,陳兆乾.支持向量機(jī)最優(yōu)模型選擇的研究[J].計(jì)算機(jī)研究與發(fā)展,2005.42(4):576~581

      [9] N. Cristianini, J. Shawe-Taylor, J. Kandola. On kernel target alignment [C].Neural Information Processing Systems Cambridge, 2002:367~373

      猜你喜歡
      文本分類
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      基于貝葉斯分類器的中文文本分類
      基于蟻群智能算法的研究文本分類
      基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
      基于K—means算法的文本分類技術(shù)研究
      文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
      科技視界(2016年24期)2016-10-11 09:36:57
      汉寿县| 澎湖县| 岳池县| 九龙城区| 吴川市| 龙井市| 来宾市| 常州市| 百色市| 三明市| 安福县| 富源县| 新乐市| 冀州市| 乌拉特中旗| 凉城县| 安泽县| 黄山市| 扬州市| 南康市| 连城县| 商河县| 金华市| 泗洪县| 东辽县| 额济纳旗| 松桃| 定边县| 新野县| 平果县| 竹北市| 云龙县| 永寿县| 冕宁县| 淄博市| 鄯善县| 罗江县| 镇赉县| 桐柏县| 蒙城县| 武山县|