曹 陽,唐素勤,方 芳,趙宏遠,曹存根
(1.廣西師范大學(xué)廣西多源信息挖掘與安全重點實驗室,廣西桂林541004;2.中國科學(xué)院計算技術(shù)研究所智能信息處理重點實驗室,北京100190;3.北京工業(yè)大學(xué)應(yīng)用數(shù)理學(xué)院,北京100124)
?
基于PPOG語義文法的產(chǎn)品輿情分析方法
曹陽1,唐素勤1,方芳2,趙宏遠3,曹存根2
(1.廣西師范大學(xué)廣西多源信息挖掘與安全重點實驗室,廣西桂林541004;2.中國科學(xué)院計算技術(shù)研究所智能信息處理重點實驗室,北京100190;3.北京工業(yè)大學(xué)應(yīng)用數(shù)理學(xué)院,北京100124)
摘要:產(chǎn)品質(zhì)量和售后服務(wù)問題已成為決定企業(yè)發(fā)展和用戶消費的關(guān)鍵因素。目前,產(chǎn)品輿情分析的主要研究方法都是依靠關(guān)鍵詞從社交網(wǎng)絡(luò)渠道獲取消費者對產(chǎn)品的評價,這種方法由于缺乏對輿情語義的分析,會產(chǎn)生比較多的噪音數(shù)據(jù)。本文提出了一種基于產(chǎn)品輿情主題結(jié)構(gòu)和產(chǎn)品輿情文法(稱為PPOG)的產(chǎn)品輿情分析方法,研制了一種具有較高精度的產(chǎn)品輿情分析算法。通過大量實際的微博例子測試,基于PPOG的分析方法具有良好的應(yīng)用前景。
關(guān)鍵詞:產(chǎn)品質(zhì)量;產(chǎn)品輿情文法;產(chǎn)品輿情分析
0引言
在現(xiàn)實生活中,產(chǎn)品質(zhì)量與百姓生活和生命財產(chǎn)安全息息相關(guān),關(guān)系到消費者的切身利益,廣大網(wǎng)民對有關(guān)產(chǎn)品的各種輿情需求也在逐步增長。因此,產(chǎn)品質(zhì)量輿情的監(jiān)控和管理是一個重要的研究課題。
中文輿情分析在我國研究已有多年的歷史,積累了大量的工作[1-4]。但是,根據(jù)最新文獻檢索,關(guān)于產(chǎn)品輿情分析的文獻并不多見,我們僅總結(jié)了兩項相關(guān)工作。文獻[5]對農(nóng)產(chǎn)品質(zhì)量安全網(wǎng)絡(luò)輿情,開展了農(nóng)產(chǎn)品質(zhì)量安全網(wǎng)絡(luò)輿情監(jiān)測范圍、機構(gòu)、方法、機制、保障條件等研究,監(jiān)測的產(chǎn)品種類以糧、油、果、茶、水產(chǎn)、肉等為主,監(jiān)測風(fēng)險以農(nóng)獸藥殘留、污染劑、非法添加物、動植物疫病等為主。文獻[6]根據(jù)網(wǎng)絡(luò)輿情演化,分析了產(chǎn)品質(zhì)量輿情對企業(yè)網(wǎng)絡(luò)聲譽的影響,建立了顧客感知的產(chǎn)品質(zhì)量輿情與企業(yè)聲譽的關(guān)系。
對上述工作的分析,我們認為存在以下4個關(guān)鍵問題需要完善:
①產(chǎn)品輿情的及時性和準(zhǔn)確性問題。輿情分析的主要研究方法都是依靠關(guān)鍵字進行采集和分析,或者通過訓(xùn)練主題模型進行分析。然而這些方法的準(zhǔn)確率較低[7]。實踐表明,新浪微博是一個文化性、個人性和情緒性的互動空間[8],通過關(guān)鍵詞的方式難以準(zhǔn)確地進行輿情分析;通過頻度變化的手段,難以及時地分析出輿情;通過主題訓(xùn)練模型的方法需要大量的關(guān)于產(chǎn)品輿情的標(biāo)注。
②產(chǎn)品輿情的多重主題問題。我們認為,消費者對產(chǎn)品的評價具有多個方面,涉及多個主題,包括“正面評價”、“負面評價”、“產(chǎn)品需求”、“產(chǎn)品贊譽”等,而不是單純的正負面評價(限于論文篇幅,本論文僅考慮前3個主題,第4個主題也可類似處理)。
③產(chǎn)品質(zhì)量與售后服務(wù)輿情的區(qū)分問題。根據(jù)我們對產(chǎn)品輿情考察,盡管大部分的產(chǎn)品輿情涉及到產(chǎn)品質(zhì)量差,或者產(chǎn)品質(zhì)量差和售后服務(wù)不到位,但是有不少輿情是稱贊產(chǎn)品質(zhì)量的,只是對售后服務(wù)提出批評或建議。
④方法的可擴展性問題。市場上的產(chǎn)品范圍很廣,要監(jiān)測和分析這么多產(chǎn)品的輿情,需要一種更有效的方法。
針對上述問題,我們將研究一套基于產(chǎn)品質(zhì)量輿情主題結(jié)構(gòu)和產(chǎn)品輿情文法(productpublicopiniongrammar, 簡稱PPOG)的輿情分析技術(shù)。近兩年來,文獻[9-10]采用語義文法對一般網(wǎng)絡(luò)輿情進行了分析,取得了較好的效果。但是,由于產(chǎn)品種類的多樣性和龐雜性,他們的方法并不能解決前面提出的4個關(guān)鍵問題。
為解決這些關(guān)鍵問題,本文介紹的產(chǎn)品輿情文法采取以下原則和方法:
①產(chǎn)品輿情文法的設(shè)計結(jié)合產(chǎn)品分類結(jié)構(gòu)和輿情主題結(jié)構(gòu)。由于產(chǎn)品的種類十分繁雜,為此,我們采用國家統(tǒng)計局《統(tǒng)計用產(chǎn)品分類目錄》[11],在此基礎(chǔ)上形成結(jié)構(gòu)良好的產(chǎn)品分類結(jié)構(gòu)和輿情主題結(jié)構(gòu)。
②在產(chǎn)品輿情文法方面,我們提出基于本體的產(chǎn)品輿情文法設(shè)計原則和方法。針對產(chǎn)品輿情文法的數(shù)量較大、難以維護等問題,我們采取文法的可繼承性,并且依據(jù)產(chǎn)品輿情主題結(jié)構(gòu),引入文法的模塊化思路。
③產(chǎn)品輿情文法的設(shè)計需要結(jié)合消費者的語言表達特點。我們采集大量的產(chǎn)品輿情樣本,得到消費者對產(chǎn)品的評價語言表述特點,這是建立產(chǎn)品輿情文法的重要一步。
在本工作中,產(chǎn)品輿情分析的及時性和準(zhǔn)確性是兩個密切相關(guān)的性能。統(tǒng)計方法需要一定數(shù)量的輿情文本及評論和轉(zhuǎn)發(fā)的積累,才能發(fā)現(xiàn)關(guān)注的目標(biāo)輿情文本。基于分類的統(tǒng)計方法對稀疏數(shù)據(jù)也往往失效,而基于關(guān)鍵詞的方法雖然召回率高,但是識別精度很低。
這正是我們考慮基于語義文法方法的幾個重要原因。在基于語義文法的方法中,只要目標(biāo)輿情文本一旦出現(xiàn),就可以對它進行分析。這既有基于關(guān)鍵詞方法的高召回率,也避免了統(tǒng)計方法的弱點。
1產(chǎn)品輿情領(lǐng)域分析
1.1產(chǎn)品分類結(jié)構(gòu)
產(chǎn)品分類結(jié)構(gòu)是產(chǎn)品輿情分析的基礎(chǔ)。由于產(chǎn)品種類繁多,網(wǎng)絡(luò)上各個電商都有一套自己的分類標(biāo)準(zhǔn),本文為統(tǒng)一標(biāo)準(zhǔn),采用了國家標(biāo)準(zhǔn)《統(tǒng)計用產(chǎn)品分類目錄》[11]。
在本文中,我們僅考慮《統(tǒng)計用產(chǎn)品分類目錄》中的實物類產(chǎn)品以及它們的售后服務(wù)。圖1給出二個大類的部分產(chǎn)品分類結(jié)構(gòu),類名后的括號給出每個類的編碼。
圖1 二個大類的部分產(chǎn)品分類結(jié)構(gòu)Fig.1 Partial hierarchy of two product categories
1.2產(chǎn)品輿情主題及其分類
在本文中,我們將產(chǎn)品輿情分為兩個大的范疇:產(chǎn)品輿情、產(chǎn)品售后輿情,參見圖2。需要特別指出的是,圖2的最后一層是根據(jù)圖1的產(chǎn)品分類結(jié)構(gòu)產(chǎn)生的;也就是說,整個輿情主題的體系是建立在產(chǎn)品分類的基礎(chǔ)之上的,這樣不僅便于文法設(shè)計,也便于文法的管理。
圖2 實體類產(chǎn)品輿情主題分類Fig.2 Topic hierarchy of public product opinions
2自頂向下的產(chǎn)品輿情文法設(shè)計方法
2.1自頂向下的設(shè)計策略
2.1.1利用產(chǎn)品分類結(jié)構(gòu)和輿情主題
由于產(chǎn)品種類的復(fù)雜性、多樣性,如果不采用適當(dāng)?shù)牟呗?,產(chǎn)品文法設(shè)計和維護將缺乏系統(tǒng)性。為此,我們必須充分利用產(chǎn)品分類結(jié)構(gòu)和產(chǎn)品輿情主題,參見圖1和圖2。
圖3 自頂向下的文法設(shè)計示意圖Fig.3 Top-level design of grammar
首先,在整個自頂向下的設(shè)計過程中,我們依據(jù)產(chǎn)品輿情主題(參見圖2),建立頂層產(chǎn)品文法組織結(jié)構(gòu),該結(jié)構(gòu)呈現(xiàn)在圖3的第1至第4層。
2.1.2產(chǎn)品輿情文法中的非終結(jié)符命名策略
我們的另一篇文章[10]提出了6條非終結(jié)符的設(shè)計原則。針對產(chǎn)品輿情的復(fù)雜性,我們引入兩條新的設(shè)計原則。
原則1:非終結(jié)符的語法功能明確、名字含義清晰。
由于非終結(jié)符的數(shù)量龐大,非終結(jié)符的名稱既能反映出它們的語法功能,也能反映出它們的語義。這樣不僅便于文法設(shè)計師編寫文法,而且也便于維護文法。
原則2:非終結(jié)符的命名要確保產(chǎn)生式的可讀性。
例如:對于輿情語句“海爾空調(diào)質(zhì)量差”,我們設(shè)計的文法產(chǎn)生式為“〈品牌詞類〉〈產(chǎn)品詞類〉〈質(zhì)量差詞類〉”。很容易看出,文法很好地反映了語句是關(guān)于產(chǎn)品質(zhì)量的問題。這樣設(shè)計的文法可讀性很強,也很容易讓他人和自己理解。
2.1.3產(chǎn)品輿情文法設(shè)計過程中的繼承策略
經(jīng)過大量考察我們發(fā)現(xiàn),無論是描述產(chǎn)品質(zhì)量,還是描述售后服務(wù),消費者有一些通用的描述方式。
例如,在描述任何產(chǎn)品質(zhì)量差時,消費者會采用“某廠家的某產(chǎn)品真爛”、“某廠家的某產(chǎn)品真差勁”、“千不要買某廠家的某產(chǎn)品”。這些描述具有很好的通用性,因此可以用統(tǒng)一的產(chǎn)生式表達它們。
2.2產(chǎn)品輿情文法PPOG的設(shè)計過程
2.2.1產(chǎn)品輿情語料的采集
產(chǎn)品輿情文法的設(shè)計與語料采集密切相關(guān)。主要原因有兩點:①即對單一產(chǎn)品,消費者在表述上具有很大的差異性,采集輿情語料要盡量反映不同消費人群的表達特點;②日常生活中,與消費者密切相關(guān)的產(chǎn)品種類繁多,因此這些產(chǎn)品的現(xiàn)象、屬性、特性等用語也相應(yīng)地繁多。因此,在文法設(shè)計之前,輿情語料采集需要考慮以下兩條原則:
原則3:語料覆蓋率要盡量廣。
在查找語料時,要選擇盡量涉及不同類別內(nèi)容的語料;語句也盡量涉及更多不同類型,不同結(jié)構(gòu)。只有語料的選擇面寬、采樣廣,才能使得文法的涉及面更廣,對產(chǎn)品輿情分析帶來幫助。
原則4:要盡量保證語料中的語句表述多樣性。
語料語句的多樣性可使得產(chǎn)品輿情文法具有表達豐富的特點,能識別更多的目標(biāo)輿情。
2.2.2PPOG的逐層細化
回顧圖3,可以看到一個層次化、模塊化的文法結(jié)構(gòu)。圖4給出圖3的文法描述形式。
3產(chǎn)品輿情分析系統(tǒng)的設(shè)計和實現(xiàn)
3.1PPOG文法分析器設(shè)計
本文實現(xiàn)的產(chǎn)品輿情文法系統(tǒng),系統(tǒng)輸入為待處理的網(wǎng)絡(luò)輿情語料,系統(tǒng)輸出為產(chǎn)品判斷輿情語料所歸屬的產(chǎn)品分類的結(jié)果以及消費者的主題評價結(jié)果,系統(tǒng)功能是實現(xiàn)對產(chǎn)品輿情語料的語義分析并在產(chǎn)品分類框架和產(chǎn)品主題評價模型的指導(dǎo)下對產(chǎn)品輿情進行具體的表示,系統(tǒng)結(jié)構(gòu)圖如圖 5所示。
步驟1:導(dǎo)入產(chǎn)品輿情文法庫。在產(chǎn)品輿情文法庫中找到相對應(yīng)的產(chǎn)品文法,讀入到內(nèi)存中,并且產(chǎn)生相應(yīng)的分析表M。
步驟2:讀入產(chǎn)品輿情語料。對讀入的產(chǎn)品輿情語料進行去標(biāo)簽處理,形成純文本語料,并且對每條語句插入語句終結(jié)符“$”。
步驟3:語句推導(dǎo)。對輸入的語句按照LL(1)分析表[12]M進行推導(dǎo);推導(dǎo)完成后,將顯示推導(dǎo)過程。
步驟4:PPOG分析樹生成。在完成語句推導(dǎo)之后,輸出分析樹展示語句的推導(dǎo)過程。
3.2PPOG分析樹中抽取輿情信息
根據(jù)每條產(chǎn)品輿情文法對應(yīng)的特征模式,通過與其關(guān)聯(lián)的信息抽取模板,從PPOG分析樹中抽取PPOG分析樹中的特征信息。每個信息抽取模板是一個鍵值對的形式。在我們的系統(tǒng)中,有多個鍵,包括輿情主題、產(chǎn)品品牌、產(chǎn)品名稱、產(chǎn)品類型、產(chǎn)品特點、產(chǎn)品評價等。
圖4 產(chǎn)品輿情文法的頂層部分Fig.4 Top-level portion of product opinion grammar
圖5 產(chǎn)品輿情分析系統(tǒng)工作流程Fig.5 Workchart of public product opinion analysis
4實驗
為了驗證上述提出的文法設(shè)計方法和原則的有效性,我們從新浪微博中下載了涉及產(chǎn)品輿情的語料,對系統(tǒng)進行測試,下面我們給出若干測試例子, 并且給出解釋。
例1:“求推薦一款性價比高的單反”。
根據(jù)推導(dǎo)可以分析得到一棵完整的例句文法分析樹,分析樹很清晰地看出例句到文法的對應(yīng)關(guān)系,得到的文法分析樹如圖6所示。
通過〈產(chǎn)品求推薦語句〉的信息抽取模式, 獲得如下特征信息:
結(jié)果JSON串= {“輿情主題”:“產(chǎn)品需求”,
“產(chǎn)品名稱”:“單反”,
“產(chǎn)品類型”:“通用照相機”,
“產(chǎn)品特點”:“性價比高”}。
例2:“用了強生洗面奶,面部好癢,強生真害人”。
對該輿情的推導(dǎo),也形成了3顆樹,參見圖7(a)(b)(c),分別對應(yīng)著3個子句。
圖6 一棵產(chǎn)品需求輿情分析樹示例Fig.6 A parsing tree of requirement opinion
圖7 三棵產(chǎn)品負面輿情分析樹示例Fig.7 Three parsing trees of negative opinions
在本工作中,我們下載了1 000個新浪微博產(chǎn)品輿情文本帖子,涉及3類:清潔類化妝品 (262301)、家用冷藏冷凍箱 (391401)、通用照相機 (41220101)。對這些輿情文本進行實驗,結(jié)果表明:有66.1%的輿情帖子被目前的語義文法成功解析,33.9%不能被解析。不能解析的原因有兩個:一是因缺乏語義文法,約占30.2%,我們正在擴展語義文法;二是語義文法中存在的錯誤引起二義性,占3.7%。這些實驗表明,只要繼續(xù)補充語義文法,我們的方法可以達到一個有前景的實用方法。我們將在進一步的研究中研究語義文法自動學(xué)習(xí)算法。
5結(jié)論
針對網(wǎng)絡(luò)產(chǎn)品質(zhì)量和產(chǎn)品售后服務(wù)的輿情分析,本文提出了一種基于產(chǎn)品輿情文法的產(chǎn)品輿情分析方法。該方法在產(chǎn)品輿情主題結(jié)構(gòu)的基礎(chǔ)上,根據(jù)自頂向下和自底向上相結(jié)合的文法設(shè)計原則,設(shè)計出一套產(chǎn)品輿情文法,隨后產(chǎn)品輿情文法在產(chǎn)品主題的網(wǎng)絡(luò)輿情分析中進行應(yīng)用。該文法無論是分析網(wǎng)絡(luò)微博中的長文本還是短文本,都具有很好的效果,無論是電子產(chǎn)品、紡織品等日常產(chǎn)品都具有很好的通用性。當(dāng)然,本文介紹的方法也存在一個不足:產(chǎn)品輿情文法需要人工總結(jié),存在一定的工作量。在今后的研究中,我們將通過文法學(xué)習(xí)的方式,研究產(chǎn)品輿情文法的自助學(xué)習(xí)方法,進一步完善我們的產(chǎn)品輿情分析技術(shù)。
參考文獻:
[1]李雯靜,許鑫,陳正權(quán). 網(wǎng)絡(luò)輿情指標(biāo)體系設(shè)計與分析[J]. 情報科學(xué), 2009,27(7):986-991.
[2]鄭魁,疏學(xué)明,袁宏永. 網(wǎng)絡(luò)輿情熱點信息自動發(fā)現(xiàn)方法[J]. 計算機工程, 2010, 36(3):4-6.
[3]柳虹,徐金華. 網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)研究[J].科技通報, 2011, 27(3):421-425.DOI:10.13774/j.cnki.kjtb.2011.03.017.
[4]王蘭成. 網(wǎng)絡(luò)輿情分析技術(shù)[M]. 北京:國防工業(yè)出版社,2014.
[5]郭林宇,戚亞梅,李艷,等. 農(nóng)產(chǎn)品質(zhì)量安全網(wǎng)絡(luò)輿情監(jiān)測工作的幾點思考[J].中國食物與營養(yǎng), 2012, 18(12):5-7.
[6]張慶民,吳春梅,劉小峰. 產(chǎn)品質(zhì)量安全網(wǎng)絡(luò)輿情下的企業(yè)網(wǎng)絡(luò)聲譽研究[J]. 華東經(jīng)濟管理, 2014,28(4):98-103.DOI:10.3969/j.issn.1007-5097.2014.04.019.
[7]SRIRAMB,FUHRYD,DEMIRE,etal.ShorttextclassificationinTwittertoimproveinformationfiltering[C]//Proceedingsofthe33rdInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork:ACM, 2010:841-842.DOI:10.1145/1835449.1835643.
[8]夏雨禾. 微博互動的結(jié)構(gòu)與機制:基于對新浪微博的實證研究[J]. 新聞與傳播研究,2010,18(4):60-69.
[9]侯圣巒,劉磊,曹存根. 基于語義文法的網(wǎng)絡(luò)輿情精準(zhǔn)分析方法研究[J]. 計算機科學(xué), 2014,41(10):225-231,237.DOI:10.11896/j.issn.1002-137X.2014.10.048.
[10]侯圣巒,基于語義文法的網(wǎng)絡(luò)輿情精準(zhǔn)分析方法研究 [D]. 北京:北京工業(yè)大學(xué),2014.
[11]國家統(tǒng)計局.統(tǒng)計用產(chǎn)品分類目錄[M]. 北京:國家統(tǒng)計出版社,2010.
[12]溫敬和.LL(1)文法及分析表的自動構(gòu)造[J]. 上海第二工業(yè)大學(xué)學(xué)報,2001,18(2):38-44.
(責(zé)任編輯黃勇)
doi:10.16088/j.issn.1001-6600.2016.02.011
收稿日期:2015-11-15
基金項目:國家自然科學(xué)基金資助項目(61203284,61103169,61173063);國家行業(yè)專項(201303107);廣西科學(xué)研究與技術(shù)科技攻關(guān)計劃項目(桂科攻1598010-6)
中圖分類號:TP391
文獻標(biāo)志碼:A
文章編號:1001-6600(2016)02-0074-07
AnalysisofProductPublicOpinionBasedonPPOGSemanticGrammar
CAOYang1,TANGSuqin1,F(xiàn)ANGFang2,ZHAOHongyuan3,CAOCungen2
(1.GuangxiKeyLabofMulti-sourceInformationMining&Security,GuangxiNormalUniversity,GuilinGuangxi541004,China;2.KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190,China; 3.CollegeofAppliedMathematicalandPhysicalScience,BeijingUniversity
ofTechnology,Beijing100124,China)
Abstract:Product quality and safety have been viewed as crucial factors to both enterprise development and customer concern. At present, keyword-based methods are the primary analysis method of product-relevant public opinion. However, due to the lack of a deep analysis of public opinions, numerous wrong results are produced. In this paper, a thematic structure of product public opinions is proposed and a product-public opinion grammar, called PPOG, is designed to analyze mircro-blogs. Through comprehensive experiments with the use of micro-blogs, it is believed that the PPOG-based analysis method of public opinion has a promising application prospect.
Keywords:product quality; product public opinion grammar; product public opinion analysis
通信聯(lián)系人:唐素勤(1972—),女(壯族),廣西都安人,廣西師范大學(xué)教授,博士。E-mail:sqtang@gxnu.edu.cn