任碩實(shí),符 琛
(1.河北政法職業(yè)學(xué)院,河北 石家莊 050061;2.寧夏大學(xué),寧夏 銀川 750021)
美國(guó)語言學(xué)家菲爾墨提出的研究詞語意義和句法結(jié)構(gòu)意義的理論方法,被稱為框架語義學(xué)①。這一理論源于經(jīng)驗(yàn)主義語義學(xué)傳統(tǒng),并非形式語義學(xué),它與形式語義學(xué)的主要區(qū)別在于前者強(qiáng)調(diào)語言與經(jīng)驗(yàn)之間的連續(xù)性,而形式語言學(xué)是不連續(xù)的②。框架語義學(xué)與形式主義之間并不矛盾,F(xiàn)illmore認(rèn)為,框架語義學(xué)應(yīng)該是“在形式化之前的”,而不是“非形式化的”。
美國(guó)加州大學(xué)伯克利分校開發(fā)了一個(gè)英文的框架語義詞典Frame Net③。中文框架語義詞典研究開始于2004年,收詞數(shù)量不多。通過研究我們可以看出現(xiàn)有的框架語義詞典的構(gòu)建沒有情感語義描述所需要的極性、情感強(qiáng)度等信息。對(duì)詞匯進(jìn)行分類的結(jié)果,肯定詞和否定詞由于有共同的理解圖式和共同的框架元素集,可以被歸入同一個(gè)框架范疇。對(duì)于情感語義分析,顯然需要添加一些情感標(biāo)簽。
本研究保留評(píng)論數(shù)超過5次的評(píng)論(2次/1000條,5次/5000條)。相似度:在同一框架下,將主題詞(后一詞)進(jìn)行HowNet相似度計(jì)算,相似度大于0.8的適于歸為一類,所得結(jié)果有效比例各框架平均為88%(經(jīng)人工判定屬于同一個(gè)評(píng)價(jià)主題的詞語/相似度為0.8以上的詞語)。但是受到HowNet詞典規(guī)模的限制,覆蓋面為75%,另有25%的主題詞不能計(jì)算。在初步處理的基礎(chǔ)上,運(yùn)用層次聚類法的思想進(jìn)行人工整理,確定評(píng)價(jià)體系。從以往特征抽取和分類的研究,注重特征詞(也就是我們說的主題詞),而忽略評(píng)價(jià)詞的語義。參看以下2個(gè)評(píng)論語句:
這個(gè)酒店有點(diǎn)貴。
酒店挺寬敞。
特征詞都是“酒店”,但第一句評(píng)價(jià)的主題是價(jià)格,第二句是空間,顯然不同。僅依據(jù)特征詞并不能準(zhǔn)確表達(dá)這兩句的評(píng)價(jià)主題,評(píng)價(jià)詞(貴和寬敞)對(duì)評(píng)價(jià)主題有更重要的區(qū)分價(jià)值。正是因?yàn)檫@類現(xiàn)象的存在,許多特征提取的研究,結(jié)果往往是“整體”評(píng)價(jià)占了很大的比重。因?yàn)橛泻芏嘣u(píng)論句的主語(特征詞所在位置)為評(píng)價(jià)對(duì)象名稱,如本文酒店評(píng)論主語多數(shù)為“酒店”;有些研究的手機(jī)商品評(píng)論,主語多為“手機(jī)”。但事實(shí)上,整體的評(píng)價(jià)并沒有像研究所示比重那么大。
再看兩個(gè)評(píng)論句:
服務(wù)很好。
環(huán)境很好。
這兩句的評(píng)價(jià)詞一樣,都是“好”,但主語不一樣,一個(gè)是“服務(wù)”,一個(gè)是“環(huán)境”。這兩個(gè)詞對(duì)評(píng)價(jià)主題的確定更有區(qū)別價(jià)值??梢?,單純依靠評(píng)價(jià)詞,也不能獲得準(zhǔn)確的主題類別信息。我們采取的主題分類依據(jù)是主題詞加評(píng)價(jià)詞所在框架(即評(píng)價(jià)詞的語義)兩方面信息。
我們的顧客價(jià)值體系區(qū)分了實(shí)體和顧客價(jià)值要素。顧客價(jià)值作為一種心理體驗(yàn),與作為客觀存在的物體(評(píng)價(jià)對(duì)象或其某部分)是有區(qū)別的。例如,有的顧客價(jià)值研究,將酒店的位置作為一個(gè)顧客價(jià)值要素,但實(shí)際上“位置”本身是“酒店”的一個(gè)客觀存在的屬性,而顧客體驗(yàn)到的位置是否便利,是否滿意,這些內(nèi)容才是顧客的心理體驗(yàn)。因此,就“位置”來說,真正能夠作為顧客價(jià)值要素的是位置的便利性、位置的滿意感等。描述為某某實(shí)體的某某屬性,為一條評(píng)價(jià)屬性。本研究以酒店服務(wù)質(zhì)量評(píng)論為例,歸納為49個(gè)評(píng)價(jià)屬性,見表1。
在以上體系中,二、三、四級(jí)為實(shí)體部分,右面文字部分為屬性部分。實(shí)體部分根據(jù)事物自身的整體和部分關(guān)系劃分為層級(jí)體系,在體系劃分的時(shí)候,參照其他相關(guān)研究給出的指標(biāo)體系。節(jié)點(diǎn)內(nèi)容及其細(xì)化程度由在線評(píng)論內(nèi)容決定??梢钥闯?,有的實(shí)體層級(jí)多一些,內(nèi)容比較繁雜,如客房及下位各部分。但有的實(shí)體層級(jí)少一些,如周邊狀況。這并不取決于客觀事物的結(jié)構(gòu)如何,而是由在線評(píng)論內(nèi)容決定的。也就是說,酒店顧客因?yàn)楦嗟仃P(guān)心客房?jī)?nèi)容的空間、設(shè)施等,因此,會(huì)評(píng)價(jià)比較細(xì),而周邊狀況僅僅涉及環(huán)境和周邊餐飲等內(nèi)容。右面的屬性部分,是針對(duì)實(shí)體所評(píng)價(jià)的屬性、方面。屬性既有對(duì)應(yīng)實(shí)體上層的,如“酒店”、客房、服務(wù),也有對(duì)應(yīng)具體物的,如“設(shè)施”,甚至具體到“床”。屬性及其實(shí)體之間的關(guān)聯(lián)也完全取決于是否存在對(duì)應(yīng)的評(píng)論句。有些實(shí)體雖然也有其他方面的屬性,但我們通過大規(guī)模評(píng)論句分析,未見對(duì)該屬性的評(píng)價(jià),則不予構(gòu)建。
與上層對(duì)應(yīng)的評(píng)論語句往往是比較籠統(tǒng)地表達(dá)顧客整體上是否滿意,如“酒店挺好”“酒店不錯(cuò)”等,甚至更簡(jiǎn)略為“好”“很好”“贊”等。這種從整體上給出一個(gè)總體評(píng)價(jià)的情況很常見,從500條評(píng)論中統(tǒng)計(jì),總體上表達(dá)對(duì)“酒店”整體的滿意感的,占299條。這類籠統(tǒng)的評(píng)價(jià)雖然從信息量上來看,并沒有具體評(píng)價(jià)的參考意義大,決策價(jià)值高。但我們始終采取評(píng)論語句為客觀依據(jù),依據(jù)“存在即合理”的觀點(diǎn),并且依據(jù)其出現(xiàn)次數(shù)定權(quán)重來確定。因此,這類總體評(píng)價(jià)不光存在,權(quán)重還會(huì)比較高。這也是為什么有些情感分析研究,將這類評(píng)價(jià)剔除后,研究結(jié)果是越好的產(chǎn)品,“有用”的評(píng)價(jià)數(shù)量越少。因?yàn)楹卯a(chǎn)品,顧客就不再針對(duì)具體某方面評(píng)價(jià)了,而往往總體給一句“好”“不錯(cuò)”這類的評(píng)價(jià)。因此,這些評(píng)價(jià)不能忽略,而且在統(tǒng)計(jì)上還比較重要。
表1 酒店服務(wù)質(zhì)量實(shí)體評(píng)價(jià)屬性知識(shí)庫(kù)
在屬性中,“滿意感”指的是顧客對(duì)某實(shí)體或其組成部分給出的是否合意的評(píng)價(jià),往往用“好、不錯(cuò)、還可以”等表達(dá),如“服務(wù)不錯(cuò)”“設(shè)施還可以”。這種對(duì)“好”與“壞”的評(píng)價(jià),實(shí)際上并沒有一個(gè)客觀標(biāo)準(zhǔn),也無法測(cè)量。是顧客依據(jù)自己的經(jīng)驗(yàn)給出的,實(shí)際上也就是顧客感覺是否滿足自己的期待和要求?!皾M意感”屬性幾乎在每個(gè)實(shí)體節(jié)點(diǎn)中都有,是最常見的評(píng)價(jià)屬性。其他屬性如“大小、高低、面積、新舊”等含信息量更多一些,它們所依據(jù)的評(píng)論語句在表達(dá)上更具體一些,如“床有點(diǎn)小”(大小),“家具挺新的”(新舊)等。
該知識(shí)庫(kù)不同于以往的電子商務(wù)客戶滿意度研究方法,知識(shí)庫(kù)提供的評(píng)價(jià)屬性體系將實(shí)體劃分為五個(gè)層次,其中一些屬性與特定商品密切相關(guān),而建立這樣的評(píng)價(jià)體系十分重要④。
情感值是詞塊中情感框架的情感體現(xiàn),價(jià)值范圍在0.0—1.0之間,與詞匯的情感值相同。然而,詞匯成分的情感價(jià)值是其意義的內(nèi)在屬性,不隨語境的變化而變化。它的值在靜態(tài)字典中給出。語塊的情感價(jià)值是指整個(gè)語塊在特定語境中的屬性。一方面,當(dāng)一些單詞獨(dú)立出現(xiàn)時(shí),它們的極性值為0.5,即中性詞,例如“大”“低”“小”等,但具體到一定的上下文,卻有了褒貶傾向。例如,語塊“床大”,可能就比較符合顧客的需求,是褒義0.6;而語塊“噪聲大”,則又是貶義0.4。另一方面,當(dāng)語塊中存在否定詞或程度修飾詞時(shí),語塊的情感價(jià)值與評(píng)價(jià)詞的情感值不同。如果褒義成分前面有否定詞,整個(gè)語塊的值可能會(huì)變?yōu)橘H義,而一個(gè)強(qiáng)度為“中”的成分前面有“相當(dāng)”和“太”等程度修飾詞,詞塊的強(qiáng)度會(huì)變?yōu)楦呋驑O高。對(duì)于情感值為0.5的中性詞,語塊的情感值是根據(jù)主題信息來確定的。例如,當(dāng)詞塊中的中性詞“小”是“床”時(shí),意味著住戶感覺床狹小,因此這是一個(gè)貶義的評(píng)價(jià),區(qū)塊的情感價(jià)值是(-0.1),見圖1。
按照?qǐng)D1表示,第一步,輸入評(píng)價(jià)詞的情感值x0;第二步,判斷x0是否為0.5,當(dāng)x0=0.5,查閱中性詞主題增量知識(shí)庫(kù),得到新的情感值;x0≠0.5。第三步,檢查副詞b,若有,依據(jù)增量,判斷或大于1,或小于1,若x0>1則以1計(jì)。若無副詞,則繼續(xù)查看是否存在否定詞,存在否定詞,x0=1-原情感值,即原來由褒義變?yōu)橘H義,若沒有否定詞,保留原值,作為最終值輸出。
圖1 情感值算法
本研究從評(píng)論文本中識(shí)別情感詞,根據(jù)語境中所包含的否定詞和程度副詞,得到語塊的整體情感值,并根據(jù)相應(yīng)的實(shí)體和屬性計(jì)算整體評(píng)價(jià)值,達(dá)到服務(wù)質(zhì)量評(píng)價(jià)的目的。根據(jù)細(xì)分的情感類別計(jì)算評(píng)價(jià)屬性的情感值,得到更詳細(xì)的評(píng)價(jià)結(jié)果,更準(zhǔn)確地反映客戶體驗(yàn)。評(píng)價(jià)結(jié)果基于對(duì)場(chǎng)景語義分類的識(shí)別,基于語義分析,并在語義分析的基礎(chǔ)上,對(duì)每個(gè)屬性的評(píng)價(jià)值進(jìn)行統(tǒng)計(jì)。本文將漢語語義分析和管理決策的統(tǒng)計(jì)分析的本質(zhì)進(jìn)行了濃縮。針對(duì)酒店服務(wù)質(zhì)量指標(biāo)不平等、數(shù)據(jù)支持不到位、評(píng)價(jià)指標(biāo)分類粗糙、評(píng)價(jià)準(zhǔn)確性和可信度低等問題,提出了酒店服務(wù)行業(yè)的基于情感語義的服務(wù)質(zhì)量評(píng)價(jià)方法。對(duì)在線評(píng)論專業(yè)詞匯細(xì)分為幾十個(gè)語義類,在服務(wù)質(zhì)量評(píng)價(jià)領(lǐng)域,尚屬少見。有效地解決了以往評(píng)價(jià)指標(biāo)過于籠統(tǒng),對(duì)決策參考價(jià)值不高的問題。指標(biāo)的計(jì)量基于文本的語義分析,統(tǒng)計(jì)分析情感值,準(zhǔn)確反映了顧客體驗(yàn),解決了以往評(píng)價(jià)結(jié)果可信度不高、參考意義有限的問題。
注釋:
①Charles J.Fillmore.Topics in lexical semantics[M].Bloomington,Indiana University Press,1977.
②Charles J.Fillmore.Frame semantics[J].Seoul,Hanshin Publishing Co,1982,111-137.
③美國(guó)加州大學(xué)伯克利分校.FrameNet[DB/OL]:https://framenet.icsi.ber-keley.edu/fndrupal/.
④Cruz,Fermin L.;Troyano,Jose A.;Enriquez,Fernando.Long Autonomy or Long Delay?'The Importance of Domain in Opinion Mining[J].Expert Systems with Applications,2013,40(8):3174-3184.