趙蓉英+魏明坤
〔摘 要〕[目的]隨著科學(xué)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)化發(fā)展的現(xiàn)象越來越受到人們的重視。如何在海量的網(wǎng)絡(luò)信息中識別人物觀點(diǎn)成為研究者關(guān)注的焦點(diǎn),網(wǎng)絡(luò)人物觀點(diǎn)被視為網(wǎng)絡(luò)文本表達(dá)的主要思想,是構(gòu)成網(wǎng)絡(luò)信息的“魂”。在海量的網(wǎng)絡(luò)信息中快速識別網(wǎng)絡(luò)人物觀點(diǎn)對掌握網(wǎng)絡(luò)信息主題具有重要作用。[方法]本文在前人研究的基礎(chǔ)上理論與應(yīng)用相結(jié)合,從文本分析的視角研究網(wǎng)絡(luò)人物的觀點(diǎn)。利用相應(yīng)的算法對文本內(nèi)容進(jìn)行預(yù)處理,再通過文本句子中的詞匯、詞性標(biāo)注和詞匯之間的距離關(guān)系實(shí)現(xiàn)觀點(diǎn)指示動詞識別和觀點(diǎn)持有者識別,從而實(shí)現(xiàn)網(wǎng)絡(luò)人物的觀點(diǎn)識別。[結(jié)果]通過網(wǎng)絡(luò)人物觀點(diǎn)算法識別的實(shí)證研究發(fā)現(xiàn),通過對網(wǎng)絡(luò)人物進(jìn)行指代消解和觀點(diǎn)持有者的擴(kuò)展能有效地提高觀點(diǎn)識別的準(zhǔn)確率。
〔關(guān)鍵詞〕文本分析;觀點(diǎn)識別;觀點(diǎn)持有者;觀點(diǎn)指示動詞;網(wǎng)絡(luò)人物;網(wǎng)絡(luò)信息
DOI:10.3969/j.issn.1008-0821.2017.12.017
〔中圖分類號〕G250.252 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2017)12-0096-06
〔Abstract〕[Objective]With the development of science and technology,more and more attention has been paid to the phenomenon of network development.How to identify the views of people in the large information online has become the focus of attention of the researchers,the online peoples viewpoint is regarded as the main idea of the online text,which is the soul of the network information.It is very important to identify the viewpoint of characters online in the massive information.[Methods]This paper analyzed the viewpoint of network characters viewpoint from the perspective of text analysis on the basis of previous studies.This article was processed by using the corresponding algorithm,and then through the distance between the sentence words,lexical tagging and lexical relationship to achieve the identification of verbs and opinion holders,in order to realize the recognition on network peoples viewpoint.[Results]It realized recognizing the opinion of people in the network based on the previous research.The final results of experiment showed that the characters of opinion recognition would be effectively improved by eliminating the anaphora and expanding the opinion holders.
〔Key words〕text analysis;recognition of viewpoint;opinion holder;indicative verb of viewpoint;network character;network information
隨著Web2.0的出現(xiàn),用戶不僅是網(wǎng)絡(luò)內(nèi)容的瀏覽者,也是網(wǎng)絡(luò)內(nèi)容的發(fā)布者。人們除了可以從網(wǎng)絡(luò)上獲取更多的信息外,還可以通過網(wǎng)絡(luò)評論網(wǎng)站、個人博客、社區(qū)、論壇等傳遞自己的觀點(diǎn)。在此環(huán)境下,以網(wǎng)絡(luò)評論為代表的主觀性文本數(shù)量迅速增長,對網(wǎng)絡(luò)人物觀點(diǎn)的分析具有廣泛的實(shí)用價值,如網(wǎng)絡(luò)輿情分析、產(chǎn)品質(zhì)量評論、影視和服務(wù)評價等。在這種背景下,以觀點(diǎn)分析為主題的研究引起了學(xué)術(shù)界的廣泛興趣。如Yu等[1]在觀點(diǎn)問答系統(tǒng)中,基于文本和句子級別,將觀點(diǎn)從事實(shí)提取出來,并判斷觀點(diǎn)的正面影響和負(fù)面影響;Hu等[2-3]對用戶的評論進(jìn)行挖掘和提煉,借助于詞性標(biāo)注和關(guān)聯(lián)規(guī)則,提取用戶的評論特征;Bethard 等[4]結(jié)合語法和句式特征,通過語義分析技術(shù)對語句的觀點(diǎn)進(jìn)行提取和注釋。Hsiao,Yu-Hsiang等利用文本信息挖掘情感在跨境電子商務(wù)中發(fā)揮的重用作用[5]。隨著文本分析的深入研究,文本分析在數(shù)字歷史探究、專利內(nèi)容識別以及在大數(shù)據(jù)時代的應(yīng)用引起研究者的關(guān)注[6-8]。國內(nèi)研究者對文本分析的研究不斷增加,鄭國利用文本分析對新加坡概念規(guī)劃綱要等內(nèi)容進(jìn)行系統(tǒng)分析和解讀,并將文本分析引入到城市規(guī)劃應(yīng)用中[9]。國內(nèi)外在文本分析的研究中,由于語言的差異化,國外的相關(guān)研究都是針對英文文本進(jìn)行分析,對觀點(diǎn)識別的研究大都是基于句法分析的,對觀點(diǎn)識別的準(zhǔn)確度很大程度上依賴于句法分析的準(zhǔn)確率。而基于漢語的人物觀點(diǎn)分析的相關(guān)研究仍然處于起步階段。由于中文在自然語言處理方面還不太成熟,受到中文句法分析準(zhǔn)確率的限制,句法分析在觀點(diǎn)識別中的作用并不明顯。國內(nèi)的一些研究者在中文文本中分析觀點(diǎn)識別時,盡量減少對句法分析的依賴。郭巍等[10]通過建立觀點(diǎn)分析相關(guān)的觀點(diǎn)指示動詞集,然后利用SVM與距離加權(quán)計(jì)算的方法對觀點(diǎn)和持有者進(jìn)行識別,對句法分析的依賴性很小。宋銳等[11]認(rèn)為觀點(diǎn)持有者的識別是一個序列標(biāo)注的任務(wù),通過建立ChunkCRF模型對觀點(diǎn)表達(dá)語句進(jìn)行分析識別用戶的觀點(diǎn)。endprint
本文在分析相關(guān)主題文獻(xiàn)的基礎(chǔ)上,提出通過詞性分析實(shí)現(xiàn)網(wǎng)絡(luò)人物觀點(diǎn)的識別。本文中所指的網(wǎng)絡(luò)人物為網(wǎng)絡(luò)文本如網(wǎng)絡(luò)新聞等中所出現(xiàn)的人物,觀點(diǎn)是指文檔中觀點(diǎn)持有者直接發(fā)表的觀點(diǎn),對于借用他人陳述的觀點(diǎn)即間接陳述的觀點(diǎn),不在本文的探討范圍內(nèi)。因此,本文主要研究兩種類型的觀點(diǎn):1)觀點(diǎn)持有者和指示動詞的觀點(diǎn);2)人物語言的觀點(diǎn)。
1 文本分析法概述
文本分析法是研究人類傳播信息內(nèi)容為主的社會科學(xué)研究方法[12],與內(nèi)容分析法具有重疊之處,但兩者采用了不同的分析處理方法。內(nèi)容分析法古已有之,如“微服私訪”、“諫鼓謗木”、“鄉(xiāng)議”、“進(jìn)諫”等,隨著時間的發(fā)展,文本分析成為計(jì)量學(xué)的重要組成部分,屬于文獻(xiàn)分析的一種。伯納德·貝雷爾森認(rèn)為文本分析法是一種客觀的、系統(tǒng)的、定量的描述交流內(nèi)容的研究方法[13]。文本分析法是對文字、圖形、符號、聲頻、視頻等紀(jì)錄保存下來的資料內(nèi)容作為分析對象。本文認(rèn)為文本分析法是按著研究對象的需要,對一系列相關(guān)文本進(jìn)行比較、分析、綜合,從中提煉出不同的特征。文本分析法是在定性研究基礎(chǔ)上的量化分析方法,以問題的假設(shè)為出發(fā)點(diǎn),通過定量的方法對研究內(nèi)容進(jìn)行分析,最終結(jié)果基于統(tǒng)計(jì)分析數(shù)據(jù)的基礎(chǔ)上得到定性的結(jié)論。根據(jù)文本分析方法的發(fā)展,可以將文本分析方法分為解讀式文本分析方法、實(shí)驗(yàn)式文本分析法和計(jì)算機(jī)輔助文本分析法[14]。隨著web2.0的發(fā)展,網(wǎng)絡(luò)信息占有重要地位,但在浩如煙海的數(shù)據(jù)中提取有用的信息變得越來越困難。要想在不斷變化的網(wǎng)絡(luò)環(huán)境中獲取網(wǎng)絡(luò)人物的觀點(diǎn),需要對網(wǎng)絡(luò)上發(fā)布的信息進(jìn)行監(jiān)測和評價。傳統(tǒng)的社會環(huán)境監(jiān)測方法,如民意調(diào)查等進(jìn)展較慢,具有滯后性,不能及時反饋人物的觀點(diǎn)。
文本分析法也稱資訊分析或文獻(xiàn)分析,是一種具有半定量化色彩的研究方法,是針對文章或媒體的特殊屬性,如思想、主題、片語、人物角色或詞語等,做系統(tǒng)化和客觀化的分析,以探析文件內(nèi)容背后的真正意圖[15]。隨著信息傳播方式的增加,對識別網(wǎng)絡(luò)人物觀點(diǎn)和信念具有很大的影響,引起研究者的廣泛關(guān)注。在文本分析過程中,分析單元是文本分析的計(jì)算對象,是構(gòu)成文本分析最重要、最小的元素。在對文字文本分析中,分析單元可以是單獨(dú)的字、詞、符號、客觀事物的觀點(diǎn)、整片文章等,而本文選擇網(wǎng)絡(luò)人物觀點(diǎn)作為研究對象。文本分析法是基于不同研究主題的各種類型的文本,包括文章、訪談記錄、圖片內(nèi)容等。
2 詞匯庫的建立
一個完整的觀點(diǎn)句應(yīng)包括一些重要的詞匯特征,如:觀點(diǎn)詞語、觀點(diǎn)指示動詞,以及觀點(diǎn)持有者。因此,為了彌補(bǔ)中文分詞工具所存在的缺陷,有效地進(jìn)行觀點(diǎn)自動檢測和抽取以及觀點(diǎn)持有者自動抽取內(nèi)容,本文首先建立了相關(guān)詞匯庫。
2.1 觀點(diǎn)指示動詞
觀點(diǎn)指示動詞是用來指示觀點(diǎn)的動詞,如“認(rèn)為”、“指出”、“批評”、“說”等。由于一些觀點(diǎn)指示動詞本身帶有情感傾向,而要引入情感詞語,可能會導(dǎo)致觀點(diǎn)抽取不夠全面;某些表達(dá)人物觀點(diǎn)的語句并未使用觀點(diǎn)指示動詞,可能會導(dǎo)致部分觀點(diǎn)句遺漏。本文的觀點(diǎn)指示動詞是通過語料查找和人工搜索方法獲得,共有觀點(diǎn)指示動詞106個,其中包含中性觀點(diǎn)指示詞有65個,如“闡述”、“論述”、“回答”等,消極觀點(diǎn)指示動詞有11個,如“反對”、“否認(rèn)”,積極觀點(diǎn)指示動詞有30個,如“贊賞”、“贊揚(yáng)”、“鼓勵”等。
2.2 人物詞匯
人名、地名、某個組織機(jī)構(gòu)、團(tuán)體、區(qū)域、某些新聞中經(jīng)常出現(xiàn)的模糊指代的集合人物(如有關(guān)部門、專家等)、人稱代詞(包括:他、她、他們、她們)及其它部分普通名詞都可作為觀點(diǎn)持有者的候選詞。本文為了克服分詞器的分詞效果不能滿足網(wǎng)絡(luò)人物觀點(diǎn)識別的全面性,人工將一些常見的能夠指代人物的詞匯添加到用戶詞典中。其中,筆者總結(jié)了兩種人物詞匯:一種是網(wǎng)絡(luò)中經(jīng)常出現(xiàn)的一些模糊指代的詞匯,如消費(fèi)者、顧客、組織者等;其二是表示職業(yè)或者人物關(guān)系的詞匯,如專家、父親等。本文向用戶詞典中添加了24個第一種詞匯和33個第二種詞匯,并對第一種詞匯標(biāo)注為defnr1,第二種詞匯標(biāo)注為defnr2。
3 文本的預(yù)處理
在對文本觀點(diǎn)分析之前,要對文本的內(nèi)容從不同的構(gòu)成要素進(jìn)行分析,主要包括語句、分詞、文本整體3個部分。在進(jìn)行網(wǎng)路人物觀點(diǎn)識別前,需對文本就行預(yù)處理,步驟如下:
3.1 語 句
首先采用分句算法將文本進(jìn)行分句,然后判斷每個句子是否是觀點(diǎn)句。因此語句算法在很大程度上影響著觀點(diǎn)抽取的完整性。由于中文一般根據(jù)劃分句子標(biāo)點(diǎn)符號“。?!”等進(jìn)行分句,為保證觀點(diǎn)句在語法層面不完全拆分,本文在分句時只采用“?!?、“?”、“!”3種分句標(biāo)點(diǎn)符號和文檔本身存在的回車換行符號作為句子界限,且對不可拆分引號中的內(nèi)容做了一定的處理。語句算法處理標(biāo)準(zhǔn):
1)首先對引號內(nèi)容進(jìn)行特定標(biāo)記并替換,并將引號內(nèi)容加入到隊(duì)列queue中;
2)其次對匹配出的3種分句標(biāo)點(diǎn)符號的后邊均加入一個回車符;
3)將queue中的引號內(nèi)容依次替換回去;
4)剔除多余的回車符號,即將連續(xù)的兩個或者兩個以上的回車符替換為一個;
5)根據(jù)回車符劃分句子并加入到List中。
3.2 分 詞
采用中國科學(xué)院的分詞工具ICTCLAS2010進(jìn)行分詞與詞性標(biāo)注。并在中國科學(xué)院分析工具的基礎(chǔ)上添加了兩種詞性(defnr1,defnr2)以提高觀點(diǎn)識別的查全率和查準(zhǔn)率,其中defnr1是一些網(wǎng)絡(luò)文章或新聞中經(jīng)常出現(xiàn)的一些模糊指代的集合人物(如人士)名詞,采用窮舉的方式添加到用戶詞典;defnr2是一些能夠聯(lián)系到其他人物的關(guān)系屬性的詞匯(如父親、繼母等)和一些職業(yè)相關(guān)的名詞(如專家、律師、記者等)。
3.3 文本解析
經(jīng)以上兩個步驟預(yù)處理后的文本,文本解析成模擬樹List〈Sentence〈Word〉〉的形式;其中Sentence是文本句子的實(shí)體,包含句子的編號、詞語的數(shù)量、詞性標(biāo)記后的句子的字符串;Word是詞語的實(shí)體,包含詞語、詞性標(biāo)記、在句子中的編號、所在句子的編號、詞語在所在句子中的起始索引位置、特殊標(biāo)記等(如人名標(biāo)記:1;人稱代詞標(biāo)記:2;觀點(diǎn)指示動詞標(biāo)記:3)。endprint
4 基于文本分析的網(wǎng)絡(luò)人物觀點(diǎn)識別算法設(shè)計(jì)
4.1 觀點(diǎn)指示動詞的識別
網(wǎng)絡(luò)人物觀點(diǎn)持有者識別算法:
1) 設(shè)置默認(rèn)返回的觀點(diǎn)持有者的id為-1;
2) 抽取某語句中的全部候選觀點(diǎn)持有者;
3) 默認(rèn)最優(yōu)觀點(diǎn)持有者詞語bestWeight的權(quán)重為-100;循環(huán)每個候選詞,如果它在引號內(nèi),則繼續(xù)循環(huán),否則計(jì)算它的權(quán)值,如果權(quán)值大于最優(yōu)觀點(diǎn)持有者的權(quán)值,則賦值bestWeight,并將它的ID賦值給id;
4)循環(huán)結(jié)束后,返回id。
為了提高觀點(diǎn)持有者識別的準(zhǔn)確率,本文進(jìn)行了簡單的指代消解和觀點(diǎn)持有者擴(kuò)展。
4.2.1 簡單指代消解
本文進(jìn)行的指代消解界定為對人稱代詞進(jìn)行指代消解,其中,處理的人稱代詞包括他、她、他們、她們四種,且對指代單復(fù)數(shù)的情況作了簡單的處理。其主要思想是:如果是前兩個代詞,向前查找單數(shù)類型的人物名詞(如nr,nr1),如果是后兩個詞語,則查找集合性質(zhì)的人物名詞(如defnr1等),查找范圍局限在向前一定閥值的句子內(nèi)一定數(shù)量的人物中,選擇最優(yōu)的候選詞作為照應(yīng)詞。
4.2.2 觀點(diǎn)持有者擴(kuò)展
本文沒有依賴句法和語法規(guī)則,而根據(jù)詞性規(guī)則并總結(jié)一些常見的模板來拓展觀點(diǎn)持有者,本文假設(shè)已經(jīng)得到的參考的人物名詞詞語,那么可以擴(kuò)展為以下幾種情況:
1) 一位中國地震局的專家:前邊為量詞、名詞、形容詞等;
2) 杜甫的妻子:后邊為“的”、nr、defnr等;
3) 李女士的丈夫張某:前邊為“的”、nr等,后邊為名詞、后綴詞等;
4) 其他情況。
因此,本文采用對語句進(jìn)行向前和向后連續(xù)查找詞匯,一旦有其它詞性,則停止擴(kuò)展;這種擴(kuò)展方法的優(yōu)點(diǎn)在于其靈活性較大。
5 結(jié)果分析
5.1 算法設(shè)計(jì)
本文根據(jù)網(wǎng)絡(luò)人物觀點(diǎn)的屬性,基于文本分析方法建立觀點(diǎn)識別流程圖,如圖1所示。在整個流程圖中,對分析文本的語句需滿足以下條件:1)第一種觀點(diǎn),需要有觀點(diǎn)指示動詞,允許觀點(diǎn)持有者和觀點(diǎn)指示動詞之間的距離在一定的閥值范圍之內(nèi),建立彼此之間的聯(lián)系;2)第二種觀點(diǎn),有人物的語言的存在;3)在兩種觀點(diǎn)語句中都必須有觀點(diǎn)持有者的出現(xiàn)。整個觀點(diǎn)識別的算法如圖1所示。
通過網(wǎng)絡(luò)人物觀點(diǎn)識別示意圖可知,首先要對分析對象進(jìn)行預(yù)處理,將文本解析成List〈Sentence〈Word〉〉的形式。其次對語句進(jìn)行循環(huán),針對每一句,進(jìn)行分析處理。根據(jù)語句中詞語的tag屬性識別出該句中包含的觀點(diǎn)持有者和觀點(diǎn)動詞的候選詞的列表;進(jìn)行第一次觀點(diǎn)判斷,如果該句中沒有觀點(diǎn)持有者詞語,認(rèn)為這句話不是觀點(diǎn)句,進(jìn)入下一個循環(huán)。如果語句中包含觀點(diǎn)指示動詞,則根據(jù)觀點(diǎn)指示動詞識別算法(參見表1)獲取該語句中的觀點(diǎn)指示動詞,并根據(jù)觀點(diǎn)持有者識別算法(參見表2)獲取觀點(diǎn)持有者。如果沒有獲取觀點(diǎn)指示動詞則被判定對于前面觀點(diǎn)判斷失敗的句子,進(jìn)行第三次觀點(diǎn)判斷。在第三次觀點(diǎn)判斷時,如果該句中包含人物的說話內(nèi)容,則認(rèn)為是觀點(diǎn)句,并根據(jù)觀點(diǎn)持有者算法獲取觀點(diǎn)持有者,如果沒有得到,則不認(rèn)為是觀點(diǎn)。第二次觀點(diǎn)判斷的依據(jù):1)如果動詞和人名之間距離很遠(yuǎn)的話,不認(rèn)為是觀點(diǎn),返回false;2)如果人名和動詞之間有斷句符號(如逗號等),且兩個詞語的距離超過一定權(quán)值,不認(rèn)為是觀點(diǎn),返回false;否則返回true,并根據(jù)簡單指代消解方法對人稱代詞進(jìn)行指代消解,并將指代消解的結(jié)果作為觀點(diǎn)持有者詞語。最終根據(jù)獲取的觀點(diǎn)持有者,依據(jù)觀點(diǎn)持有者擴(kuò)展方法,進(jìn)行觀點(diǎn)持有者的擴(kuò)展,獲取相關(guān)屬性并將獲取的屬性賦給觀點(diǎn)對象View,然后添加到觀點(diǎn)列表中。
5.2 算法結(jié)果
5.2.1 觀點(diǎn)句自動抽取
本文以百度新聞搜索為例,在百度新聞搜索中進(jìn)行關(guān)鍵詞檢索,總共選取了9個關(guān)鍵詞,每個關(guān)鍵詞檢索得到40篇新聞,最后得到360篇文章作為分析對象。將這360篇文章依據(jù)標(biāo)點(diǎn)符號進(jìn)行句子劃分,得到9 497個句子,然后對這些句子進(jìn)行觀點(diǎn)句人工標(biāo)記,共得到觀點(diǎn)句1 491個。將這些人工標(biāo)注的語句作為測試集,對于觀點(diǎn)自動抽取的性能我們用準(zhǔn)確率(Precision)和召回率(Recall)來進(jìn)行評價。
準(zhǔn)確率=機(jī)器識別的正確觀點(diǎn)數(shù)人工標(biāo)記的觀點(diǎn)總數(shù)×100%(4)
召回率=機(jī)器識別的正確觀點(diǎn)數(shù)機(jī)器識別的觀點(diǎn)總數(shù)×100%(5)
在該實(shí)例操作中,判斷一句話是否是觀點(diǎn),首先是判斷這句話中是否存在潛在的觀點(diǎn)持有者,如果存在,則識別這句話中是否有觀點(diǎn)指示動詞,將這種方法作為一次判斷,也稱為Baseline。在一次判斷的基礎(chǔ)上,對潛在的觀點(diǎn)持有人和觀點(diǎn)指示動詞之間的距離限制在一次的范圍之內(nèi),即二次判斷。然后對于剩余的語句,如果句子中有引號,且引號內(nèi)是一句話,我們就將其視為觀點(diǎn)句,記作三次判斷。根據(jù)不同三種判斷情況,經(jīng)過相關(guān)分析,獲取結(jié)果如表1所示。
由表1的分析結(jié)果中可知,在一次判斷的基礎(chǔ)上,我們對潛在觀點(diǎn)持有者與觀點(diǎn)指示動詞的距離加以限制,來提高觀點(diǎn)識別結(jié)果的準(zhǔn)確率,同時我們會發(fā)現(xiàn)召回率會下降,即在增加一次測試的基礎(chǔ)上增加了距離限制提高準(zhǔn)確率同時會降低召回率??梢?,二次判斷的識別結(jié)果不是很成功。為了進(jìn)一步提高網(wǎng)絡(luò)人物觀點(diǎn)識別結(jié)果的準(zhǔn)確率和召回率,通過在二次判斷的基礎(chǔ)上,我們再進(jìn)行判斷一次,即三次判斷。根據(jù)表中的得到的結(jié)果數(shù)據(jù)可以觀察出,經(jīng)過三次判斷后,準(zhǔn)確率和召回率都明顯得到提升??梢?,三次判斷的結(jié)果的有效性更大,提高了實(shí)驗(yàn)的準(zhǔn)確率。
5.2.2 觀點(diǎn)持有者的自動抽取
在對觀點(diǎn)持有者的抽取進(jìn)行分析時,筆者對人工標(biāo)注的1 491個觀點(diǎn)句,通過機(jī)器抽取得到正確的觀點(diǎn)語句1 128句,并將這1 128個觀點(diǎn)語句作為觀點(diǎn)抽取的文本庫。對于觀點(diǎn)持有者的自動抽取結(jié)果的評價,本文是對機(jī)器抽取結(jié)果與人工標(biāo)記的結(jié)果進(jìn)行對比,把平均相似度作為評價指標(biāo)。endprint
由表2的計(jì)算結(jié)果可以獲知,在Baseline實(shí)驗(yàn)的基礎(chǔ)上進(jìn)行短詞擴(kuò)展,在很大程度上提高觀點(diǎn)持有者的識別效率,平均相似度提高了近25%。而在短語擴(kuò)展的基礎(chǔ)上,進(jìn)行人稱的指代消解,雖然效果不是很明顯,但是平均相似度有所上升,證明觀點(diǎn)持有者的自動抽取計(jì)算方法成為網(wǎng)絡(luò)人物觀點(diǎn)識別研究的主要方法之一。由此可見,短語擴(kuò)展將大量的部分匹配的觀點(diǎn)持有者變?yōu)橥耆ヅ?,使得觀點(diǎn)持有者的機(jī)器抽取結(jié)果更加完整,很大程度地提高了計(jì)算結(jié)果。而指代消解,主要是將不匹配的觀點(diǎn)持有人轉(zhuǎn)化為相關(guān)性的配皮,那些不匹配的觀點(diǎn)持有人一般是一些人稱代詞(他,她等),通過指代消解將這些人稱代詞轉(zhuǎn)化為正確的觀點(diǎn)持有人,從而進(jìn)一步提高計(jì)算結(jié)果的準(zhǔn)確度。
6 結(jié) 語
本文在總結(jié)前人相關(guān)研究的基礎(chǔ)之上,針對中文文本,從計(jì)量學(xué)學(xué)的文本分析法基礎(chǔ)上進(jìn)行網(wǎng)絡(luò)人物的觀點(diǎn)識別。在分詞和詞性標(biāo)注的基礎(chǔ)之上,利用詞性分析和詞匯之間的距離提出了觀點(diǎn)指示動詞識別算法和觀點(diǎn)持有者識別算法。并進(jìn)行實(shí)證分析,按著理論與實(shí)證相結(jié)合的方法對網(wǎng)絡(luò)人物觀點(diǎn)識別進(jìn)行研究,從應(yīng)用角度來提高觀點(diǎn)識別算法的可行性。為了進(jìn)一步提高觀點(diǎn)識別的效果,本文利用指代消解和觀點(diǎn)持有者擴(kuò)展進(jìn)一步提高網(wǎng)絡(luò)人物觀點(diǎn)的準(zhǔn)確率和召回率。從實(shí)證分析的結(jié)果來看,該模型算法取得了比較理想的結(jié)果。本文存在的不足之處在于未對觀點(diǎn)的主題和觀點(diǎn)的極性未進(jìn)行探討,希望本文對后續(xù)研究者提供借鑒作用。后續(xù)研究需進(jìn)一步加強(qiáng)觀點(diǎn)主題和觀點(diǎn)的極致性進(jìn)行分析,進(jìn)一步完善網(wǎng)絡(luò)人物觀點(diǎn)的識別研究。
參考文獻(xiàn)
[1]Yu H,Hatzivassiloglou V.Towards answering opinion questions:separating facts from opinions and identifying the polarity of opinion sentences[C]2003:58-59.
[2]Hu M,Liu B.Mining and summarizing customer reviews[C]2004:168-177.
[3]Hu M,Liu B.Mining opinion features in customer reviews[C]2004:755-760.
[4]Bethard S,Yu H,Thornton A,et al.Automatic Extraction of Opinion Propositions and their Holders[J].2004.
[5]Hsiao Y H,Chen M C,Liao W C.Logistics service design for cross-border E-commerce using Kansei engineering with text-mining-based online content analysis[J].Telematics & Informatics,2016.
[6]Walter L,Radauer A,Moehrle M G.The beauty of brimstone butterfly:novelty of patents identified by near environment analysis based on text mining[J].Scientometrics,2017,111:1-13.
[7]Al-Smadi M,Jaradat Z,Al-Ayyoub M,et al.Paraphrase identification and semantic text similarity analysis in Arabic news tweets using lexical,syntactic,and semantic features[J].Information Processing & Management,2017,53(3):640-652.
[8]Mccormick T H,F(xiàn)errell R,Karr A F,et al.Big data,big results:Knowledge discovery in output from large‐scale analytics[J].Statistical Analysis & Data Mining,2014,7(5):404-412.
[9]鄭國.基于文本分析的新加坡概念規(guī)劃述評[J].西北大學(xué)學(xué)報:自然科學(xué)版,2017,47(2):272-276.
[10]郭巍,宋銳,林鴻飛.基于SVM與距離加權(quán)計(jì)算的觀點(diǎn)和持有者識別機(jī)制[J].計(jì)算機(jī)工程與科學(xué),2008,30(10):125-128.
[11]宋銳,洪莉,林鴻飛.基于ChunkCRF的觀點(diǎn)持有者識別及其在觀點(diǎn)摘要中的應(yīng)用[J].小型微型計(jì)算機(jī)系統(tǒng),2009,30(7):1462-1466.
[12]邱均平,王曰芬.文獻(xiàn)計(jì)量內(nèi)容分析法[M].北京:北京圖書館出版社,2008.
[13]Browne R B,Madden D,Emery M C,et al.General Media Texts[J].Communication Booknotes Quarterly,1972,3(8):4-6.
[14]孫瑞英,畢強(qiáng).內(nèi)容分析法在圖書情報領(lǐng)域的研究現(xiàn)狀及應(yīng)用趨勢分析[J].情報科學(xué),2005,23(1):148-152.
[15]邱均平.知識計(jì)量學(xué)[M].北京:科學(xué)出版社,2014.
(本文責(zé)任編輯:孫國雷)endprint