王娜娜,張順香
(安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 231001)
目前,越來越多的網(wǎng)民選擇通過注冊微博與他人進(jìn)行互動,使得微博文本中存在大量人物間的社會關(guān)系,而挖掘朋友關(guān)系能夠更好地加快社會網(wǎng)絡(luò)的發(fā)展。從海量微博文本中挖掘朋友關(guān)系,可以為廣大用戶提供社區(qū)服務(wù),幫助用戶構(gòu)建和擴(kuò)展“朋友圈”,以及為商家建立信息推薦系統(tǒng)實(shí)現(xiàn)盈利模式或者擴(kuò)展?jié)撛诳蛻舻取?/p>
然而,如何從海量微博文本中挖掘朋友間存在的社會關(guān)系成為目前亟需解決的問題。一個(gè)有效挖掘微博朋友關(guān)系的方法需要考慮:如何獲得更為全面的朋友關(guān)系特征描述詞;由于人物關(guān)系類型繁多,如何提高抽取準(zhǔn)確率;當(dāng)微博語句中實(shí)體對超過一對時(shí),如何確定人物實(shí)體對等問題。
針對上述問題,本文提出一種基于句法與語義特征分析的朋友關(guān)系挖掘方法。其主要目的是提高微博中朋友關(guān)系挖掘的準(zhǔn)確性和高效性。流程圖主要分為2部分,具體挖掘流程如圖1。
(?。┯行U(kuò)展朋友關(guān)系描述詞庫。首先,針對朋友關(guān)系得到其關(guān)系描述詞之一。然后,綜合《知網(wǎng)》和《同義詞詞林》的相似度計(jì)算結(jié)果,得到較為準(zhǔn)確的朋友關(guān)系描述詞庫。
(ⅱ)面向文本數(shù)據(jù)實(shí)現(xiàn)朋友關(guān)系挖掘。在步驟(?。┑幕A(chǔ)上,對篩選后的微博文本運(yùn)用核心謂詞、依存句法以及語義分析等特征進(jìn)行處理,從微博文本中挖掘出朋友關(guān)系。
圖1 人物朋友關(guān)系挖掘過程
人物關(guān)系抽取屬于實(shí)體關(guān)系抽取的一部分,實(shí)體關(guān)系抽取的主要目的是通過相關(guān)技術(shù)挖掘出現(xiàn)在同一文本中的兩實(shí)體間存在的語義關(guān)系。即實(shí)體關(guān)系抽取方法可用于人物關(guān)系抽取方法中。近年來,在解決實(shí)體關(guān)系抽取過程中,國內(nèi)外常采用的方法主要分為三類。
(?。┗谀J狡ヅ涞娜宋镪P(guān)系抽取方法是構(gòu)造若干基于詞語、詞性或語義的模式集合并存儲起來,將預(yù)處理文本與模式集合中的模式進(jìn)行匹配。潘云等人引入標(biāo)簽傳播算法實(shí)現(xiàn)未標(biāo)記人名對的關(guān)系匹配,提出一種利用中文在線資源構(gòu)建中文人物關(guān)系抽取系統(tǒng)的方法[1]??妆热送ㄟ^提取特定關(guān)系實(shí)體上下文信息及句子的結(jié)構(gòu)特征對特定關(guān)系單獨(dú)訓(xùn)練分類模型的人物關(guān)系抽取方法[2]。Choi等人提出一種基于依賴核的支持向量機(jī)(support vector machines,SVMs)的社會關(guān)系提取系統(tǒng)[3]。Vo等人提出一種基于子句的文本文檔中的信息提取框架[4]。
(ⅱ)基于自動訓(xùn)練的人物關(guān)系抽取方法是通過特定的機(jī)器學(xué)習(xí)算法,在標(biāo)注的語料上建造分類模型,再將其應(yīng)用到未標(biāo)注的語料中。黃衛(wèi)春等人通過計(jì)算初始關(guān)系元組的關(guān)系描述詞的信息增益值來確定元組上下文位置以及創(chuàng)建合適的關(guān)系抽取模板,利用模板實(shí)現(xiàn)Web人物關(guān)系的自動提取[5]。Agerri等人開發(fā)了 NERC(named entity recognition)系統(tǒng),能有效使用各種類型的簡單詞表示其特征[6]。王宏斌等人通過自動調(diào)整訓(xùn)練集中實(shí)例樣本的權(quán)重和計(jì)算輔助訓(xùn)練樣本的遷移能力來提高訓(xùn)練語料質(zhì)量,間接提高命名實(shí)體識別的準(zhǔn)確率[7]。郭劍毅等人通過枚舉的方式尋求最優(yōu)的復(fù)合核函數(shù)參數(shù),并結(jié)合多核融合方法和SVM方法對實(shí)體關(guān)系進(jìn)行抽取[8]。
(ⅲ)基于知識庫的人物關(guān)系抽取方法是一種將眾多不同領(lǐng)域的知識結(jié)合起來進(jìn)行人物關(guān)系的抽取。Zhou等人通過構(gòu)造豐富的語義關(guān)系樹,并提出一個(gè)對上下文敏感的卷積樹核,達(dá)到關(guān)系抽取的目的[9]。Li等人將詞語位置的信息增益與基于HowNet的語義計(jì)算相結(jié)合[10]。郭喜躍等人在傳統(tǒng)方法基礎(chǔ)上融入了依存句法關(guān)系、核心謂詞、語義分析等特征[11]。珠杰等人借助具有豐富人物關(guān)系語料的互動百科,提出堆疊降噪自動編碼器(stacked denoising autoencoders,SDAs)的人物關(guān)系抽取方法[12]。Tao等人提出一種新的基于判別局域?qū)R(discriminative locality alignment,DLA)子空間學(xué)習(xí)算法。同時(shí),引入了類似手寫漢字識別技術(shù)(similar handwritten Chinese character recognition,SHCCR)[13]。
通過對上述各種關(guān)系抽取方法的對比分析,本文將實(shí)體關(guān)系抽取中采用的多種技術(shù)有選擇性的運(yùn)用到微博朋友關(guān)系挖掘中,提出一種基于句法與語義特征分析的朋友關(guān)系挖掘方法。該方法綜合運(yùn)用核心謂詞、依存句法以及語義分析等特征進(jìn)行挖掘,實(shí)驗(yàn)結(jié)果證明朋友關(guān)系抽取的準(zhǔn)確率明顯提高。
本章提出構(gòu)建朋友關(guān)系描述詞庫的方法,進(jìn)而達(dá)到擴(kuò)充朋友關(guān)系描述詞集合的目的。
本文在進(jìn)行朋友關(guān)系挖掘前,首先對微博文本數(shù)據(jù)進(jìn)行預(yù)處理。主要包括刪除微博文本中“@”符號、刪除符號“#”及符號中的內(nèi)容、將微博文本中的繁體字轉(zhuǎn)換為簡體字、過濾表情符號等。
為了提高朋友關(guān)系挖掘準(zhǔn)確率,本文提出綜合知網(wǎng)和同義詞詞林的詞語相似度計(jì)算方法[14],其中,相似度取值為0~1。對于任意詞語T1和T2,依據(jù)其在知網(wǎng)和同義詞詞林中的分布情況,計(jì)算出其相似度分別為S1和S2;同時(shí),為S1和S2分別賦予權(quán)值 λ1和 λ2,且滿足 λ1和 λ2,根據(jù)式(1)計(jì)算出綜合知網(wǎng)和同義詞詞林的詞語語義相似度。
通過采用上述方法進(jìn)行試驗(yàn),本文將S=0.7設(shè)置為閾值,對朋友關(guān)系描述詞擴(kuò)充前后進(jìn)行了比較。
根據(jù)上述的討論,可以設(shè)計(jì)算法1來幫助分析本文如何對朋友關(guān)系詞庫進(jìn)行擴(kuò)充。
images/BZ_61_278_1051_1187_2055.png
本章提出朋友關(guān)系識別的方法,主要采用哈工大語言技術(shù)平臺(language technology platform,LTP)對微博文本數(shù)據(jù)進(jìn)行朋友關(guān)系識別。
大量實(shí)驗(yàn)數(shù)據(jù)表明語句中實(shí)體與核心謂詞的距離與其他謂詞距離存在顯著差異,即間接反映出實(shí)體間存在一種關(guān)系特征。圖2所示,例如語句“張勇和李俊成為密友,他們相處的很和睦且經(jīng)常一起打球”。在圖2中,ROOT表示根節(jié)點(diǎn)即核心謂詞“成為”,謂詞還包括“相處”、“打球”,通過公式(2)計(jì)算得出,各實(shí)體和核心謂詞間平均距離為3,與其他謂詞間平均距離為5。
其中,M表示微博語句實(shí)體的個(gè)數(shù),A表示語句中謂詞個(gè)數(shù),N表示執(zhí)行的總次數(shù),Ei表示實(shí)體在句中的位置,Pj表示句子中某一謂詞的位置。
依存句法分析是用來確定句子的句法結(jié)構(gòu)或句中詞匯間的依存關(guān)系[15],主要通過分析詞語之間的搭配關(guān)系,進(jìn)而獲得各成分之間存在的聯(lián)系。本文將核心謂詞與依存句法關(guān)系作為朋友關(guān)系抽取時(shí)的一種句法特征,通過核心謂詞判定人物實(shí)體對。圖3所示,例如語句“馬云在以色列演講時(shí)表示現(xiàn)在與比爾·蓋茨成為非常親密的好朋友?!逼渲?,“馬云”和“比爾·蓋茨”表示人物實(shí)體,且“以色列”表示地名實(shí)體,并與“在”形成介賓關(guān)系,核心謂詞為“成為”,進(jìn)而得出實(shí)體關(guān)系對為(馬云,比爾·蓋茨)。
圖2 核心謂詞實(shí)例
圖3 依存句法分析實(shí)例
語義分析是指根據(jù)語句的句法結(jié)構(gòu)以及句中各實(shí)詞的詞義,預(yù)測出能夠表達(dá)語句意思的某種形式化表示[16]。其主要表現(xiàn)為“謂語—角色”的結(jié)構(gòu)形式。圖4所示,例如“張強(qiáng)經(jīng)常和王娟在微博互動,他們通過互粉成為好友?!痹摼渲兄^詞是“互動”,動作的施事者(A0)為“張強(qiáng)”,動作的影響者(A1)為“好友”,該句話表明動作實(shí)施者帶來的影響是成為“好友”。
本文在傳統(tǒng)人物關(guān)系抽取基礎(chǔ)上采用哈工大語言處理技術(shù)進(jìn)行改進(jìn),進(jìn)而得到獲取更多含有句法、語義特征的語句,具體做法如下。
(ⅰ)語句結(jié)構(gòu)。選擇語句中包含人物關(guān)系對的微博文本。
(ⅱ)核心謂詞。本文根據(jù)實(shí)體和核心謂詞在語句中位置,計(jì)算出各實(shí)體與核心謂詞、其他謂詞的距離,并將實(shí)體和核心謂詞的距離作為關(guān)系抽取的特征。當(dāng)語句中實(shí)體對超過一對時(shí),選擇與核心謂詞距離最近的兩個(gè)不同實(shí)體位置作為本次研究對象。
(ⅲ)依存句法分析。獲取語料庫中每對實(shí)體對之間存在的依存句法關(guān)系。
(ⅳ)語義分析。在進(jìn)行上述操作后,選擇哈工大語言處理技術(shù)對語句進(jìn)行語義分析[17],并將分析結(jié)果作為朋友關(guān)系抽取特征。
圖5,例如“王總和張總變成彼此最好的朋友,并且經(jīng)常合作?!辈捎脗鹘y(tǒng)方法在分詞、詞性、上下文語境方面,根據(jù)特征詞“合作”,推斷出“王總”、“張總”屬于合作關(guān)系;本文在傳統(tǒng)人物抽取關(guān)系的基礎(chǔ)上增加了核心謂詞、依存句法、語義分析等提取特征,推斷出該句核心謂詞ROOT為“變成”,兩人物實(shí)體分別為“王總”、“張總”,通過分析得到表示該句實(shí)體對關(guān)系為朋友關(guān)系。
本章先對微博文本數(shù)據(jù)進(jìn)行預(yù)處理,接著依次判定核心謂詞、依存句法分析、語義分析[18]等操作,綜合使用這些方法對微博語句進(jìn)行分析,顯著提高朋友關(guān)系抽取的準(zhǔn)確率。
圖4 語義分析實(shí)例
圖5 基于句法、語義特征的人物關(guān)系實(shí)例
本次實(shí)驗(yàn)?zāi)康氖轻槍ξ⒉┲信笥殃P(guān)系進(jìn)行數(shù)據(jù)抽取。實(shí)驗(yàn)評價(jià)指標(biāo)主要包括三方面[19],即準(zhǔn)確率P、召回率R以及F1指數(shù)。
其中,C是正確挖掘的實(shí)例個(gè)數(shù);T是挖掘出的所有實(shí)例個(gè)數(shù);S是實(shí)驗(yàn)數(shù)據(jù)集中所有實(shí)例個(gè)數(shù)。
從微博上爬取關(guān)于話題“朋友”的微博[20],隨機(jī)抽取該微博話題下的2 000條微博評論進(jìn)行朋友關(guān)系挖掘,并計(jì)算出人物關(guān)系對中屬于朋友關(guān)系的準(zhǔn)確率P、召回率R和F1值。實(shí)驗(yàn)分為A、B、C、D四組,分別對應(yīng)核心謂詞和依存句法組、語義分析和依存句法組、核心謂詞和語義分析組以及語義分析、依存句法和核心謂詞組,具體實(shí)驗(yàn)結(jié)果如圖6。
圖6 朋友關(guān)系挖掘?qū)嶒?yàn)結(jié)果對比圖
由圖6可以得到基于微博的朋友關(guān)系實(shí)驗(yàn)評價(jià)結(jié)果,A組、B組、C組以及D組實(shí)驗(yàn)結(jié)果準(zhǔn)確率P分別為 68.36%、68.75%、67.97%、69.05%,其中,A組、B組和C組差別不明顯,D組實(shí)驗(yàn)在綜合A組、B組、C組實(shí)驗(yàn)特征后,準(zhǔn)確率P明顯高于A組、B組、C組,朋友關(guān)系的挖掘效果更加顯著。說明本文提出的方法在挖掘基于微博的朋友關(guān)系方面能提供有效的幫助。
實(shí)驗(yàn)結(jié)果表明,在微博中挖掘朋友關(guān)系時(shí),僅僅考慮部分特征不能夠提高實(shí)驗(yàn)結(jié)果的正確率,即需要對語句進(jìn)行綜合考慮,本文將核心謂詞、句法依存和語義分析等特征聯(lián)系起來,通過上述的實(shí)驗(yàn),證明了該方法的有效性。
針對如何提高微博中朋友關(guān)系挖掘的準(zhǔn)確率,本文提出一種基于句法與語義特征分析的朋友關(guān)系挖掘方法。實(shí)驗(yàn)結(jié)果證明,該方法能有效提高挖掘效率和準(zhǔn)確性。在未來,朋友關(guān)系識別方法可以結(jié)合深度學(xué)習(xí)應(yīng)用于多種領(lǐng)域,如實(shí)體關(guān)系挖掘、情感分析、用戶推薦等方面。