馮沖 石戈 郭宇航 龔靜 黃河燕,2
?
基于詞向量語義分類的微博實(shí)體鏈接方法
馮沖1石戈1郭宇航1龔靜1黃河燕1,2
微博實(shí)體鏈接是把微博中給定的指稱鏈接到知識(shí)庫的過程,廣泛應(yīng)用于信息抽取、自動(dòng)問答等自然語言處理任務(wù)(Natural language processing,NLP).由于微博內(nèi)容簡(jiǎn)短,傳統(tǒng)長(zhǎng)文本實(shí)體鏈接的算法并不能很好地用于微博實(shí)體鏈接任務(wù).以往研究大都基于實(shí)體指稱及其上下文構(gòu)建模型進(jìn)行消歧,難以識(shí)別具有相似詞匯和句法特征的候選實(shí)體.本文充分利用指稱和候選實(shí)體本身所含有的語義信息,提出在詞向量層面對(duì)任務(wù)進(jìn)行抽象建模,并設(shè)計(jì)一種基于詞向量語義分類的微博實(shí)體鏈接方法.首先通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量模板,然后通過實(shí)體聚類獲得類別標(biāo)簽作為特征,再通過多分類模型預(yù)測(cè)目標(biāo)實(shí)體的主題類別來完成實(shí)體消歧.在NLPCC2014公開評(píng)測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法的準(zhǔn)確率和召回率均高于此前已報(bào)道的最佳結(jié)果,特別是實(shí)體鏈接準(zhǔn)確率有顯著提升.
詞向量,實(shí)體鏈接,社會(huì)媒體處理,神經(jīng)網(wǎng)絡(luò),多分類
引用格式馮沖,石戈,郭宇航,龔靜,黃河燕.基于詞向量語義分類的微博實(shí)體鏈接方法.自動(dòng)化學(xué)報(bào),2016,42(6):915-922
微博是一種通過關(guān)注機(jī)制分享簡(jiǎn)短實(shí)時(shí)信息的廣播式的社交網(wǎng)絡(luò)平臺(tái),已成為目前最流行的社交平臺(tái)之一.截至2014年9月30日,微博的月活躍用戶已經(jīng)達(dá)到1.67億,用戶每天產(chǎn)生的微博數(shù)目達(dá)到2億[1].如何從海量微博中自動(dòng)地及時(shí)分析、獲得信息已成為研究和應(yīng)用熱點(diǎn)問題,微博實(shí)體鏈接是其中關(guān)鍵任務(wù)之一.
微博實(shí)體鏈接是指將微博中已經(jīng)識(shí)別出的實(shí)體指稱鏈接到知識(shí)庫中的一個(gè)具體真實(shí)實(shí)體的過程[2-3].例如,微博“在我眼中,科比還是比喬丹棒的”中,“喬丹”作為實(shí)體指稱,在知識(shí)庫中有6個(gè)實(shí)體義項(xiàng).實(shí)體鏈接的目標(biāo)就是要確定,這里的“喬丹”,指代的是知識(shí)庫中哪個(gè)實(shí)體義項(xiàng).
以往實(shí)體鏈接研究主要集中在新聞等長(zhǎng)文,對(duì)于微博等短文本的研究工作剛起步.微博具有兩個(gè)特點(diǎn)[4]:1)內(nèi)容非常簡(jiǎn)短,通常每篇至多包含140個(gè)字符;2)格式不規(guī)范,經(jīng)常出現(xiàn)口語和縮寫等靈活的非正式表達(dá).傳統(tǒng)的長(zhǎng)文本實(shí)體鏈接方法主要從實(shí)體指稱的上下文中抽取特征用于實(shí)體消歧,但是因?yàn)槲⒉﹥?nèi)容簡(jiǎn)短,傳統(tǒng)方法難以抽取有效特征.
針對(duì)微博文本上下文不足的問題,部分工作借助微博的結(jié)構(gòu)特點(diǎn)擴(kuò)充微博的上下文.Jiang等[5]利用Twitter中的轉(zhuǎn)發(fā)、回復(fù)以及同一用戶的其他帖子擴(kuò)充上下文進(jìn)行情感分類.Shen等[6]利用同一個(gè)Twitter用戶的數(shù)據(jù)對(duì)其興趣建模,提高與用戶興趣模型一致性高的候選實(shí)體的權(quán)重.Guo等[2]利用類似主題的微博建模來對(duì)候選實(shí)體進(jìn)行消歧.Liu等[7]利用指稱上下文—實(shí)體上下文、指稱上下文—指稱上下文、實(shí)體上下文—實(shí)體上下文的文本相似度來對(duì)實(shí)體消歧.
以上方法雖然能夠改善微博實(shí)體鏈接中上下文特征匱乏的狀況,但本質(zhì)上受限于對(duì)更多微博數(shù)據(jù)資源(用戶的轉(zhuǎn)發(fā)、回復(fù)和其他微博等內(nèi)容)的獲取,增加了處理開銷.如果缺乏符合建模要求的數(shù)據(jù),仍難建立有效模型[8].
本文從充分利用指稱和候選實(shí)體本身所含有的語義信息入手,提出假設(shè)“一條微博中的名詞,包括實(shí)體指稱,位于相近的語義空間”,從而把微博實(shí)體鏈接問題轉(zhuǎn)化為語義空間中的分類問題.以NLPCC 2014[9]評(píng)測(cè)數(shù)據(jù)集中的微博樣本“好懷念當(dāng)時(shí)的那支隊(duì)伍啊!弗朗西斯、麥迪、巴蒂爾、大姚、斯科拉、穆托姆博、諾瓦克”為例,“大姚”是“姚明”和“姚晨”的別名.兩人都是媒體熱點(diǎn)人物,實(shí)體指稱具有類似的詞匯和語法特征,傳統(tǒng)方法難以識(shí)別.而考察指稱與上下文中其他名詞的語義距離則可進(jìn)行有效區(qū)分.統(tǒng)計(jì)577條微博訓(xùn)練數(shù)據(jù),得出結(jié)果如表1所示.
表1 訓(xùn)練集數(shù)據(jù)統(tǒng)計(jì)Table 1 Statistics in training data
從統(tǒng)計(jì)數(shù)據(jù)可以看出,平均每條微博中含有7.91個(gè)名詞,同一語義類別名詞個(gè)數(shù)超過3的微博占訓(xùn)練數(shù)據(jù)的87%,驗(yàn)證了假設(shè)“一條微博中的名詞位于相近的語義空間”的合理性.
基于以上假設(shè),利用知識(shí)庫中實(shí)體的深層語義信息,基于詞向量對(duì)微博進(jìn)行建模和實(shí)體消歧.傳統(tǒng)的方法已經(jīng)驗(yàn)證,足夠多的語義特征可以提高實(shí)體鏈接的準(zhǔn)確率[10],但由于微博是短文本,從微博本身很難加入更多的特征,因此從實(shí)體鏈接的另一方面入手,將知識(shí)庫中的實(shí)體表征為含有語義、語法信息的分布式向量,從語義分類層面對(duì)微博進(jìn)行建模和實(shí)體消歧.
本文的主要貢獻(xiàn)是提出了一種基于神經(jīng)網(wǎng)絡(luò)和多分類回歸模型的命名實(shí)體鏈接方法,將微博中上下文名詞與對(duì)應(yīng)的待鏈接實(shí)體映射到同一個(gè)語義主題空間,并以此訓(xùn)練分類模型對(duì)實(shí)體進(jìn)行語義消歧.其創(chuàng)新之處在于,從神經(jīng)網(wǎng)絡(luò)語言模型的角度,以分類器分類預(yù)測(cè)的方式提出了實(shí)體消歧方法,不僅能夠充分地利用上下文語義信息,也能夠利用實(shí)體的語義分類信息來進(jìn)行消歧,并降低了獲取訓(xùn)練語料的難度.
本文結(jié)構(gòu)如下:第1節(jié)介紹本文提出的方法;第2節(jié)是實(shí)體鏈接部分;第3節(jié)是實(shí)驗(yàn)部分;最后是結(jié)論和展望.
1.1任務(wù)描述
1.2詞向量語義分類模型構(gòu)建(SCWE)
1.2.1詞向量語義模板構(gòu)建
圖1是本文的詞向量語義分類模型.其中神經(jīng)網(wǎng)絡(luò)部分采用的是CBOW模型[11].CBOW是一個(gè)三層神經(jīng)網(wǎng)絡(luò)模型,從左至右依次是輸入層、隱含層和輸出層.其基本思想是通過訓(xùn)練將每個(gè)詞映射成含有語義、語法信息的K維實(shí)數(shù)向量(K是可選參數(shù),一般為50~200),通過向量之間的距離(例如歐氏距離、cosine相似度等)來判斷它們之間的語義相似度.該模型是對(duì)語言模型進(jìn)行建模,在建模的同時(shí)獲得詞語在分布式向量空間上的表示.
假設(shè)語料庫是由S個(gè)句子組成的一個(gè)句子序列,整個(gè)語料庫有V個(gè)詞,Tj表示第j個(gè)句子的詞個(gè)數(shù),則對(duì)整個(gè)語料庫來說,該模型的目標(biāo)函數(shù)可以表示為
圖1 詞向量語義分類模型Fig.1 Model of semantical categorization by word embeddings
通過隨機(jī)梯度下降對(duì)目標(biāo)函數(shù)求解,即可將語料庫中V個(gè)詞表示為含有深層語義特征的分布式向量.
1.2.2特征選擇
對(duì)于給定的訓(xùn)練數(shù)據(jù)集,用T=(t1,t2,···,tn)表示訓(xùn)練數(shù)據(jù)集中的每條微博,S=(s1,s2,···,sn)表示與微博相對(duì)應(yīng)的,已經(jīng)鏈接到知識(shí)庫的無歧義實(shí)體的集合.基于假設(shè)“一條微博中的所有名詞,包括實(shí)體指稱,位于相近的語義空間”,抽取訓(xùn)練集中的名詞,通過第1.2.1節(jié)中方法獲得詞向量模板,將抽取的名詞表示為分布式向量,得到名詞向量集合N.分布式向量中含有深層語義信息,對(duì)集合N用k-means[12]進(jìn)行聚類,獲得k個(gè)中心點(diǎn)C=(c1,c2,···,ck)作為k個(gè)特征(其中k為k-means聚類核心個(gè)數(shù)).同時(shí),通過計(jì)算每個(gè)詞到k個(gè)中心點(diǎn)的距離,獲得集合N中每個(gè)詞的類別標(biāo)簽.
1.2.3訓(xùn)練數(shù)據(jù)特征化
由第1.2.2節(jié)中得到的每個(gè)名詞的標(biāo)簽,可以把集合T中的微博ti表示成k維向量,把ti中的每個(gè)名詞類別出現(xiàn)的頻數(shù)作為該維特征上的權(quán)值.
如圖2所示,選取k=10,即選取10維特征.喬丹、科比、奧尼爾、艾弗森對(duì)應(yīng)的聚類標(biāo)簽為3,球員對(duì)應(yīng)聚類標(biāo)簽為1,退役對(duì)應(yīng)聚類標(biāo)簽為5.則可以將這條微博表示為(0,1,0,4,0,1,0,0,0,0).與這條微博相對(duì)應(yīng)的,已經(jīng)鏈接到知識(shí)庫中的無歧義實(shí)體si為“邁克爾·喬丹”,從向量模板中找出“邁克爾·喬丹”所對(duì)應(yīng)的向量,通過公式
計(jì)算與邁克爾·喬丹最接近的類別,得出邁克爾·喬丹所屬類別為3,于是可將si邁克爾·喬丹表示成向量(0,0,0,1,0,0,0,0,0,0).
圖2 訓(xùn)練數(shù)據(jù)示例Fig.2 Example of the training data
通過上述過程我們可以把訓(xùn)練集合中的微博和對(duì)應(yīng)的待鏈接實(shí)體表示成k(k為所選取特征個(gè)數(shù))維的向量對(duì).
1.2.4多分類模型訓(xùn)練
相關(guān)工作表明[13-15],在實(shí)際運(yùn)用中,邏輯回歸分類器跟SVM、隨機(jī)森林等分類模型效果接近,但邏輯回歸分類器算法復(fù)雜度最低.因此,該部分我們采用邏輯回歸分類器構(gòu)建分類模型.用表示特征化后的微博集合,用表示特征化后與微博相對(duì)應(yīng)的,已經(jīng)鏈接到知識(shí)庫的無歧義實(shí)體的集合.其中,t?i和s?i均為k維向量.在特征化訓(xùn)練數(shù)據(jù)并將之用向量表示后,可以將問題轉(zhuǎn)化為多分類問題.這樣做的意義在于,既利用了微博待鏈接實(shí)體跟該條微博中的名詞之間的關(guān)系,又利用了實(shí)體的詞向量語義特征.
令
由此可以得出相應(yīng)的多分類邏輯回歸[16]模型:
通過構(gòu)造似然函數(shù)對(duì)模型求解.把n個(gè)獨(dú)立的觀測(cè)樣本記作(Xi,Yji),i=1,2,···,n.利用上面規(guī)定,得出如下似然函數(shù):
其中,πj(Xi)=P(y=j|Xi).對(duì)等式兩端取對(duì)數(shù)整理可以得到如下的對(duì)數(shù)似然函數(shù):
通過梯度下降法對(duì)似然函數(shù)求解,至此得到訓(xùn)練好的詞向量語義分類模型.
2.1任務(wù)描述與特征選擇
微博實(shí)體鏈接是將微博中給定的實(shí)體指稱鏈接到知識(shí)庫中無歧義實(shí)體的過程.本文選取兩個(gè)特征進(jìn)行實(shí)體消歧,詞向量語義分類特征(Semantic categorization by word embeddings,SCWE)和實(shí)體流行度特征(Entity frequency,EF).實(shí)體鏈接過程表述如下:
2.2實(shí)體鏈接過程
圖3所示是整個(gè)實(shí)體鏈接的過程.整個(gè)過程可以分為三個(gè)部分:實(shí)體指稱標(biāo)準(zhǔn)化、候選實(shí)體擴(kuò)充和實(shí)體消歧.微博中許多實(shí)體有若干不同的名稱、提法,有的是別名(如小飛俠)、昵稱(如大姚),有的是全名的一部分或是縮寫(如北京理工、北理工、北理等).因此,首先需要對(duì)微博中出現(xiàn)的指稱映射到一種標(biāo)準(zhǔn)的表達(dá)形式.具體地,構(gòu)建一個(gè)同義詞詞表[17](見表2)來解決這個(gè)問題.其中,Key值表示實(shí)體的不規(guī)則指稱,Value表示標(biāo)準(zhǔn)實(shí)體.
表2 同義詞表舉例Table 2 Examples of synonym lexicon
將實(shí)體指稱標(biāo)準(zhǔn)化之后,需要為待消歧的命名實(shí)體構(gòu)建一個(gè)候選實(shí)體列表.本文構(gòu)建了歧義詞表(見表3),表3中存儲(chǔ)的是實(shí)體的標(biāo)準(zhǔn)形式(Key)及其對(duì)應(yīng)的無歧義實(shí)體列表(List).
表3 歧義詞表舉例Table 3 Examples of ambiguity lexicon
在鏈接階段,需要對(duì)擴(kuò)充后的候選實(shí)體列表進(jìn)行消歧,本文通過詞向量語義分類特征和實(shí)體流行度特征進(jìn)行消歧.詞向量語義分類特征由第二部分構(gòu)建的模型獲得,實(shí)體流行度特征[4]則由Wikipedia頁面中實(shí)體在所有描述頁面中出現(xiàn)的次數(shù)來度量(見表4),并根據(jù)經(jīng)驗(yàn)對(duì)實(shí)體流行度的權(quán)值進(jìn)行設(shè)置(見表5).
表4 實(shí)體流行度表舉例Table 4 Examples of entity frequency
圖3 實(shí)體鏈接過程Fig.3 Process of entity linking
表5 實(shí)體流行度權(quán)值Table 5 Weights of entity frequency
綜上所述,本文提出的基于詞向量語義分類的微博實(shí)體鏈接過程的算法如下.
算法1.基于詞向量語義分類的微博實(shí)體鏈接方法
輸入.微博及其對(duì)應(yīng)的待鏈接實(shí)體
輸出.鏈接到知識(shí)庫的無歧義實(shí)體
步驟1.根據(jù)知識(shí)庫中的同義詞表,對(duì)MMM中的指稱進(jìn)行描述標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化后的指稱集合.
步驟3.再通過計(jì)算各候選實(shí)體到該標(biāo)簽的余弦距離得到各候選實(shí)體的語義分類特征.
步驟4.按式(10)計(jì)算每個(gè)候選實(shí)體兩個(gè)特征的加權(quán)和,并輸出結(jié)果最高的候選實(shí)體作為最終鏈接實(shí)體.如果加權(quán)和小于閾值α,則返回標(biāo)記NIL.
3.1數(shù)據(jù)集描述
本文建立同義詞表、歧義詞表、實(shí)體流行度表以及訓(xùn)練的詞向量模板所用數(shù)據(jù)均為Wikipedia[18],使用的數(shù)據(jù)版本是2015年7月19日的中文百科.通過規(guī)則對(duì)知識(shí)庫抽取信息并進(jìn)行統(tǒng)計(jì),獲得數(shù)據(jù)規(guī)模如表6所示.
表6 實(shí)驗(yàn)數(shù)據(jù)規(guī)模Table 6 Scale of experiment data
實(shí)驗(yàn)中選取NLPCC2014[9]中文實(shí)體鏈接評(píng)測(cè)任務(wù)訓(xùn)練集中包含的177條中文微博數(shù)據(jù)和人工標(biāo)注的400條新浪微博數(shù)據(jù)(從抓取的10000條數(shù)據(jù)中隨機(jī)抽取標(biāo)注)作為訓(xùn)練數(shù)據(jù),從剩余的9600條微博中隨機(jī)抽取100條標(biāo)注作為驗(yàn)證集,測(cè)試集使用NLPCC2014官方提供測(cè)試集,共包含1152個(gè)實(shí)體指稱.
3.2實(shí)驗(yàn)設(shè)計(jì)
1)選取鏈接效果好的算法進(jìn)行對(duì)比.通過對(duì)比驗(yàn)證本文算法是否有效.該部分選取NLPCC2014評(píng)測(cè)中的最優(yōu)方法(NLPCC)[19]、基于上下文概率模型的實(shí)體鏈接方法(EF*)[20]以及基于維基百科和搜索引擎(CMEL)[21]方法進(jìn)行對(duì)比.
NLPCC采用百度百科分類屬性和實(shí)體流行度相結(jié)合的方法進(jìn)行消歧,EF*在概率模型基礎(chǔ)上添加平滑方法,CMEL采用結(jié)合維基百科實(shí)體描述頁面和搜索引擎結(jié)果相結(jié)合的方法進(jìn)行實(shí)體消歧.
實(shí)驗(yàn)過程中,對(duì)所有方法均采用相同的資源模板和預(yù)處理.首先用訓(xùn)練集數(shù)據(jù)訓(xùn)練得到多分類回歸模型,再用驗(yàn)證集進(jìn)行模型調(diào)參,得到最優(yōu)權(quán)重α =1.4,λ=0.6,最后在測(cè)試集進(jìn)行方法驗(yàn)證.選取準(zhǔn)確率(Precision)、召回率(Recall)以及F1值作為評(píng)價(jià)指標(biāo).其中,in-KB部分表示知識(shí)庫中已收錄實(shí)體的準(zhǔn)確率,NIL表示未收錄到知識(shí)庫中的實(shí)體鏈接準(zhǔn)確率.對(duì)比實(shí)驗(yàn)結(jié)果如表7和表8所示.
表7 in-KB實(shí)驗(yàn)結(jié)果Table 7 Results of in-KB
表8 NIL實(shí)驗(yàn)結(jié)果Table 8 Results of NIL
實(shí)驗(yàn)結(jié)果中,粗體部分表示本文方法.實(shí)驗(yàn)表明,本文方法在準(zhǔn)確率、召回率方面均明顯優(yōu)于其他三種算法,特別是準(zhǔn)確率有顯著提升.而本文方法與NLPCC、EF*和CMEL方法的主要區(qū)別在于本文方法加入詞向量語義分類特征,實(shí)驗(yàn)結(jié)果的提升表明詞向量語義分類特征是有效的.例如,評(píng)測(cè)數(shù)據(jù)樣例“好懷念當(dāng)時(shí)的那支隊(duì)伍??!弗朗西斯、麥迪、巴蒂爾、大姚、斯科拉、穆托姆博、諾瓦克”,NLPCC 和EF?將“大姚”鏈接至“姚晨”,而本文方法將該指稱鏈接至“姚明”.
2)不同比重下的詞向量語義分類特征(SCWE)對(duì)鏈接結(jié)果的影響.本文采用SCWE和實(shí)體流行度特征(EF)兩個(gè)特征,選取不同的λ進(jìn)行實(shí)驗(yàn)結(jié)果比對(duì).結(jié)果如表9和表10所示.
表9 in-KB實(shí)驗(yàn)結(jié)果Table 9 Results of in-KB
表10 NIL實(shí)驗(yàn)結(jié)果Table 10 Results of NIL
從實(shí)驗(yàn)結(jié)果看,當(dāng)λ=0時(shí),鏈接方法中只選取了實(shí)體流行度作為特征,此時(shí)F1值最低.隨著λ的增長(zhǎng),F(xiàn)1值也隨之增長(zhǎng).在λ=0.6時(shí),F(xiàn)1值最高.λ>0.6之后,F(xiàn)1值開始降低.表明本文構(gòu)建的實(shí)體鏈接方法效果的提升依賴于詞向量語義分類特征.為了更清晰地表示F1值與參數(shù)λ之間的關(guān)系,構(gòu)建圖4.
3)詞向量語義分類特征與聚類特征數(shù)目k的關(guān)系.只采用SCWE模型進(jìn)行實(shí)體鏈接,選取不同的k值來觀測(cè)模型與k之間的關(guān)系.如圖5所示,當(dāng)k =10時(shí),模型取得最高的F1值,在5~15之間,k值的變化對(duì)模型的預(yù)測(cè)效率影響不大.但k=20時(shí),SCWE的F1值大幅度下降.通過對(duì)評(píng)測(cè)數(shù)據(jù)中每條微博含有的名詞數(shù)目進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)每條微博中平均有7.91個(gè)名詞.分析認(rèn)為當(dāng)k=20時(shí)F1值下降是由于特征選取過多,訓(xùn)練數(shù)據(jù)稀疏所致.
圖4 本文方法在不同參數(shù)λ下的F1值Fig.4 F1 scores of the combined measure with the λ parameter
圖5 SCWE在不同參數(shù)k下的F1平均值Fig.5 F1 scores of SCWE with the k features
基于微博中名詞位于相近的語義空間的假設(shè),本文提出了利用詞向量語義分類對(duì)微博實(shí)體進(jìn)行語義消歧的思路,設(shè)計(jì)了完整的實(shí)體鏈接方法,并在NLPCC2014發(fā)布的評(píng)測(cè)數(shù)據(jù)上進(jìn)行驗(yàn)證.實(shí)驗(yàn)結(jié)果表明使用本文提出的基于詞向量語義分類的實(shí)體鏈接方法,鏈接效果優(yōu)于NLPCC已公開的最好結(jié)果,鏈接準(zhǔn)確率有顯著提升.后續(xù)工作主要集中在兩點(diǎn),一是結(jié)合詞向量和圖模型進(jìn)行實(shí)體鏈接,二是探索不同的多分類模型在實(shí)體鏈接中的應(yīng)用.
References
1 Chinese Microblog Service.Sina Weibo User Development Report in 2014[Online],available:http://www.199it.com/ archives/324955.html.November 24,2015(中國(guó)微博服務(wù).2014年新浪微博用戶發(fā)展報(bào)告[Online],available:http://www.199it.com/archives/324955.html.November 24,2015)
2 Guo Y H,Qin B,Liu T,Li S.Microblog entity linking by leveraging extra posts.In:Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.Seattle,USA:Association for Computational Linguistic,2013.863-868
3 Yang Jin-Feng,Yu Qiu-Bin,Guan Yi,Jiang Zhi-Peng.An overview of research on electronic medical record oriented named entity recognition and entity relation extraction. Acta Automatica Sinica,2014,40(8):1537-1562(楊錦鋒,于秋濱,關(guān)毅,蔣志鵬.電子病歷命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究綜述.自動(dòng)化學(xué)報(bào),2014,40(8):1537-1562)
4 Shen W,Wang J Y,Han J W.Entity linking with a knowledge base:issues,techniques,and solutions.IEEE Transactions on Knowledge and Data Engineering,2015,27(2):443-460
5 Jiang L,Yu M,Zhou M,Liu X H,Zhao T J.Targetdependent twitter sentiment classification.In:Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies.Portland,Oregon,USA:2011.151-160
6 Shen W,Wang J Y,Luo P,Wang M.Linking named entities in tweets with knowledge base via user interest modeling. In:Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM,2013.68-76
7 Liu X H,Li Y T,Wu H C,Zhou M,Wei F R,Lu Y.Entity linking for tweets.In:Proceedings of the 51st Annual Meeting of the Association of Computational Linguistics.Sofia,Bulgaria:Association for Computational Linguistics,2013. 1304-1311
8 Odbal,Wang Zeng-Fu.Emotion analysis model using compositional semantics.Acta Automatica Sinica,2015,41(12):2125-2137(烏達(dá)巴拉,汪增福.一種基于組合語義的文本情緒分析模型.自動(dòng)化學(xué)報(bào),2015,41(12):2125-2137)
9 NLPCC [Online],available:http://tcci.ccf.org.cn/conference/2014/pages/page04_sam.html.October 31,2015
10 Hachey B,Radford W,Nothman J,Honnibal M,Curran J R.Evaluating entity linking with Wikipedia.Artificial Intelligence,2013,194:130-150
11 Mikolov T,Chen K,Corrado G,Dean J.Efficient estimation of word representations in vector space.arXiv:1301.3781,2013.
12 Hartigan J A,Wong M A.Algorithm AS 136:a k-means clustering algorithm.Journal of the Royal Statistical Society—Series C(Applied Statistics),1979,28(1):100-108
13 Fern′andez-Delgado M,Cernadas E,Barro S,Amorim D.Do we need hundreds of classifiers to solve real world classification problems?Journal of Machine Learning Research,2014,15:3133-3181
14 Mao Yi,Chen Wen-Lin,Guo Bao-Long,Chen Yi-Xin.A novel logistic regression model based on density estimation. Acta Automatica Sinica,2014,40(1):62-72(毛毅,陳穩(wěn)霖,郭寶龍,陳一昕.基于密度估計(jì)的邏輯回歸模型.自動(dòng)化學(xué)報(bào),2014,40(1):62-72)
15 Zhou Xiao-Jian.Enhancing ε-support vector regression with gradient information.Acta Automatica Sinica,2014,40(12):2908-2915(周曉劍.考慮梯度信息的ε-支持向量回歸機(jī).自動(dòng)化學(xué)報(bào),2014,40(12):2908-2915)
16 King G,Zeng L C.Logistic regression in rare events data. Political Analysis,2001,9(2):137-163
17 Guo Y H,Qin B,Li Y Q,Liu T,Lin S.Improving candidate generation for entity linking.In:Proceedings of the 18th International Conference on Applications of Natural Language to Information Systems.Salford,UK:Springer,2013.225-236
18 Wikipedia[Online],available:http://download.wikipedia. comzhwikilate-stzhwiki-latest-pages-articles.xml.bz2.October 31,2015
19 Zhu Min,Jia Zhen,Zuo Ling,Wu An-Jun,Chen Fang-Zheng,BaiYu.ResearchonentitylinkingofChinese microblog.Acta Scientiarum Naturalium Universitatis Pekinensis,2014,50(1):73-78(朱敏,賈真,左玲,吳安峻,陳方正,柏玉.中文微博實(shí)體鏈接研究.北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,50(1):73-78)
20 Guo Yu-Hang.Research on Context-based Entity Linking Technique[Ph.D.dissertation],Harbin Institute of Technology,China,2014.(郭宇航.基于上下文的實(shí)體鏈指技術(shù)研究[博士學(xué)位論文],哈爾濱工業(yè)大學(xué),中國(guó),2014.)
21 Meng Z Y,Yu D,Xun E D.Chinese microblog entity linking system combining Wikipedia and search engine retrieval results.In:Proceedings of the 3rd CCF Conference on Natural Language Processing and Chinese Computing.Berlin Heidelberg:Springer,2014.449-456
馮 沖北京理工大學(xué)計(jì)算機(jī)學(xué)院副研究員.2005年獲中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)系博士學(xué)位.主要研究方向?yàn)樽匀徽Z言處理,信息抽取,機(jī)器翻譯.本文通信作者.
E-mail:fengchong@bit.edu.cn
(FENG ChongAssociate professor at the College of Computer Science and Technology,Beijing Institute of Technology.He received his Ph.D.degree from the Department of Computer Science,University of Science and Technology of China in 2005.His research interest covers natural language processing,information extraction,and machine translation. Corresponding author of this paper.)
石 戈北京理工大學(xué)計(jì)算機(jī)學(xué)院博士研究生.主要研究方向?yàn)樽匀徽Z言處理,實(shí)體鏈接,問答系統(tǒng).
E-mail:shige713@126.com
(SHI GePh.D.candidate at the College of Computer Science and Technology,Beijing Institute of Technology. His research interest covers natural language processing,entity linking,and question answering system.)
郭宇航北京理工大學(xué)計(jì)算機(jī)學(xué)院講師. 2014年獲哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院博士學(xué)位.主要研究方向?yàn)樽匀徽Z言處理,信息抽取,機(jī)器翻譯.
E-mail:guoyuhang@bit.edu.cn
(GUOYu-HangLectureratthe College of Computer Science and Technology,Beijing Institute of Technology. He received his Ph.D.degree from Harbin Institute of Technology in 2014.His research interest covers natural language processing,information extraction,and machine translation.)
龔 靜北京理工大學(xué)計(jì)算機(jī)學(xué)院碩士研究生.主要研究方向?yàn)樽匀徽Z言處理,機(jī)器翻譯,問答系統(tǒng).
E-mail:gongjing@bit.edu.cn
(GONG JingMaster student at the College of Computer Science and Technology,Beijing Institute of Technology. Her research interest covers natural language processing,machine translation,and question answering system.)
黃河燕北京理工大學(xué)計(jì)算機(jī)學(xué)院教授. 1989年獲中國(guó)科學(xué)院計(jì)算技術(shù)研究所計(jì)算機(jī)科學(xué)與技術(shù)博士學(xué)位.主要研究方向?yàn)樽匀徽Z言處理和機(jī)器翻譯社交網(wǎng)絡(luò)與信息檢索,智能處理系統(tǒng).
E-mail:hhy63@bit.edu.cn
(HUANG He-YanProfessor at the College of Computer Science and Technology,Beijing Institute of Technology.She received her Ph.D.degree from the Institute of Computing Technology,Chinese Academy of Sciences.Her research interest covers natural language processing,machine translation,social network,information retrieval,and intelligent processing system.)
An Entity Linking Method for Microblog Based on Semantic Categorization by Word Embeddings
FENG Chong1SHI Ge1GUO Yu-Hang1GONG Jing1HUANG He-Yan1,2
As a widely applied task in natural language processing(NLP),named entity linking(NEL)is to link a given mention to an unambiguous entity in knowledge base.NEL plays an important role in information extraction and question answering.Since contents of microblog are short,traditional algorithms for long texts linking do not fit the microblog linking task well.Precious studies mostly constructed models based on mentions and its context to disambiguate entities,which are difficult to identify candidates with similar lexical and syntactic features.In this paper,we propose a novel NEL method based on semantic categorization through abstracting in terms of word embeddings,which can make full use of semantic involved in mentions and candidates.Initially,we get the word embeddings through neural network and cluster the entities as features.Then,the candidates are disambiguated through predicting the categories of entities by multiple classifiers.Lastly,we test the method on dataset of NLPCC2014,and draw the conclusion that the proposed method gets a better result than the best known work,especially on accurancy.
Word embedding,entity linking,social media processing,neural network,multiple classifiers
10.16383/j.aas.2016.c150715
Feng Chong,Shi Ge,Guo Yu-Hang,Gong Jing,Huang He-Yan.An entity linking method for microblog based on semantic categorization by word embeddings.Acta Automatica Sinica,2016,42(6):915-922
2015-10-29錄用日期2016-05-03
Manuscript received October 29,2015;accepted May 3,2016
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃)(2013CB329303),國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)(2015AA015404),國(guó)家自然科學(xué)基金(61 502035),高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(20121101120026)資助
Supported by National Basic Research Program of China(973 Program)(2013CB329303),National High Technology Research and Development Program of China(863 Program)(2015AA015 404),National Natural Science Foundation of China(61502035),and Specialized Research Fund for the Doctoral Program of Higher Education(20121101120026)
本文責(zé)任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.北京理工大學(xué)計(jì)算機(jī)學(xué)院 北京1000812.北京市海量語言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心北京100081
1.College of Computer Science and Technology,Beijing Institute of Technology,Beijing 1000812.Beijing Engineering Research Center of High Volume Language Information Processing and Cloud Computing Applications,Beijing 100081