王占一,徐蔚然,郭軍
(1.北京郵電大學模式識別與智能系統(tǒng)實驗室,北京 100876;2.北京郵電大學信息與通信工程學院,北京 100876)
智能文本搜索新技術
王占一1,2,徐蔚然1,2,郭軍1,2
(1.北京郵電大學模式識別與智能系統(tǒng)實驗室,北京 100876;2.北京郵電大學信息與通信工程學院,北京 100876)
面對當今互聯(lián)網上海量的信息,以及搜索信息準確、高效、個性化等需求,提出了一套包括信息檢索、信息抽取和信息過濾在內的智能文本搜索新技術.首先舉薦了與信息檢索新技術相關的企業(yè)檢索、實體檢索、博客檢索、相關反饋子任務.然后介紹了與信息抽取技術相關的實體關聯(lián)和實體填充子任務,以及與信息過濾技術相關的垃圾郵件過濾子任務.這些關鍵技術融合在一起,在多個著名的國際評測中得到應用,如美國主辦的文本檢索會議評測和文本分析會議評測,并且在互聯(lián)網輿情、短信輿情和校園網對象搜索引擎等實際系統(tǒng)中得到了檢驗.
智能文本搜索;文本檢索;文本分析
隨著互聯(lián)網技術的飛速發(fā)展,網絡上的信息呈爆炸式增長.用戶需要在這些海量信息數(shù)據中找到自己需要的內容,不是簡單定位到某一個網站或網頁,而是越精準、全面越好.同時他們希望使用盡量少的描述就可以找到自己感興趣的內容,不帶有任何垃圾信息.如何滿足用戶對這些信息的高精度、高效率、個性化、完備性等需求,是當前信息檢索和數(shù)據挖掘面臨的新問題.
傳統(tǒng)的文本搜索基于數(shù)據庫查詢、關鍵詞搜索等技術,有很強的局限性.而智能文本搜索解決的是數(shù)據海量、數(shù)據稀疏、大量并發(fā)請求、數(shù)據特征演進、主客觀交叉等困難問題,從技術角度來說,智能文本搜索融合了信息的檢索、抽取、過濾等方面.檢索是由用戶提出查詢請求,系統(tǒng)根據這個需求對Web信息進行查詢并給出結果.抽取是把文本里包含的信息進行結構化處理,變成表格一樣的組織形式.過濾是系統(tǒng)根據預先設定的條件,對Web中與該條件相符的信息進行獲取、隔離或封堵[1].
為了探索前沿技術,解決上述問題,各國學術界、產業(yè)界和政府部門都給予了高度關注,一系列評測活動應運而生.文本檢索會議(text retrieval conference,TREC)作為文本檢索領域最權威的評測會議,關注著檢索技術的最新發(fā)展,比較客觀地反映了十幾年來的研究趨勢.TREC是由美國國家技術標準局(NIST)和美國國防部(DOD)聯(lián)合主辦,創(chuàng)立于1992年,主要目的是通過提供評價大型文本檢索方法所必需的基礎設施來支持對信息檢索的研究[2].關注TREC,有利于加強各個科研機構和企業(yè)之間的交流,有利于評價檢索方法在實際問題中的效果,也有利于加快實驗室的技術商品化的速度.
TREC的參賽隊伍從開始的22個發(fā)展到2010年的75個.北京郵電大學模式識別實驗室多年來致力于模式識別和網絡搜索技術,從2005年開始參加TREC的多項評測并取得了較好的成績,如垃圾郵件過濾、企業(yè)檢索、博客檢索、實體檢索、相關反饋等.同時,該團隊還參加了國家“863”計劃項目中文本分類、SigHan分詞、TAC和中文傾向性分析等評測.評測中涉及的任務除了用于新技術的研究,也是為了解決實際問題.基于評測中的智能文本搜索新技術,一些實際系統(tǒng)也相應地被開發(fā)出來,并在實際應用中得到了檢驗.
本文以權威評測為主線,詳細介紹智能文本搜索新技術.第1部分以企業(yè)檢索、實體檢索、博客檢索和相關反饋為例介紹信息檢索新技術;第2部分以文本分析會議評測為例介紹信息抽取新技術;第3部分以垃圾郵件過濾為例介紹信息過濾新技術;第4部分介紹以上述技術為核心的實際應用系統(tǒng),如互聯(lián)網輿情系統(tǒng)、短信輿情系統(tǒng)、校園對象搜索引擎系統(tǒng)等;最后是總結和展望部分.
文本檢索會議從2005—2008年制訂了企業(yè)檢索(enterprise track)評測任務[3],企業(yè)檢索的目的是研究在企業(yè)內部數(shù)據中的用戶檢索行為,主要包含郵件檢索(2005—2006 年)[4-5]、文檔檢索(2007—2008年)[6]和專家檢索(2005—2008 年)任務.其中,專家檢索是重點和難點,它的目的是尋找企業(yè)中關于某一主題的專家.具體地,專家檢索需要分成兩部分來解決:一是確定所給語料集中的專家,二是計算查詢與專家的相關度.專家的標識主要是姓名和郵箱,定位專家的方法主要有命名實體識別、查詢人名列表、匹配郵箱、稱謂、職務等.在實際中,這些方法經常綜合運用.
1.1.1 二階排序模型
二階排序模型的主要思路是通過文檔為橋梁,計算查詢和專家的相關度.如式(1),檢索的第1階段是普通的文檔檢索,找出一定數(shù)量的相關文檔,計算出查詢Q和文檔Di的相關度Score(Di,Q);第2階段計算事先確定好的專家Ej和這些文檔的相關度Score(Ej,Di);最后綜合文檔和查詢的相關度得到查詢和專家的相關度Score(Ej,Q),就可以對和查詢相關的專家排序了.
式中:Nr表示第1階段得到的文檔中,用于第2階段的文檔數(shù)量.
文檔檢索使用的算法包括語言模型、KL距離、BM25等.計算專家Ej和這些文檔的相關度Score(Ej,Di)可以使用式(2):
式中:n(fij)表示文檔Di中某一專家的名字和郵箱出現(xiàn)的次數(shù),N是語料集中文檔的數(shù)目,d(fj)是出現(xiàn)該專家名字和郵箱的文檔數(shù)目.
二階排序模型思路清晰,有理論依據且易于實現(xiàn),但它以整篇文檔為橋梁,單純以專家名或郵箱代表全部的專家信息,方法較為粗糙,沒有在文檔中做更細致的挖掘.
1.1.2 專家經驗模型
專家經驗模型的主要思路是提取專家在文檔中的上下文組成該專家的“經驗”,再計算專家經驗的概率.提取上下文的過程相當于為該專家開了一個“窗口”,因此也叫作專家窗口模型.筆者認為專家名或郵箱的上下文是與該專家密切聯(lián)系的信息,那么在確定一個專家的同時將其前后一定數(shù)量的詞也提取出來組成新的文檔,這個文檔就是包含該專家相關信息的文檔.因此只要檢索到這個文檔就認為該專家和查詢是相關的.這個過程表示為
式中:Ed表示由專家經驗組成的文檔.另外,經過反復的實驗發(fā)現(xiàn),窗口的長度取專家前后各150個詞效果最好.表1給出了二階排序和專家經驗2種模型的性能比較.
表1 2種專家檢索模型的對比Table 1 Comparison of two kinds of expert track model
實體檢索,或稱實體追蹤(entity track)是2009年TREC評測新增加的一項任務[7].它可以看作是從2005—2008年的專家檢索任務發(fā)展而來.與專家檢索相比,它具有更新更豐富的內容.許多使用搜索引擎的用戶本意并不是找出各種各樣的文檔,而是想知道答案是哪些具體的實體,因此,文本搜索的核心任務是相關實體查找(related entity finding,REF).REF需要解決的問題是:給出一個輸入實體,連同它的名字、主頁、目標實體的類型,還有描述它們之間關系的文本,找出與目標類型相符的實體,這些實體能夠表示前面要求的與輸入實體的關系.對于每個查詢,要求輸出實體的排序,且每個實體必須有惟一的主頁.筆者的工作主要關注3個方面:針對每個查詢,找出相關的實體;依據檢索模型,對實體進行排序;為每個實體賦予一個主頁.
1.2.1 實體抽取
與專家檢索首先要定位專家相似,實體檢索的前提是必須找出與查詢相關的實體,而且盡量提高查準率和查全率,這就要用到實體抽取的技術.通常,實體抽取主要分為基于統(tǒng)計和基于規(guī)則2種.基于統(tǒng)計的方法例如最大熵(maximum entropy)[8]或條件隨機場(conditional random field)[9]將人名、地名等命名實體標識出來.基于規(guī)則的方法例如構建命名實體詞典,用詞典過濾出符合要求的實體.
為了更準確、更全面地抽取實體,可以將幾種方法混合使用,即規(guī)則-統(tǒng)計-規(guī)則.首先通過觀察語料集、構造查詢在搜索引擎或維基百科中查找特殊網頁,這種網頁多數(shù)以表格的方式呈現(xiàn),或者有其他明顯的特征.然后通過適當?shù)囊?guī)則將這些可信度較高的實體抽取出來.這種方法可以保證準確率,但是實體的數(shù)量不夠.接下來使用文檔檢索得到相關度最高的前N(N=5)篇文檔,使用基于統(tǒng)計的命名實體識別工具抽取出與目標實體類型相同的實體.調整N可以保證實體的數(shù)量,但是準確率不高,這就又要用到基于規(guī)則的方法.利用維基百科中每個詞條的語義標簽建立各種實體類型的映射規(guī)則,如對于組織名(organization),以“組織”、“公司”等開頭的標簽,采集這些標簽對應的實體,建立實體詞典,前面用工具抽取出的“實體”再經過詞典過濾,添加到實體列表中.
1.2.2 檢索模型
有了實體列表就可以依據檢索模型對實體排序了.在實體檢索任務中,根據查詢、文檔、實體三者的關系,形象地構建了2種模型:文檔中心模型和實體中心模型.
文檔中心模型將文檔d看作查詢q和實體e的橋梁,查詢和實體的相關度由合并q、d的相關度和e、q的相關度得到.文檔中心模型借鑒了專家檢索中的二階思路,不同之處在于專家換成了實體.第1階段計算查詢和文檔的相關度使用的是語言模型和推理網絡.第2階段計算實體和文檔的相關度也是一個檢索的過程,可以采用概率模型等,將實體轉換成查詢后就和第1階段相同了.
實體中心模型是實體處在結構的中層,文檔或文檔的片斷在底層支撐實體,實體與頂層的查詢直接相連.與文檔中心模型不同,實體中心模型只需要1次檢索過程.
單純用文檔支持實體過于粗糙,參考專家經驗模型,取實體的上下文作為與實體相關的信息.這里的上下文稱為片斷,同樣也取實體前后的150個詞,將某個實體的各個片斷匯集在一起,形成一個新的文檔.實體與實體文檔一一對應,利用查詢與這些文檔的相關度就可以直接對實體進行排序.排序的具體算法有前面提到的語言模型、BM25等.
1.2.3 確定主頁
與專家不同,實體需要一個主頁與之對應,也是在網絡上的惟一標識.為實體分配主頁的方法主要有3種:1)計算實體和各相關文檔的相關度,取相關度最高的作為主頁,這種方法依賴于文檔的內容;2)制定規(guī)則,將實體與文檔的URL作比較,找出相似度最高的作為主頁;3)利用已有的外部資源,如搜索引擎排序靠前的網頁、維基百科的參考鏈接等.實際應用中混合使用這3種方法,相互補充,達到盡量準確分配主頁的目的.
文本檢索會議TREC從2006年起制定了博客檢索任務(Blog track),最初只對博客的觀點度及其與查詢的相似性進行研究.博客檢索從2008年起開始關注對博客傾向性的分析,并于2009年提出博客精選任務,該任務將博客的傾向性分為3類:“個人的(personal)”或“官方的(official)”;“深入分析的(in-depth)”或“淺層描述的(shallow)”;“表達觀點的(opinionated)”或“描述事實的(factual)”,其目的是在博客關于查詢的相似性檢索的基礎上進一步對博客的傾向性進行檢索和排序.筆者參加了2007—2010年的博客檢索任務,并于2009年在多項評測指標中都取得了第1名的優(yōu)異成績.
1.3.1 博客精選(Blog distillation)
隨著各大博客網站的推出和興起,網絡上涌現(xiàn)出海量的博客用戶,這些博客內容豐富多彩,種類多樣,同時也充斥著各種感情色彩,可謂魚龍混雜.在信息如此泛濫的情況下來判斷相對比較具體的一些話題的傾向性是有困難的,因此有必要事先挑選出一些與話題相關性大的博客,再判斷其傾向性.這也是把話題檢索作為傾向性檢索基礎的原因.
在2009和2010年的話題檢索任務中,筆者使用的方法基本相同,都是將其看作Learning to Rank問題,即通過學習博文的排序,利用一定的算法來獲得博客的排序.針對這一問題,采用Voting模型[10],即一個博客里的博文被看作是這個博客的支持者,該博客里的博文對于話題的相關性就越大,同時相關的博文數(shù)量越多,該博客的相關性就越大,排序越靠前.
具體的方法如下:將所有的數(shù)據以博文為單位輸入Indri建立索引,用話題Q在Indri里進行查詢,得到博文的相關性分數(shù)和排序.通過此排序來獲得博客排序,如式(3):
式中:B表示一個博客,博客B中的一篇博文用p表示,Score(B,Q)表示一個博客的相關性得分,Score(p,Q)表示從Indri中獲得的博文的相關性分數(shù),|B|表示一個博客下博文的數(shù)量.將獲得的相關博客的分數(shù)排序,排在前100的被認為是與話題最相關的博客.
1.3.2 個人與官方(personal vs.official)
博客的興起使個人和組織的言論表達變得更加便利,然而因特網用戶可能不大喜歡宣傳性、商業(yè)性的博客,更加喜歡以個人的名義發(fā)表的文章,這樣就使得個人、組織搜索的研究變得具有現(xiàn)實意義.
博客的個人、組織檢索,是TREC評測2009年新增加的一項子任務,被安排在話題檢索之后.在話題檢索中,得到與話題相關的博客,再對其進行個人、組織檢索.最近2年分別采用了2種不同的方法來進行個人、組織檢索.
2009年主要采用了組織機構名的區(qū)分方法,因為官方/組織的博客的書寫慣例,一般會將組織名稱放在文章的開頭位置,有種“開門見山”的感覺;所以根據相同的組織機構名稱在文章中出現(xiàn)的頻率和位置來給相關的博客進行打分,最后根據分數(shù)的高低來進行排序和檢索,即可分別得到個人和組織的博客.
2010年主要采用了基于機器學習的分類方法,將個人和組織的檢索看作是一種分類的問題,在訓練模型中,利用機器學習的方法來分別構建含有個人和組織信息的詞典.在構建詞典前會做一個文本特征降維的處理,然后利用VSM模型用這2個詞典對相關博客進行打分和排序[11],最后分別得到個人和組織的博客.
1.3.3 表達觀點與描述事實(opinionated vs.factual)
博客的觀點度與客觀度排序評測旨在開發(fā)一種有效的檢索系統(tǒng),使其能根據博客中關于某話題所表達一種觀點或陳述一個事實的強烈程度,來對這些博客進行排序.
筆者在2008和2009年都使用了同一種情感分析模型[12],對于博客的觀點度打分如式(4):
式中:Npos和Nneg分別代表主觀和客觀的博文數(shù).
與前2年不同,2010年的博客檢索中使用了基于詞典的方法,主要分為3個步驟:
1)利用信息增益與互信息自動生成“主觀詞詞典”和“客觀詞詞典”.通過信息增益在訓練集中挑選對觀點型博客和客觀型博客區(qū)分度高的詞,作為詞典的候選詞.由信息增益生成的候選詞并沒有被分類為“觀點型”或“客觀型”,為了生成最終的2種詞典,利用互信息進一步將這些候選詞分為“觀點型”和“客觀型”[13].
2)計算觀點度得分和客觀度得分.對于每個查詢q和詞典中的詞t,在相關文檔集中計算TF-IDF權重wtfidf(t),同時用一種詞權重模型[14]計算查詢權重wbol(q),然后將2個權重相加得到博客的觀點度得分Sop和客觀度得分Sfa.
3)排序.首先在相關文檔集中找到每篇博客的相關性得分Score(B,Q),然后將Score(B,Q)×Sop和Score(B,Q)×Sfa分別作為觀點度排序和客觀度排序的最終得分.
1.3.4 深入分析與淺層描述(in-depth vs.shallow)
2009年首次提出博客的深淺度分析任務.筆者提出了L-Qtf系數(shù)進行博文的深淺度分析[15].然后根據每一個博客下深度博文與淺度博文的數(shù)量,得到每一個博客的深度分析程度或淺度分析程度的排序.最后將每一個博客深淺度的排序值與相應的博客精選的相關性值合并得到最終結果.
1)根據L-Qtf系數(shù)進行每一篇博文的深淺度分析:
式中:ft和fqt分別為查詢中的單詞在博文中的詞頻和在查詢中的詞頻,在計算ft和fqt之前,進行詞干化處理(stemming),其作用是將詞的各個詞形變化還原為同一詞干,例如“selling”和“sells”是“sell”的不同詞形,這樣的處理可以提高查詢詞在博文中的覆蓋率;ld為博文的長度;lavg為同一查詢下全部相關博文的平均長度;在實驗中參數(shù)s設置為0.2.
2)根據博文的L-Qtf系數(shù)進行博客的深淺度分析.在同一查詢下,根據L-Qtf系數(shù)的值對博文進行排序,取該排序的前45%判定為深度表述的博文,后45%判定為淺度表述的博文.計算每一個博客下深度表述博文與淺度表述博文數(shù)量的差值,并對該博客下博文的數(shù)量進行歸一化,得到該博客的深淺度分析結果Si.
式中:Score(bx,Q)為深淺度分析結果,為了區(qū)分下面的合并方法,用Si表示.
3)與博客的相關性結果合并得到最終排序.一個博客深淺度分析的最終結果不能僅依賴于深淺度分析,還要考慮該博客對于查詢詞的相關性,所以提出了以下的合并模型:
式中:Snorm(B,Q)為每個博客的相關性.
相關反饋是TREC在2008年發(fā)布的一項新任務,基本的任務是:對于一個給定的查詢,對文檔集索引中抽取相關文檔,得到初始查詢結果;然后再給定一些標注過的與查詢相關或無關的文檔,通過標記文檔選擇擴展詞,對查詢進行重構;最后重新查詢得到反饋結果.2008年采用了傳統(tǒng)的Rocchio算法,即正負反饋的方法.2009年相關反饋主要采用了文本分類、語言模型提取擴展詞的方法[16],其效果較好.2010年的相關反饋在2009年方法的基礎之上加入了實體擴展、擴展詞分類兩部分.
1.4.1 結構流程
2010年相關反饋方法的流程如圖1所示.
圖1 相關反饋的流程Fig.1 The flow chart of relevance feedback
1.4.2 擴展詞抽取
擴展詞主要有2種:通過語言模型計算的權重排序得到的詞[17]和通過相似性KL距離計算得到的命名實體.擴展詞的來源是初始查詢結果通過標記文本分類得到的相關文檔類.
語言模型進行擴展詞抽取主要思想是將相關文檔類看作一個模型[18],通過估計模型生成詞的概率來對詞進行排序.詞在相關文檔類模型中的概率分布如式(5):
式中:Pml(t,d)是詞t在文檔d中的歸一化頻率,Pavg(t)是詞t的平均詞頻,(t,d)是一個風險函數(shù),fct是t在文檔類中的總詞頻,cs是相關文檔集長度.
一些查詢往往與特定的領域或主題相關,這些領域內部的人物、機構、地點等通常能有助于區(qū)分相關文檔和不相關文檔[19].因此,可以將這些命名實體(包括人名、地名、組織機構)作為擴展查詢的一部分.抽取的主要方法步驟是:1)對相關文檔集進行命名實體標注,標注出人、組織和地名3類命名實體;2)基于命名實體的詞頻對實體進行排序,得到詞頻較高的前20個命名實體;3)去掉這20個命名實體中的噪聲實體,噪聲實體是指在相關文檔集和不相關文檔集中都經常出現(xiàn)的實體;4)計算去噪后每個實體和相關文檔的KL距離[20],找到與相關文檔距離最近的5個實體加入到擴展詞集合中.
1.4.3 擴展詞分類
通過語言模型提取出的擴展詞,并不是都能改善原始查詢的結果;因此采用對擴展詞進行分類的方法,選擇對原始查詢改善效果比較好的擴展詞,使得查詢能夠得到更好的優(yōu)化.在擴展詞分類實驗中,分類器采用LIBSVM,特征選取方面,主要考慮的是擴展詞的分布特點、擴展詞與查詢詞之間的共現(xiàn)頻度和距離等特征,訓練樣本來源于2009年TERC相關反饋評測的數(shù)據.
根據擴展詞對原始查詢的不同影響,將擴展詞分為好擴展和壞擴展2種,并進行擴展詞標注.好擴展是指當在擴展查詢中該擴展詞的權重為w時,返回的結果比原始查詢好,即正反饋;當權重為-w時,返回結果比原始查詢差,即負反饋.壞擴展與之相反.實驗中取w=0.01.
使用LIBSVM[21]進行SVM的訓練和預測.按照前面提到的標注方法,對2009年相關反饋提取的擴展詞進行了標注,為避免正負樣本比例不協(xié)調的問題而影響分類效果,最后選定191個樣本作為訓練樣本,其中131個負樣本,60個正樣本.在訓練過程中,采取了交叉驗證的方法,將數(shù)據平均分成5組,并保證每一組數(shù)據有12個正樣本,最后達到的平均準確率為69.268 34%.
1.4.4 查詢擴展
根據給定的原始查詢和從相關文檔集合中抽取的擴展詞進行查詢擴展.擴展過程中查詢的格式如下[22]:
其中:“query”為原始查詢,“terms”為語言模型抽取、SVM分類過的擴展詞,“named entity”為通過KL距離抽取的命名實體.原始查詢的權重設為1.0,擴展詞權重設為0.2.
一般情況下,被用戶認為有用的信息隱藏在大量文字中,或散亂分布在各種各樣的網頁中.如何將這些符合特定需求的信息抽取出來,是當前文本搜索領域的熱點問題.著名的文本分析會議(text analysis conference,TAC)就將焦點放在信息的抽取和關聯(lián)分析上.TAC是由IAD(information access division)組織的一個評測,該評測自2008年舉辦以來,已經進行了3屆,最初是從 TREC評測的 Question Answering Track發(fā)展起來的[23].筆者自2009年已經連續(xù)2年參加了該評測的實體關聯(lián)和實體填充[24]2項任務,并在評測中取得了較為優(yōu)異的成績.
實體關聯(lián)(entity linking)的任務是根據每一個query的標題和支持文檔找到KB中的惟一節(jié)點和它對應,或者返回空(表示該節(jié)點不和任何KB中的節(jié)點對應).其中:KB(knowledge base)這個數(shù)據集中存放所有的KB節(jié)點;query是評測開始時官方提供的數(shù)據,一個query包含1個title(標題)和1篇支持文檔.
1)系統(tǒng)總體框架.系統(tǒng)主要包括以下幾個模塊:實體檢索、命名實體識別、相似性判斷、自動摘要,如圖2.基本思想是,首先對每一個實體query進行實體檢索,得到一批實體候選列表,然后針對每一個候選實體進行排序和相似度的打分,從而得到最終的結果.
2)實體檢索.在評測中,往往面對的是海量文本,如果對于每一個查詢都去遍歷KB,那么其響應速度是不能接受的;因此,通常需要對KB建立索引,在TAC評測中,選用Indri作為建立索引的工具.
圖2 實體關聯(lián)的流程Fig.2 The flow chart of entity linking
3)命名實體識別.TAC評測中的query都是一個實體,并且該實體可能是以下3種類別之一:人名、地名、組織機構名.首先需要判斷該query是哪一種類別的實體,從而方便后續(xù)的處理,在TAC評測中,使用了斯坦福大學提供的命名實體識別開源工具包.
4)判定方法.在評測中,需要對1個query和1個文檔進行相似度的計算,采用了以下2種方法:
a)基于VSM模型的相似度判斷:
b)基于KL距離的相似度判斷:
5)實體關聯(lián)的改進.在2010年的TAC評測中,筆者加入了許多規(guī)則,這些規(guī)則的引入主要來自于對原始數(shù)據的觀察,通過加入相關的這些規(guī)則,效果有了提高.
實體填充(slot filling)任務即在測試集中尋找與目標實體(查詢)相關的信息,填充目標實體預先規(guī)定的一系列屬性值.目標實體分為2類:人名和組織機構,人名共有26種屬性需要填充,組織機構共有16種屬性需要填充.屬性有single和list的不同,其中single為只能有一個答案的屬性,如人的生日;list為可以有多個答案的屬性,如人的子女.
1)系統(tǒng)總體框架.實體填充系統(tǒng)的總體框架由4個部分組成:實體檢索模塊、命名實體識別模塊、關系抽取模塊、結果決策模塊,如圖3.實體檢索模塊通過Indri檢索平臺,獲取和查詢實體最相關的前25篇相關文檔及其相關度權值.命名實體識別模塊使用斯坦福NER工具包識別人名、地名、組織機構名,使用時間規(guī)則模板匹配識別時間.關系抽取模塊是實體填充系統(tǒng)的核心模塊,把實體填充當作一個關系抽取任務,在這一模塊中同時采用基于規(guī)則模板的方法與基于統(tǒng)計的方法.結果決策模塊對關系抽取模塊的結果進行優(yōu)選得出最終結果.
圖3 實體填充的流程Fig.3 The flow chart of slot filling
2010年實體填充的整體實現(xiàn)框架與2009年大體相同,但細節(jié)上有所改進,例如增加了URL的識別.采用基于規(guī)則方法識別為主、基于統(tǒng)計CRF識別方法做補充的實現(xiàn)方案.即當2種方法同時出現(xiàn)“single”的值,優(yōu)選選擇規(guī)則類方法;對于非“single”的值,綜合考慮文檔對于query的相關性值SEL和填充結果的可信度值SSF,選擇最優(yōu)的若干個結果進行優(yōu)選得出最終結果.
2)基于規(guī)則模板的方法.a)識別 URL(網址)和LIST(title職稱、charge罪名、cause of death 死因、religion宗教等).其中URL識別采用正則表達式方法,LIST主要從訓練語料中統(tǒng)計而來.b)根據規(guī)則模板輸出實體填充結果.
3)基于統(tǒng)計的方法.基于統(tǒng)計的方法是一種半監(jiān)督的機器學習方法,它將實體關系抽取看作一種多分類問題,從文本中抽取訓練所需要的特征,然后利用條件隨機場形成分類器.
利用9種特征來訓練CRFs:詞對、詞特征、詞性特征、順序特征、動詞位置特征、實體位置特征、二值特征、動詞特征和類型特征.由于實體關系識別是一種多分類問題,而類別數(shù)越多,模型的準確率也會下降.為了盡可能降低類別數(shù),根據目標實體的類型(人名或組織名)將初始的訓練語料初步分為2份,然后再根據詞對中的第2個詞是否為命名實體,進一步將訓練語料二次劃分,最后用CRFs形成了4種分類器,這樣做也提高了系統(tǒng)的整體效率.
4)結果合并.綜合考慮文檔對于query的相關性值SEL和填充結果的可信度值SSF,選擇最優(yōu)的1個或若干個.選擇策略如式(6)所示.
式中:Value(Q,slot,doc)即為綜合考慮文檔對于query的相關性值和填充結果的可信度值的權值.對于基于機器學習的方法,CRF++工具包[25]可以為識別結果提供可信度值,記為crfvalue,即該判別結果正確的概率,SSF=crfvalue;對于基于規(guī)則的方法,優(yōu)先選取基于規(guī)則方法的結果,設置填充結果可信度值為1,SSF=1.實體關聯(lián)提供相關文檔的同時提供該文檔的相關度值,記為SEL.其中參數(shù)μ設置為0.5.
近年來,隨著互聯(lián)網技術的迅速發(fā)展,垃圾信息的數(shù)量在網絡上呈現(xiàn)上升趨勢,信息過濾成為一個業(yè)內的難題和挑戰(zhàn).以垃圾郵件為例,TREC從2005—2007年組織了垃圾郵件過濾評測(spam track)[26-27],目的是盡可能找到一種好的垃圾郵件過濾模型,保證過濾的有效性和可重復性滿足需求.主要任務包括即時反饋、延時反饋、主動學習和部分反饋等[28].筆者參加了其中的3屆評測,2005年在參賽的國內隊伍中成績是最好的.
當前的垃圾郵件過濾技術可以大致劃分為黑名單技術、人力驅動的啟發(fā)式過濾以及基于機器學習的過濾[29].這些技術中,樸素貝葉斯方法受到廣泛關注.
樸素貝葉斯分類器簡單有效,經常用于文本分類的應用和實驗中.垃圾郵件過濾屬于文本分類問題,因此該分類器被廣泛使用于垃圾郵件過濾.樸素貝葉斯分類器是一種基于概率的方法,基本思想是通過觀察一些詞是否在郵件中出現(xiàn)來判斷是垃圾還是非垃圾,如式(7):
式中:wk是組成郵件的詞,L是類別的集合.常用的樸素貝葉斯模型有 multi-variate Bernoulli模型、Poisson Na?ve Bayes模型以及 multinomial模型.它們的不同之處主要在于如何計算P(wk|Ci).對于垃圾郵件過濾問題,只有2個類別:垃圾郵件C+和非垃圾郵件C-,那么一封郵件M的對數(shù)得分可寫為
如果Score(M)>0,待分類郵件被標注為C+類(垃圾郵件),反之被標注為C-類(非垃圾郵件).過濾模型如圖4所示.在有監(jiān)督情況下,用戶判斷垃圾郵件過濾器的結果并反饋給過濾器,而過濾器依據反饋進行自動學習.系統(tǒng)開始運行時并不預設標準,即是一個無初始記憶的分類器,而后不斷更新達到最佳效果.系統(tǒng)關于垃圾郵件的知識均是從理想用戶的反饋中得到的.
圖4 垃圾郵件過濾的流程Fig.4 The flow chart of spam filtering
假設郵件的不同部分對過濾的貢獻是不同的,某些部分對過濾的幫助更大.若郵件分為S個部分,每個部分由Nd個詞組成,d=1,2,…,S.那么樸素貝葉斯分類器的一個簡單推廣就是為郵件的不同部分賦予不同的權值α.式(7)可以更新成為
式中:αd為權值,d=1,2,…,S.式(8)用Nd和郵件長度正規(guī)化后可以寫成
那么給定訓練集后,參數(shù)集α就可以用最大似然準則求解了.在實際中,劃分的方法有很多.可以按結構劃分各部分,如標題、郵件頭、正文、附件等,也可以按詞的不同概率將郵件劃分成不同的部分.
Bagging是一種將一些弱分類器集成的技術.弱分類器指的是準確率比50%高一點的分類器.在分類過濾任務中,將弱分類器集成在一起,經過演進和變換達到最佳效果.基于Bagging技術的樸素貝葉斯垃圾郵件過濾器,通過選擇好的集成方法有助于提升過濾系統(tǒng)的性能.常用的方法主要有嵌入決策樹和分類錯誤加權等.
北京郵電大學模式識別與智能系統(tǒng)實驗室的互聯(lián)網輿情監(jiān)控分析系統(tǒng)依托自主研發(fā)的文本搜索和文本挖掘技術,通過新聞、論壇、博客、微博、視頻網站等內容源的自動采集與跟蹤,進行敏感話題過濾分析、智能話題聚類分類、主題監(jiān)測、專題聚焦和各類數(shù)據的統(tǒng)計分析,實現(xiàn)應用單位對相關網絡輿情監(jiān)督管理的需要,為決策層全面掌握輿情動態(tài),做出正確輿論引導提供分析依據.
短信是人們日常生活中進行通信的重要手段,通過對短信文本的分析,可以掌握大眾平時的輿論導向,并且可以幫助政府職能部門盡早地發(fā)現(xiàn)一些不良的、危及安全的不法短信.但是短信有其自身的特點:短小、口語化等,這也給分析帶來了很大的難度.因此,基于短信進行輿情分析既有一定的學術價值,也有一定的現(xiàn)實意義.
短信輿情系統(tǒng)主要有以下一些模塊:短信分類模塊根據短信的內容將短信分到不同的類別,并且可以通過訓練自動調整各類別下關鍵詞的權重;敏感過濾模塊可以過濾出涉及國家和人民生命財產安全的非法短信;發(fā)送方式分析模塊可以判斷出一條短信的發(fā)送方式,例如群發(fā)、轉發(fā)、直發(fā)等,從而可以獲知什么樣的短信被大規(guī)模群發(fā),并進行有針對性的跟蹤;短信溯源和用戶交際圈模塊可以根據某一用戶或某一短信進行全方位地分析,從而掌握某用戶的動態(tài).
通過短信輿情系統(tǒng),可以更好地加強對短信數(shù)據的監(jiān)控,掌握普通用戶的輿情情況,為政府職能部門制定相關決策,追蹤某些特殊的現(xiàn)象提供手段.
校園對象搜索引擎(campus object search engine,COSE),是一款在校園網內工作,致力于幫助用戶尋找人物、組織機構以及課程信息的垂直搜索引擎.從COSE的名字就可以看出該系統(tǒng)所針對的服務對象是校園中的學生群體.COSE的主要特點在于它融入了信息抽取中的命名實體識別和實體關系抽取這2項技術,可以自動識別網頁中的人名、課程名以及機構組織名,建立實體(也稱對象)數(shù)據庫,并且根據對象名在網頁中抽取其關系(也稱相關屬性),建立相關屬性數(shù)據庫,供用戶查詢檢索時使用.
COSE系統(tǒng)包含的模塊有:網絡爬蟲與索引、中文分詞、命名實體識別、實體關系抽取和查詢重構.COSE采用廣度優(yōu)先搜索策略,只抓取各個大學網站域名下的網頁信息,建立網頁文檔庫及索引.這可以在很大一定程度上屏蔽掉大量無用的廣告網頁和新聞網頁.對網頁文檔建索引能加快查找和排序的速度,COSE系統(tǒng)綜合使用全文索引技術和動態(tài)文檔索引技術.中文分詞是命名實體識別和實體關系抽取的前提和基礎,COSE中的中文分詞技術綜合應用基于字符串匹配和基于統(tǒng)計的中文分詞技術.命名實體識別是COSE系統(tǒng)的關鍵技術之一,采用基于統(tǒng)計與基于規(guī)則相結合的識別方法.實體關系抽取是COSE系統(tǒng)中的另一項關鍵技術,鑒于正則表達式的靈活性和強大的字符串匹配能力,COSE系統(tǒng)借助成熟的Python字符處理規(guī)則,提出一種正則表達式方案抽取對象屬性信息.COSE中查詢重構模塊旨在解決以下2種形式的查詢:1)復雜查詢:查詢的不是單純實體;2)問題式查詢:比如某某老師屬于哪個學院.在用戶使用COSE進行檢索時,系統(tǒng)會返回2類信息:一類是與通用搜索引擎相似的和查詢相關的網頁信息,另一類則是相關網頁中包含的命名實體及其相關屬性.
傳統(tǒng)的文本搜索技術已經難以滿足用戶的需求,融合了信息檢索、信息抽取和信息過濾等技術的智能文本搜索新技術是當前的研究熱點.
信息檢索技術不再是單純的按相關度呈現(xiàn)各個網頁,更多的是對網頁內容的深度挖掘、組織并反饋,提高檢索的準確性、完備性、個性化程度.企業(yè)檢索主要研究在企業(yè)內部數(shù)據中的用戶檢索行為,主要包含郵件檢索、文檔檢索和專家檢索任務,使用了二階排序模型和專家經驗模型.實體檢索主要關注查找相關實體,除了使用文檔中心模型和實體中心模型外,還加入了實體抽取的關鍵技術和用來惟一標識實體的主頁.博客檢索對博客中出現(xiàn)的觀點及其與查詢的相似性進行研究,在此基礎上對傾向性作分析,主要分為3類:個人與官方、表達觀點與描述事實、深入分析與淺層描述.相關反饋利用給定的與查詢相關或無關的標注文檔,選擇擴展詞,對查詢進行重構,通過重排序改善原有檢索系統(tǒng)的性能.
信息抽取技術在文本分析會議評測中得到很好的體現(xiàn).該評測分為實體關聯(lián)和實體填充2個任務,深度剖析文本信息,致力于識別、分析、整合文本中出現(xiàn)的實體.信息抽取技術非常重要,為其他工作的順利進行起到了基礎性作用.
信息過濾的關鍵技術被應用在垃圾郵件過濾評測中.該評測的目的是盡可能找到一種好的垃圾郵件過濾模型,保證過濾的有效性和可重復性,主要任務包括即時反饋、延時反饋、主動學習和部分反饋等.其中加權樸素貝葉斯和分類器集成的方法表現(xiàn)出了良好的效果.
信息檢索、抽取和過濾三大技術是相互聯(lián)系的,經常融合在一起,發(fā)揮最大的作用.例如:在檢索之前要抽取有價值的信息,過濾掉垃圾信息;抽取和過濾中也可以使用檢索的方法進行初步處理;抽取和過濾都有基于規(guī)則和基于統(tǒng)計的方法等.這些都很好地在互聯(lián)網輿情、短信輿情和校園對象搜索引擎等系統(tǒng)中得到了體現(xiàn).新的智能文本搜索技術將是未來熱門的研究方向,并且具有巨大的發(fā)展前景.
[1]郭軍.Web搜索[M].北京:高等教育出版社,2009:1-3.
[2]方慧.TREC發(fā)展歷程及現(xiàn)狀分析[J].新世紀圖書館,2010(1):57.FANG Hui.On developing course and status analysis of TREC[J].New Century Library,2010(1):57.
[3]BALOG K,SOBOROFF I,THOMAS P,et al.Overview of the TREC 2008 enterprise track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec17/papers/ENTERPRISE.OVERVIEW.pdf.
[4]RU Zhao,CHEN Yuehua,XU Weiran,et al.TREC2005 enterprise track experiments at BUPT[EB/OL].[2010-12-15].http://trec.nist.gov/pubs/trec14/papers/beijinguof-pt.ent.pdf.
[5]RU Zhao,LI Qian,XU Weiran,et al.BUPT at TREC 2006:enterprise track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec15/papers/beijing-upt.ent.final.pdf.
[6]BAILEY P,CRASWELL N.Overview of the TREC 2007 enterprise track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec16/papers/ENT.OVERVIEW16.pdf.
[7]WANG Zhanyi,LIU Dongxin,XU Weiran,et al.BUPT at TREC 2009:entity track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec18/papers/bupt.ENT.pdf.
[8]ZHANG Suxiang,WEN Juan,WANG Xiaojie,et al.Automatic entity relation extraction based on maximum entropy[C]//Proceedings of the Sixth International Conference on Intelligent Systems Design and Applications.Ji’nan,China,2006:540-544.
[9]LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the International Conference on Machine Learning.San Francisco,USA:Morgan Kaufmann Publishers Inc,2001:282-289.
[10]MACDONALD C,OUNIS I.Voting for candidates:adapting data fusion techniques for an expert search task[C]//Proceedings of the 15th ACM International Conference on InformationandKnowledgeManagement.New York,USA:ACM,2006:387-396.
[11]MANNING C D,RAGHAVAN P,SCHUTZE H,An introduction to information retrieval[M].Cambridge,UK:Cambridge University Press,2008:120-126.
[12]WILSON T,WIEBE J,HOFFMANN P,Recognizing contextual polarity in phrase-level sentiment analysis[C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing.Stroudsburg,USA:Association for Computational Linguistics,2005:347-354.
[13]MANNING C D,SCHTZE H.Foundations of statistical natural language processing[M].Cambridge,USA:The MIT Press,1999.
[14]AMATI G.Probabilistic models for information retrieval based on divergence from randomness[D].Glasgow,UK:University of Glasgow,2003.
[15]SINGHAL A,BUCKLEY C,MITRA M.Pivoted document length normalization[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,1996:21-29.
[16]LI Si,LI Xinsheng.PRIS at 2009 relevance feedback track:experiments in language model for relevance feedback[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec18/papers/pris.RF.pdf.
[17]LALMAS M,MACFARLANE A,RUGER S.Advances in information retrieval[M].New York,USA:Springer-Verlag,2002:74-172.
[18]PONTE J M,CROFT W B.A language modeling approach to information retrieval[C]//Proceedings of the 21th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,1998:275-281.
[19]WANG Bingqing,HUANG Xuanjing.Relevance feedback based on constrained clustering:FDU at TREC’09[EB/OL].[2010-12-15].http://trec.nist.gov/pubs/trec18/papers/fudanu.RF.pdf.
[20]LAVRENKO V,CROFT W B.Relevance-based language models[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,2001:120-127.
[21]CHANG Chihchung,LIN Chihjen.LIBSVM:a library for support vector machines[EB/OL]. [2011-04-09].http://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html.
[22]The Lemur Project.INDRI:language modeling meets inference networks[EB/OL]. [2011-03-23].http://www.lemurproject.org/indri/.
[23]TAC 2009.Knowledge base population track[EB/OL].(2009-09-29) [2010-12-16].http://apl.jhu.edu/~paulmac/kbp.html.
[24]TAC 2010.Knowledge base population(KBP2010)track[EB/OL].(2010-09-12)[2010-12-16].http://nlp.cs.qc.cuny.edu/kbp/2010/.
[25]CRF++:yet another CRF toolkit[EB/OL]. [2010-12-16].http://crfpp.sourceforge.net/.
[26]YANG Zhen,XU Weiran,CHEN Bo,et al.PRIS Kidult anti-SPAM solution at the TREC 2005 spam track:improving the performance of naive Bayes for spam detection[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec14/papers/beijingu-of-pt.spam.pdf.
[27]YANG Zhen,XU Wei,CHEN Bo,et al.BUPT at TREC 2006:spam track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec15/papers/beijing-upt.spam.final.pdf.
[28]CORMACK G V.TREC 2007 spam track overview[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec16/papers/SPAM.OVERVIEW16.pdf.
[29]楊震.文本分類和聚類中若干問題的研究[D].北京:北京郵電大學,2007:10-86.
YANG Zhen.Research on key problems in text classification and clustering[D].Beijing:Beijing University of Posts and Telecommunications,2007:10-86.
王占一,男,1984年生,博士研究生,主要研究方向為信息過濾和信息檢索等.在國內外重要期刊和會議上發(fā)表學術論文10篇,獲發(fā)明專利2項.
徐蔚然,男,1975年生,副教授,主要研究方向為信息檢索、模式識別和機器學習.主持參加了 TREC、TAC、ACE等國際著名檢索評測,并且獲得優(yōu)異成績,參與多項國家級科研項目,發(fā)表學術論文20余篇.
郭軍,男,1959年生,教授,博士生導師,主要研究方向為模式識別、網絡管理、信息檢索、基于內容的信息安全等.主持多項“863”計劃項目和國家自然科學基金項目,獲省部級獎勵多項,發(fā)表學術論文上百篇,獲授權專利5項.
New technologies of intelligent text search
WANG Zhanyi1,2,XU Weiran1,2,GUO Jun1,2
(1.Pattern Recognition and Intelligent System(PRIS)Laboratory,Beijing University of Posts and Telecommunications,Beijing 100876,China;2.School of Information and Communication Engineering,Beijing University of Posts and Telecommunications,Beijing 100876,China)
To adapt to the massive amount of information on the internet and the need for accuracy,efficiency,and individualization,a set of technologies of intelligent text search including information retrieval,extraction,and filtering were proposed.First,new technologies of information retrieval were illustrated including the subtasks of enterprise retrieval,entity retrieval,blog retrieval,and relevance feedback.Second,the subtask of entity linking and slot filling related to information extraction was introduced.Finally,the subtask of spam e-mail filtering related to information filtering was described.These technologies were converged for application in many well-known international evaluations.These include the text retrieval conference(TREC)and text analysis conference(TAC)sponsored in the USA,and these technologies of intelligent text search were proven in practical applications such as public opinions on the Internet,short message opinions,and the campus object search engine(COSE).
intelligent text search;text retrieval;text analysis
TP393
A
1673-4785(2012)01-0040-10
10.3969/j.issn.1673-4785.201101001
http://www.cnki.net/kcms/detail/23.1538.TP.20120218.1616.001.html
2011-01-02. 網絡出版時間:2012-02-18.
國家自然科學基金資助項目(60905017);高等學校學科創(chuàng)新引智計劃項目(B08004).
王占一.E-mail:wangzhanyi@gmail.com.