• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    智能文本搜索新技術

    2012-08-18 10:13:40王占一徐蔚然郭軍
    智能系統(tǒng)學報 2012年1期
    關鍵詞:評測博客文檔

    王占一,徐蔚然,郭軍

    (1.北京郵電大學模式識別與智能系統(tǒng)實驗室,北京 100876;2.北京郵電大學信息與通信工程學院,北京 100876)

    智能文本搜索新技術

    王占一1,2,徐蔚然1,2,郭軍1,2

    (1.北京郵電大學模式識別與智能系統(tǒng)實驗室,北京 100876;2.北京郵電大學信息與通信工程學院,北京 100876)

    面對當今互聯(lián)網上海量的信息,以及搜索信息準確、高效、個性化等需求,提出了一套包括信息檢索、信息抽取和信息過濾在內的智能文本搜索新技術.首先舉薦了與信息檢索新技術相關的企業(yè)檢索、實體檢索、博客檢索、相關反饋子任務.然后介紹了與信息抽取技術相關的實體關聯(lián)和實體填充子任務,以及與信息過濾技術相關的垃圾郵件過濾子任務.這些關鍵技術融合在一起,在多個著名的國際評測中得到應用,如美國主辦的文本檢索會議評測和文本分析會議評測,并且在互聯(lián)網輿情、短信輿情和校園網對象搜索引擎等實際系統(tǒng)中得到了檢驗.

    智能文本搜索;文本檢索;文本分析

    隨著互聯(lián)網技術的飛速發(fā)展,網絡上的信息呈爆炸式增長.用戶需要在這些海量信息數(shù)據中找到自己需要的內容,不是簡單定位到某一個網站或網頁,而是越精準、全面越好.同時他們希望使用盡量少的描述就可以找到自己感興趣的內容,不帶有任何垃圾信息.如何滿足用戶對這些信息的高精度、高效率、個性化、完備性等需求,是當前信息檢索和數(shù)據挖掘面臨的新問題.

    傳統(tǒng)的文本搜索基于數(shù)據庫查詢、關鍵詞搜索等技術,有很強的局限性.而智能文本搜索解決的是數(shù)據海量、數(shù)據稀疏、大量并發(fā)請求、數(shù)據特征演進、主客觀交叉等困難問題,從技術角度來說,智能文本搜索融合了信息的檢索、抽取、過濾等方面.檢索是由用戶提出查詢請求,系統(tǒng)根據這個需求對Web信息進行查詢并給出結果.抽取是把文本里包含的信息進行結構化處理,變成表格一樣的組織形式.過濾是系統(tǒng)根據預先設定的條件,對Web中與該條件相符的信息進行獲取、隔離或封堵[1].

    為了探索前沿技術,解決上述問題,各國學術界、產業(yè)界和政府部門都給予了高度關注,一系列評測活動應運而生.文本檢索會議(text retrieval conference,TREC)作為文本檢索領域最權威的評測會議,關注著檢索技術的最新發(fā)展,比較客觀地反映了十幾年來的研究趨勢.TREC是由美國國家技術標準局(NIST)和美國國防部(DOD)聯(lián)合主辦,創(chuàng)立于1992年,主要目的是通過提供評價大型文本檢索方法所必需的基礎設施來支持對信息檢索的研究[2].關注TREC,有利于加強各個科研機構和企業(yè)之間的交流,有利于評價檢索方法在實際問題中的效果,也有利于加快實驗室的技術商品化的速度.

    TREC的參賽隊伍從開始的22個發(fā)展到2010年的75個.北京郵電大學模式識別實驗室多年來致力于模式識別和網絡搜索技術,從2005年開始參加TREC的多項評測并取得了較好的成績,如垃圾郵件過濾、企業(yè)檢索、博客檢索、實體檢索、相關反饋等.同時,該團隊還參加了國家“863”計劃項目中文本分類、SigHan分詞、TAC和中文傾向性分析等評測.評測中涉及的任務除了用于新技術的研究,也是為了解決實際問題.基于評測中的智能文本搜索新技術,一些實際系統(tǒng)也相應地被開發(fā)出來,并在實際應用中得到了檢驗.

    本文以權威評測為主線,詳細介紹智能文本搜索新技術.第1部分以企業(yè)檢索、實體檢索、博客檢索和相關反饋為例介紹信息檢索新技術;第2部分以文本分析會議評測為例介紹信息抽取新技術;第3部分以垃圾郵件過濾為例介紹信息過濾新技術;第4部分介紹以上述技術為核心的實際應用系統(tǒng),如互聯(lián)網輿情系統(tǒng)、短信輿情系統(tǒng)、校園對象搜索引擎系統(tǒng)等;最后是總結和展望部分.

    1 信息檢索

    1.1 企業(yè)檢索

    文本檢索會議從2005—2008年制訂了企業(yè)檢索(enterprise track)評測任務[3],企業(yè)檢索的目的是研究在企業(yè)內部數(shù)據中的用戶檢索行為,主要包含郵件檢索(2005—2006 年)[4-5]、文檔檢索(2007—2008年)[6]和專家檢索(2005—2008 年)任務.其中,專家檢索是重點和難點,它的目的是尋找企業(yè)中關于某一主題的專家.具體地,專家檢索需要分成兩部分來解決:一是確定所給語料集中的專家,二是計算查詢與專家的相關度.專家的標識主要是姓名和郵箱,定位專家的方法主要有命名實體識別、查詢人名列表、匹配郵箱、稱謂、職務等.在實際中,這些方法經常綜合運用.

    1.1.1 二階排序模型

    二階排序模型的主要思路是通過文檔為橋梁,計算查詢和專家的相關度.如式(1),檢索的第1階段是普通的文檔檢索,找出一定數(shù)量的相關文檔,計算出查詢Q和文檔Di的相關度Score(Di,Q);第2階段計算事先確定好的專家Ej和這些文檔的相關度Score(Ej,Di);最后綜合文檔和查詢的相關度得到查詢和專家的相關度Score(Ej,Q),就可以對和查詢相關的專家排序了.

    式中:Nr表示第1階段得到的文檔中,用于第2階段的文檔數(shù)量.

    文檔檢索使用的算法包括語言模型、KL距離、BM25等.計算專家Ej和這些文檔的相關度Score(Ej,Di)可以使用式(2):

    式中:n(fij)表示文檔Di中某一專家的名字和郵箱出現(xiàn)的次數(shù),N是語料集中文檔的數(shù)目,d(fj)是出現(xiàn)該專家名字和郵箱的文檔數(shù)目.

    二階排序模型思路清晰,有理論依據且易于實現(xiàn),但它以整篇文檔為橋梁,單純以專家名或郵箱代表全部的專家信息,方法較為粗糙,沒有在文檔中做更細致的挖掘.

    1.1.2 專家經驗模型

    專家經驗模型的主要思路是提取專家在文檔中的上下文組成該專家的“經驗”,再計算專家經驗的概率.提取上下文的過程相當于為該專家開了一個“窗口”,因此也叫作專家窗口模型.筆者認為專家名或郵箱的上下文是與該專家密切聯(lián)系的信息,那么在確定一個專家的同時將其前后一定數(shù)量的詞也提取出來組成新的文檔,這個文檔就是包含該專家相關信息的文檔.因此只要檢索到這個文檔就認為該專家和查詢是相關的.這個過程表示為

    式中:Ed表示由專家經驗組成的文檔.另外,經過反復的實驗發(fā)現(xiàn),窗口的長度取專家前后各150個詞效果最好.表1給出了二階排序和專家經驗2種模型的性能比較.

    表1 2種專家檢索模型的對比Table 1 Comparison of two kinds of expert track model

    1.2 實體檢索

    實體檢索,或稱實體追蹤(entity track)是2009年TREC評測新增加的一項任務[7].它可以看作是從2005—2008年的專家檢索任務發(fā)展而來.與專家檢索相比,它具有更新更豐富的內容.許多使用搜索引擎的用戶本意并不是找出各種各樣的文檔,而是想知道答案是哪些具體的實體,因此,文本搜索的核心任務是相關實體查找(related entity finding,REF).REF需要解決的問題是:給出一個輸入實體,連同它的名字、主頁、目標實體的類型,還有描述它們之間關系的文本,找出與目標類型相符的實體,這些實體能夠表示前面要求的與輸入實體的關系.對于每個查詢,要求輸出實體的排序,且每個實體必須有惟一的主頁.筆者的工作主要關注3個方面:針對每個查詢,找出相關的實體;依據檢索模型,對實體進行排序;為每個實體賦予一個主頁.

    1.2.1 實體抽取

    與專家檢索首先要定位專家相似,實體檢索的前提是必須找出與查詢相關的實體,而且盡量提高查準率和查全率,這就要用到實體抽取的技術.通常,實體抽取主要分為基于統(tǒng)計和基于規(guī)則2種.基于統(tǒng)計的方法例如最大熵(maximum entropy)[8]或條件隨機場(conditional random field)[9]將人名、地名等命名實體標識出來.基于規(guī)則的方法例如構建命名實體詞典,用詞典過濾出符合要求的實體.

    為了更準確、更全面地抽取實體,可以將幾種方法混合使用,即規(guī)則-統(tǒng)計-規(guī)則.首先通過觀察語料集、構造查詢在搜索引擎或維基百科中查找特殊網頁,這種網頁多數(shù)以表格的方式呈現(xiàn),或者有其他明顯的特征.然后通過適當?shù)囊?guī)則將這些可信度較高的實體抽取出來.這種方法可以保證準確率,但是實體的數(shù)量不夠.接下來使用文檔檢索得到相關度最高的前N(N=5)篇文檔,使用基于統(tǒng)計的命名實體識別工具抽取出與目標實體類型相同的實體.調整N可以保證實體的數(shù)量,但是準確率不高,這就又要用到基于規(guī)則的方法.利用維基百科中每個詞條的語義標簽建立各種實體類型的映射規(guī)則,如對于組織名(organization),以“組織”、“公司”等開頭的標簽,采集這些標簽對應的實體,建立實體詞典,前面用工具抽取出的“實體”再經過詞典過濾,添加到實體列表中.

    1.2.2 檢索模型

    有了實體列表就可以依據檢索模型對實體排序了.在實體檢索任務中,根據查詢、文檔、實體三者的關系,形象地構建了2種模型:文檔中心模型和實體中心模型.

    文檔中心模型將文檔d看作查詢q和實體e的橋梁,查詢和實體的相關度由合并q、d的相關度和e、q的相關度得到.文檔中心模型借鑒了專家檢索中的二階思路,不同之處在于專家換成了實體.第1階段計算查詢和文檔的相關度使用的是語言模型和推理網絡.第2階段計算實體和文檔的相關度也是一個檢索的過程,可以采用概率模型等,將實體轉換成查詢后就和第1階段相同了.

    實體中心模型是實體處在結構的中層,文檔或文檔的片斷在底層支撐實體,實體與頂層的查詢直接相連.與文檔中心模型不同,實體中心模型只需要1次檢索過程.

    單純用文檔支持實體過于粗糙,參考專家經驗模型,取實體的上下文作為與實體相關的信息.這里的上下文稱為片斷,同樣也取實體前后的150個詞,將某個實體的各個片斷匯集在一起,形成一個新的文檔.實體與實體文檔一一對應,利用查詢與這些文檔的相關度就可以直接對實體進行排序.排序的具體算法有前面提到的語言模型、BM25等.

    1.2.3 確定主頁

    與專家不同,實體需要一個主頁與之對應,也是在網絡上的惟一標識.為實體分配主頁的方法主要有3種:1)計算實體和各相關文檔的相關度,取相關度最高的作為主頁,這種方法依賴于文檔的內容;2)制定規(guī)則,將實體與文檔的URL作比較,找出相似度最高的作為主頁;3)利用已有的外部資源,如搜索引擎排序靠前的網頁、維基百科的參考鏈接等.實際應用中混合使用這3種方法,相互補充,達到盡量準確分配主頁的目的.

    1.3 博客檢索

    文本檢索會議TREC從2006年起制定了博客檢索任務(Blog track),最初只對博客的觀點度及其與查詢的相似性進行研究.博客檢索從2008年起開始關注對博客傾向性的分析,并于2009年提出博客精選任務,該任務將博客的傾向性分為3類:“個人的(personal)”或“官方的(official)”;“深入分析的(in-depth)”或“淺層描述的(shallow)”;“表達觀點的(opinionated)”或“描述事實的(factual)”,其目的是在博客關于查詢的相似性檢索的基礎上進一步對博客的傾向性進行檢索和排序.筆者參加了2007—2010年的博客檢索任務,并于2009年在多項評測指標中都取得了第1名的優(yōu)異成績.

    1.3.1 博客精選(Blog distillation)

    隨著各大博客網站的推出和興起,網絡上涌現(xiàn)出海量的博客用戶,這些博客內容豐富多彩,種類多樣,同時也充斥著各種感情色彩,可謂魚龍混雜.在信息如此泛濫的情況下來判斷相對比較具體的一些話題的傾向性是有困難的,因此有必要事先挑選出一些與話題相關性大的博客,再判斷其傾向性.這也是把話題檢索作為傾向性檢索基礎的原因.

    在2009和2010年的話題檢索任務中,筆者使用的方法基本相同,都是將其看作Learning to Rank問題,即通過學習博文的排序,利用一定的算法來獲得博客的排序.針對這一問題,采用Voting模型[10],即一個博客里的博文被看作是這個博客的支持者,該博客里的博文對于話題的相關性就越大,同時相關的博文數(shù)量越多,該博客的相關性就越大,排序越靠前.

    具體的方法如下:將所有的數(shù)據以博文為單位輸入Indri建立索引,用話題Q在Indri里進行查詢,得到博文的相關性分數(shù)和排序.通過此排序來獲得博客排序,如式(3):

    式中:B表示一個博客,博客B中的一篇博文用p表示,Score(B,Q)表示一個博客的相關性得分,Score(p,Q)表示從Indri中獲得的博文的相關性分數(shù),|B|表示一個博客下博文的數(shù)量.將獲得的相關博客的分數(shù)排序,排在前100的被認為是與話題最相關的博客.

    1.3.2 個人與官方(personal vs.official)

    博客的興起使個人和組織的言論表達變得更加便利,然而因特網用戶可能不大喜歡宣傳性、商業(yè)性的博客,更加喜歡以個人的名義發(fā)表的文章,這樣就使得個人、組織搜索的研究變得具有現(xiàn)實意義.

    博客的個人、組織檢索,是TREC評測2009年新增加的一項子任務,被安排在話題檢索之后.在話題檢索中,得到與話題相關的博客,再對其進行個人、組織檢索.最近2年分別采用了2種不同的方法來進行個人、組織檢索.

    2009年主要采用了組織機構名的區(qū)分方法,因為官方/組織的博客的書寫慣例,一般會將組織名稱放在文章的開頭位置,有種“開門見山”的感覺;所以根據相同的組織機構名稱在文章中出現(xiàn)的頻率和位置來給相關的博客進行打分,最后根據分數(shù)的高低來進行排序和檢索,即可分別得到個人和組織的博客.

    2010年主要采用了基于機器學習的分類方法,將個人和組織的檢索看作是一種分類的問題,在訓練模型中,利用機器學習的方法來分別構建含有個人和組織信息的詞典.在構建詞典前會做一個文本特征降維的處理,然后利用VSM模型用這2個詞典對相關博客進行打分和排序[11],最后分別得到個人和組織的博客.

    1.3.3 表達觀點與描述事實(opinionated vs.factual)

    博客的觀點度與客觀度排序評測旨在開發(fā)一種有效的檢索系統(tǒng),使其能根據博客中關于某話題所表達一種觀點或陳述一個事實的強烈程度,來對這些博客進行排序.

    筆者在2008和2009年都使用了同一種情感分析模型[12],對于博客的觀點度打分如式(4):

    式中:Npos和Nneg分別代表主觀和客觀的博文數(shù).

    與前2年不同,2010年的博客檢索中使用了基于詞典的方法,主要分為3個步驟:

    1)利用信息增益與互信息自動生成“主觀詞詞典”和“客觀詞詞典”.通過信息增益在訓練集中挑選對觀點型博客和客觀型博客區(qū)分度高的詞,作為詞典的候選詞.由信息增益生成的候選詞并沒有被分類為“觀點型”或“客觀型”,為了生成最終的2種詞典,利用互信息進一步將這些候選詞分為“觀點型”和“客觀型”[13].

    2)計算觀點度得分和客觀度得分.對于每個查詢q和詞典中的詞t,在相關文檔集中計算TF-IDF權重wtfidf(t),同時用一種詞權重模型[14]計算查詢權重wbol(q),然后將2個權重相加得到博客的觀點度得分Sop和客觀度得分Sfa.

    3)排序.首先在相關文檔集中找到每篇博客的相關性得分Score(B,Q),然后將Score(B,Q)×Sop和Score(B,Q)×Sfa分別作為觀點度排序和客觀度排序的最終得分.

    1.3.4 深入分析與淺層描述(in-depth vs.shallow)

    2009年首次提出博客的深淺度分析任務.筆者提出了L-Qtf系數(shù)進行博文的深淺度分析[15].然后根據每一個博客下深度博文與淺度博文的數(shù)量,得到每一個博客的深度分析程度或淺度分析程度的排序.最后將每一個博客深淺度的排序值與相應的博客精選的相關性值合并得到最終結果.

    1)根據L-Qtf系數(shù)進行每一篇博文的深淺度分析:

    式中:ft和fqt分別為查詢中的單詞在博文中的詞頻和在查詢中的詞頻,在計算ft和fqt之前,進行詞干化處理(stemming),其作用是將詞的各個詞形變化還原為同一詞干,例如“selling”和“sells”是“sell”的不同詞形,這樣的處理可以提高查詢詞在博文中的覆蓋率;ld為博文的長度;lavg為同一查詢下全部相關博文的平均長度;在實驗中參數(shù)s設置為0.2.

    2)根據博文的L-Qtf系數(shù)進行博客的深淺度分析.在同一查詢下,根據L-Qtf系數(shù)的值對博文進行排序,取該排序的前45%判定為深度表述的博文,后45%判定為淺度表述的博文.計算每一個博客下深度表述博文與淺度表述博文數(shù)量的差值,并對該博客下博文的數(shù)量進行歸一化,得到該博客的深淺度分析結果Si.

    式中:Score(bx,Q)為深淺度分析結果,為了區(qū)分下面的合并方法,用Si表示.

    3)與博客的相關性結果合并得到最終排序.一個博客深淺度分析的最終結果不能僅依賴于深淺度分析,還要考慮該博客對于查詢詞的相關性,所以提出了以下的合并模型:

    式中:Snorm(B,Q)為每個博客的相關性.

    1.4 相關反饋

    相關反饋是TREC在2008年發(fā)布的一項新任務,基本的任務是:對于一個給定的查詢,對文檔集索引中抽取相關文檔,得到初始查詢結果;然后再給定一些標注過的與查詢相關或無關的文檔,通過標記文檔選擇擴展詞,對查詢進行重構;最后重新查詢得到反饋結果.2008年采用了傳統(tǒng)的Rocchio算法,即正負反饋的方法.2009年相關反饋主要采用了文本分類、語言模型提取擴展詞的方法[16],其效果較好.2010年的相關反饋在2009年方法的基礎之上加入了實體擴展、擴展詞分類兩部分.

    1.4.1 結構流程

    2010年相關反饋方法的流程如圖1所示.

    圖1 相關反饋的流程Fig.1 The flow chart of relevance feedback

    1.4.2 擴展詞抽取

    擴展詞主要有2種:通過語言模型計算的權重排序得到的詞[17]和通過相似性KL距離計算得到的命名實體.擴展詞的來源是初始查詢結果通過標記文本分類得到的相關文檔類.

    語言模型進行擴展詞抽取主要思想是將相關文檔類看作一個模型[18],通過估計模型生成詞的概率來對詞進行排序.詞在相關文檔類模型中的概率分布如式(5):

    式中:Pml(t,d)是詞t在文檔d中的歸一化頻率,Pavg(t)是詞t的平均詞頻,(t,d)是一個風險函數(shù),fct是t在文檔類中的總詞頻,cs是相關文檔集長度.

    一些查詢往往與特定的領域或主題相關,這些領域內部的人物、機構、地點等通常能有助于區(qū)分相關文檔和不相關文檔[19].因此,可以將這些命名實體(包括人名、地名、組織機構)作為擴展查詢的一部分.抽取的主要方法步驟是:1)對相關文檔集進行命名實體標注,標注出人、組織和地名3類命名實體;2)基于命名實體的詞頻對實體進行排序,得到詞頻較高的前20個命名實體;3)去掉這20個命名實體中的噪聲實體,噪聲實體是指在相關文檔集和不相關文檔集中都經常出現(xiàn)的實體;4)計算去噪后每個實體和相關文檔的KL距離[20],找到與相關文檔距離最近的5個實體加入到擴展詞集合中.

    1.4.3 擴展詞分類

    通過語言模型提取出的擴展詞,并不是都能改善原始查詢的結果;因此采用對擴展詞進行分類的方法,選擇對原始查詢改善效果比較好的擴展詞,使得查詢能夠得到更好的優(yōu)化.在擴展詞分類實驗中,分類器采用LIBSVM,特征選取方面,主要考慮的是擴展詞的分布特點、擴展詞與查詢詞之間的共現(xiàn)頻度和距離等特征,訓練樣本來源于2009年TERC相關反饋評測的數(shù)據.

    根據擴展詞對原始查詢的不同影響,將擴展詞分為好擴展和壞擴展2種,并進行擴展詞標注.好擴展是指當在擴展查詢中該擴展詞的權重為w時,返回的結果比原始查詢好,即正反饋;當權重為-w時,返回結果比原始查詢差,即負反饋.壞擴展與之相反.實驗中取w=0.01.

    使用LIBSVM[21]進行SVM的訓練和預測.按照前面提到的標注方法,對2009年相關反饋提取的擴展詞進行了標注,為避免正負樣本比例不協(xié)調的問題而影響分類效果,最后選定191個樣本作為訓練樣本,其中131個負樣本,60個正樣本.在訓練過程中,采取了交叉驗證的方法,將數(shù)據平均分成5組,并保證每一組數(shù)據有12個正樣本,最后達到的平均準確率為69.268 34%.

    1.4.4 查詢擴展

    根據給定的原始查詢和從相關文檔集合中抽取的擴展詞進行查詢擴展.擴展過程中查詢的格式如下[22]:

    其中:“query”為原始查詢,“terms”為語言模型抽取、SVM分類過的擴展詞,“named entity”為通過KL距離抽取的命名實體.原始查詢的權重設為1.0,擴展詞權重設為0.2.

    2 信息抽取

    一般情況下,被用戶認為有用的信息隱藏在大量文字中,或散亂分布在各種各樣的網頁中.如何將這些符合特定需求的信息抽取出來,是當前文本搜索領域的熱點問題.著名的文本分析會議(text analysis conference,TAC)就將焦點放在信息的抽取和關聯(lián)分析上.TAC是由IAD(information access division)組織的一個評測,該評測自2008年舉辦以來,已經進行了3屆,最初是從 TREC評測的 Question Answering Track發(fā)展起來的[23].筆者自2009年已經連續(xù)2年參加了該評測的實體關聯(lián)和實體填充[24]2項任務,并在評測中取得了較為優(yōu)異的成績.

    2.1 實體關聯(lián)任務及關鍵技術

    實體關聯(lián)(entity linking)的任務是根據每一個query的標題和支持文檔找到KB中的惟一節(jié)點和它對應,或者返回空(表示該節(jié)點不和任何KB中的節(jié)點對應).其中:KB(knowledge base)這個數(shù)據集中存放所有的KB節(jié)點;query是評測開始時官方提供的數(shù)據,一個query包含1個title(標題)和1篇支持文檔.

    1)系統(tǒng)總體框架.系統(tǒng)主要包括以下幾個模塊:實體檢索、命名實體識別、相似性判斷、自動摘要,如圖2.基本思想是,首先對每一個實體query進行實體檢索,得到一批實體候選列表,然后針對每一個候選實體進行排序和相似度的打分,從而得到最終的結果.

    2)實體檢索.在評測中,往往面對的是海量文本,如果對于每一個查詢都去遍歷KB,那么其響應速度是不能接受的;因此,通常需要對KB建立索引,在TAC評測中,選用Indri作為建立索引的工具.

    圖2 實體關聯(lián)的流程Fig.2 The flow chart of entity linking

    3)命名實體識別.TAC評測中的query都是一個實體,并且該實體可能是以下3種類別之一:人名、地名、組織機構名.首先需要判斷該query是哪一種類別的實體,從而方便后續(xù)的處理,在TAC評測中,使用了斯坦福大學提供的命名實體識別開源工具包.

    4)判定方法.在評測中,需要對1個query和1個文檔進行相似度的計算,采用了以下2種方法:

    a)基于VSM模型的相似度判斷:

    b)基于KL距離的相似度判斷:

    5)實體關聯(lián)的改進.在2010年的TAC評測中,筆者加入了許多規(guī)則,這些規(guī)則的引入主要來自于對原始數(shù)據的觀察,通過加入相關的這些規(guī)則,效果有了提高.

    2.2 實體填充任務及關鍵技術

    實體填充(slot filling)任務即在測試集中尋找與目標實體(查詢)相關的信息,填充目標實體預先規(guī)定的一系列屬性值.目標實體分為2類:人名和組織機構,人名共有26種屬性需要填充,組織機構共有16種屬性需要填充.屬性有single和list的不同,其中single為只能有一個答案的屬性,如人的生日;list為可以有多個答案的屬性,如人的子女.

    1)系統(tǒng)總體框架.實體填充系統(tǒng)的總體框架由4個部分組成:實體檢索模塊、命名實體識別模塊、關系抽取模塊、結果決策模塊,如圖3.實體檢索模塊通過Indri檢索平臺,獲取和查詢實體最相關的前25篇相關文檔及其相關度權值.命名實體識別模塊使用斯坦福NER工具包識別人名、地名、組織機構名,使用時間規(guī)則模板匹配識別時間.關系抽取模塊是實體填充系統(tǒng)的核心模塊,把實體填充當作一個關系抽取任務,在這一模塊中同時采用基于規(guī)則模板的方法與基于統(tǒng)計的方法.結果決策模塊對關系抽取模塊的結果進行優(yōu)選得出最終結果.

    圖3 實體填充的流程Fig.3 The flow chart of slot filling

    2010年實體填充的整體實現(xiàn)框架與2009年大體相同,但細節(jié)上有所改進,例如增加了URL的識別.采用基于規(guī)則方法識別為主、基于統(tǒng)計CRF識別方法做補充的實現(xiàn)方案.即當2種方法同時出現(xiàn)“single”的值,優(yōu)選選擇規(guī)則類方法;對于非“single”的值,綜合考慮文檔對于query的相關性值SEL和填充結果的可信度值SSF,選擇最優(yōu)的若干個結果進行優(yōu)選得出最終結果.

    2)基于規(guī)則模板的方法.a)識別 URL(網址)和LIST(title職稱、charge罪名、cause of death 死因、religion宗教等).其中URL識別采用正則表達式方法,LIST主要從訓練語料中統(tǒng)計而來.b)根據規(guī)則模板輸出實體填充結果.

    3)基于統(tǒng)計的方法.基于統(tǒng)計的方法是一種半監(jiān)督的機器學習方法,它將實體關系抽取看作一種多分類問題,從文本中抽取訓練所需要的特征,然后利用條件隨機場形成分類器.

    利用9種特征來訓練CRFs:詞對、詞特征、詞性特征、順序特征、動詞位置特征、實體位置特征、二值特征、動詞特征和類型特征.由于實體關系識別是一種多分類問題,而類別數(shù)越多,模型的準確率也會下降.為了盡可能降低類別數(shù),根據目標實體的類型(人名或組織名)將初始的訓練語料初步分為2份,然后再根據詞對中的第2個詞是否為命名實體,進一步將訓練語料二次劃分,最后用CRFs形成了4種分類器,這樣做也提高了系統(tǒng)的整體效率.

    4)結果合并.綜合考慮文檔對于query的相關性值SEL和填充結果的可信度值SSF,選擇最優(yōu)的1個或若干個.選擇策略如式(6)所示.

    式中:Value(Q,slot,doc)即為綜合考慮文檔對于query的相關性值和填充結果的可信度值的權值.對于基于機器學習的方法,CRF++工具包[25]可以為識別結果提供可信度值,記為crfvalue,即該判別結果正確的概率,SSF=crfvalue;對于基于規(guī)則的方法,優(yōu)先選取基于規(guī)則方法的結果,設置填充結果可信度值為1,SSF=1.實體關聯(lián)提供相關文檔的同時提供該文檔的相關度值,記為SEL.其中參數(shù)μ設置為0.5.

    3 信息過濾

    近年來,隨著互聯(lián)網技術的迅速發(fā)展,垃圾信息的數(shù)量在網絡上呈現(xiàn)上升趨勢,信息過濾成為一個業(yè)內的難題和挑戰(zhàn).以垃圾郵件為例,TREC從2005—2007年組織了垃圾郵件過濾評測(spam track)[26-27],目的是盡可能找到一種好的垃圾郵件過濾模型,保證過濾的有效性和可重復性滿足需求.主要任務包括即時反饋、延時反饋、主動學習和部分反饋等[28].筆者參加了其中的3屆評測,2005年在參賽的國內隊伍中成績是最好的.

    當前的垃圾郵件過濾技術可以大致劃分為黑名單技術、人力驅動的啟發(fā)式過濾以及基于機器學習的過濾[29].這些技術中,樸素貝葉斯方法受到廣泛關注.

    3.1 樸素貝葉斯分類器

    樸素貝葉斯分類器簡單有效,經常用于文本分類的應用和實驗中.垃圾郵件過濾屬于文本分類問題,因此該分類器被廣泛使用于垃圾郵件過濾.樸素貝葉斯分類器是一種基于概率的方法,基本思想是通過觀察一些詞是否在郵件中出現(xiàn)來判斷是垃圾還是非垃圾,如式(7):

    式中:wk是組成郵件的詞,L是類別的集合.常用的樸素貝葉斯模型有 multi-variate Bernoulli模型、Poisson Na?ve Bayes模型以及 multinomial模型.它們的不同之處主要在于如何計算P(wk|Ci).對于垃圾郵件過濾問題,只有2個類別:垃圾郵件C+和非垃圾郵件C-,那么一封郵件M的對數(shù)得分可寫為

    如果Score(M)>0,待分類郵件被標注為C+類(垃圾郵件),反之被標注為C-類(非垃圾郵件).過濾模型如圖4所示.在有監(jiān)督情況下,用戶判斷垃圾郵件過濾器的結果并反饋給過濾器,而過濾器依據反饋進行自動學習.系統(tǒng)開始運行時并不預設標準,即是一個無初始記憶的分類器,而后不斷更新達到最佳效果.系統(tǒng)關于垃圾郵件的知識均是從理想用戶的反饋中得到的.

    圖4 垃圾郵件過濾的流程Fig.4 The flow chart of spam filtering

    3.2 加權樸素貝葉斯分類器

    假設郵件的不同部分對過濾的貢獻是不同的,某些部分對過濾的幫助更大.若郵件分為S個部分,每個部分由Nd個詞組成,d=1,2,…,S.那么樸素貝葉斯分類器的一個簡單推廣就是為郵件的不同部分賦予不同的權值α.式(7)可以更新成為

    式中:αd為權值,d=1,2,…,S.式(8)用Nd和郵件長度正規(guī)化后可以寫成

    那么給定訓練集后,參數(shù)集α就可以用最大似然準則求解了.在實際中,劃分的方法有很多.可以按結構劃分各部分,如標題、郵件頭、正文、附件等,也可以按詞的不同概率將郵件劃分成不同的部分.

    3.3 分類器集成

    Bagging是一種將一些弱分類器集成的技術.弱分類器指的是準確率比50%高一點的分類器.在分類過濾任務中,將弱分類器集成在一起,經過演進和變換達到最佳效果.基于Bagging技術的樸素貝葉斯垃圾郵件過濾器,通過選擇好的集成方法有助于提升過濾系統(tǒng)的性能.常用的方法主要有嵌入決策樹和分類錯誤加權等.

    4 實際系統(tǒng)

    4.1 互聯(lián)網輿情系統(tǒng)

    北京郵電大學模式識別與智能系統(tǒng)實驗室的互聯(lián)網輿情監(jiān)控分析系統(tǒng)依托自主研發(fā)的文本搜索和文本挖掘技術,通過新聞、論壇、博客、微博、視頻網站等內容源的自動采集與跟蹤,進行敏感話題過濾分析、智能話題聚類分類、主題監(jiān)測、專題聚焦和各類數(shù)據的統(tǒng)計分析,實現(xiàn)應用單位對相關網絡輿情監(jiān)督管理的需要,為決策層全面掌握輿情動態(tài),做出正確輿論引導提供分析依據.

    4.2 短信輿情系統(tǒng)

    短信是人們日常生活中進行通信的重要手段,通過對短信文本的分析,可以掌握大眾平時的輿論導向,并且可以幫助政府職能部門盡早地發(fā)現(xiàn)一些不良的、危及安全的不法短信.但是短信有其自身的特點:短小、口語化等,這也給分析帶來了很大的難度.因此,基于短信進行輿情分析既有一定的學術價值,也有一定的現(xiàn)實意義.

    短信輿情系統(tǒng)主要有以下一些模塊:短信分類模塊根據短信的內容將短信分到不同的類別,并且可以通過訓練自動調整各類別下關鍵詞的權重;敏感過濾模塊可以過濾出涉及國家和人民生命財產安全的非法短信;發(fā)送方式分析模塊可以判斷出一條短信的發(fā)送方式,例如群發(fā)、轉發(fā)、直發(fā)等,從而可以獲知什么樣的短信被大規(guī)模群發(fā),并進行有針對性的跟蹤;短信溯源和用戶交際圈模塊可以根據某一用戶或某一短信進行全方位地分析,從而掌握某用戶的動態(tài).

    通過短信輿情系統(tǒng),可以更好地加強對短信數(shù)據的監(jiān)控,掌握普通用戶的輿情情況,為政府職能部門制定相關決策,追蹤某些特殊的現(xiàn)象提供手段.

    4.3 校園對象搜索引擎系統(tǒng)

    校園對象搜索引擎(campus object search engine,COSE),是一款在校園網內工作,致力于幫助用戶尋找人物、組織機構以及課程信息的垂直搜索引擎.從COSE的名字就可以看出該系統(tǒng)所針對的服務對象是校園中的學生群體.COSE的主要特點在于它融入了信息抽取中的命名實體識別和實體關系抽取這2項技術,可以自動識別網頁中的人名、課程名以及機構組織名,建立實體(也稱對象)數(shù)據庫,并且根據對象名在網頁中抽取其關系(也稱相關屬性),建立相關屬性數(shù)據庫,供用戶查詢檢索時使用.

    COSE系統(tǒng)包含的模塊有:網絡爬蟲與索引、中文分詞、命名實體識別、實體關系抽取和查詢重構.COSE采用廣度優(yōu)先搜索策略,只抓取各個大學網站域名下的網頁信息,建立網頁文檔庫及索引.這可以在很大一定程度上屏蔽掉大量無用的廣告網頁和新聞網頁.對網頁文檔建索引能加快查找和排序的速度,COSE系統(tǒng)綜合使用全文索引技術和動態(tài)文檔索引技術.中文分詞是命名實體識別和實體關系抽取的前提和基礎,COSE中的中文分詞技術綜合應用基于字符串匹配和基于統(tǒng)計的中文分詞技術.命名實體識別是COSE系統(tǒng)的關鍵技術之一,采用基于統(tǒng)計與基于規(guī)則相結合的識別方法.實體關系抽取是COSE系統(tǒng)中的另一項關鍵技術,鑒于正則表達式的靈活性和強大的字符串匹配能力,COSE系統(tǒng)借助成熟的Python字符處理規(guī)則,提出一種正則表達式方案抽取對象屬性信息.COSE中查詢重構模塊旨在解決以下2種形式的查詢:1)復雜查詢:查詢的不是單純實體;2)問題式查詢:比如某某老師屬于哪個學院.在用戶使用COSE進行檢索時,系統(tǒng)會返回2類信息:一類是與通用搜索引擎相似的和查詢相關的網頁信息,另一類則是相關網頁中包含的命名實體及其相關屬性.

    5 總結與展望

    傳統(tǒng)的文本搜索技術已經難以滿足用戶的需求,融合了信息檢索、信息抽取和信息過濾等技術的智能文本搜索新技術是當前的研究熱點.

    信息檢索技術不再是單純的按相關度呈現(xiàn)各個網頁,更多的是對網頁內容的深度挖掘、組織并反饋,提高檢索的準確性、完備性、個性化程度.企業(yè)檢索主要研究在企業(yè)內部數(shù)據中的用戶檢索行為,主要包含郵件檢索、文檔檢索和專家檢索任務,使用了二階排序模型和專家經驗模型.實體檢索主要關注查找相關實體,除了使用文檔中心模型和實體中心模型外,還加入了實體抽取的關鍵技術和用來惟一標識實體的主頁.博客檢索對博客中出現(xiàn)的觀點及其與查詢的相似性進行研究,在此基礎上對傾向性作分析,主要分為3類:個人與官方、表達觀點與描述事實、深入分析與淺層描述.相關反饋利用給定的與查詢相關或無關的標注文檔,選擇擴展詞,對查詢進行重構,通過重排序改善原有檢索系統(tǒng)的性能.

    信息抽取技術在文本分析會議評測中得到很好的體現(xiàn).該評測分為實體關聯(lián)和實體填充2個任務,深度剖析文本信息,致力于識別、分析、整合文本中出現(xiàn)的實體.信息抽取技術非常重要,為其他工作的順利進行起到了基礎性作用.

    信息過濾的關鍵技術被應用在垃圾郵件過濾評測中.該評測的目的是盡可能找到一種好的垃圾郵件過濾模型,保證過濾的有效性和可重復性,主要任務包括即時反饋、延時反饋、主動學習和部分反饋等.其中加權樸素貝葉斯和分類器集成的方法表現(xiàn)出了良好的效果.

    信息檢索、抽取和過濾三大技術是相互聯(lián)系的,經常融合在一起,發(fā)揮最大的作用.例如:在檢索之前要抽取有價值的信息,過濾掉垃圾信息;抽取和過濾中也可以使用檢索的方法進行初步處理;抽取和過濾都有基于規(guī)則和基于統(tǒng)計的方法等.這些都很好地在互聯(lián)網輿情、短信輿情和校園對象搜索引擎等系統(tǒng)中得到了體現(xiàn).新的智能文本搜索技術將是未來熱門的研究方向,并且具有巨大的發(fā)展前景.

    [1]郭軍.Web搜索[M].北京:高等教育出版社,2009:1-3.

    [2]方慧.TREC發(fā)展歷程及現(xiàn)狀分析[J].新世紀圖書館,2010(1):57.FANG Hui.On developing course and status analysis of TREC[J].New Century Library,2010(1):57.

    [3]BALOG K,SOBOROFF I,THOMAS P,et al.Overview of the TREC 2008 enterprise track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec17/papers/ENTERPRISE.OVERVIEW.pdf.

    [4]RU Zhao,CHEN Yuehua,XU Weiran,et al.TREC2005 enterprise track experiments at BUPT[EB/OL].[2010-12-15].http://trec.nist.gov/pubs/trec14/papers/beijinguof-pt.ent.pdf.

    [5]RU Zhao,LI Qian,XU Weiran,et al.BUPT at TREC 2006:enterprise track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec15/papers/beijing-upt.ent.final.pdf.

    [6]BAILEY P,CRASWELL N.Overview of the TREC 2007 enterprise track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec16/papers/ENT.OVERVIEW16.pdf.

    [7]WANG Zhanyi,LIU Dongxin,XU Weiran,et al.BUPT at TREC 2009:entity track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec18/papers/bupt.ENT.pdf.

    [8]ZHANG Suxiang,WEN Juan,WANG Xiaojie,et al.Automatic entity relation extraction based on maximum entropy[C]//Proceedings of the Sixth International Conference on Intelligent Systems Design and Applications.Ji’nan,China,2006:540-544.

    [9]LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the International Conference on Machine Learning.San Francisco,USA:Morgan Kaufmann Publishers Inc,2001:282-289.

    [10]MACDONALD C,OUNIS I.Voting for candidates:adapting data fusion techniques for an expert search task[C]//Proceedings of the 15th ACM International Conference on InformationandKnowledgeManagement.New York,USA:ACM,2006:387-396.

    [11]MANNING C D,RAGHAVAN P,SCHUTZE H,An introduction to information retrieval[M].Cambridge,UK:Cambridge University Press,2008:120-126.

    [12]WILSON T,WIEBE J,HOFFMANN P,Recognizing contextual polarity in phrase-level sentiment analysis[C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing.Stroudsburg,USA:Association for Computational Linguistics,2005:347-354.

    [13]MANNING C D,SCHTZE H.Foundations of statistical natural language processing[M].Cambridge,USA:The MIT Press,1999.

    [14]AMATI G.Probabilistic models for information retrieval based on divergence from randomness[D].Glasgow,UK:University of Glasgow,2003.

    [15]SINGHAL A,BUCKLEY C,MITRA M.Pivoted document length normalization[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,1996:21-29.

    [16]LI Si,LI Xinsheng.PRIS at 2009 relevance feedback track:experiments in language model for relevance feedback[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec18/papers/pris.RF.pdf.

    [17]LALMAS M,MACFARLANE A,RUGER S.Advances in information retrieval[M].New York,USA:Springer-Verlag,2002:74-172.

    [18]PONTE J M,CROFT W B.A language modeling approach to information retrieval[C]//Proceedings of the 21th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,1998:275-281.

    [19]WANG Bingqing,HUANG Xuanjing.Relevance feedback based on constrained clustering:FDU at TREC’09[EB/OL].[2010-12-15].http://trec.nist.gov/pubs/trec18/papers/fudanu.RF.pdf.

    [20]LAVRENKO V,CROFT W B.Relevance-based language models[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,2001:120-127.

    [21]CHANG Chihchung,LIN Chihjen.LIBSVM:a library for support vector machines[EB/OL]. [2011-04-09].http://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html.

    [22]The Lemur Project.INDRI:language modeling meets inference networks[EB/OL]. [2011-03-23].http://www.lemurproject.org/indri/.

    [23]TAC 2009.Knowledge base population track[EB/OL].(2009-09-29) [2010-12-16].http://apl.jhu.edu/~paulmac/kbp.html.

    [24]TAC 2010.Knowledge base population(KBP2010)track[EB/OL].(2010-09-12)[2010-12-16].http://nlp.cs.qc.cuny.edu/kbp/2010/.

    [25]CRF++:yet another CRF toolkit[EB/OL]. [2010-12-16].http://crfpp.sourceforge.net/.

    [26]YANG Zhen,XU Weiran,CHEN Bo,et al.PRIS Kidult anti-SPAM solution at the TREC 2005 spam track:improving the performance of naive Bayes for spam detection[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec14/papers/beijingu-of-pt.spam.pdf.

    [27]YANG Zhen,XU Wei,CHEN Bo,et al.BUPT at TREC 2006:spam track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec15/papers/beijing-upt.spam.final.pdf.

    [28]CORMACK G V.TREC 2007 spam track overview[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec16/papers/SPAM.OVERVIEW16.pdf.

    [29]楊震.文本分類和聚類中若干問題的研究[D].北京:北京郵電大學,2007:10-86.

    YANG Zhen.Research on key problems in text classification and clustering[D].Beijing:Beijing University of Posts and Telecommunications,2007:10-86.

    王占一,男,1984年生,博士研究生,主要研究方向為信息過濾和信息檢索等.在國內外重要期刊和會議上發(fā)表學術論文10篇,獲發(fā)明專利2項.

    徐蔚然,男,1975年生,副教授,主要研究方向為信息檢索、模式識別和機器學習.主持參加了 TREC、TAC、ACE等國際著名檢索評測,并且獲得優(yōu)異成績,參與多項國家級科研項目,發(fā)表學術論文20余篇.

    郭軍,男,1959年生,教授,博士生導師,主要研究方向為模式識別、網絡管理、信息檢索、基于內容的信息安全等.主持多項“863”計劃項目和國家自然科學基金項目,獲省部級獎勵多項,發(fā)表學術論文上百篇,獲授權專利5項.

    New technologies of intelligent text search

    WANG Zhanyi1,2,XU Weiran1,2,GUO Jun1,2
    (1.Pattern Recognition and Intelligent System(PRIS)Laboratory,Beijing University of Posts and Telecommunications,Beijing 100876,China;2.School of Information and Communication Engineering,Beijing University of Posts and Telecommunications,Beijing 100876,China)

    To adapt to the massive amount of information on the internet and the need for accuracy,efficiency,and individualization,a set of technologies of intelligent text search including information retrieval,extraction,and filtering were proposed.First,new technologies of information retrieval were illustrated including the subtasks of enterprise retrieval,entity retrieval,blog retrieval,and relevance feedback.Second,the subtask of entity linking and slot filling related to information extraction was introduced.Finally,the subtask of spam e-mail filtering related to information filtering was described.These technologies were converged for application in many well-known international evaluations.These include the text retrieval conference(TREC)and text analysis conference(TAC)sponsored in the USA,and these technologies of intelligent text search were proven in practical applications such as public opinions on the Internet,short message opinions,and the campus object search engine(COSE).

    intelligent text search;text retrieval;text analysis

    TP393

    A

    1673-4785(2012)01-0040-10

    10.3969/j.issn.1673-4785.201101001

    http://www.cnki.net/kcms/detail/23.1538.TP.20120218.1616.001.html

    2011-01-02. 網絡出版時間:2012-02-18.

    國家自然科學基金資助項目(60905017);高等學校學科創(chuàng)新引智計劃項目(B08004).

    王占一.E-mail:wangzhanyi@gmail.com.

    猜你喜歡
    評測博客文檔
    有人一聲不吭向你扔了個文檔
    次時代主機微軟XSX全方位評測(下)
    次時代主機微軟XSX全方位評測(上)
    攻坡新利器,TOKEN VENTOUS評測
    Canyon Ultimate CF SLX 8.0 DI2評測
    中國自行車(2017年1期)2017-04-16 02:54:06
    基于RI碼計算的Word復制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    博客天下
    博客天下(2015年2期)2015-09-15 14:12:57
    不讓他人隨意下載Google文檔
    電腦迷(2012年4期)2012-04-29 06:12:13
    博客相冊
    博客天下(2009年12期)2009-08-21 07:35:10
    人人澡人人妻人| 蜜桃国产av成人99| 久久久午夜欧美精品| 亚洲精品一二三| 国产精品女同一区二区软件| 亚洲熟女精品中文字幕| 欧美人与善性xxx| 女的被弄到高潮叫床怎么办| 久久精品久久精品一区二区三区| 十分钟在线观看高清视频www| 久久精品熟女亚洲av麻豆精品| 国产成人aa在线观看| 久久久国产一区二区| 我的老师免费观看完整版| 亚洲精品成人av观看孕妇| 亚洲综合精品二区| 啦啦啦在线观看免费高清www| 99久久人妻综合| 亚洲精品乱码久久久久久按摩| 夜夜爽夜夜爽视频| 多毛熟女@视频| 久久精品国产亚洲av天美| a级毛片免费高清观看在线播放| 免费观看a级毛片全部| 一级毛片黄色毛片免费观看视频| 夜夜爽夜夜爽视频| 999精品在线视频| 日韩欧美精品免费久久| 亚洲精品av麻豆狂野| 天堂8中文在线网| 婷婷色麻豆天堂久久| 国产一区二区三区综合在线观看 | 亚洲情色 制服丝袜| 视频区图区小说| 亚洲av国产av综合av卡| 99国产综合亚洲精品| 人妻一区二区av| 一级爰片在线观看| 亚洲不卡免费看| 日本av手机在线免费观看| 国产精品一区二区在线不卡| 五月玫瑰六月丁香| 国产免费福利视频在线观看| 精品人妻熟女毛片av久久网站| 一级爰片在线观看| 日韩亚洲欧美综合| 亚洲成人手机| 亚洲av福利一区| 制服诱惑二区| 高清午夜精品一区二区三区| 国产成人一区二区在线| 欧美精品高潮呻吟av久久| 国产精品99久久99久久久不卡 | 精品久久久久久电影网| 日本黄大片高清| 中国美白少妇内射xxxbb| 精品亚洲成国产av| 国产精品99久久99久久久不卡 | 18禁裸乳无遮挡动漫免费视频| 亚洲精品日韩在线中文字幕| 制服丝袜香蕉在线| 欧美激情 高清一区二区三区| 伊人久久国产一区二区| 亚洲精品日本国产第一区| 国产成人av激情在线播放 | 观看av在线不卡| 考比视频在线观看| 大又大粗又爽又黄少妇毛片口| 水蜜桃什么品种好| 久久精品国产自在天天线| 欧美精品一区二区免费开放| 亚洲国产精品999| 国产精品麻豆人妻色哟哟久久| 性色av一级| 亚洲精品日本国产第一区| 午夜福利视频精品| av一本久久久久| 亚洲一级一片aⅴ在线观看| 少妇被粗大猛烈的视频| 在线看a的网站| 成年人免费黄色播放视频| 国产又色又爽无遮挡免| 天天影视国产精品| 如何舔出高潮| 久久久久精品性色| 最后的刺客免费高清国语| 高清不卡的av网站| 久久久久人妻精品一区果冻| 精品久久蜜臀av无| 菩萨蛮人人尽说江南好唐韦庄| 如日韩欧美国产精品一区二区三区 | 中文字幕精品免费在线观看视频 | 精品国产乱码久久久久久小说| 精品久久蜜臀av无| 亚洲av欧美aⅴ国产| 汤姆久久久久久久影院中文字幕| 国产精品一区二区在线观看99| 十八禁高潮呻吟视频| 国产精品三级大全| 91国产中文字幕| 日韩av不卡免费在线播放| 国产免费福利视频在线观看| 欧美最新免费一区二区三区| 免费av不卡在线播放| 亚洲性久久影院| 在线观看人妻少妇| 亚洲丝袜综合中文字幕| 欧美激情 高清一区二区三区| 国产伦理片在线播放av一区| 亚洲精品国产av蜜桃| 韩国高清视频一区二区三区| av国产久精品久网站免费入址| av在线播放精品| 久久97久久精品| 搡女人真爽免费视频火全软件| 久久精品久久久久久噜噜老黄| 欧美日韩成人在线一区二区| 欧美精品人与动牲交sv欧美| 国产成人精品久久久久久| 一个人看视频在线观看www免费| 精品视频人人做人人爽| 欧美精品亚洲一区二区| 国产日韩一区二区三区精品不卡 | 久久久久视频综合| 久久久久久久久大av| 各种免费的搞黄视频| 日韩精品有码人妻一区| 欧美日韩成人在线一区二区| 亚洲av欧美aⅴ国产| 插逼视频在线观看| 伦理电影大哥的女人| 国产精品久久久久成人av| 黑人高潮一二区| 大码成人一级视频| 黑人高潮一二区| 边亲边吃奶的免费视频| 亚洲经典国产精华液单| 国产精品一区二区三区四区免费观看| 亚洲,欧美,日韩| 人妻一区二区av| 国产伦理片在线播放av一区| 欧美激情 高清一区二区三区| 伦精品一区二区三区| 免费看光身美女| videosex国产| 伦理电影大哥的女人| 亚洲中文av在线| 久久久久久久国产电影| 一本一本综合久久| 国产69精品久久久久777片| av在线app专区| 国产精品蜜桃在线观看| 97精品久久久久久久久久精品| 美女国产高潮福利片在线看| 人人妻人人添人人爽欧美一区卜| 久久久久视频综合| 一级片'在线观看视频| 国产一区二区在线观看日韩| 日韩大片免费观看网站| 哪个播放器可以免费观看大片| 高清黄色对白视频在线免费看| 五月开心婷婷网| 黄色欧美视频在线观看| 涩涩av久久男人的天堂| 99热6这里只有精品| 日本黄色片子视频| 中国国产av一级| av又黄又爽大尺度在线免费看| 少妇人妻久久综合中文| 欧美日韩视频精品一区| 精品国产一区二区久久| 国产黄频视频在线观看| 精品久久久久久电影网| 激情五月婷婷亚洲| 在线观看免费高清a一片| 亚洲精品日本国产第一区| 日本av手机在线免费观看| 精品久久国产蜜桃| 亚洲内射少妇av| 久久这里有精品视频免费| 精品亚洲乱码少妇综合久久| 免费黄频网站在线观看国产| 精品人妻熟女av久视频| 97精品久久久久久久久久精品| 国产精品久久久久成人av| 亚洲精品乱码久久久v下载方式| 超碰97精品在线观看| 久久韩国三级中文字幕| 18禁在线播放成人免费| 欧美亚洲 丝袜 人妻 在线| 人妻夜夜爽99麻豆av| 午夜福利在线观看免费完整高清在| 99国产综合亚洲精品| 国产免费一级a男人的天堂| 久久免费观看电影| 中文欧美无线码| 少妇丰满av| 亚洲综合色惰| 啦啦啦在线观看免费高清www| 一边亲一边摸免费视频| 中国国产av一级| 黄色毛片三级朝国网站| 国产在视频线精品| a 毛片基地| 国产精品一二三区在线看| 欧美成人精品欧美一级黄| 十八禁高潮呻吟视频| 久久精品熟女亚洲av麻豆精品| 久久毛片免费看一区二区三区| 高清视频免费观看一区二区| 在线精品无人区一区二区三| 看免费成人av毛片| 夜夜看夜夜爽夜夜摸| 男女边摸边吃奶| 26uuu在线亚洲综合色| 国产 一区精品| 国产成人免费观看mmmm| 日本午夜av视频| 啦啦啦在线观看免费高清www| 免费不卡的大黄色大毛片视频在线观看| 久久久久久伊人网av| 亚洲色图 男人天堂 中文字幕 | 婷婷色av中文字幕| videos熟女内射| 国产精品国产av在线观看| 看免费成人av毛片| 边亲边吃奶的免费视频| 国产一区二区三区av在线| 日本与韩国留学比较| 91aial.com中文字幕在线观看| 人人妻人人澡人人看| 精品国产一区二区久久| 成人漫画全彩无遮挡| 久久综合国产亚洲精品| 狂野欧美激情性xxxx在线观看| 9色porny在线观看| 综合色丁香网| 色婷婷久久久亚洲欧美| 韩国av在线不卡| 蜜桃国产av成人99| 大又大粗又爽又黄少妇毛片口| av视频免费观看在线观看| 久久鲁丝午夜福利片| 亚洲第一区二区三区不卡| 成年美女黄网站色视频大全免费 | 欧美日韩国产mv在线观看视频| 简卡轻食公司| 成人二区视频| 亚洲三级黄色毛片| 人人妻人人爽人人添夜夜欢视频| 黄色配什么色好看| 亚洲精品自拍成人| 亚洲综合色网址| 嫩草影院入口| 天堂俺去俺来也www色官网| 99热这里只有是精品在线观看| 国产精品蜜桃在线观看| 国产免费又黄又爽又色| 两个人免费观看高清视频| 99国产精品免费福利视频| 日本-黄色视频高清免费观看| 国产精品国产三级专区第一集| 亚洲伊人久久精品综合| 伦理电影免费视频| 国模一区二区三区四区视频| 狂野欧美激情性bbbbbb| av线在线观看网站| 久久久欧美国产精品| 最近中文字幕2019免费版| 久久久亚洲精品成人影院| 日本vs欧美在线观看视频| 亚洲国产精品一区三区| 91久久精品国产一区二区成人| 免费观看性生交大片5| 精品人妻熟女av久视频| 亚洲av在线观看美女高潮| 伦精品一区二区三区| 黄色一级大片看看| 欧美日韩综合久久久久久| freevideosex欧美| 在线观看三级黄色| 午夜91福利影院| 建设人人有责人人尽责人人享有的| 成人综合一区亚洲| 国产熟女欧美一区二区| av在线观看视频网站免费| 亚洲av.av天堂| 精品卡一卡二卡四卡免费| 亚洲图色成人| videosex国产| 精品久久久久久久久亚洲| 久久综合国产亚洲精品| a级毛片黄视频| 精品99又大又爽又粗少妇毛片| 亚洲三级黄色毛片| 色94色欧美一区二区| 精品久久国产蜜桃| 一级毛片 在线播放| 亚洲精品久久午夜乱码| 日韩亚洲欧美综合| 国产乱人偷精品视频| 看免费成人av毛片| 亚洲精品日韩在线中文字幕| 色吧在线观看| 亚洲av电影在线观看一区二区三区| 国产免费视频播放在线视频| 国产一级毛片在线| 少妇的逼水好多| 99国产综合亚洲精品| 只有这里有精品99| 各种免费的搞黄视频| 亚洲高清免费不卡视频| 欧美xxxx性猛交bbbb| 99热这里只有是精品在线观看| 亚洲欧美色中文字幕在线| 女性生殖器流出的白浆| 日本与韩国留学比较| 中文精品一卡2卡3卡4更新| 久久韩国三级中文字幕| 蜜桃国产av成人99| 久久亚洲国产成人精品v| 亚洲激情五月婷婷啪啪| 久久ye,这里只有精品| 插阴视频在线观看视频| 91精品国产九色| 亚洲精品一二三| 亚洲精品aⅴ在线观看| 国产成人91sexporn| 91久久精品国产一区二区成人| 久久午夜综合久久蜜桃| 啦啦啦视频在线资源免费观看| 在线观看www视频免费| h视频一区二区三区| 欧美日韩一区二区视频在线观看视频在线| 欧美日韩在线观看h| 中文字幕最新亚洲高清| 五月天丁香电影| 国产亚洲精品第一综合不卡 | 男人添女人高潮全过程视频| 成人免费观看视频高清| 观看av在线不卡| 免费大片18禁| 麻豆乱淫一区二区| 国产午夜精品一二区理论片| 满18在线观看网站| 99热网站在线观看| 亚洲精品久久午夜乱码| 嘟嘟电影网在线观看| 黄色配什么色好看| 美女大奶头黄色视频| 午夜激情久久久久久久| 美女国产高潮福利片在线看| 日韩一区二区视频免费看| 国产av码专区亚洲av| 国产精品成人在线| 91久久精品国产一区二区成人| 18禁动态无遮挡网站| a级片在线免费高清观看视频| 在线看a的网站| av又黄又爽大尺度在线免费看| 亚洲综合精品二区| 老女人水多毛片| 在线天堂最新版资源| 99久久中文字幕三级久久日本| 高清不卡的av网站| a级毛色黄片| 国产av一区二区精品久久| 91国产中文字幕| 久久 成人 亚洲| 黄色欧美视频在线观看| 成人亚洲欧美一区二区av| 欧美人与性动交α欧美精品济南到 | 一区在线观看完整版| 国产高清有码在线观看视频| 国产精品蜜桃在线观看| 国产在线免费精品| 精品一区二区免费观看| 午夜福利影视在线免费观看| 黄色欧美视频在线观看| 亚洲精品自拍成人| 午夜免费鲁丝| 纯流量卡能插随身wifi吗| 夫妻性生交免费视频一级片| 国产精品国产三级国产av玫瑰| 日本欧美国产在线视频| 丝袜喷水一区| 成人毛片a级毛片在线播放| 有码 亚洲区| 99热这里只有是精品在线观看| 国产成人午夜福利电影在线观看| 亚洲精品aⅴ在线观看| 制服人妻中文乱码| 国产精品蜜桃在线观看| 免费大片黄手机在线观看| 久久精品久久久久久噜噜老黄| 99久久综合免费| 乱人伦中国视频| 免费大片黄手机在线观看| 久久精品久久久久久噜噜老黄| 亚洲国产最新在线播放| 涩涩av久久男人的天堂| 亚洲成人av在线免费| 午夜久久久在线观看| 久久精品久久久久久久性| 免费人成在线观看视频色| 久久久午夜欧美精品| 热re99久久国产66热| 精品亚洲乱码少妇综合久久| 欧美+日韩+精品| 日本av免费视频播放| 最后的刺客免费高清国语| 国产色婷婷99| 日韩av在线免费看完整版不卡| 男女高潮啪啪啪动态图| 水蜜桃什么品种好| 免费看不卡的av| freevideosex欧美| 18禁在线播放成人免费| 最近手机中文字幕大全| 乱码一卡2卡4卡精品| 天天操日日干夜夜撸| 成人漫画全彩无遮挡| 中文字幕免费在线视频6| 九九在线视频观看精品| 国产一区亚洲一区在线观看| 国产精品99久久99久久久不卡 | 天天影视国产精品| 男女啪啪激烈高潮av片| av卡一久久| av专区在线播放| 最新中文字幕久久久久| 国产片特级美女逼逼视频| 欧美激情国产日韩精品一区| 日本wwww免费看| av女优亚洲男人天堂| 久久久久久久久久成人| 极品人妻少妇av视频| 美女cb高潮喷水在线观看| kizo精华| 亚洲国产av影院在线观看| 下体分泌物呈黄色| 亚洲国产日韩一区二区| 日韩中文字幕视频在线看片| 麻豆精品久久久久久蜜桃| 久久久久久久久久人人人人人人| 国产亚洲午夜精品一区二区久久| 超碰97精品在线观看| 最近中文字幕2019免费版| 国产亚洲最大av| 内地一区二区视频在线| 中文天堂在线官网| 91久久精品国产一区二区成人| 免费人成在线观看视频色| 一区在线观看完整版| 中文字幕精品免费在线观看视频 | 乱人伦中国视频| 久久99一区二区三区| 久久青草综合色| 国产免费又黄又爽又色| 欧美精品人与动牲交sv欧美| 一区在线观看完整版| a级毛片黄视频| 色94色欧美一区二区| 国产精品免费大片| 亚洲美女搞黄在线观看| 亚洲精品亚洲一区二区| 18禁在线无遮挡免费观看视频| 18+在线观看网站| 色婷婷av一区二区三区视频| 三级国产精品片| 99视频精品全部免费 在线| 国产亚洲最大av| 亚洲国产精品国产精品| 亚洲精品自拍成人| 国产免费一区二区三区四区乱码| av专区在线播放| 最新中文字幕久久久久| 欧美日韩av久久| 女性生殖器流出的白浆| 多毛熟女@视频| 老熟女久久久| 这个男人来自地球电影免费观看 | 天堂8中文在线网| 又黄又爽又刺激的免费视频.| av播播在线观看一区| 国产精品久久久久成人av| 久久av网站| 国产欧美另类精品又又久久亚洲欧美| 欧美3d第一页| 日本黄大片高清| 亚洲欧美日韩卡通动漫| 一区二区日韩欧美中文字幕 | 性高湖久久久久久久久免费观看| 夫妻午夜视频| 新久久久久国产一级毛片| 成人黄色视频免费在线看| 水蜜桃什么品种好| 精品国产露脸久久av麻豆| 久久99热这里只频精品6学生| 国产淫语在线视频| 美女国产视频在线观看| 超碰97精品在线观看| 日韩一本色道免费dvd| 最近手机中文字幕大全| 在线精品无人区一区二区三| 日韩av免费高清视频| 黑人巨大精品欧美一区二区蜜桃 | 免费观看在线日韩| 一区二区三区四区激情视频| 午夜免费观看性视频| 色婷婷av一区二区三区视频| 久久久精品区二区三区| 满18在线观看网站| 大片免费播放器 马上看| 91精品一卡2卡3卡4卡| 亚洲av.av天堂| 91精品国产九色| 日韩av在线免费看完整版不卡| av电影中文网址| 人妻制服诱惑在线中文字幕| 欧美另类一区| 亚洲国产毛片av蜜桃av| 国产极品粉嫩免费观看在线 | 中文字幕久久专区| 亚洲伊人久久精品综合| 999精品在线视频| 男女边摸边吃奶| 亚洲av免费高清在线观看| 色94色欧美一区二区| 人人澡人人妻人| 午夜免费男女啪啪视频观看| 国产欧美另类精品又又久久亚洲欧美| 熟妇人妻不卡中文字幕| 日本午夜av视频| 国产无遮挡羞羞视频在线观看| 亚洲精品亚洲一区二区| 久久久久精品性色| 三级国产精品欧美在线观看| 亚洲四区av| 欧美xxⅹ黑人| 有码 亚洲区| 青春草视频在线免费观看| 色吧在线观看| 三上悠亚av全集在线观看| 大陆偷拍与自拍| 制服人妻中文乱码| 80岁老熟妇乱子伦牲交| 亚洲欧美一区二区三区黑人 | 免费看光身美女| 人人澡人人妻人| 欧美激情 高清一区二区三区| 欧美另类一区| 日韩一区二区视频免费看| 国产成人精品婷婷| 亚洲av成人精品一区久久| 中国三级夫妇交换| 99久久人妻综合| 精品一区二区免费观看| 自线自在国产av| 少妇人妻久久综合中文| 久久精品国产鲁丝片午夜精品| 少妇丰满av| 国产爽快片一区二区三区| 久久精品国产自在天天线| 久热久热在线精品观看| 亚洲天堂av无毛| 国产精品久久久久久久久免| av在线观看视频网站免费| 亚洲欧美日韩另类电影网站| 天天操日日干夜夜撸| 国产精品一区www在线观看| 亚洲av欧美aⅴ国产| 丝袜脚勾引网站| 人成视频在线观看免费观看| 热99国产精品久久久久久7| 欧美日韩一区二区视频在线观看视频在线| 午夜91福利影院| 欧美日韩综合久久久久久| av卡一久久| 久久久久久久久久久免费av| 91久久精品国产一区二区成人| 精品酒店卫生间| 美女福利国产在线| 亚洲经典国产精华液单| 91精品国产国语对白视频| av有码第一页| 国产精品久久久久久av不卡| 国产成人精品在线电影| 99九九在线精品视频| 免费高清在线观看日韩| 99久久综合免费| 99精国产麻豆久久婷婷| 国产亚洲精品久久久com| 国产成人精品久久久久久| 中文乱码字字幕精品一区二区三区| 日本-黄色视频高清免费观看| 高清欧美精品videossex| 三级国产精品欧美在线观看| 色婷婷久久久亚洲欧美| 亚洲av欧美aⅴ国产| 午夜激情av网站| 精品人妻偷拍中文字幕| 51国产日韩欧美| freevideosex欧美| 妹子高潮喷水视频| 少妇被粗大猛烈的视频| 亚洲av在线观看美女高潮| 成人国产av品久久久| 人成视频在线观看免费观看| 久久久久精品性色| a级毛片在线看网站| 久久人人爽人人片av| 街头女战士在线观看网站| 欧美 日韩 精品 国产| 亚洲欧美成人综合另类久久久|