• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    問(wèn)答社區(qū)問(wèn)句中多字詞表達(dá)提取

    2014-09-06 10:13:18吳瑞紅呂學(xué)強(qiáng)
    關(guān)鍵詞:詞串互信息搜索引擎

    吳瑞紅, 呂學(xué)強(qiáng), 李 卓, 舒 燕

    (1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100101;2.北京拓爾思信息技術(shù)股份有限公司, 北京 100101)

    問(wèn)答社區(qū)問(wèn)句中多字詞表達(dá)提取

    吳瑞紅1, 呂學(xué)強(qiáng)1, 李 卓1, 舒 燕2

    (1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100101;
    2.北京拓爾思信息技術(shù)股份有限公司, 北京 100101)

    基于互動(dòng)問(wèn)答社區(qū)問(wèn)句中多字詞表達(dá)和問(wèn)句理解的關(guān)系, 提出針對(duì)互動(dòng)問(wèn)答社區(qū)問(wèn)句進(jìn)行多字詞表達(dá)抽取, 并基于互動(dòng)問(wèn)答社區(qū)問(wèn)句中多字詞表達(dá)的特點(diǎn), 提出適用于互動(dòng)問(wèn)答社區(qū)的多字詞表達(dá)提取方法.該方法在利用互信息和停用詞表的方法從問(wèn)句中抽取候選多字詞表達(dá)的基礎(chǔ)上, 將候選多字詞表達(dá)分為正確串、殘缺串、冗余串和錯(cuò)誤串4類(lèi), 借助搜索引擎對(duì)查詢(xún)串的優(yōu)化和候選多字詞表達(dá)在互聯(lián)網(wǎng)上的檢索結(jié)果, 設(shè)計(jì)候選多字詞表達(dá)校正方法, 實(shí)現(xiàn)對(duì)多字詞表達(dá)的提取.以新浪愛(ài)問(wèn)知識(shí)人問(wèn)題庫(kù)中的問(wèn)句進(jìn)行實(shí)驗(yàn), 結(jié)果表明, 多字詞表達(dá)抽取的準(zhǔn)確率、召回率和F值分別達(dá)到84%,52%和0.64, 驗(yàn)證了該方法的有效性.

    多字詞表達(dá); 問(wèn)句理解; 互信息; 搜索引擎

    多字詞表達(dá)(MWEs)指內(nèi)部結(jié)合緊密、使用穩(wěn)定、整體表示一個(gè)概念意義, 可作為一個(gè)固定短語(yǔ)使用的信息單元[1].多字詞表達(dá)廣泛存在于詞典中, 因其組成結(jié)構(gòu)多樣、成分復(fù)雜, 因此其提取是大規(guī)模自然語(yǔ)言處理技術(shù)發(fā)展的關(guān)鍵問(wèn)題之一[2].多字詞表達(dá)也廣泛存在于日常交流中, 如食物宜忌、紅糖姜茶等, 這些多字詞表達(dá)在信息檢索、本體構(gòu)建、文本對(duì)齊和機(jī)器翻譯等領(lǐng)域應(yīng)用廣泛.

    近年來(lái), 隨著互聯(lián)網(wǎng)的迅速發(fā)展, 互動(dòng)問(wèn)答社區(qū)應(yīng)運(yùn)而生, 互動(dòng)問(wèn)答社區(qū)的問(wèn)句中蘊(yùn)含大量的縮略語(yǔ)、歇后語(yǔ)、成語(yǔ)和慣用表達(dá)等多字詞表達(dá), 它們是問(wèn)句理解[3]的核心.由于給出回答的用戶(hù)人數(shù)眾多且回答質(zhì)量參差不齊, 因此對(duì)回答質(zhì)量進(jìn)行自動(dòng)判斷對(duì)用戶(hù)更加重要, 問(wèn)句理解是進(jìn)行這項(xiàng)工作的首要任務(wù), 問(wèn)句中多字詞表達(dá)提取也因此變得尤為緊迫.

    針對(duì)多字詞表達(dá)提取的研究, 早期主要集中在詞語(yǔ)搭配方式上[4].Pecina[5]在MWEs測(cè)評(píng)提供的3種標(biāo)準(zhǔn)語(yǔ)料上針對(duì)德語(yǔ)中的Adj-N和PP-Veb搭配做實(shí)驗(yàn), 比較了55種不同的關(guān)聯(lián)方法, 實(shí)驗(yàn)表明, 應(yīng)用統(tǒng)計(jì)方法對(duì)多個(gè)不同的搭配進(jìn)行融合比單個(gè)搭配抽取效果更好.文獻(xiàn)[6]研究表明, 互信息方法和對(duì)數(shù)似然比方法優(yōu)于其他統(tǒng)計(jì)方法.隨著語(yǔ)言學(xué)規(guī)則的發(fā)展, 統(tǒng)計(jì)方法與語(yǔ)言學(xué)規(guī)則相結(jié)合的方法被大量應(yīng)用到多字詞表達(dá)抽取中.Ramisch等[7]以英語(yǔ)中人工構(gòu)建的Verb-Particle結(jié)構(gòu)和德語(yǔ)中人工構(gòu)建的Adj-N進(jìn)行實(shí)驗(yàn), 發(fā)現(xiàn)加入語(yǔ)言學(xué)規(guī)則要比單純使用統(tǒng)計(jì)方法的效果更好; Al-Haj等[8]針對(duì)希伯來(lái)語(yǔ)提出結(jié)合語(yǔ)言學(xué)形態(tài)規(guī)則和句法規(guī)則對(duì)多字詞表達(dá)進(jìn)行抽取, 結(jié)果表明, 應(yīng)用語(yǔ)言學(xué)規(guī)則與統(tǒng)計(jì)結(jié)合的抽取效果更好; Tsvetkov等[9]針對(duì)希伯來(lái)語(yǔ)-英語(yǔ)語(yǔ)料中提出了雙語(yǔ)語(yǔ)料中語(yǔ)言學(xué)特征的融合方法, 提高了多字詞表達(dá)抽取的準(zhǔn)確率; 文獻(xiàn)[10]通過(guò)引入詞典, 同樣提高了識(shí)別的準(zhǔn)確率; Duan等[11]針對(duì)雙語(yǔ)語(yǔ)料中多字詞表達(dá)抽取, 從生物基因得到啟發(fā), 提出了一種生物啟發(fā)的多字詞表達(dá)抽取方法, 將最長(zhǎng)公共子序列和語(yǔ)言學(xué)方法進(jìn)行融合, 提高了雙語(yǔ)多字詞表達(dá)提取的效果.劉榮等[1]利用高頻詞和互信息對(duì)特定領(lǐng)域進(jìn)行了多字詞表達(dá)提取.文獻(xiàn)[12]針對(duì)特定領(lǐng)域, 利用統(tǒng)計(jì)量和語(yǔ)言學(xué)規(guī)則提取多字詞表達(dá); 胡玉溪[13]針對(duì)中英文雙語(yǔ)語(yǔ)料對(duì)多字詞表達(dá)進(jìn)行研究, 取得了一定的進(jìn)展.

    上述方法均以較規(guī)范的語(yǔ)料庫(kù)作為研究對(duì)象, 對(duì)互動(dòng)問(wèn)答社區(qū)這種大眾參與的非正規(guī)文本語(yǔ)料中多字詞表達(dá)提取不完全適用.本文首次提出針對(duì)互動(dòng)問(wèn)答社區(qū)問(wèn)句進(jìn)行多字詞表達(dá)抽取, 且充分結(jié)合互動(dòng)問(wèn)答社區(qū)及社區(qū)問(wèn)句中多字詞表達(dá)的特征提出互動(dòng)問(wèn)答社區(qū)問(wèn)句中多字詞表達(dá)抽取的方法.

    1 語(yǔ)料特點(diǎn)

    互動(dòng)問(wèn)答社區(qū)即“互動(dòng)式知識(shí)問(wèn)答分享平臺(tái)”, 是目前備受關(guān)注的網(wǎng)絡(luò)應(yīng)用, 其內(nèi)容來(lái)源于用戶(hù), 并服務(wù)于用戶(hù).新浪愛(ài)問(wèn)知識(shí)人是中國(guó)第一個(gè)中文互動(dòng)型問(wèn)答產(chǎn)品, 為用戶(hù)提供發(fā)表提問(wèn)、解答問(wèn)題和搜索答案等服務(wù).以愛(ài)問(wèn)知識(shí)人為例, 分析問(wèn)句特點(diǎn)如下:

    圖1 問(wèn)句在搜索引擎中的檢索結(jié)果Fig.1 Retrieval result of the questions in search engines

    1) 互動(dòng)問(wèn)答社區(qū)屬于互聯(lián)網(wǎng)應(yīng)用, 社區(qū)中的問(wèn)句也屬于互聯(lián)網(wǎng)資源, 這些問(wèn)句均可通過(guò)搜索引擎在互聯(lián)網(wǎng)上找到與其相同或相關(guān)的資源.如問(wèn)題: “得了白內(nèi)障, 怎么辦”在百度搜索引擎中的部分檢索結(jié)果如圖1所示.

    2) 互動(dòng)問(wèn)答社區(qū)中的真實(shí)問(wèn)題與傳統(tǒng)問(wèn)答系統(tǒng)中的問(wèn)題不同, 傳統(tǒng)問(wèn)答系統(tǒng)中的問(wèn)題一般直切主題, 而互動(dòng)問(wèn)答社區(qū)中的真實(shí)問(wèn)題一般會(huì)先對(duì)要提問(wèn)主題的一段場(chǎng)景進(jìn)行描述, 然后加一個(gè)或幾個(gè)與所述場(chǎng)景相關(guān)的問(wèn)題.

    例1“我家女兒6.5歲, 前兩天帶她測(cè)了骨齡和成長(zhǎng)激素, 醫(yī)生說(shuō)她的骨齡與年齡相符, 根據(jù)測(cè)試結(jié)果孩子只能長(zhǎng)到1.53~1.55 cm, 不知這種測(cè)試準(zhǔn)不準(zhǔn)確? 能不能改變? 應(yīng)該怎樣才能讓她再長(zhǎng)高一點(diǎn)?”

    例2“大家好, 我有過(guò)敏性鼻炎, 原來(lái)一直沒(méi)有明顯癥狀, 但從去年開(kāi)始一直犯不停, 尤其是在辦公室, 尷尬極了!我也知道這個(gè)病不是能夠徹底治愈的, 但是希望大家出主意, 能減緩癥狀即可, 不至于在辦公室鼻涕流不停就行了.拜托了!”

    由此可見(jiàn), 互動(dòng)問(wèn)答社區(qū)的問(wèn)句與一般問(wèn)句不同, 蘊(yùn)含豐富的提問(wèn)背景信息, 用戶(hù)為了清晰、準(zhǔn)確地描述所在場(chǎng)景, 通常會(huì)選擇豐富的多字詞表達(dá)進(jìn)行闡述, 因此多字詞表達(dá)對(duì)互動(dòng)問(wèn)答社區(qū)中的問(wèn)句理解具有重要作用.

    3) 問(wèn)句中表達(dá)不規(guī)范, 語(yǔ)言描述簡(jiǎn)練、隨意.

    例3“以前不知道從幾歲開(kāi)始 我的2棵虎牙都有點(diǎn)向外生長(zhǎng) 有點(diǎn)暴起 可現(xiàn)在我都22了 這段時(shí)間我發(fā)現(xiàn)我又在長(zhǎng)大牙 這到?jīng)]什么 不過(guò)下面的還好 上面兩邊的大牙都在向外長(zhǎng) 而且很斜 現(xiàn)在都已經(jīng)頂?shù)娇谇槐诹?吃東西有時(shí)候要咬到 影響太大了 有高手給我提提建議呀 要不要去拔掉 但是我想 大牙對(duì)于吃東西那么重要 要是拔掉了 以后老了就沒(méi)牙了 老火啊”.

    例3中用戶(hù)的表達(dá)非常隨意: 沒(méi)有添加任何標(biāo)點(diǎn)符號(hào), 而且存在多處句子成分不完整的情況, 如:“不過(guò)下面的還好”、“要不要去拔掉”等.由于漢語(yǔ)語(yǔ)法的復(fù)雜性和現(xiàn)有漢語(yǔ)詞法、句法理論體系的不完備, 對(duì)表達(dá)不規(guī)范的問(wèn)句做詞法、句法、語(yǔ)義分析準(zhǔn)確率非常低, 所以在互動(dòng)問(wèn)答社區(qū)中的多字詞表達(dá)研究中, 傳統(tǒng)相對(duì)正規(guī)的語(yǔ)料上基于語(yǔ)言學(xué)規(guī)則提取多字詞表達(dá)的方法并不適用.

    4) 問(wèn)句中出現(xiàn)大量普通文本語(yǔ)料中不常出現(xiàn)或出現(xiàn)頻率較低的詞語(yǔ), 如: 高手、幫忙、解答和咨詢(xún)等.

    多字詞表達(dá)蘊(yùn)含于問(wèn)句中, 多字詞表達(dá)具有如下特點(diǎn):

    1) 多字詞表達(dá)由術(shù)語(yǔ)、命名實(shí)體、專(zhuān)有名詞和縮略語(yǔ)等組成, 利用現(xiàn)有分詞工具[14]進(jìn)行分詞時(shí), 準(zhǔn)確率較低, 通常被切分成多個(gè)單元.

    例4“磷酸 肌 酸 激酶 英文 名 CK 結(jié)果 1596 狀態(tài) 單位 U/L 參考范圍 24~195 肌 酸 激酶 同工酶 英文 名 CK-MB 37 U/L & lt; 24 是 心臟病 嗎 ? ? 是 檢查 出來(lái) 的”.

    例4中, 多字詞表達(dá)“磷酸肌酸激酶”被切分成“磷酸”、“肌”、“酸”、“激酶”; “肌酸激酶同工酶”被切分成“肌”、“酸”、“激酶”、“同工酶”.

    2) 由于問(wèn)句中用戶(hù)表達(dá)不規(guī)范和多字詞表達(dá)成分復(fù)雜, 此時(shí)的多字詞表達(dá)一般很難找到規(guī)范語(yǔ)料庫(kù)中多字詞表達(dá)的搭配規(guī)則.

    例5“不/d 知道/v 安/g 基酸/n 對(duì)/p 乙肝/n 有/v 沒(méi)/d 有/v 害處/n ?/w 還/d 請(qǐng)/v 各/r 位/q 專(zhuān)家/n 指點(diǎn)/v!”.

    例6“我/r 老婆/n 懷孕/v 八/m 個(gè)/q 月/n 了/y, /w 一直/d 喝/g 的/u 都/d 是/v 圣/g 元/q 的/u, /w 現(xiàn)在/t 優(yōu)/g 聰/g 都/d 出/v 問(wèn)題/n 了/y,/w 不知/v 優(yōu)/g 博/g 孕婦/n 奶粉/n 到底/d 有/v 沒(méi)/d 有/v 問(wèn)題/n, /w 急/ad 死/v 人/n 了/y, /w 請(qǐng)/v 各位/r 知道/v 的/u 多多/d 指教/v !/w 謝謝/v !/w”.

    圖2 多字詞表達(dá)“白內(nèi)障”在搜索引擎中的檢索結(jié)果Fig.2 Retrieval result of the MEWs “cataract”

    一般語(yǔ)料中的多字詞表達(dá)遵循一定的搭配規(guī)律, 如n+v型等的詞性搭配規(guī)律.例5和例6中, “安/g 基酸/n”的詞性構(gòu)成規(guī)則為“g+n”, “圣/g 元/q”的詞性構(gòu)成規(guī)則為“g+q”, “優(yōu)/g 聰/g”的詞性構(gòu)成規(guī)則為“g+g”, “優(yōu)/g 博/g 孕婦/n 奶粉/n”的詞性構(gòu)成規(guī)則為“g+g+n+n”.問(wèn)句中多字詞表達(dá)不遵循一般多字詞表達(dá)詞性構(gòu)成規(guī)則.

    3) 由于互動(dòng)問(wèn)答社區(qū)的問(wèn)句屬于互聯(lián)網(wǎng)資源, 問(wèn)句中蘊(yùn)含的多字詞表達(dá)在互聯(lián)網(wǎng)上有其相關(guān)的資源, 如問(wèn)句“得了白內(nèi)障, 怎么辦”中的多字詞表達(dá)“白內(nèi)障”在搜索引擎中的檢索結(jié)果如圖2所示.

    2 候選多字詞表達(dá)的生成

    從問(wèn)句中多字詞表達(dá)的構(gòu)成特點(diǎn)1)可見(jiàn), 多字詞表達(dá)一般由多個(gè)有序詞串組合而成, 組成多字詞表達(dá)的多個(gè)有序詞串在語(yǔ)料庫(kù)中出現(xiàn)的頻次較大, 其間的結(jié)合緊密度也較大; 而不能組成多字詞表達(dá)的有序詞串在語(yǔ)料庫(kù)中出現(xiàn)的頻次較小, 其間的結(jié)合緊密度也較小, 因此通過(guò)計(jì)算有序詞串間的結(jié)合緊密度可判定有序詞串是否組成多字詞表達(dá).

    詞串間的結(jié)合緊密度通過(guò)互信息體現(xiàn), 受候選詞串各自詞頻及其共現(xiàn)詞頻的影響, 而在語(yǔ)料中存在一些類(lèi)似“高手幫忙”、“怎么回事”的詞, 這些詞出現(xiàn)頻次較高, 但缺乏實(shí)際區(qū)分性意義, 本文將這些詞統(tǒng)稱(chēng)為問(wèn)句型停用詞.在結(jié)合緊密度較高的一部分詞組中, 不可避免地包含有問(wèn)句型停用詞, 因此, 為了提高多字詞表達(dá)抽取的準(zhǔn)確率, 本文結(jié)合問(wèn)句特點(diǎn)構(gòu)建問(wèn)句型停用詞表對(duì)詞串進(jìn)行過(guò)濾.用以上方法生成的詞串中含有很多公共子串, 為了提高多字詞表達(dá)抽取的準(zhǔn)確率, 減少對(duì)后續(xù)工作的影響, 需要對(duì)候選詞串進(jìn)行合并, 進(jìn)而得到候選多字詞表達(dá).

    2.1基于互信息的詞串生成

    互信息能較好地度量詞串間的結(jié)合緊密程度, 對(duì)于詞串X和Y, 互信息計(jì)算方法如下:

    (1)

    多字詞表達(dá)至少包含2個(gè)字, 根據(jù)劉榮等[12]的統(tǒng)計(jì), 2~4個(gè)切分單元構(gòu)成的多字詞表達(dá)已占94%, 本文以2~4個(gè)切分單元為主要研究對(duì)象.為此, 將二元互信息擴(kuò)展為多元詞串內(nèi)部的互信息.對(duì)于多元詞串內(nèi)部的互信息, 采用Magerman等[15]提出的廣義互信息概念進(jìn)行計(jì)算, 對(duì)于詞串x1…xn(2≤n≤4), 互信息計(jì)算公式為

    (2)

    互信息越高, 表明X和Y相關(guān)性越大, 詞串X和Y組成多字詞表達(dá)的可能性就越大.通過(guò)該方法可初步選定共現(xiàn)可能性較大的詞串.設(shè)置閾值, 將互信息值大于設(shè)定閾值的詞串作為候選詞串, 過(guò)濾掉小于該閾值的詞串.

    2.2問(wèn)句型停用詞過(guò)濾

    由互動(dòng)問(wèn)答社區(qū)問(wèn)句中的特點(diǎn)4)可知, 在互動(dòng)問(wèn)答社區(qū)問(wèn)句文本中, 存在很多不同于新聞?wù)Z料等普通文本語(yǔ)料的常用搭配, 這些搭配出現(xiàn)的頻次較高, 且內(nèi)部結(jié)合緊密度也較高, 但這些搭配缺乏實(shí)際意義, 并不是多字詞表達(dá), 它們對(duì)多字詞表達(dá)提取帶來(lái)干擾.如問(wèn)句: “我兒子得了腸炎, 請(qǐng)高手幫忙?急急!!”, 此句中“高手幫忙”會(huì)被識(shí)別, 在問(wèn)句中還有很多類(lèi)似的搭配.人工觀察語(yǔ)料中出現(xiàn)的此類(lèi)停用詞, 可結(jié)合常用停用詞和問(wèn)句中的停用詞構(gòu)建適合問(wèn)句特征的停用詞表.為了減少這些詞語(yǔ)對(duì)多字詞表達(dá)提取帶來(lái)的影響, 可利用構(gòu)建的停用詞表, 將含停用詞的候選詞串刪除.

    2.3融合公共子串的候選多字詞表達(dá)生成

    經(jīng)過(guò)詞串生成和停用詞過(guò)濾后的詞串中存在大量的公共子串, 若不對(duì)其進(jìn)行處理, 會(huì)產(chǎn)生眾多無(wú)意義的詞串, 不僅會(huì)降低識(shí)別的準(zhǔn)確率, 而且會(huì)產(chǎn)生大量重復(fù)計(jì)算.候選詞串合并包含: 1) 具有包含關(guān)系的子串合并; 2) 具有公共子串的相鄰候選串合并.具有公共子串的相鄰候選詞串是指將候選詞串按照其在語(yǔ)料中首次出現(xiàn)的順序排序后, 相鄰具有公共子串的詞串.互為包含關(guān)系的子串是指兩詞串之間存在包含與被包含的關(guān)系, 如在本文中互為包含關(guān)系的子串體現(xiàn)在部分三字詞詞串被四字詞詞串包含, 部分二字詞詞串被三字詞詞串或四字詞詞串包含.這部分詞串合并方法為: 將被四字詞詞串包含的三字詞詞串刪除, 被三字詞串和四字詞詞串包含的二字詞詞串刪除.

    具有公共子串的相鄰詞串合并: 為了減少合并的次數(shù), 降低計(jì)算的復(fù)雜度需先對(duì)四字詞詞串進(jìn)行合并, 然后是三字詞詞串和二字詞詞串.對(duì)于去除了互為包含關(guān)系的子串, 先將候選詞串按照其在語(yǔ)料中出現(xiàn)的順序排序, 然后合并窗口為window, 合并方法為: 在window個(gè)詞串范圍內(nèi),n字詞詞串stri=“ti,1ti,2…ti,n”, stri+1=“ti+1,1ti+1,2…ti+1,n”, 其中ti,j(1≤i

    3 多字詞表達(dá)校正

    分析得到的候選多字詞表達(dá), 存在如下4類(lèi)詞串.

    1) 正確串: 內(nèi)部結(jié)合緊密、使用穩(wěn)定、完整的、具有獨(dú)立意義的多字詞表達(dá), 如“非結(jié)合膽紅素”、“氯化鈉滴眼液”等.

    2) 殘缺串: 完整多字詞表達(dá)的一部分詞串, 一般不具備獨(dú)立語(yǔ)義, 在語(yǔ)言結(jié)構(gòu)上不具備完整結(jié)構(gòu), 如“丙氨酸氨基轉(zhuǎn)移酶”被處理成“丙氨酸氨基轉(zhuǎn)移”、“乳酸左氧氟沙星”被處理成“乳酸左氧氟沙”.

    3) 冗余串: 完整多字詞表達(dá)是其子串, 有的具有獨(dú)立語(yǔ)義, 有的不具有獨(dú)立語(yǔ)義, 如“參考范圍”被處理成“106參考范圍”、“女貞子”被處理成“女貞子12克”.

    4) 錯(cuò)誤串: 不具備任何語(yǔ)義的串或包含錯(cuò)別字的串.如“瓶六味”、“勁椎病”等.

    多字詞表達(dá)校正是指對(duì)候選多字詞表達(dá)進(jìn)行類(lèi)型判別和更正, 包括對(duì)正確串的識(shí)別、殘缺串的補(bǔ)全、冗余串中蘊(yùn)含正確串的抽取和錯(cuò)誤串的去除.根據(jù)互動(dòng)問(wèn)答社區(qū)是互聯(lián)網(wǎng)資源的特點(diǎn)和問(wèn)句中多字詞表達(dá)的構(gòu)成特點(diǎn)可知, 問(wèn)句中多字詞表達(dá)抽取不適合用語(yǔ)言學(xué)規(guī)則進(jìn)行抽取, 因此, 本文利用問(wèn)句中多字詞表達(dá)在互聯(lián)網(wǎng)資源中有其相關(guān)檢索結(jié)果的特點(diǎn), 提出一種新思路: 結(jié)合不同類(lèi)型候選多字詞表達(dá)在搜索引擎中查詢(xún)優(yōu)化和搜索結(jié)果中的分布特征進(jìn)行多字詞表達(dá)校正.

    3.1基于互聯(lián)網(wǎng)的多字詞表達(dá)類(lèi)型判別

    候選多字詞表達(dá)類(lèi)型判別是指區(qū)分出候選多字詞表達(dá)的類(lèi)型, 包括正確串、冗余串、殘缺串和錯(cuò)誤串4種類(lèi)型.

    搜索引擎在對(duì)查詢(xún)串進(jìn)行檢索前, 通常先對(duì)查詢(xún)串進(jìn)行優(yōu)化, 這些優(yōu)化方式包括查詢(xún)擴(kuò)展和重構(gòu)等.查詢(xún)優(yōu)化對(duì)多字詞表達(dá)抽取具有很大幫助; 重構(gòu)可將部分冗余串進(jìn)行切分, 也能對(duì)部分殘缺串進(jìn)行一定補(bǔ)足.搜索引擎返回的搜索結(jié)果是與查詢(xún)串最相關(guān)的信息, 問(wèn)句及其中的多字詞表達(dá)來(lái)源于互聯(lián)網(wǎng), 可借助查詢(xún)返回結(jié)果校正多字詞表達(dá).將候選多字詞表達(dá)作為查詢(xún)串在搜索引擎中進(jìn)行檢索, 獲取候選多字詞表達(dá)在搜索引擎檢索結(jié)果中的前20條結(jié)果標(biāo)題及摘要信息, 作為搜索結(jié)果語(yǔ)料.

    3.1.1 候選多字詞表達(dá)在搜索結(jié)果中的出現(xiàn)規(guī)律 記待判別類(lèi)型的候選多字詞表達(dá)為candiateExp, 對(duì)每個(gè)候選多字詞表達(dá)進(jìn)行如下定義.

    定義1將candiateExp的搜索結(jié)果語(yǔ)料按中英文標(biāo)點(diǎn)符號(hào)和空格進(jìn)行劃分后形成的單元稱(chēng)為詞串單元.

    定義2將candiateExp搜索結(jié)果語(yǔ)料劃分成詞串單元后, 該詞串單元在所有詞串單元中出現(xiàn)的次數(shù)稱(chēng)為詞串單元頻次.

    定義3詞串單元-頻次對(duì)集合定義為SenPairSet={〈s1,c1〉,〈s2,c2〉,…,〈sn,cn〉}, 其中:n為candiateExp搜索結(jié)果語(yǔ)料中詞串單元的個(gè)數(shù);si(1≤i≤n)為任一詞串單元;ci為詞串單元si的頻次; len(si)為si的長(zhǎng)度.

    定義4切分單元來(lái)源于兩種切分方法: 正向切分和逆向切分.正向切分指將candiateExp從左向右刪除字, 直至僅剩下兩個(gè)字; 逆向切分指將candiateExp從右向左刪除字, 直至僅剩下兩個(gè)字.將每次刪除后剩下的單元稱(chēng)為切分單元.

    定義5切分單元-頻次對(duì)集合記為CandiateExpSet, 獲取candiateExp的切分單元及切分單元在candiateExp搜索結(jié)果語(yǔ)料中的頻次, 形成candiateExp的切分單元-頻次對(duì)集合,CandiateExpSet={〈splitCan1,splitCanNum1〉,〈splitCan2,splitCanNum2〉,…,〈splitCann,splitCanNumn〉},其中: splitCanj(1≤j≤n)為candiateExp的任一切分單元; splitCanNumj為splitCanj(1≤j≤n)在candiateExp搜索結(jié)果中出現(xiàn)的頻次;n為切分單元的總個(gè)數(shù).

    正確多字詞表達(dá)是一種具有穩(wěn)定性、特指性的語(yǔ)義概念單元, 它通常會(huì)被互聯(lián)網(wǎng)知識(shí)庫(kù)收錄, 表現(xiàn)在檢索結(jié)果中是該多字詞表達(dá)的下一個(gè)詞串單元中包含“百科”二字; 還有一部分正確多字詞表達(dá)雖未被互聯(lián)網(wǎng)知識(shí)庫(kù)收錄, 但卻在檢索結(jié)果中多次獨(dú)立成為一個(gè)詞串單元, 可利用這兩條規(guī)則對(duì)正確多字詞表達(dá)進(jìn)行判別.冗余串中包含正確多字詞表達(dá), 搜索引擎在對(duì)冗余串進(jìn)行檢索時(shí), 會(huì)對(duì)其進(jìn)行一定的切分, 使冗余串作為一個(gè)整體在檢索結(jié)果中出現(xiàn)的頻次會(huì)很低, 而冗余串的切分單元在搜索結(jié)果中出現(xiàn)的頻次會(huì)相對(duì)較高.殘缺串是正確多字詞表達(dá)的子串, 將其在搜索引擎中檢索時(shí), 搜索引擎會(huì)對(duì)殘缺串進(jìn)行一定的補(bǔ)全, 表現(xiàn)在檢索結(jié)果上是殘缺串可能在一定的窗口范圍內(nèi), 與詞串單元存在被包含關(guān)系, 且該詞串單元在搜索結(jié)果中多次獨(dú)立出現(xiàn); 此外, 殘缺串在搜索結(jié)果語(yǔ)料中出現(xiàn)的次數(shù)相對(duì)較高, 且殘缺串的切分單元出現(xiàn)次數(shù)均大于或等于殘缺串的出現(xiàn)次數(shù).錯(cuò)誤串不含有任何語(yǔ)義或包含錯(cuò)別字, 其在搜索結(jié)果中的出現(xiàn)規(guī)律不明顯, 因此不作為單獨(dú)類(lèi)型進(jìn)行判斷.

    3.1.2 基于規(guī)則的候選多字詞表達(dá)類(lèi)型判別 根據(jù)不同類(lèi)型候選多字詞表達(dá)在搜索結(jié)果中出現(xiàn)的規(guī)律, 候選多字詞表達(dá)類(lèi)型判別較易解決.

    1) 正確多字詞表達(dá)判別規(guī)則.

    正確多字詞表達(dá)在搜索結(jié)果中出現(xiàn)的規(guī)律有兩個(gè)特點(diǎn), 相應(yīng)判別規(guī)則為:

    ① 在candiateExp搜索結(jié)果語(yǔ)料劃分成的詞串單元中, candiateExp為一個(gè)詞串單元, 且candiateExp緊鄰的下一個(gè)詞串單元包含“百科”二字, 則candiateExp為正確多字詞表達(dá);

    ② 若存在candidateExp∈SenPairSet, 即在SenPairSet集合中存在si, 使得candidateExp=si; 且SenPairSet集合中ci高于一定閾值FreqThreshold, 則candidateExp為正確多字詞表達(dá).

    2) 殘缺串判別規(guī)則.

    記c(candidateExp)為candidateExp在檢索結(jié)果中出現(xiàn)的頻次, 殘缺串在搜索結(jié)果中出現(xiàn)的規(guī)律也有兩個(gè)特點(diǎn), 殘缺串類(lèi)型判別規(guī)則為:

    ① 若集合SenPairSet存在〈si,ci〉, 使得candidateExp是si的子串,ci高于一定閾值FreqThreshold, 且len(si)-len(candidateExp)

    ② 在candidateExp的CandidateExpSet集合中, ?splitCanNumi≥c(candidateExp)(1≤i≤n), 且c(candidateExp)>FreqThreshold, 則candidateExp為殘缺串.

    3) 冗余串判別規(guī)則.

    冗余串在搜索結(jié)果中出現(xiàn)的頻次較低, 將在檢索結(jié)果中出現(xiàn)頻次低于閾值threshold的候選多字詞表達(dá)判斷為冗余串.綜合考慮候選多字詞表達(dá)在切分后所有切分單元出現(xiàn)的次數(shù), 候選多字詞表達(dá)為冗余串的類(lèi)型判斷閾值為

    其中: threshold為candiateExp的類(lèi)型判斷閾值, 1≤j≤n;n為切分單元總個(gè)數(shù).若候選多字詞表達(dá)在搜索結(jié)果中出現(xiàn)規(guī)律不符合正確串、殘缺串和冗余串的判定規(guī)則, 則將其刪除, 不作為研究對(duì)象.

    4) 候選多字詞表達(dá)類(lèi)型判別算法.

    綜合以上候選多字詞表達(dá)判別的規(guī)則, 候選多字詞表達(dá)類(lèi)型判別算法如下.

    輸入: 候選多字詞表達(dá);

    輸出: 已分類(lèi)的候選多字詞表達(dá);

    ① 讀入一條候選多字詞表達(dá)candidateExp;

    ② 將candidateExp作為查詢(xún)串在搜索引擎中進(jìn)行搜索, 獲取搜索結(jié)果的前20條標(biāo)題和摘要信息作為搜索結(jié)果語(yǔ)料;

    ③ 對(duì)搜索結(jié)果語(yǔ)料進(jìn)行切分, 并獲取candidateExp的SenPairSet集合;

    ④ 判斷candidateExp出現(xiàn)的特點(diǎn)是否符合正確串判別規(guī)則, 如果符合, 判定candidateExp為正確串, 轉(zhuǎn)⑨; 否則轉(zhuǎn)⑤;

    ⑤ 對(duì)candidateExp進(jìn)行切分, 統(tǒng)計(jì)切分單元頻次并構(gòu)建candidateExp的CandiateExpSet集合;

    ⑥ 判斷candidateExp出現(xiàn)的特點(diǎn)是否符合殘缺串的判別規(guī)則, 若符合, 判定candidateExp為殘缺串, 轉(zhuǎn)⑨; 否則轉(zhuǎn)⑦;

    ⑦ 根據(jù)式(3)計(jì)算冗余串類(lèi)型判斷閾值threshold;

    ⑧ 如果candidateExp在搜索結(jié)果中出現(xiàn)的次數(shù)小于threshold, 則判斷其為冗余串; 否則將其刪除;

    ⑨ 如果讀完最后一個(gè)候選多字詞表達(dá), 則退出; 否則轉(zhuǎn)①, 讀入下一條候選多字詞表達(dá).

    3.2殘缺串和冗余串的糾正

    殘缺串和冗余串的糾正是將殘缺串和冗余串中蘊(yùn)含的正確多字詞表達(dá)抽取出來(lái).根據(jù)正確多字詞表達(dá)是冗余串的子串特點(diǎn), 在冗余串的切分單元集合中, 必存在被包含的多字詞表達(dá).因此, 對(duì)冗余串進(jìn)行切分, 將切分出的子串作為殘缺串進(jìn)行處理.

    殘缺串的糾正是根據(jù)殘缺串相鄰出現(xiàn)字與殘缺串間的共現(xiàn)程度進(jìn)行擴(kuò)展, 若殘缺串與其相鄰字共現(xiàn)程度較大, 則認(rèn)為該殘缺串與相鄰字同屬于一個(gè)多字詞表達(dá).因此, 可用相鄰差率的概念衡量?jī)蓚€(gè)詞串的共現(xiàn)程度, 相鄰差率是指一個(gè)詞串在語(yǔ)料中出現(xiàn)的頻數(shù)與相鄰字出現(xiàn)頻數(shù)的絕對(duì)差占該詞串頻數(shù)的比率.左、右相鄰差分別為詞串左側(cè)的相鄰差率和詞串右側(cè)的相鄰差率, 分別統(tǒng)計(jì)串左、右兩側(cè)相鄰出現(xiàn)的字及其頻數(shù), 記詞串str出現(xiàn)的頻數(shù)為f(str), 其左側(cè)相鄰出現(xiàn)的字l_str及其頻數(shù)為f(l_str), 則左相鄰差率leftRate計(jì)算方法為

    同理, 串str右側(cè)相鄰出現(xiàn)的字r_str及其頻數(shù)為f(r_str), 右相鄰差率rightRate計(jì)算方法為

    rightRate=|f(str)-f(r_str)|/f(str).

    (5)

    對(duì)殘缺串str的所有相鄰差率進(jìn)行計(jì)算后, 形成左相鄰差率集合: leftRateSet={leftRate1,leftRate2,…,leftRateln}, 其中l(wèi)n為左相鄰差率的個(gè)數(shù).則左相鄰差率的閾值選取方法為

    同理, 右相鄰差率閾值選擇方法為

    其中rn為右相鄰差率的個(gè)數(shù).若str的相鄰差率小于閾值, 則向相應(yīng)邊界添加一個(gè)字, 然后迭代計(jì)算其左右相鄰差率, 直至大于閾值或迭代次數(shù)大于一定次數(shù), 將擴(kuò)展出的詞串作為糾正的多字詞表達(dá).

    對(duì)殘缺串進(jìn)行補(bǔ)全時(shí)可能會(huì)由一個(gè)串得到多個(gè)串, 因此需要對(duì)得到的多字詞表達(dá)在原問(wèn)句語(yǔ)料庫(kù)中進(jìn)行驗(yàn)證, 將不屬于原語(yǔ)料庫(kù)中的多字詞表達(dá)刪除, 最終得到多字詞表達(dá)列表.

    4 實(shí)驗(yàn)結(jié)果與分析

    實(shí)驗(yàn)選用新浪愛(ài)問(wèn)知識(shí)人中健康與醫(yī)學(xué)領(lǐng)域已解決問(wèn)題的154 003個(gè)問(wèn)句作為實(shí)驗(yàn)對(duì)象, 從中提取多字詞表達(dá).

    4.1實(shí)驗(yàn)結(jié)果

    本文采用多字詞表達(dá)抽取的準(zhǔn)確率(precision,P)、召回率(recall,R)和F值(F-measure,F)評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià), 計(jì)算方法為:

    實(shí)驗(yàn)中, 過(guò)濾掉在語(yǔ)料中出現(xiàn)次數(shù)小于3的字符串.選用多組實(shí)驗(yàn)對(duì)參數(shù)進(jìn)行最優(yōu)選擇, 最終選定結(jié)果為: 互信息閾值經(jīng)過(guò)實(shí)驗(yàn)觀察, 選取-10作為閾值; 詞串合并窗口window為4; 判斷詞串單元獨(dú)立出現(xiàn)次數(shù)的閾值FreqThreshold=4, 判斷為殘缺串在搜索結(jié)果中出現(xiàn)的次數(shù)最低為10, 窗口window為3; 殘缺串補(bǔ)全迭代次數(shù)最多為4次.本文未將分詞詞表中已有的詞列入考察范圍, 實(shí)驗(yàn)共獲取候選多字詞表達(dá)10 326個(gè), 經(jīng)過(guò)本文方法處理, 最終獲得9 822個(gè)多字詞表達(dá).

    為驗(yàn)證本文方法的有效性, 參考文獻(xiàn)[1]并結(jié)合本文語(yǔ)料的特點(diǎn), 選用文獻(xiàn)[1]中提出的互信息和停用詞過(guò)濾方法作為對(duì)比實(shí)驗(yàn).隨機(jī)從實(shí)驗(yàn)得到的多字詞表達(dá)列表中抽取1 000個(gè)多字詞表達(dá), 人工標(biāo)注其正確的個(gè)數(shù), 并計(jì)算其準(zhǔn)確率; 再隨機(jī)從實(shí)驗(yàn)語(yǔ)料中抽取1 000個(gè)多字詞表達(dá), 統(tǒng)計(jì)其在實(shí)驗(yàn)抽取的多字詞表達(dá)中正確識(shí)別的個(gè)數(shù), 計(jì)算其召回率.準(zhǔn)確率、召回率和F值的計(jì)算結(jié)果列于表1.

    表1 實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison of experimental results

    實(shí)驗(yàn)過(guò)程中, 在對(duì)候選多字詞表達(dá)類(lèi)型進(jìn)行判別時(shí), 被剔除的候選多字詞表達(dá)共有13個(gè), 其余均被判別到3個(gè)類(lèi)別中; 分別從正確串、冗余串、殘缺串類(lèi)別中各隨機(jī)抽取500個(gè)多字詞表達(dá), 統(tǒng)計(jì)其識(shí)別的準(zhǔn)確率, 結(jié)果列于表2.

    表2 3個(gè)類(lèi)別的準(zhǔn)確率對(duì)比Table 2 Three categories of precision comparison

    選取部分候選多字詞表達(dá)和其經(jīng)過(guò)本文候選多字詞表達(dá)類(lèi)型判斷、糾正后的結(jié)果列于表3.

    表3 實(shí)驗(yàn)抽取的部分多字詞表達(dá)對(duì)比Table 3 MWEs comparison of experimental results

    4.2實(shí)驗(yàn)分析

    由表1可見(jiàn), 對(duì)比實(shí)驗(yàn)存在準(zhǔn)確率和召回率均偏低的問(wèn)題, 而本文方法中, 借助搜索引擎對(duì)候選多字詞表達(dá)進(jìn)行類(lèi)型判別, 并對(duì)其中的冗余串和殘缺串進(jìn)行糾正, 使準(zhǔn)確率和召回率都得到了提高, 表明本文方法具有較好的實(shí)驗(yàn)效果.

    由表2和表3可見(jiàn), 對(duì)判別為正確串的多字詞表達(dá), 識(shí)別準(zhǔn)確率較好; 對(duì)殘缺串和冗余串的識(shí)別效果較未進(jìn)行校正的結(jié)果有較大提高.由于將詞頻小于3的候選串過(guò)濾掉, 存在一些僅出現(xiàn)一次的人名、地名、機(jī)構(gòu)名等不能被識(shí)別出來(lái), 導(dǎo)致召回率低; 停用詞表過(guò)濾時(shí), 像“阿”等類(lèi)別字, 對(duì)大部分詞串均是停用詞, 而對(duì)小部分的多字詞表達(dá)如“阿奇霉素”卻不是停用詞, 將這類(lèi)詞作為停用詞, 也是導(dǎo)致召回率低的原因.在分析識(shí)別錯(cuò)誤的多字詞表達(dá)時(shí), 發(fā)現(xiàn)大部分不正確的多字詞表達(dá)類(lèi)似: “谷丙轉(zhuǎn)氨酶58”等冗余串和不具有實(shí)際意義的錯(cuò)誤串, 多字詞表達(dá)后加一個(gè)數(shù)字的情況主要是由于這兩部分經(jīng)常共現(xiàn)的緣故, 而錯(cuò)誤串本身的統(tǒng)計(jì)特征不明顯, 是識(shí)別的難點(diǎn).

    綜上所述, 本文首次在互動(dòng)問(wèn)答社區(qū)的問(wèn)句中進(jìn)行多字體表達(dá)提取, 提出了互動(dòng)問(wèn)答社區(qū)問(wèn)句中多字詞表達(dá)提取的方法.在分析互動(dòng)問(wèn)答社區(qū)中用戶(hù)提問(wèn)問(wèn)題特點(diǎn)的基礎(chǔ)上, 結(jié)合這些特點(diǎn)和已有的研究結(jié)果, 采用互信息方法及停用詞表的方法獲取問(wèn)句中的候選多字詞表達(dá).進(jìn)一步分析了候選多字詞表達(dá)的特點(diǎn), 并結(jié)合問(wèn)句中多字詞表達(dá)屬于互聯(lián)網(wǎng)資源的特點(diǎn), 提出了基于搜索引擎的多字詞表達(dá)校正方法.利用搜索引擎對(duì)查詢(xún)串的優(yōu)化和其在互聯(lián)網(wǎng)的搜索結(jié)果, 對(duì)候選多字詞表達(dá)進(jìn)行類(lèi)型判別, 并根據(jù)不同類(lèi)型進(jìn)行糾正, 最終在原語(yǔ)料中對(duì)得到的多字詞表達(dá)進(jìn)行驗(yàn)證, 達(dá)到了較好的實(shí)驗(yàn)效果.

    [1]劉榮, 王麗娟, 張志平, 等.利用高頻詞和互信息面向特定領(lǐng)域提取多字詞表達(dá) [J].太原理工大學(xué)學(xué)報(bào), 2009, 40(3): 210-214.(LIU Rong, WANG Lijuan, ZHANG Zhiping, et al.The Extraction of Multiword Expression in Special Field with High Frequency Words and Mutual Information [J].Journal of Taiyuan University of Technology, 2009, 40(3): 210-214.)

    [2]Sag I A, Baldwin T, Bond F, et al.Multiword Expressions: A Pain in the Neck for NLP [C]//Proceedings of the Third International Conference on Computational Linguistics and Intelligent Text Processing.Berlin: Springer, 2002: 1-15.

    [3]王恒.中文問(wèn)答系統(tǒng)的研究與實(shí)現(xiàn) [D].哈爾濱: 哈爾濱工業(yè)大學(xué), 2008.(WANG Heng.Research and Implement of Chinese Q & A System [D].Harbin: Harbin Institute of Technology, 2008.)

    [4]Kenneth W C, Hanks P.Word Association Norms, Mutual Information and Lexicography (rev) [J].Comput Linguist, 1990, 16(1): 22-29.

    [5]Pecina P.A Machine Learning Approach to Multiword Expression Extraction [C]//Proceedings of the LREC 2008 Workshop towards a Shared Task for Multiword Expressions.Marrakech, Morocco: [s.n.], 2008: 54-57.

    [6]Aline V, Kordoni V, ZHANG Yi, et al.Validation and Evaluation of Automatically Acquired Multiword Expressions for Grammar Engineering [C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL).Prague, Chech: [s.n.], 2007: 1034-1043.

    [7]Ramisch C, Schreiner P, Idiart M, et al.An Evaluation of Methods for the Extraction of Multiword Expressions [C]//Proceedings of the LREC 2008 Workshop towards a Shared Task for Multiword Expressions.Marrakech, Morocco: [s.n.], 2008: 50-53.

    [8]Al-Haj H, Wintner S.Identifying Multi-word Expressions by Leveraging Morphological and Syntactic Idiosyncrasy [C]//Proceedings of the 23rd International Conference on Computational Linguistics.Beijing: IEEE, 2010: 10-18.

    [9]Tsvetkov Y, Wintner S.Identification of Multi-word Expressions by Combining Multiple Linguistic Information Sources [C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing.Edinburgh, England: [s.n.], 2011: 836-845.

    [10]Fazly A, Stevenson S.Automatically Constructing a Lexicon of Verb Phrase Idiomatic Combinations [C]//Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL).Trento, Italy: [s.n.], 2006: 337-344.

    [11]DUAN Jianyong, ZHANG Mei, TONG Lijing, et al.A Hybrid Approach to Improve Bilingual Multiword Expression Extraction [C]//Advances in Knowledge Discovery and Data Mining.Berlin: Springer, 2009: 541-547.

    [12]劉榮, 王奕凱.利用統(tǒng)計(jì)量和語(yǔ)言學(xué)規(guī)則提取多字詞表達(dá) [J].太原理工大學(xué)學(xué)報(bào), 2011, 42(2): 133-137.(LIU Rong, WANG Yikai.Extracting Multiword Expressions with Statistics and Linguistic Rules [J].Journal of Taiyuan University of Technology, 2011, 42(2): 133-137.)

    [13]胡玉溪.基于雙語(yǔ)語(yǔ)料的漢語(yǔ)多詞表達(dá)抽取 [D].北京: 北京郵電大學(xué), 2011.(HU Yuxi.Multi-word Expression Extraction Based on Chinese-English Bilingual Corpus [D].Beijing: Beijing University of Posts and Telecommunications, 2011.)

    [14]ZHANG Huaping, YU Hongkui, XIONG Deyi, et al.HHMM-Based Chinese Lexical Analyzer ICTCLAS [C]//Proceedings of the 2nd SigHan Workshop on Chinese Language Processing.Sapporo, Japan: ACL, 2003: 184-187.

    [15]Magerman D M, Marcus M P.Parsing a Natural Language Using Mutual Information Statistics [C]//National Conference on Artificial Intelligence.Palo Alto, USA: AAAI, 1990: 984-989.

    ExtractionofMultiwordExpressionsinQuestionsofQuestionAnsweringCommunities

    WU Ruihong1, Lü Xueqiang1, LI Zhuo1, SHU Yan2
    (1.BeijingKeyLaboratoryofInternetCultureandDigitalDisseminationResearch,
    BeijingInformationScienceandTechnologyUniversity,Beijing100101,China;
    2.BeijingTRSInformationTechnologyCo.Ltd.,Beijing100101,China)

    The multiword expressions (MWEs) in the questions of question answering communities have direct relationship with question interpretation.We first proposed the idea of extracting MWEs from the questions of question answering communities.According to the characteristics of multiword expressions in the questions, we proposed a method of extracting MWEs in questions of question answering communities.In this method, we first used mutual information method and stop words filtering method to get the candidate MWEs.Then we classified the candidate MWEs into four types: right string, incomplete string, redundancy string and error string.At last, with the help of query optimization in search engines and the candidate MWEs retrieval results on the internet, we designed a revising method to get the MWEs.We took the questions in Sina iask question library as the experimental corpus.And the results show that the precision, recall and theF-measure can reach 84%, 52%, 0.64 respectively, which proves the effectiveness of the proposed method.

    multiword expressions; question interpretation; mutual information; search engine

    2013-09-09.

    吳瑞紅(1988—), 女, 漢族, 碩士研究生, 從事自然語(yǔ)言處理的研究, E-mail: ruihong0417@163.com.

    國(guó)家自然科學(xué)基金(批準(zhǔn)號(hào): 61171159; 61271304)和北京市教委科技發(fā)展計(jì)劃重點(diǎn)項(xiàng)目暨北京市自然科學(xué)基金B(yǎng)類(lèi)重點(diǎn)項(xiàng)目(批準(zhǔn)號(hào): KZ201311232037).

    TP391.1

    A

    1671-5489(2014)06-1230-09

    10.13413/j.cnki.jdxblxb.2014.06.25

    韓 嘯)

    猜你喜歡
    詞串互信息搜索引擎
    靈動(dòng)的詞串,寫(xiě)話(huà)的紐帶
    報(bào)紙新聞標(biāo)題中的“熱詞群”和“熱詞串”
    新聞傳播(2018年15期)2018-09-18 03:19:58
    美語(yǔ)口語(yǔ)詞串You Know What探析
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    網(wǎng)絡(luò)搜索引擎亟待規(guī)范
    改進(jìn)的互信息最小化非線(xiàn)性盲源分離算法
    基于增量式互信息的圖像快速匹配方法
    基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
    廣告主與搜索引擎的雙向博弈分析
    母亲3免费完整高清在线观看| 最新的欧美精品一区二区| 国产精品久久久人人做人人爽| 老熟女久久久| 国产亚洲精品久久久久久毛片 | 又紧又爽又黄一区二区| 日日夜夜操网爽| 制服人妻中文乱码| 高潮久久久久久久久久久不卡| 国产精品永久免费网站| 两人在一起打扑克的视频| 在线观看午夜福利视频| 亚洲精品自拍成人| 99国产精品一区二区蜜桃av | 国产精品久久电影中文字幕 | 欧美中文综合在线视频| 大片电影免费在线观看免费| 伦理电影免费视频| 高清在线国产一区| 多毛熟女@视频| 欧美丝袜亚洲另类 | 欧美在线黄色| 天天影视国产精品| 男女午夜视频在线观看| 亚洲欧美日韩另类电影网站| 欧美激情久久久久久爽电影 | 嫁个100分男人电影在线观看| 制服诱惑二区| 一进一出抽搐动态| 人人妻人人澡人人看| 桃红色精品国产亚洲av| 大型av网站在线播放| 国产av精品麻豆| 女性生殖器流出的白浆| 亚洲精品美女久久av网站| 亚洲精品美女久久av网站| 欧美激情极品国产一区二区三区| 色94色欧美一区二区| 成在线人永久免费视频| av网站免费在线观看视频| 久久亚洲真实| 99国产精品一区二区蜜桃av | 少妇猛男粗大的猛烈进出视频| 99久久综合精品五月天人人| x7x7x7水蜜桃| 精品久久久久久电影网| 男人的好看免费观看在线视频 | 亚洲精品在线观看二区| 男人舔女人的私密视频| 国产乱人伦免费视频| 成年版毛片免费区| 一边摸一边抽搐一进一出视频| 亚洲自偷自拍图片 自拍| 欧美日韩国产mv在线观看视频| 看片在线看免费视频| 国产在视频线精品| 美女视频免费永久观看网站| 涩涩av久久男人的天堂| 久久国产乱子伦精品免费另类| videos熟女内射| www.自偷自拍.com| 午夜免费成人在线视频| 国产一区在线观看成人免费| 黄色女人牲交| 久久中文看片网| 日韩欧美三级三区| 亚洲成人国产一区在线观看| 国产精品九九99| 69av精品久久久久久| 免费观看a级毛片全部| 久9热在线精品视频| 欧美日韩一级在线毛片| 99香蕉大伊视频| 国产色视频综合| 操出白浆在线播放| 日本一区二区免费在线视频| 日韩有码中文字幕| 欧美乱妇无乱码| 无人区码免费观看不卡| 亚洲第一欧美日韩一区二区三区| 国产在线精品亚洲第一网站| 午夜免费鲁丝| 亚洲av成人一区二区三| 日韩免费高清中文字幕av| 女性被躁到高潮视频| 老司机在亚洲福利影院| 侵犯人妻中文字幕一二三四区| 国产99白浆流出| 老汉色∧v一级毛片| 18禁观看日本| 亚洲全国av大片| 另类亚洲欧美激情| 叶爱在线成人免费视频播放| 精品福利永久在线观看| 黄片大片在线免费观看| 无人区码免费观看不卡| 亚洲免费av在线视频| 免费不卡黄色视频| 少妇的丰满在线观看| 日韩欧美在线二视频 | 国产高清激情床上av| 一二三四社区在线视频社区8| 欧美日本中文国产一区发布| 亚洲黑人精品在线| 欧美日韩一级在线毛片| 日本vs欧美在线观看视频| 在线av久久热| 两人在一起打扑克的视频| 欧美一级毛片孕妇| 久久久久视频综合| 国产精品永久免费网站| 一级毛片女人18水好多| 看片在线看免费视频| 水蜜桃什么品种好| 男女午夜视频在线观看| 亚洲精品一二三| 国产一区二区激情短视频| 国产有黄有色有爽视频| 电影成人av| 免费观看a级毛片全部| 很黄的视频免费| 在线av久久热| 国产成人啪精品午夜网站| 91老司机精品| 午夜91福利影院| 亚洲欧美激情在线| 老熟女久久久| 亚洲精品一二三| 久久久国产精品麻豆| 免费观看人在逋| 最新的欧美精品一区二区| 成人手机av| 欧美日韩一级在线毛片| 老司机午夜福利在线观看视频| 国产精品永久免费网站| 91老司机精品| 成年人午夜在线观看视频| 超碰97精品在线观看| 丰满的人妻完整版| 丝袜美腿诱惑在线| 国产精品偷伦视频观看了| 两人在一起打扑克的视频| √禁漫天堂资源中文www| 夜夜躁狠狠躁天天躁| 国产精品久久久久成人av| 亚洲精品一卡2卡三卡4卡5卡| 看片在线看免费视频| 国产1区2区3区精品| 久久精品亚洲精品国产色婷小说| 日韩制服丝袜自拍偷拍| 久久久久久久午夜电影 | 国内毛片毛片毛片毛片毛片| 丝袜人妻中文字幕| 国产成人av教育| 老司机福利观看| 亚洲欧洲精品一区二区精品久久久| 亚洲情色 制服丝袜| 亚洲av成人一区二区三| 亚洲精品一卡2卡三卡4卡5卡| 天天躁夜夜躁狠狠躁躁| 国产精品影院久久| 老汉色av国产亚洲站长工具| 国产成人影院久久av| 亚洲国产中文字幕在线视频| 黑人操中国人逼视频| 老熟妇乱子伦视频在线观看| 国产精品综合久久久久久久免费 | 亚洲av日韩精品久久久久久密| 男女之事视频高清在线观看| 一区在线观看完整版| 久久久久国产一级毛片高清牌| 久久久久国产一级毛片高清牌| 欧美精品av麻豆av| 又黄又爽又免费观看的视频| 久久精品国产a三级三级三级| 中文字幕人妻丝袜一区二区| 狠狠狠狠99中文字幕| 99热国产这里只有精品6| 国产男女内射视频| 少妇猛男粗大的猛烈进出视频| 成年人午夜在线观看视频| 久久人人97超碰香蕉20202| 一a级毛片在线观看| 黄色视频不卡| 日韩人妻精品一区2区三区| 亚洲一卡2卡3卡4卡5卡精品中文| 人妻久久中文字幕网| xxxhd国产人妻xxx| 亚洲专区国产一区二区| 国产一卡二卡三卡精品| 又大又爽又粗| 国产精品 欧美亚洲| 不卡av一区二区三区| netflix在线观看网站| 黄色成人免费大全| 热99国产精品久久久久久7| 国产乱人伦免费视频| 亚洲 国产 在线| 国产真人三级小视频在线观看| 亚洲中文av在线| 夜夜爽天天搞| 性少妇av在线| 热re99久久国产66热| 欧美亚洲日本最大视频资源| 国产不卡av网站在线观看| 免费女性裸体啪啪无遮挡网站| 日韩有码中文字幕| 男女高潮啪啪啪动态图| 亚洲国产欧美网| 动漫黄色视频在线观看| 日韩精品免费视频一区二区三区| 国产免费现黄频在线看| 1024视频免费在线观看| 自拍欧美九色日韩亚洲蝌蚪91| 夜夜躁狠狠躁天天躁| 久热爱精品视频在线9| 国产淫语在线视频| 麻豆av在线久日| 国产高清videossex| 欧美精品啪啪一区二区三区| 亚洲精品中文字幕在线视频| 亚洲精品久久成人aⅴ小说| 亚洲人成77777在线视频| 中文字幕人妻熟女乱码| 91大片在线观看| 99国产精品一区二区三区| 亚洲 国产 在线| a级片在线免费高清观看视频| 亚洲精品中文字幕一二三四区| 三级毛片av免费| 久久影院123| 国产亚洲一区二区精品| 欧美午夜高清在线| 交换朋友夫妻互换小说| aaaaa片日本免费| 淫妇啪啪啪对白视频| 欧美日韩精品网址| 三上悠亚av全集在线观看| 国产一卡二卡三卡精品| 男女之事视频高清在线观看| 精品一区二区三区四区五区乱码| 两个人看的免费小视频| 欧美精品啪啪一区二区三区| 日韩 欧美 亚洲 中文字幕| 精品福利永久在线观看| 久久久国产一区二区| 一区二区三区国产精品乱码| 成人特级黄色片久久久久久久| 精品视频人人做人人爽| 精品国产一区二区三区久久久樱花| 别揉我奶头~嗯~啊~动态视频| 最新美女视频免费是黄的| av电影中文网址| 飞空精品影院首页| 天堂动漫精品| 久久精品91无色码中文字幕| 婷婷丁香在线五月| 777久久人妻少妇嫩草av网站| 日韩精品免费视频一区二区三区| 午夜福利在线观看吧| 制服人妻中文乱码| 777久久人妻少妇嫩草av网站| 美女视频免费永久观看网站| 丰满的人妻完整版| 国产成人精品无人区| 国产97色在线日韩免费| 免费观看精品视频网站| 妹子高潮喷水视频| 精品人妻在线不人妻| 国产有黄有色有爽视频| 亚洲免费av在线视频| 欧美国产精品va在线观看不卡| 日韩 欧美 亚洲 中文字幕| 90打野战视频偷拍视频| 午夜老司机福利片| 脱女人内裤的视频| 黑人巨大精品欧美一区二区mp4| 久热这里只有精品99| 欧美在线一区亚洲| 欧美一级毛片孕妇| 99国产精品一区二区三区| 久久国产乱子伦精品免费另类| 日韩视频一区二区在线观看| 一区在线观看完整版| 怎么达到女性高潮| 丝袜在线中文字幕| 亚洲精品美女久久av网站| 亚洲成a人片在线一区二区| 免费在线观看视频国产中文字幕亚洲| 久久中文看片网| 在线观看免费午夜福利视频| 成人影院久久| 一二三四在线观看免费中文在| 国产精品久久久人人做人人爽| 久久久久久久精品吃奶| 亚洲综合色网址| 亚洲精品成人av观看孕妇| 午夜福利一区二区在线看| 免费看十八禁软件| 男女高潮啪啪啪动态图| 亚洲一区中文字幕在线| 国产精品香港三级国产av潘金莲| 午夜亚洲福利在线播放| 女人被狂操c到高潮| 午夜激情av网站| 99国产精品免费福利视频| 99久久精品国产亚洲精品| 免费在线观看视频国产中文字幕亚洲| 巨乳人妻的诱惑在线观看| 精品福利永久在线观看| 欧美国产精品一级二级三级| 一级黄色大片毛片| 亚洲久久久国产精品| 亚洲五月婷婷丁香| 免费观看精品视频网站| 国产精品综合久久久久久久免费 | 这个男人来自地球电影免费观看| 成人三级做爰电影| 亚洲精品一卡2卡三卡4卡5卡| 岛国毛片在线播放| 欧美丝袜亚洲另类 | 波多野结衣一区麻豆| 夜夜躁狠狠躁天天躁| 亚洲精品国产区一区二| 人人妻人人爽人人添夜夜欢视频| 桃红色精品国产亚洲av| 黄色a级毛片大全视频| 少妇粗大呻吟视频| av网站免费在线观看视频| 国产99久久九九免费精品| 亚洲成人免费av在线播放| 日韩欧美免费精品| 亚洲精品乱久久久久久| 国产免费男女视频| 久久久精品免费免费高清| 高清毛片免费观看视频网站 | 久99久视频精品免费| 少妇猛男粗大的猛烈进出视频| 亚洲伊人色综图| 18禁美女被吸乳视频| 亚洲国产中文字幕在线视频| 亚洲精品中文字幕在线视频| 中文字幕另类日韩欧美亚洲嫩草| 国产精品欧美亚洲77777| 日韩欧美国产一区二区入口| 狠狠狠狠99中文字幕| 国产成人啪精品午夜网站| 超碰97精品在线观看| 美女高潮到喷水免费观看| 中出人妻视频一区二区| 老熟妇乱子伦视频在线观看| a级片在线免费高清观看视频| 青草久久国产| 夜夜躁狠狠躁天天躁| 美女视频免费永久观看网站| 成人免费观看视频高清| 精品午夜福利视频在线观看一区| 亚洲精品在线美女| 亚洲av日韩精品久久久久久密| 国产精品久久电影中文字幕 | 久久久水蜜桃国产精品网| 99精品久久久久人妻精品| 欧美乱色亚洲激情| 国产av一区二区精品久久| 桃红色精品国产亚洲av| 日日摸夜夜添夜夜添小说| 亚洲美女黄片视频| 国产成人精品无人区| 久久影院123| 国产精品久久久久久精品古装| 日韩三级视频一区二区三区| 在线av久久热| 国产精品亚洲一级av第二区| 免费观看人在逋| 欧美另类亚洲清纯唯美| 国产视频一区二区在线看| 亚洲精品一二三| 18禁黄网站禁片午夜丰满| 亚洲av片天天在线观看| 国产男靠女视频免费网站| 亚洲欧美一区二区三区黑人| svipshipincom国产片| 麻豆成人av在线观看| 午夜福利,免费看| 中文字幕色久视频| 久久婷婷成人综合色麻豆| 国产欧美亚洲国产| 美女 人体艺术 gogo| 咕卡用的链子| 91成人精品电影| 19禁男女啪啪无遮挡网站| 国产熟女午夜一区二区三区| 91在线观看av| 国产av一区二区精品久久| 日本wwww免费看| 又黄又爽又免费观看的视频| 亚洲第一青青草原| 精品一区二区三区四区五区乱码| 国产精品乱码一区二三区的特点 | 熟女少妇亚洲综合色aaa.| 欧美激情久久久久久爽电影 | 亚洲av成人一区二区三| 免费少妇av软件| 99riav亚洲国产免费| 国产1区2区3区精品| 久久国产乱子伦精品免费另类| 免费人成视频x8x8入口观看| 久久热在线av| 午夜精品国产一区二区电影| 免费女性裸体啪啪无遮挡网站| 欧洲精品卡2卡3卡4卡5卡区| 日韩中文字幕欧美一区二区| 国内毛片毛片毛片毛片毛片| 精品一区二区三区av网在线观看| 新久久久久国产一级毛片| 中亚洲国语对白在线视频| 精品国产乱子伦一区二区三区| 亚洲伊人色综图| 一级片免费观看大全| 久久青草综合色| 精品亚洲成国产av| 久久精品成人免费网站| 国产精品电影一区二区三区 | 久9热在线精品视频| 高清欧美精品videossex| 国产欧美日韩精品亚洲av| 久久久久国产一级毛片高清牌| 亚洲欧美精品综合一区二区三区| 18禁国产床啪视频网站| 欧美日韩福利视频一区二区| 欧美乱色亚洲激情| 国产高清激情床上av| 午夜精品久久久久久毛片777| 日韩免费高清中文字幕av| av视频免费观看在线观看| av福利片在线| 少妇 在线观看| 19禁男女啪啪无遮挡网站| 久久热在线av| 成人国产一区最新在线观看| 男女免费视频国产| 人妻丰满熟妇av一区二区三区 | 一个人免费在线观看的高清视频| 国产亚洲欧美精品永久| 欧美 日韩 精品 国产| 性色av乱码一区二区三区2| 丰满迷人的少妇在线观看| 新久久久久国产一级毛片| 香蕉国产在线看| 亚洲欧美精品综合一区二区三区| 午夜亚洲福利在线播放| 色播在线永久视频| 在线永久观看黄色视频| 亚洲欧美激情综合另类| 久久精品aⅴ一区二区三区四区| 亚洲熟妇中文字幕五十中出 | 亚洲一区二区三区欧美精品| 天天躁日日躁夜夜躁夜夜| 午夜福利乱码中文字幕| 在线观看免费午夜福利视频| 一级黄色大片毛片| 天天添夜夜摸| 久久久久久久久免费视频了| 亚洲精品久久成人aⅴ小说| 一级片'在线观看视频| 免费黄频网站在线观看国产| 免费观看a级毛片全部| 欧美日韩精品网址| 成人免费观看视频高清| 正在播放国产对白刺激| 亚洲专区中文字幕在线| 1024视频免费在线观看| 欧美乱码精品一区二区三区| 高清视频免费观看一区二区| 大片电影免费在线观看免费| 日韩制服丝袜自拍偷拍| 久久精品亚洲av国产电影网| 亚洲色图av天堂| 亚洲一码二码三码区别大吗| 国产在视频线精品| 天堂√8在线中文| 国产精品 欧美亚洲| 涩涩av久久男人的天堂| 大香蕉久久成人网| www日本在线高清视频| 女人久久www免费人成看片| 成人影院久久| 久久国产乱子伦精品免费另类| 日韩有码中文字幕| 久热爱精品视频在线9| 91成年电影在线观看| 99精品在免费线老司机午夜| 久久中文看片网| 久久影院123| 成年动漫av网址| 日本一区二区免费在线视频| 久久香蕉精品热| 51午夜福利影视在线观看| 亚洲精品久久午夜乱码| 日韩欧美一区二区三区在线观看 | 色播在线永久视频| 一本一本久久a久久精品综合妖精| av网站在线播放免费| 成人国产一区最新在线观看| 欧美日韩视频精品一区| 麻豆乱淫一区二区| 久久精品亚洲av国产电影网| 9热在线视频观看99| 精品国产一区二区三区久久久樱花| 亚洲欧美日韩高清在线视频| 热99久久久久精品小说推荐| 老司机福利观看| 国产在线一区二区三区精| 青草久久国产| 少妇 在线观看| 夜夜爽天天搞| 国产精品久久久久成人av| 女人久久www免费人成看片| 91老司机精品| 亚洲久久久国产精品| 国产精品一区二区在线不卡| 一a级毛片在线观看| 在线av久久热| 精品亚洲成a人片在线观看| 国产色视频综合| 亚洲欧美激情在线| 天天操日日干夜夜撸| 搡老熟女国产l中国老女人| 捣出白浆h1v1| 精品少妇久久久久久888优播| 久久中文看片网| 欧美中文综合在线视频| 日本五十路高清| 国产麻豆69| 久久人人97超碰香蕉20202| 亚洲色图 男人天堂 中文字幕| 日韩中文字幕欧美一区二区| 母亲3免费完整高清在线观看| 不卡av一区二区三区| 色94色欧美一区二区| 精品国内亚洲2022精品成人 | 亚洲七黄色美女视频| 精品卡一卡二卡四卡免费| 日韩三级视频一区二区三区| 两个人看的免费小视频| 国产欧美日韩一区二区三| 两个人看的免费小视频| 欧美老熟妇乱子伦牲交| 久久久久精品国产欧美久久久| av欧美777| 免费不卡黄色视频| 99久久人妻综合| 黄色片一级片一级黄色片| 久久久久久久国产电影| 后天国语完整版免费观看| 不卡一级毛片| 青草久久国产| 精品一区二区三区视频在线观看免费 | bbb黄色大片| www.自偷自拍.com| 亚洲欧美激情综合另类| 国产深夜福利视频在线观看| 久久久精品国产亚洲av高清涩受| 国产高清视频在线播放一区| 久久久国产成人免费| 一进一出抽搐gif免费好疼 | 丝袜人妻中文字幕| 欧美成人午夜精品| 免费看十八禁软件| 亚洲专区国产一区二区| 免费人成视频x8x8入口观看| 一本大道久久a久久精品| 国产精品自产拍在线观看55亚洲 | 十八禁网站免费在线| 久久影院123| 国产精品免费一区二区三区在线 | 欧美日韩瑟瑟在线播放| 51午夜福利影视在线观看| 老司机亚洲免费影院| 18禁美女被吸乳视频| 一二三四在线观看免费中文在| 又大又爽又粗| 久久久精品区二区三区| 男人的好看免费观看在线视频 | 精品一区二区三区四区五区乱码| 天天躁夜夜躁狠狠躁躁| 欧美色视频一区免费| 婷婷成人精品国产| 欧美人与性动交α欧美精品济南到| 亚洲精品中文字幕在线视频| 精品一区二区三区四区五区乱码| 国产精品久久久av美女十八| 精品午夜福利视频在线观看一区| 亚洲国产看品久久| www.熟女人妻精品国产| 80岁老熟妇乱子伦牲交| 成人18禁高潮啪啪吃奶动态图| 18禁国产床啪视频网站| 亚洲欧美日韩高清在线视频| 久久久久精品人妻al黑| 亚洲 欧美一区二区三区| 国产一区二区激情短视频| 亚洲av成人一区二区三| 91av网站免费观看| 老熟妇乱子伦视频在线观看| 亚洲精品国产精品久久久不卡| 午夜91福利影院| cao死你这个sao货| 精品少妇一区二区三区视频日本电影| 国产精品 国内视频| av免费在线观看网站| 嫁个100分男人电影在线观看| 建设人人有责人人尽责人人享有的| 久久久久国内视频| 老汉色∧v一级毛片|