• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于搜索引擎日志的中文糾錯方法研究

    2020-07-24 02:11:37楊蘇穩(wěn)張曉如
    軟件導(dǎo)刊 2020年6期

    楊蘇穩(wěn) 張曉如

    摘要:針對用戶使用搜索引擎輸入關(guān)鍵詞查詢信息時,由于輸入法的原因或者不小心輸入錯誤關(guān)鍵詞等,致使搜索結(jié)果不符合用戶預(yù)期的問題,提出基于搜索引擎日志的中文糾錯方法。首先對用戶網(wǎng)絡(luò)日志展開研究,對數(shù)據(jù)進行預(yù)處理,將用戶常見錯誤分為兩人類:一類為拼音引起的錯誤,針對該類錯誤,參考并改進了基于拼音索引的中文模糊匹配算法進行糾錯;另一類為多字、少字、異位及別字引起的錯誤,針對該類錯誤,設(shè)計了模糊匹配方法結(jié)合最小編輯距離方法進行糾錯。經(jīng)過實驗驗證,證明了該糾錯方法的有效性,該方法能夠一定程度上提升用戶體驗,滿足實際工程需要。

    關(guān)鍵詞:搜索引擎日志;中文糾錯;模糊匹配;最小編輯距離

    DOI:10.11907/rjdk.192456 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

    中圖分類號:TP391文獻標(biāo)識碼:A 文章編號:1672-7800(2020)006-0182-06

    0 引言

    隨著大數(shù)據(jù)時代的到來,越來越多的數(shù)據(jù)充斥著整個互聯(lián)網(wǎng),如何在海量數(shù)據(jù)中找到有用信息已變得越來越迫切。搜索引擎的出現(xiàn)極大地方便了用戶進行信息查找,然而,用戶在查詢輸入時,由于輸入法的原因或者不細心等,總會存在輸入錯別字、多字甚至少字的現(xiàn)象。因此,對查詢詞進行校正是提高查詢效率的重要手段。為了提升用戶體驗,本文設(shè)計了基于搜索引擎日志的中文糾錯方案。

    中文文本校對相對于英文文本校對起步較晚,目前中文文本糾錯主要是針對字級別和詞級別的糾錯,常用的有基于概率統(tǒng)計的方法、基于機器學(xué)習(xí)的方法、基于規(guī)則的方法和基于混合的方法。

    (1)基于概率統(tǒng)計的方法?;诟怕式y(tǒng)計的糾錯方法是利用大規(guī)模語料提取文字、詞以及詞性的上下文關(guān)聯(lián)度、搭配等特征,然后基于此進行文本糾錯。常見的概率模型有N-gram語言模型、最大熵模型等,但是統(tǒng)計模型存在難以獲得大規(guī)模訓(xùn)練語料以及數(shù)據(jù)稀疏表示等問題。陳智鵬等通過建立N-gram模型得到候選集,根據(jù)TF/IDF計算權(quán)重排序獲得最優(yōu)解推薦給用戶,實現(xiàn)自動糾錯;馬金山等提出使用N-gram模型局部查錯法與依存分析全局查錯法對文本進行自動校對;徐白在考慮輸入詞串上下文的同時,統(tǒng)計研究查詢串特征,融合N-gram相似性、拼音相似度等因素進行排序,實現(xiàn)文本的自動校對功能。

    (2)基于機器學(xué)習(xí)的方法。基于機器學(xué)習(xí)的方法可以理解為排除有歧義詞的過程,對待校對的目標(biāo)詞建立混淆集,用混淆集替換相應(yīng)位置上的漢字產(chǎn)生候選集,然后根據(jù)相關(guān)規(guī)則對候選集進行排序?qū)崿F(xiàn)校對功能。排序規(guī)則可以為一種或多種,如利用上下文特征、統(tǒng)計語言模型或?qū)追N因素相結(jié)合等。張磊等提出一種快速的中文模糊詞匹配算法,實現(xiàn)了基于相似詞集代換與語言模型評分的自動校對方法,能夠檢查并糾正加字、減字及字串替換等錯誤;張照煌提出利用混淆集替換的方法實現(xiàn)文本自動校對,首先根據(jù)相似字特征生成混淆集,然后利用混淆集替換對應(yīng)位置上的字生成候選集,最后利用統(tǒng)計模型對候選集進行打分,根據(jù)評分高低對候選集進行排序。

    (3)基于規(guī)則或語義學(xué)知識的方法。在研究基于規(guī)則或語義學(xué)知識進行自動校對的過程中,一般先對大規(guī)模語料文本進行觀察和統(tǒng)計,對其字、詞、詞法、句法、語義和語用錯誤進行分析與總結(jié),通過總結(jié)錯誤發(fā)生的共同規(guī)律,得到能夠反映錯誤的一般產(chǎn)生式規(guī)則集。在進行文本校對時,直接運用這些產(chǎn)生式集進行查錯判斷,若出現(xiàn)錯誤,再通過相關(guān)運算得到錯字詞的替換集,并從替換集中選擇一個概率最大的詞作為修正的候選詞。易蓉湘等通過對大量漢語錯誤文本的分析,總結(jié)出錯字詞規(guī)律和產(chǎn)生式規(guī)則,并基于這些規(guī)則實現(xiàn)文本查錯與糾錯功能。

    (4)基于混合的方法。基于混合的方法,顧名思義就是綜合使用上述方法。由于錯誤類型種類繁多,無法一一對其規(guī)律進行總結(jié),因此僅使用一種方法很難覆蓋所有錯誤問題。為了更好地解決該問題,一般采用混合方法,如采用規(guī)則與統(tǒng)計相結(jié)合的方法。劉亮亮等提出一種多特征融合的模型,然后利用規(guī)則判斷中文文本中的真詞錯誤;段建勇等提出基于統(tǒng)計與特征相結(jié)合的查詢糾錯方法,對用戶輸入的查詢詞建模,生成混淆集,再利用混淆集排序模型選出最優(yōu)結(jié)果推薦給用戶,達到查錯、糾錯的目的;Subramaniam等利用查詢?nèi)罩窘⒄Z言模型,并結(jié)合最小編輯距離進行糾錯;王斯宇等提出基于混淆集及上下文特征的方法進行糾錯。

    通過分析國內(nèi)外研究現(xiàn)狀發(fā)現(xiàn),上述糾錯方法還存在以下不足:①未對錯誤原因及類型進行詳細的分類與總結(jié);②提出的糾錯方法只針對常見的大部分錯誤,并未綜合考慮所有錯誤類別,無法對少數(shù)但現(xiàn)實存在的錯誤類型進行處理;③盡管有些方法融合了多種糾錯方法,但沒有形成完整、清晰的糾錯流程。

    針對上述糾錯方法存在的不足,本文進行如下改進:

    第一,通過對搜索引擎日志的研究,總結(jié)搜索引擎日志中的常見錯誤,分析導(dǎo)致錯誤的原因,并將其分為兩類:①全拼音、半拼音、音相似錯誤、鍵相鄰錯誤及方言差異導(dǎo)致的錯誤均為拼音的聲母、韻母或音調(diào)部分發(fā)生錯誤而導(dǎo)致的;②多字、少字、異位及別字引起的錯誤。

    第二,針對錯別字的錯誤類型提出一整套糾錯流程,針對不同的錯誤類型,采用不同糾錯方法進行處理。

    第三,針對上述第一類錯誤,本文參考曹犟等提出的基于拼音索引的中文模糊匹配算法進行糾錯,但該方法僅考慮了拼音的聲母或韻母及音調(diào)變化導(dǎo)致的錯誤,而忽略了鍵盤輸入時字母相對位置導(dǎo)致的錯誤。為此,本文改進了基于拼音糾錯的算法,增加了對鍵相鄰錯誤的糾錯。針對上述第二類錯誤,本文融合傳統(tǒng)模糊匹配方法與最小編輯距離方法進行糾錯。

    1 相關(guān)技術(shù)介紹

    發(fā)現(xiàn)并總結(jié)用戶常見輸入錯誤,是針對不同錯誤類別設(shè)計糾錯方法的基礎(chǔ)。通過對查詢?nèi)罩镜姆治觯脩舫R娸斎隋e誤主要有全拼音錯誤、半拼音錯誤、音相似錯誤、鍵相鄰錯誤、方言差異導(dǎo)致的錯誤,以及別字、多字、少字及字間顛倒導(dǎo)致的錯誤等。其中全拼音、半拼音、音相似錯誤、鍵相鄰錯誤及方言差異導(dǎo)致的錯誤均為拼音的聲母、韻母或音調(diào)部分發(fā)生錯誤而導(dǎo)致的,一般采用拼音糾錯的方法進行糾正。曹犟等提出的基于拼音索引的糾錯方法能夠有效解決此類問題。別字、多字、少字及字間顛倒導(dǎo)致的錯誤則一般使用模糊匹配或最小編輯距離方法進行糾錯。

    1.1 基于拼音編輯距離的糾錯方法

    1.1.1 基于拼音編輯距離的定義

    對于一個漢字的音節(jié)而言,它與另外一個音節(jié)的差異可分為3種:聲母差異、韻母差異和聲調(diào)差異。其音節(jié)的聲母、韻母和聲調(diào)取值的可能性都是有限的,可利用枚舉方式定義音節(jié)從一種取值轉(zhuǎn)換為另一種取值的編輯距離。所以,對于一個給定音節(jié),很容易找到所有與其編輯距離為.的音節(jié)。例如,要找到所有與/lan2/編輯距離為1的音節(jié),則取值只可能是:①聲母改變1個距離單位,韻母和聲調(diào)不變;②韻母改變1個距離單位,聲母和聲調(diào)不變;③聲母和韻母都不變,僅聲調(diào)改變1個距離單位。音節(jié)編輯距離最后均轉(zhuǎn)化為排列組合問題。

    1.1.2 拼音糾錯示例

    通過對網(wǎng)絡(luò)日志的分析可知,拼音錯誤是輸人中的主要錯誤,但在拼音錯誤中,還可以作細化分類。

    (1)音同而誤。音同而誤是指拼音相同而發(fā)生的替換錯誤。這類錯誤由于拼音輸入法的原因經(jīng)常發(fā)生,且很難區(qū)別。

    例如:現(xiàn)在乘汽車必需攜帶身份證嗎?

    分析:句中“必需”是“必須”的同音替換錯誤。

    (2)音同聲不同而誤。即因音調(diào)不同而發(fā)生的錯誤。

    例如:百毒的創(chuàng)始人是誰?

    分析:句中“百毒”就是因為“/du2/”與“/du4/”拼音相同而聲調(diào)不同造成的替換錯誤。

    (3)音似而誤。音似而誤是指因拼音相似而造成的替換錯誤,通常是由于聲母或韻母發(fā)生改變而造成的替換錯誤,也可能是因為方言差異或相鄰鍵造成的輸入錯誤。

    例l:牛德華今年有幾場演唱會?

    分析:句中“牛德華”就是因為方言中不區(qū)分“L/N”而造成的錯誤。

    例2:涅槃從生是什么意思?

    分析:句中“從生”是因為“/eong2/”和“/ehong2/”音似而發(fā)生的替換錯誤。

    根據(jù)上述總結(jié),在拼音錯誤中,要么是拼音聲調(diào)發(fā)生改變,要么是拼音聲母或韻母發(fā)生改變,根據(jù)定義的拼音編輯距離可知,/Lin2/與/Ling2/的編輯距離為l,/Lin2/與/Lan2/的編輯距離也為1,但從發(fā)音機制上來說,前者的可能性更大,后者的可能很小。如果僅依據(jù)之前定義的拼音編輯距離進行計算,則會出現(xiàn)不合理現(xiàn)象。因此,本文參考并改進了曹犟等提出的基于拼音改良的編輯距離,對不同的拼音錯誤賦予不同的替換代價。

    1.1.3 基于拼音改良的編輯距離糾錯方法

    根據(jù)基于拼音改良的編輯距離糾錯方法定義可知,/lan2/與/nan2/的編輯距離為1,/lan2/與/pan2/的編輯距離也為l,但是/lan2/與/nan2/的發(fā)音機制更接近。因此,基于拼音改良的編輯距離方法具體計算方式如下:

    (1)替換代價小于1。音調(diào)變化導(dǎo)致的差異小于l。不管哪種拼音輸入法,都不要求用戶輸入音調(diào),且音調(diào)錯誤比較普遍,因此本文認為其差異小于一般的聲母與韻母之間的差異。在本實驗中賦予0.5的替換代價。

    發(fā)音相似且特別容易發(fā)生替換錯誤的聲母與韻母之間的差異小于l。在聲母或韻母發(fā)生改變的拼音錯誤中,其中有4對聲母與5對韻母發(fā)生錯誤替換的可能性遠大于其它的。4對聲母分別為z/zh、c/ch、s/sh、l/n,5對韻母分別為ing/in、ang/an、eng/en、un/ui、ei/ai。本實驗中對這9對替換錯誤也賦予0.5的替換代價。

    在實驗最后,將所有替換代價都乘以2,以得到整數(shù)結(jié)果的編輯距離,且不影響不同串之間的相似度比較。

    (2)替換代價等于l。對于除上述替換代價小于l中的4對聲母、5對韻母與相鄰鍵間發(fā)生的替換錯誤外的其它錯誤,均按照上文定義的拼音編輯距離進行計算。

    (3)替換代價大于l。對于同一音節(jié),若其聲母與韻母同時發(fā)生改變,則在計算編輯距離時給予一個正的懲罰值(本文實驗中取值為2)。根據(jù)該規(guī)則,對于音節(jié)串P1=A1A2A3…An(其中Ai,i=1,2,…,n代表一個音節(jié)),如果音節(jié)A1的聲母和韻母同時發(fā)生差異為l的錯誤替換,得到新的音節(jié)串P2=A1,A2A3…An,P2與P1的編輯距離則需乘以一個懲罰值2,結(jié)果為4。若音節(jié)A2與音節(jié)A3的聲母或韻母發(fā)生差異為l的錯誤替換,得到新的音節(jié)串P3=A1A2,A3,…An,則P3與P1的編輯距離為2。

    1.1.4 拼音串查詢擴展及糾錯過程

    設(shè)用戶輸入的查詢串為H=S1S2S3…Si…Sn(其中Si,i=1,2,…,n代表一個漢字),其拼音串為P:A1A2A3…Ai…An(其中Ai,i=1,2,…,n代表一個拼音),m為錯別字音節(jié)Aj的替換音節(jié),且m≠A。,則所有因Ai發(fā)生錯誤而被替換的拼音串為P=A1A2A3…m…An(其中Ai,i=1,2,…,n代表一個拼音)。由于最終返回給用戶的結(jié)果不可能為所有糾正值,只需推薦TOP-K個即可,那么替換字Si的音節(jié)m的編輯距離也不可能取所有情況,本次實驗只取距離為1的音節(jié)集合。

    在檢索時,首先分別檢索Pj1=A1A2A3…Aj-1和Pj2=Aj+1Aj+2…An出現(xiàn)的位置,然后作比較,若在某個文本中,串Pj1與串Pj2同時出現(xiàn),且Pj1的位置在串Pj2位置的j+1位之前,則將該文本加入候選集中,最終根據(jù)排序模型生成排序并推薦給用戶。因此,最終將基于拼音的編輯距離糾錯問題轉(zhuǎn)化為兩個查詢字串的精確匹配問題。

    1.2 基于模糊匹配的糾錯方法

    對于形似字錯誤和多字、少字及異位錯誤,目前并沒有一般性的規(guī)律可循,拼音糾錯方法也無法發(fā)揮作用,因此本文采用模糊匹配方法進行糾錯。

    定義l形似字:已知兩個漢字W1、W2,若W1、W2之間的形相似度SSim(W1,W2)>A,則W1與W2互為形相似字。

    本文從相似度的角度出發(fā),通過對大規(guī)模語料的計算,得到與錯誤查詢詞相似度最高的詞作為錯誤查詢詞串的替換詞集合,并推薦給用戶。在用戶參與確認的情況下,形成正誤詞對,提高糾錯的準(zhǔn)確性。另一方面,建立自適應(yīng)語料庫,將現(xiàn)有語料庫中不存在的新詞添加到語料中,實現(xiàn)語料庫的不斷更新,以及新詞的登錄與糾錯。

    已知S=W1W2…Wn為當(dāng)前查詢串,P=C1C2…Cn為待匹配串,則S與P的相似度為:

    在實際應(yīng)用中,主要通過設(shè)置閾值判斷兩個詞串是否匹配,若大于設(shè)置的閾值,則查詢詞S與待匹配串P匹配成功,并將P推薦給用戶作為糾正建議,否則匹配失敗。

    1.3 最小編輯距離糾錯方法

    編輯距離又稱為Leveinshtein距離,是由俄羅斯科學(xué)家Levenshtein在1965年提出的。以字符串為例,查詢字符串a(chǎn)與匹配字符串b的編輯距離是將a轉(zhuǎn)換成b的最小操作次數(shù),這里的操作包括3種:①插人一個字符;②刪除一個字符;③替換一個字符。

    例如:計算忠心耿和忠心耿耿的編輯距離,操作如下:忠心耿->忠心耿耿,添加字符耿,需要做1次操作,編輯距離為l。

    1.3.1 算法基本原理及步驟

    s[1…n]和t[1…m]分別代表查詢串與待匹配串,求串s[1…n]轉(zhuǎn)換到串t[1…m]所需執(zhí)行的最小操作次數(shù),一般用動態(tài)規(guī)劃方法求得。其算法一般基本步驟為:

    (1)構(gòu)造行數(shù)為m+l、列數(shù)為n+1的矩陣,用來保存完成某個轉(zhuǎn)換需要執(zhí)行的操作次數(shù),matrix[n][m]的值即為將串S[1…n]轉(zhuǎn)換到串t[1…m]需要執(zhí)行的操作次數(shù)。

    (2)初始化matrix第一行為0到n,第一列為0到m。Matrix[0][j]表示第l行第j-1列的值,該值表示將串s[1…0]轉(zhuǎn)換為t[1…j)所需執(zhí)行的操作次數(shù),很顯然將一個空串轉(zhuǎn)換為一個長度為j的串,只需執(zhí)行j次的增加操作即可,所以matrix[0][j])的值應(yīng)該是j,其它值依此類推。

    (3)掃描每個從1到n的s[i]字符。

    (4)掃描每個從1到m的s[j]字符。

    (5)將串s與串t的每一個字符進行兩兩比較,如果相等,則定義cost為0,如果不相等,則定義cost為l。

    (6)定義d[I,j]=min(d[i-1,j)+1,d[i,j-1]+1,d[i-1,j-1]+cost),其中d[i-1,j)+1表示增加操作,d[i,j-1]+1表示刪除操作,d[i-1,j-1]+cost表示替換操作。

    (7)掃描完成后,d[n,m]的值即為串s[1…n]轉(zhuǎn)換到串t[1…m]所需執(zhí)行的最小操作次數(shù)。

    由上述得到動態(tài)規(guī)劃公式為:

    2 改進的糾錯策略

    2.1 糾錯流程設(shè)計

    通過對用戶查詢?nèi)罩镜姆治隹偨Y(jié),用戶常見輸入錯誤主要有全拼音錯誤、半拼音錯誤、音相似錯誤、鍵相鄰錯誤、方言差異導(dǎo)致的錯誤,以及別字、多字、少字及字間顛倒導(dǎo)致的錯誤等,單一糾錯方法無法對其一一進行糾正。為此,本文提出一套完整的糾錯流程,首先將上述錯誤類型分為兩大類,然后針對不同類別設(shè)計不同的糾錯方法。其中全拼音、半拼音、音相似錯誤、鍵相鄰錯誤及方言差異導(dǎo)致的錯誤均為拼音的聲母、韻母或音調(diào)部分發(fā)生錯誤而導(dǎo)致的,針對該類錯誤,本文參考并改進了曹犟等提出的基于拼音索引的中文模糊匹配算法進行糾錯;另一類為多字、少字、異位及別字引起的錯誤,針對該類錯誤,本文設(shè)計了融合模糊匹配方法與最小編輯距離的方法進行糾錯。查詢詞串糾錯流程如圖l所示。

    查錯與糾錯是文本校對中密不可分的兩部分,具體步驟如下:①獲取用戶查詢串并進行分詞;②利用N-gram模型判斷分詞后的散串是否合理;③若為合理的串,轉(zhuǎn)入步驟⑧輸出查詢結(jié)果,否則轉(zhuǎn)入步驟④;④判斷查詢串是否為拼音錯誤,若是,轉(zhuǎn)入步驟⑤,否則轉(zhuǎn)入步驟⑦;⑤將錯誤的散串按照漢字拼音表轉(zhuǎn)化為拼音串,對于多音字則需按照多音字表轉(zhuǎn)化為相應(yīng)的拼音串;⑥根據(jù)定義的基于拼音的編輯距離計算方式對錯誤的查詢串按照編輯距離進行擴展,得到錯誤查詢串的混淆集,然后對所有擴展的查詢串進行精確匹配,得到查詢結(jié)果后,首先作去重處理,然后按照編輯距離大小進行排序,形成候選集后,轉(zhuǎn)人步驟⑧;⑦采用模糊匹配與最小編輯距離方法對別字進行糾正,并將結(jié)果放人候選集中;⑧根據(jù)排序模型對候選集進行排序,并顯示給用戶。

    2.2 改進的拼音糾錯策略

    曹犟等提出的拼音糾錯方法僅考慮了拼音的聲母、韻母及音調(diào)變化導(dǎo)致的錯誤,而忽略了鍵盤輸入時字母相對位置導(dǎo)致的錯誤。通過對用戶網(wǎng)絡(luò)日志錯字詞的研究發(fā)現(xiàn),約7%的錯誤是由于鍵盤相鄰鍵敲擊錯誤導(dǎo)致的,如“考慮”與“老慮”。因此,本文在曹犟等提出的拼音糾錯方法基礎(chǔ)上進行改進,具體改進方法如下:相鄰鍵發(fā)生替換錯誤的差異小于1。除上述9種易發(fā)生聲母及韻母錯誤替換的情況外,在利用鍵盤輸人時,由于鍵盤按鍵距離較近,很容易發(fā)生相鄰鍵輸入錯誤。如聲母“k”與“l(fā)”相鄰,因此容易輸入錯誤,但是“k”與“p”距離較遠,發(fā)生錯誤的概率遠小于被誤輸為“l(fā)”的概率。因此,本文對相鄰鍵間的差異賦予0.5的替換代價。

    2.3 改進的拼音糾錯步驟

    對于系統(tǒng)判定為拼音錯的查詢詞,先檢查拼音錯誤,利用定義的拼音編輯距離方法進行糾錯并給出糾錯建議。具體步驟如下:①執(zhí)行分詞操作,將用戶輸入的查詢詞串切割成查詢段;②將僅出現(xiàn)中文錯誤的查詢段按照漢字拼音表注音成帶聲調(diào)的拼音串;③對于查詢段中既出現(xiàn)單字又出現(xiàn)拼音串的情況,保留拼音串位置,將單字轉(zhuǎn)化成拼音,并與其組合成完整的拼音串;④根據(jù)拼音編輯距離的具體方法及規(guī)則求出編輯距離最近的拼音集合;⑤根據(jù)拼音串的查詢擴展方法求出步驟④中拼音集合的候選集;⑥將得到的拼音候選集進行音字轉(zhuǎn)換,形成漢字候選集;⑦根據(jù)相關(guān)排序模型對候選集進行打分,根據(jù)分數(shù)高低將糾錯建議返回給用戶。

    3 實驗結(jié)果與分析

    3.1數(shù)據(jù)集選取

    實驗數(shù)據(jù)來源于搜狗實驗室提供的日志文件,其格式包括時間、用戶ID、查詢詞、返回結(jié)果排名、用戶點擊序號、頁面URL等。具體格式如表1所示。

    由表1可知,網(wǎng)絡(luò)日志中包含較多信息,由于本文實驗只涉及到其中的查詢詞部分,因此首先挑選出連續(xù)3天的查詢?nèi)罩緮?shù)據(jù),使用MapReduce腳本提取其中的查詢詞串,然后對提取的查詢詞串進行去噪、去重、去敏感詞等處理后,形成共約260萬條有效的查詢數(shù)據(jù)。

    本文從260萬條有效查詢數(shù)據(jù)中隨機抽取40萬條連續(xù)記錄,對其進行編號并根據(jù)拼音表注音形成查詢文件記錄。查詢文件結(jié)構(gòu)如表2所示。

    本文使用的詞典共收錄詞組約9萬條,每個詞語都有相應(yīng)的拼音注音,且3字以上的詞語標(biāo)注拼音縮寫。詞典結(jié)構(gòu)如表3所示。

    在詞典中新增兩列信息,分別為查詢詞頻與日志中出現(xiàn)次數(shù),形成語料庫文件,本次實驗共形成語料90753條。語料庫結(jié)構(gòu)如表4所示。

    3.2 實驗過程及結(jié)果分析

    測試集由搜狗實驗室提供用戶日志中的查詢詞串及人工添加數(shù)據(jù)組成。首先從查詢?nèi)罩局羞x取常用且出現(xiàn)在語料庫中的查詢詞作為測試集的一部分;其次,由于查詢中某些錯誤類型數(shù)量非常少,本文通過人工添加的方式加以補充;最后利用選取的測試數(shù)據(jù)根據(jù)上述糾錯流程進行實驗,獲得錯誤查詢串的糾正串,如圖2所示。

    在不同規(guī)模的測試集下,準(zhǔn)確率和召回率也不同,本文共選取6組不同規(guī)模的測試集,大小分別為10K、30K、50K、70K、90K、110K,糾錯結(jié)果如圖3所示。

    從圖3可以看出,本文提出的搜索引擎中文糾錯方法的準(zhǔn)確率和召回率都較高,因此該方法可以有效糾正用戶在進行搜索引擎查詢時不小心輸入錯誤查詢詞的問題,并根據(jù)用戶搜索意圖返回正確的搜索結(jié)果。

    將本文改進的方法與僅使用拼音編輯距離糾錯及模糊匹配的方法進行比較,實驗結(jié)果如圖4所示。

    之后將本文改進的方法與僅使用單一統(tǒng)計方法進行比較。如陳智鵬等提出的完全通過分析上下文統(tǒng)計信息的方法,根據(jù)中文語言特點,在對大規(guī)模中文語料庫建立N-gram模型的基礎(chǔ)上,通過計算TF/DF權(quán)重的方式獲得最優(yōu)糾錯結(jié)果,實現(xiàn)對搜索引擎中關(guān)鍵詞的自動查錯與糾錯。實驗結(jié)果如圖5所示。

    從實驗結(jié)果可以得到以下結(jié)論:

    (1)測試集大小直接影響實驗的準(zhǔn)確率和召回率,本文提出的糾錯方法在測試集為110K時,準(zhǔn)確率和召回率均達到最高。

    (2)通過圖4實驗可知,本文針對第二類錯誤使用模糊匹配結(jié)合最小編輯距離的方法,能夠彌補單獨使用模糊匹配方法無法解決字間顛倒問題的缺陷,能更有效地糾正由于多字、少字、異位及別字引起的錯誤。

    (3)通過圖3與圖5對比可知,本文提出的糾錯方法相比基于N-gram模型的糾錯方法,在測試集達到110K時準(zhǔn)確率提高了4.8%。

    4 結(jié)語

    本文提出基于搜索引擎日志的糾錯方法,該方法首先對日志進行分析與分類,總結(jié)出不同錯誤類型,并基于此提出糾錯方案。針對因輸入法導(dǎo)致的拼音錯誤,本文參考并改進曹犟等提出的基于拼音改良的編輯方法進行糾錯;針對多字、少字、異位及別字引起的錯誤,本文使用模糊匹配結(jié)合最小編輯距離方法進行糾錯。通過實驗,本文方法在實際中具有一定可行性,一定程度上提升了用戶滿意度。但該方法還存在一定不足,例如對新的網(wǎng)絡(luò)流行語會出現(xiàn)誤判等。后期將會考慮實時更新常見的流行語等,以進一步提升糾錯方法的準(zhǔn)確性。

    日本av免费视频播放| 啦啦啦在线观看免费高清www| 免费大片18禁| 亚洲精品第二区| 精品一区二区三卡| 一级毛片黄色毛片免费观看视频| 爱豆传媒免费全集在线观看| 欧美成人a在线观看| 色视频www国产| 欧美一级a爱片免费观看看| av福利片在线观看| 国产一区二区在线观看日韩| 久久99热这里只频精品6学生| 国产美女午夜福利| 午夜免费观看性视频| 天堂中文最新版在线下载| 国产伦精品一区二区三区视频9| 日本爱情动作片www.在线观看| 99热全是精品| 日日摸夜夜添夜夜添av毛片| 91aial.com中文字幕在线观看| 噜噜噜噜噜久久久久久91| 国产老妇伦熟女老妇高清| 一个人免费看片子| av在线蜜桃| 亚洲美女视频黄频| 一区二区三区免费毛片| 精品亚洲成a人片在线观看 | 男女边吃奶边做爰视频| 乱系列少妇在线播放| 少妇精品久久久久久久| 成人亚洲精品一区在线观看 | 国产中年淑女户外野战色| 男女无遮挡免费网站观看| 肉色欧美久久久久久久蜜桃| 日本wwww免费看| 色哟哟·www| 精品久久久久久久久av| 人人妻人人澡人人爽人人夜夜| 交换朋友夫妻互换小说| 黑丝袜美女国产一区| 男人和女人高潮做爰伦理| 国产精品女同一区二区软件| 亚洲va在线va天堂va国产| 免费看日本二区| 亚洲第一av免费看| 色综合色国产| 亚洲欧美一区二区三区黑人 | 亚洲色图av天堂| 亚洲av欧美aⅴ国产| 国产一区二区在线观看日韩| 噜噜噜噜噜久久久久久91| 97热精品久久久久久| 国产淫片久久久久久久久| 亚洲精品日本国产第一区| 一区二区三区乱码不卡18| 久久精品夜色国产| 亚洲人成网站在线播| 精品亚洲成国产av| 蜜桃在线观看..| 国产男女超爽视频在线观看| 国产乱人视频| 国内揄拍国产精品人妻在线| 自拍欧美九色日韩亚洲蝌蚪91 | 亚洲高清免费不卡视频| 秋霞在线观看毛片| 一级爰片在线观看| 欧美区成人在线视频| 久久国产乱子免费精品| 一级a做视频免费观看| 亚洲精品日本国产第一区| 成人一区二区视频在线观看| 国产乱人视频| 亚洲欧美日韩卡通动漫| 老师上课跳d突然被开到最大视频| 国产高清不卡午夜福利| 97超视频在线观看视频| 51国产日韩欧美| 日韩在线高清观看一区二区三区| 精品国产乱码久久久久久小说| 国产高清有码在线观看视频| 尤物成人国产欧美一区二区三区| 人妻夜夜爽99麻豆av| 欧美精品国产亚洲| 少妇人妻精品综合一区二区| 亚洲国产日韩一区二区| 亚洲国产精品专区欧美| 在线 av 中文字幕| 在线播放无遮挡| 国产亚洲5aaaaa淫片| 天堂8中文在线网| 国产精品久久久久久久久免| 国产伦精品一区二区三区四那| 亚洲国产日韩一区二区| 一个人看的www免费观看视频| 日本免费在线观看一区| 亚州av有码| 青春草亚洲视频在线观看| 少妇 在线观看| 91精品一卡2卡3卡4卡| 只有这里有精品99| 男男h啪啪无遮挡| 国产乱人偷精品视频| 夜夜看夜夜爽夜夜摸| 在线观看三级黄色| 青春草国产在线视频| 十八禁网站网址无遮挡 | 美女福利国产在线 | 3wmmmm亚洲av在线观看| 欧美成人a在线观看| 免费黄频网站在线观看国产| 亚洲av国产av综合av卡| 青青草视频在线视频观看| 亚洲精品国产av蜜桃| 久久女婷五月综合色啪小说| 大码成人一级视频| 建设人人有责人人尽责人人享有的 | 中文字幕人妻熟人妻熟丝袜美| 一级毛片黄色毛片免费观看视频| 亚洲精品国产色婷婷电影| 免费看av在线观看网站| 色网站视频免费| 又粗又硬又长又爽又黄的视频| 国产黄色视频一区二区在线观看| 日韩国内少妇激情av| 国内揄拍国产精品人妻在线| 国产片特级美女逼逼视频| 小蜜桃在线观看免费完整版高清| 国产 一区精品| 国产免费视频播放在线视频| 秋霞伦理黄片| av播播在线观看一区| 一二三四中文在线观看免费高清| av在线老鸭窝| 国产精品福利在线免费观看| 亚洲高清免费不卡视频| 午夜视频国产福利| 在线观看一区二区三区| 男人爽女人下面视频在线观看| 日韩一区二区视频免费看| 国产亚洲5aaaaa淫片| 久久 成人 亚洲| tube8黄色片| av网站免费在线观看视频| 狂野欧美激情性xxxx在线观看| 国产69精品久久久久777片| 九草在线视频观看| 色哟哟·www| 亚洲精品中文字幕在线视频 | 永久免费av网站大全| 亚洲精品国产色婷婷电影| 中文字幕制服av| 日本免费在线观看一区| 欧美一区二区亚洲| 国产日韩欧美亚洲二区| 2022亚洲国产成人精品| 毛片一级片免费看久久久久| 久久婷婷青草| 日韩不卡一区二区三区视频在线| 水蜜桃什么品种好| 网址你懂的国产日韩在线| 97超视频在线观看视频| 日韩一区二区三区影片| 99精国产麻豆久久婷婷| 久久人人爽av亚洲精品天堂 | av又黄又爽大尺度在线免费看| 欧美xxxx性猛交bbbb| 国产探花极品一区二区| 最黄视频免费看| 一级毛片我不卡| h视频一区二区三区| 亚洲熟女精品中文字幕| 女性被躁到高潮视频| 国产毛片在线视频| 自拍欧美九色日韩亚洲蝌蚪91 | 国产精品不卡视频一区二区| 99热网站在线观看| 干丝袜人妻中文字幕| 国产男女超爽视频在线观看| 丰满迷人的少妇在线观看| 久久久久久久国产电影| 精品熟女少妇av免费看| 黄色怎么调成土黄色| 老熟女久久久| 精品人妻偷拍中文字幕| 久久韩国三级中文字幕| 亚洲人成网站在线观看播放| 黄片wwwwww| 日本欧美国产在线视频| 国产在线视频一区二区| 啦啦啦在线观看免费高清www| 国产无遮挡羞羞视频在线观看| 亚洲色图av天堂| 中文精品一卡2卡3卡4更新| 99热全是精品| 插逼视频在线观看| 超碰av人人做人人爽久久| 中文在线观看免费www的网站| 久久久亚洲精品成人影院| 国产成人免费无遮挡视频| 男女无遮挡免费网站观看| 欧美日韩精品成人综合77777| 亚洲欧美清纯卡通| 成人高潮视频无遮挡免费网站| 久久久久视频综合| 成年av动漫网址| 亚洲av欧美aⅴ国产| 高清不卡的av网站| 91精品一卡2卡3卡4卡| 美女国产视频在线观看| 成年免费大片在线观看| 永久网站在线| 大片免费播放器 马上看| 另类亚洲欧美激情| 丰满人妻一区二区三区视频av| 免费在线观看成人毛片| 寂寞人妻少妇视频99o| 欧美日韩视频高清一区二区三区二| 精品亚洲成a人片在线观看 | 亚洲人成网站高清观看| 亚洲欧美成人综合另类久久久| 最近2019中文字幕mv第一页| 国产白丝娇喘喷水9色精品| 国产精品免费大片| 观看免费一级毛片| 国内揄拍国产精品人妻在线| 韩国高清视频一区二区三区| 国产女主播在线喷水免费视频网站| 久久6这里有精品| 日韩欧美一区视频在线观看 | 97热精品久久久久久| 国产成人精品婷婷| 久久久久久久国产电影| 久久精品人妻少妇| 深爱激情五月婷婷| 欧美97在线视频| 免费播放大片免费观看视频在线观看| 热re99久久精品国产66热6| 你懂的网址亚洲精品在线观看| 18禁在线播放成人免费| 国产在线男女| av又黄又爽大尺度在线免费看| 晚上一个人看的免费电影| 国产女主播在线喷水免费视频网站| 久久韩国三级中文字幕| 99国产精品免费福利视频| 国产男人的电影天堂91| videos熟女内射| av在线观看视频网站免费| 亚洲欧美清纯卡通| 成人免费观看视频高清| 少妇裸体淫交视频免费看高清| 日本欧美视频一区| 亚洲综合色惰| 亚洲精品国产av蜜桃| freevideosex欧美| 下体分泌物呈黄色| 亚洲av二区三区四区| 成人18禁高潮啪啪吃奶动态图 | 老司机影院成人| 黄色一级大片看看| 久久综合国产亚洲精品| 少妇的逼水好多| 18禁裸乳无遮挡动漫免费视频| 晚上一个人看的免费电影| 久久精品人妻少妇| 国产 精品1| 夫妻性生交免费视频一级片| 女人十人毛片免费观看3o分钟| 国产淫语在线视频| 五月玫瑰六月丁香| tube8黄色片| 国内揄拍国产精品人妻在线| 女的被弄到高潮叫床怎么办| 亚洲美女黄色视频免费看| 下体分泌物呈黄色| 成人毛片60女人毛片免费| 亚洲高清免费不卡视频| 国产成人freesex在线| 日韩av免费高清视频| 亚洲av在线观看美女高潮| 国产午夜精品久久久久久一区二区三区| 亚洲四区av| 成人亚洲精品一区在线观看 | 亚洲人成网站在线观看播放| 国产精品三级大全| 国产色婷婷99| 久久久久久久久大av| 香蕉精品网在线| 久久久午夜欧美精品| 日本一二三区视频观看| 性高湖久久久久久久久免费观看| 国产黄片视频在线免费观看| 国产毛片在线视频| 国产精品女同一区二区软件| 日日摸夜夜添夜夜添av毛片| 中国国产av一级| 亚洲三级黄色毛片| 亚洲精品色激情综合| 欧美成人午夜免费资源| 日韩伦理黄色片| 亚洲国产色片| 一个人看视频在线观看www免费| 国产国拍精品亚洲av在线观看| 亚洲av不卡在线观看| .国产精品久久| 久久人人爽av亚洲精品天堂 | 久久6这里有精品| 国产伦理片在线播放av一区| 99九九线精品视频在线观看视频| 91狼人影院| 多毛熟女@视频| 少妇精品久久久久久久| 久久久久视频综合| 国产日韩欧美在线精品| 久久精品熟女亚洲av麻豆精品| 成人黄色视频免费在线看| 国产精品久久久久久精品电影小说 | 亚洲精品色激情综合| 精品亚洲乱码少妇综合久久| 亚洲怡红院男人天堂| 亚洲精品456在线播放app| 亚洲精品日韩在线中文字幕| 日本av手机在线免费观看| 午夜视频国产福利| 国产亚洲最大av| 男女无遮挡免费网站观看| 久久久久视频综合| 成人美女网站在线观看视频| 99久久中文字幕三级久久日本| 久久精品国产亚洲av天美| av免费观看日本| 久久精品夜色国产| 久久精品人妻少妇| 日韩一区二区三区影片| 亚洲欧美精品专区久久| 啦啦啦啦在线视频资源| 亚洲精品久久久久久婷婷小说| 下体分泌物呈黄色| 91午夜精品亚洲一区二区三区| 久久久色成人| 我的老师免费观看完整版| videossex国产| 欧美激情极品国产一区二区三区 | 九九在线视频观看精品| 日本一二三区视频观看| 身体一侧抽搐| 熟女人妻精品中文字幕| 中文字幕av成人在线电影| 亚洲国产精品成人久久小说| 久久久亚洲精品成人影院| 国产精品一区www在线观看| 永久免费av网站大全| 日韩亚洲欧美综合| 日韩欧美 国产精品| 精品一区二区三区视频在线| 亚洲精品aⅴ在线观看| 精品一区二区三区视频在线| 纵有疾风起免费观看全集完整版| 免费观看的影片在线观看| 亚洲av二区三区四区| 在线观看免费高清a一片| 岛国毛片在线播放| 亚洲婷婷狠狠爱综合网| 精品国产露脸久久av麻豆| 一级毛片我不卡| 国产熟女欧美一区二区| 国产精品嫩草影院av在线观看| 大陆偷拍与自拍| 一级毛片我不卡| 美女脱内裤让男人舔精品视频| 国产免费一区二区三区四区乱码| 欧美区成人在线视频| 国语对白做爰xxxⅹ性视频网站| 欧美区成人在线视频| 亚洲综合精品二区| 大话2 男鬼变身卡| 黄色视频在线播放观看不卡| 亚洲精品视频女| 欧美xxxx性猛交bbbb| 国产乱人视频| 建设人人有责人人尽责人人享有的 | 激情五月婷婷亚洲| 18+在线观看网站| 国产精品一区二区在线不卡| 一个人看视频在线观看www免费| 亚洲精品久久午夜乱码| 人人妻人人澡人人爽人人夜夜| 国产免费一区二区三区四区乱码| 久久人妻熟女aⅴ| 久久久色成人| 男女边摸边吃奶| 少妇 在线观看| 日产精品乱码卡一卡2卡三| 国产亚洲一区二区精品| 哪个播放器可以免费观看大片| 一级av片app| 日本午夜av视频| 亚洲成人一二三区av| 国产精品福利在线免费观看| 亚洲精品国产av蜜桃| 日本wwww免费看| av黄色大香蕉| 自拍欧美九色日韩亚洲蝌蚪91 | 国产爱豆传媒在线观看| 国产乱来视频区| 国产午夜精品久久久久久一区二区三区| 国产一级毛片在线| 五月伊人婷婷丁香| 欧美日韩亚洲高清精品| 国产成人免费观看mmmm| 国产日韩欧美在线精品| 精品一区在线观看国产| 国产一区二区三区综合在线观看 | 国产男女超爽视频在线观看| 一本一本综合久久| 91午夜精品亚洲一区二区三区| 人妻系列 视频| freevideosex欧美| 亚洲精品国产av成人精品| 中国美白少妇内射xxxbb| 成人影院久久| 十八禁网站网址无遮挡 | 99久久人妻综合| 国产一区二区在线观看日韩| 99热全是精品| 成人毛片a级毛片在线播放| 欧美xxxx性猛交bbbb| 亚洲欧美精品专区久久| av线在线观看网站| 免费不卡的大黄色大毛片视频在线观看| 伊人久久国产一区二区| 2018国产大陆天天弄谢| 国产成人一区二区在线| 国产精品久久久久久av不卡| 男女免费视频国产| 麻豆乱淫一区二区| 国内揄拍国产精品人妻在线| 在线观看一区二区三区激情| 久久久精品94久久精品| 在线精品无人区一区二区三 | 我的老师免费观看完整版| 51国产日韩欧美| 亚洲av电影在线观看一区二区三区| 国产精品人妻久久久久久| 色视频在线一区二区三区| 黄色一级大片看看| 2021少妇久久久久久久久久久| 国产永久视频网站| 国产v大片淫在线免费观看| 成人国产麻豆网| 国产精品麻豆人妻色哟哟久久| 99久国产av精品国产电影| 纵有疾风起免费观看全集完整版| 韩国高清视频一区二区三区| 国内揄拍国产精品人妻在线| 久久国产精品男人的天堂亚洲 | 久久久久久久久久久免费av| 色婷婷久久久亚洲欧美| 久久99蜜桃精品久久| 欧美极品一区二区三区四区| 一本色道久久久久久精品综合| 久久精品熟女亚洲av麻豆精品| 99九九线精品视频在线观看视频| 波野结衣二区三区在线| 在线 av 中文字幕| 亚洲美女黄色视频免费看| 中文字幕免费在线视频6| 国产成人91sexporn| 国产色婷婷99| 观看美女的网站| 夫妻性生交免费视频一级片| 水蜜桃什么品种好| 少妇被粗大猛烈的视频| 国产一区有黄有色的免费视频| 91久久精品国产一区二区三区| 久久久久国产网址| 国内精品宾馆在线| 亚洲精品,欧美精品| 亚洲图色成人| 国产亚洲午夜精品一区二区久久| 色5月婷婷丁香| 91精品伊人久久大香线蕉| 亚洲欧美精品自产自拍| 久久精品久久久久久久性| 日韩制服骚丝袜av| 青春草视频在线免费观看| 青春草亚洲视频在线观看| 国产黄片美女视频| 水蜜桃什么品种好| 男女下面进入的视频免费午夜| 亚洲第一av免费看| 人人妻人人添人人爽欧美一区卜 | 黑人猛操日本美女一级片| 精品少妇黑人巨大在线播放| 春色校园在线视频观看| 亚洲精品,欧美精品| 亚洲国产精品国产精品| 亚洲精品国产成人久久av| 黄色配什么色好看| 精品一区二区三区视频在线| 精华霜和精华液先用哪个| 久久精品国产a三级三级三级| 久久人人爽人人爽人人片va| 国产一区二区三区综合在线观看 | 国产精品无大码| 中文字幕人妻熟人妻熟丝袜美| 久久久精品94久久精品| 亚洲经典国产精华液单| 久久精品夜色国产| 精品久久久久久电影网| 人人妻人人看人人澡| 日本爱情动作片www.在线观看| 最近中文字幕2019免费版| 狂野欧美白嫩少妇大欣赏| 免费播放大片免费观看视频在线观看| 亚洲丝袜综合中文字幕| 久久国产亚洲av麻豆专区| 寂寞人妻少妇视频99o| 婷婷色av中文字幕| 自拍欧美九色日韩亚洲蝌蚪91 | 精品久久久久久久久亚洲| 丝瓜视频免费看黄片| 日韩av免费高清视频| 久久久久国产网址| 丝袜脚勾引网站| 久久精品国产自在天天线| 免费人成在线观看视频色| 久久97久久精品| 永久免费av网站大全| 亚洲国产成人一精品久久久| 免费久久久久久久精品成人欧美视频 | 日本色播在线视频| 久久国产精品男人的天堂亚洲 | 欧美+日韩+精品| 亚洲国产欧美在线一区| 黄色欧美视频在线观看| 男女边吃奶边做爰视频| 国产午夜精品一二区理论片| 色视频在线一区二区三区| 亚洲经典国产精华液单| 国产精品熟女久久久久浪| 亚洲精品视频女| 极品教师在线视频| 精品国产三级普通话版| 亚洲不卡免费看| 精品人妻视频免费看| 成人二区视频| 哪个播放器可以免费观看大片| 男人狂女人下面高潮的视频| 成人黄色视频免费在线看| 免费看日本二区| 日韩中字成人| 亚洲av在线观看美女高潮| 一本色道久久久久久精品综合| 美女中出高潮动态图| 伦理电影免费视频| 精品少妇黑人巨大在线播放| 亚洲成人手机| 夜夜看夜夜爽夜夜摸| 国产美女午夜福利| 亚洲精品,欧美精品| 午夜精品国产一区二区电影| 亚洲av男天堂| 中文字幕久久专区| 在线观看国产h片| 大香蕉久久网| 亚洲婷婷狠狠爱综合网| 身体一侧抽搐| 麻豆乱淫一区二区| 99热国产这里只有精品6| 国产亚洲av片在线观看秒播厂| 九色成人免费人妻av| 亚洲国产精品999| 色视频在线一区二区三区| 日韩在线高清观看一区二区三区| 青春草亚洲视频在线观看| 一个人看视频在线观看www免费| av国产精品久久久久影院| 亚洲经典国产精华液单| 亚洲va在线va天堂va国产| 三级国产精品欧美在线观看| 欧美xxxx性猛交bbbb| 日本午夜av视频| 国产大屁股一区二区在线视频| 麻豆国产97在线/欧美| 免费少妇av软件| 国产精品欧美亚洲77777| 国产免费又黄又爽又色| 深爱激情五月婷婷| 一级毛片黄色毛片免费观看视频| 亚洲欧美日韩另类电影网站 | 黄色怎么调成土黄色| 在线精品无人区一区二区三 | 国产在线免费精品| 午夜老司机福利剧场| 欧美三级亚洲精品| 51国产日韩欧美| 少妇被粗大猛烈的视频| 国产日韩欧美在线精品| 欧美一区二区亚洲| 美女脱内裤让男人舔精品视频| 久久精品国产亚洲网站| 日本vs欧美在线观看视频 | 欧美xxⅹ黑人| 少妇 在线观看| 日韩制服骚丝袜av| 久久毛片免费看一区二区三区| av卡一久久| 亚洲精品日韩在线中文字幕| 国产在线一区二区三区精| 狂野欧美激情性xxxx在线观看| 黑丝袜美女国产一区| a级毛色黄片| 18禁裸乳无遮挡动漫免费视频|