• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于統(tǒng)計(jì)的地質(zhì)專業(yè)詞語(yǔ)識(shí)別方法

    2020-06-19 08:45:58王宏朱學(xué)立曾濤喬?hào)|玉郭甲騰
    軟件導(dǎo)刊 2020年4期
    關(guān)鍵詞:成詞新詞分詞

    王宏 朱學(xué)立 曾濤 喬?hào)|玉 郭甲騰

    摘要:中文分詞是地質(zhì)大數(shù)據(jù)智能化知識(shí)挖掘難以回避的第一道基本工序?;诮y(tǒng)計(jì)的分詞方法受語(yǔ)料影響,跨領(lǐng)域適應(yīng)性較差?;谠~典的分詞方法可以直接利用領(lǐng)域詞典進(jìn)行分詞,但不能解決未登錄詞識(shí)別問題。在領(lǐng)域語(yǔ)料不足的情況下,為提高地質(zhì)文本分詞的準(zhǔn)確率和未登錄詞識(shí)別率,提出一種基于統(tǒng)計(jì)的中文地質(zhì)詞語(yǔ)識(shí)別方法。該方法基于質(zhì)串思想構(gòu)建了地質(zhì)基本詞典庫(kù),用以改善統(tǒng)計(jì)分詞方法在地質(zhì)文本分詞上的適應(yīng)性。采用重復(fù)串查找方法得到地質(zhì)詞語(yǔ)候選集,并使用上下文鄰接以及基于位置成詞的概率詞典,對(duì)地質(zhì)詞語(yǔ)候選集進(jìn)行過濾,最終實(shí)現(xiàn)地質(zhì)詞語(yǔ)識(shí)別。實(shí)驗(yàn)結(jié)果表明,使用該方法對(duì)地質(zhì)專業(yè)詞語(yǔ)識(shí)別準(zhǔn)確率達(dá)到81.6%,比通用統(tǒng)計(jì)分詞方法提高了近60%。該方法能夠識(shí)別地質(zhì)文本中的未登錄詞,并保證地質(zhì)分詞的準(zhǔn)確率,可以應(yīng)用到地質(zhì)文本分詞工作中。

    關(guān)鍵詞:地質(zhì)文本;中文分詞;質(zhì)串;重復(fù)串;上下文鄰接;位置成詞概率

    DOI: 10. 11907/rjdk.191648

    開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

    中圖分類號(hào):TP391

    文獻(xiàn)標(biāo)識(shí)碼:A

    文章編號(hào):1672-7800( 2020)004-0211-08

    0 引言

    地質(zhì)大數(shù)據(jù)是信息時(shí)代背景下大數(shù)據(jù)理念、技術(shù)和方法在地質(zhì)領(lǐng)域的應(yīng)用與實(shí)踐,地質(zhì)調(diào)查工作是獲取地質(zhì)大數(shù)據(jù)的主要途徑。地質(zhì)調(diào)查工作產(chǎn)生了諸如地質(zhì)圖件、文本、表格等類型資料。目前,基于大數(shù)據(jù)平臺(tái)的非結(jié)構(gòu)化地質(zhì)數(shù)據(jù)組織、存儲(chǔ)和快速發(fā)現(xiàn)問題已基本得到解決,但在此基礎(chǔ)上構(gòu)建智能化的地質(zhì)知識(shí)挖掘系統(tǒng)仍需探索。

    文本是地質(zhì)大數(shù)據(jù)重要的數(shù)據(jù)形式,自然語(yǔ)言是文本信息的重要載體。詞是最小的能夠獨(dú)立運(yùn)用的語(yǔ)言單位…,但由于中文詞匯之間沒有明確的分界符,需要先進(jìn)行分詞才能作進(jìn)一步的自然語(yǔ)言處理[2]。從信息處理角度看,地質(zhì)文本是利用自然語(yǔ)言編寫的地質(zhì)特點(diǎn)鮮明的語(yǔ)義數(shù)據(jù)[3]。中文分詞是智能化地質(zhì)知識(shí)挖掘基礎(chǔ),對(duì)地質(zhì)文檔全文檢索、文本分類、自動(dòng)文摘、地質(zhì)文檔信息抽取及自動(dòng)翻譯等應(yīng)用具有重大意義。

    在通用領(lǐng)域分詞中,基于統(tǒng)計(jì)的分詞方法應(yīng)用廣泛。隱馬爾科夫模型( Hidden Markov Model,HMM)[4]、條件隨機(jī)場(chǎng)模型( Conditional Random Fields,CRFs)[5]和最大熵馬爾科夫模型( Maximum Entropy Markov Model,MEMM)[6]等是統(tǒng)計(jì)分詞方法中主要的分詞模型。在專業(yè)領(lǐng)域分詞中往往存在大量的專業(yè)詞匯,使得分詞效果不佳。為了改進(jìn)專業(yè)領(lǐng)域中文分詞效果,學(xué)者們開展了大量研究工作。如Huan等[7]采用一種新型的個(gè)性化分詞詞典對(duì)網(wǎng)絡(luò)個(gè)性化服務(wù)中用戶的瀏覽文檔進(jìn)行分詞。該方法受專業(yè)詞典所限,對(duì)未被收錄進(jìn)詞典中的詞匯識(shí)別率較低;Qi等[8]將專業(yè)詞典特征與字向量相結(jié)合,使用神經(jīng)網(wǎng)絡(luò)模型解決跨領(lǐng)域分詞適應(yīng)性問題,但該方法受訓(xùn)練語(yǔ)料影響較大。Bao等[9]通過使用雙向馬爾科夫鏈對(duì)正向最大匹配算法和詞頻統(tǒng)計(jì)算法進(jìn)行改進(jìn),實(shí)現(xiàn)對(duì)特定領(lǐng)域文本快速、較為準(zhǔn)確的分詞,但沒有考慮詞語(yǔ)的上下文信息,分詞效果仍有改進(jìn)空間。

    中文分詞技術(shù)在地質(zhì)領(lǐng)域應(yīng)用不夠廣泛,相關(guān)研究不多。Lan等[10]基于條件隨機(jī)場(chǎng)模型構(gòu)建了針對(duì)地學(xué)領(lǐng)域的分詞方法,較好地識(shí)別出地質(zhì)礦產(chǎn)類術(shù)語(yǔ),但其采用自定義的方法對(duì)訓(xùn)練語(yǔ)料進(jìn)行標(biāo)注,在語(yǔ)料庫(kù)標(biāo)注、定義規(guī)范程度方面有待提高。陳婧汶等[11]使用一種基于雙語(yǔ)料庫(kù)條件隨機(jī)場(chǎng)模型方法對(duì)地質(zhì)礦產(chǎn)文本進(jìn)行分詞,取得了較好的分詞效果,但所采用的語(yǔ)料規(guī)模較小,分詞性能仍有改進(jìn)空間。通常情況下,獲取大量、規(guī)范的領(lǐng)域語(yǔ)料進(jìn)行模型訓(xùn)練較為困難。因此,針對(duì)地質(zhì)領(lǐng)域語(yǔ)料不足的情況,如何準(zhǔn)確識(shí)別出地質(zhì)專業(yè)詞語(yǔ)從而獲得較好的分詞效果值得研究。本文基于質(zhì)串思想構(gòu)建地質(zhì)基本詞典庫(kù),對(duì)通用分詞器的核心詞典庫(kù)進(jìn)行擴(kuò)充,在此基礎(chǔ)上提出一種基于統(tǒng)計(jì)的中文地質(zhì)詞語(yǔ)識(shí)別方法。采用重復(fù)串查找方法得到地質(zhì)詞語(yǔ)候選集,使用上下文鄰接以及基于位置成詞的概率詞典對(duì)地質(zhì)詞語(yǔ)候選集進(jìn)行過濾,最終實(shí)現(xiàn)對(duì)地質(zhì)詞語(yǔ)的識(shí)別。

    1 中文地質(zhì)文本分詞

    1.1 中文分詞技術(shù)

    漢語(yǔ)中的漢字是書面表達(dá)的最小單位,但在含義表達(dá)和相關(guān)信息處理中,詞才是最小的語(yǔ)言成分。在漢語(yǔ)文本中,將詞與詞之間加上區(qū)分標(biāo)記是中文分詞的主要目的,也是任何中文自然語(yǔ)言應(yīng)用都必須進(jìn)行的第一道基本工序[12]。只有完成了漢語(yǔ)文本的自動(dòng)分詞,才能采用各種后續(xù)語(yǔ)言分析手段實(shí)現(xiàn)相應(yīng)的智能應(yīng)用。目前中文分詞已被應(yīng)用在信息檢索、自動(dòng)文摘、機(jī)器翻譯、同音字和多音字識(shí)別、文本校對(duì)、搜索引擎等方面。

    基于詞典的機(jī)械分詞、基于語(yǔ)法和規(guī)則的分詞以及基于統(tǒng)計(jì)的分詞,是中文分詞領(lǐng)域的3種分詞方法?;谠~典的機(jī)械分詞在分詞過程中利用詞典作為主要資源,將文檔中的字符串在詞典中進(jìn)行查找。如果找到,則進(jìn)行切分,否則不予切分。由于可以利用相關(guān)領(lǐng)域的專業(yè)詞典,因此該方法具有較高的領(lǐng)域自適應(yīng)性,但不能很好地解決未登錄詞識(shí)別以及分詞歧義問題,而且詞典的完備性不能得到保證?;谡Z(yǔ)法和規(guī)則的分詞法,其基本思想是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息進(jìn)行詞性標(biāo)注,以解決分詞歧義現(xiàn)象。因?yàn)檎Z(yǔ)法知識(shí)、句法規(guī)則十分復(fù)雜,基于語(yǔ)法和規(guī)則的分詞法所能達(dá)到的精確程度遠(yuǎn)遠(yuǎn)不能令人滿意[13]?;诮y(tǒng)計(jì)的分詞法是目前自然語(yǔ)言處理領(lǐng)域的主流分詞方法,該方法在已經(jīng)切分好的分詞語(yǔ)料庫(kù)基礎(chǔ)上進(jìn)行統(tǒng)計(jì)訓(xùn)練,建立語(yǔ)言模型并最終實(shí)現(xiàn)分詞解碼。在跨領(lǐng)域使用統(tǒng)計(jì)分詞方法時(shí),必須根據(jù)相應(yīng)領(lǐng)域的分詞訓(xùn)練語(yǔ)料進(jìn)行語(yǔ)言模型訓(xùn)練,但是分詞訓(xùn)練語(yǔ)料需要大量專業(yè)人員參與,獲取代價(jià)高昂。

    1.2 中文地質(zhì)文本特點(diǎn)

    地質(zhì)文本指在各類地質(zhì)工作中產(chǎn)生的文字性材料,包括各類地質(zhì)報(bào)告、科技文獻(xiàn)、觀測(cè)記錄、質(zhì)量檢查記錄以及質(zhì)量體系運(yùn)行的相關(guān)材料等。本文的地質(zhì)文本包括各類地質(zhì)報(bào)告、地質(zhì)科技文獻(xiàn)等技術(shù)性文字材料。地質(zhì)報(bào)告是完成下達(dá)的地質(zhì)工作任務(wù)后,在系統(tǒng)整理和綜合研究各種相關(guān)資料基礎(chǔ)上編寫的反映地質(zhì)工作成果的重要技術(shù)文件。地質(zhì)科技文獻(xiàn)是分析、研究、闡述地質(zhì)科學(xué)技術(shù)問題的文章,是地質(zhì)研究成果的書面表達(dá),是地質(zhì)客觀事物和科學(xué)規(guī)律的總結(jié)與闡釋[14]。

    地質(zhì)文本相較于一般技術(shù)性文本,不僅具有結(jié)構(gòu)嚴(yán)密、邏輯關(guān)系明顯、語(yǔ)言嚴(yán)謹(jǐn)、陳述客觀等特點(diǎn),還具有其自身特點(diǎn)。

    (1)地質(zhì)文本內(nèi)容涉及知識(shí)面廣,領(lǐng)域眾多。地質(zhì)學(xué)涉及學(xué)科廣泛,理論知識(shí)龐大、紛繁復(fù)雜。諸如自然科學(xué)中的數(shù)學(xué)、物理、化學(xué),社會(huì)科學(xué)中的哲學(xué)、歷史等,都與地質(zhì)學(xué)研究緊密相關(guān),形成一系列交叉學(xué)科,如數(shù)學(xué)地質(zhì)、地球物理、地球化學(xué)、地史學(xué)等[15]。同樣,地質(zhì)工作涉及多種工作手段,如地質(zhì)填圖、鉆探工程、物探、化探、巖礦測(cè)試等。一項(xiàng)地質(zhì)工作往往需要通過多種工作手段的實(shí)施才能得以完成,因此所形成的地質(zhì)文本內(nèi)容涉及專業(yè)領(lǐng)域眾多,知識(shí)面廣。

    (2)地質(zhì)文本形式多樣。地質(zhì)文本源于地質(zhì)工作的實(shí)施,地質(zhì)工作性質(zhì)決定著地質(zhì)文本的性質(zhì)。地質(zhì)工作實(shí)踐性很強(qiáng),在地質(zhì)工作實(shí)施過程中,會(huì)產(chǎn)生不同類型的地質(zhì)文本,如在固體礦產(chǎn)勘查工作實(shí)施過程中,會(huì)形成地質(zhì)填圖、剖面測(cè)量、探礦工程、采樣及樣品測(cè)試分析等工作手段相關(guān)的技術(shù)類文檔資料。在同一工作手段下,也往往包含不同種類的地質(zhì)文本,如在開展地質(zhì)填圖工作過程中會(huì)產(chǎn)生各類野外記錄,包括地質(zhì)觀察點(diǎn)記錄、實(shí)測(cè)剖面記錄、重砂取樣記錄、物化探測(cè)量記錄、物化探取樣記錄、礦產(chǎn)調(diào)查記錄等。

    (3)地質(zhì)文本中包含了海量專業(yè)詞匯。地質(zhì)學(xué)作為自然科學(xué)的一大分支,經(jīng)過長(zhǎng)期的認(rèn)識(shí)和探索,形成了一個(gè)相對(duì)獨(dú)立的學(xué)科體系,包含了大量富有學(xué)科特色的專業(yè)術(shù)語(yǔ)。如文獻(xiàn)[16]在地質(zhì)專業(yè)詞匯中,礦物名稱、巖石名稱、化石(古生物)名稱占比很大。以巖石名稱為例,在沉積巖、變質(zhì)巖、巖漿巖基礎(chǔ)上細(xì)分而來的巖石種類有上千種。同時(shí),由于采用的分類方法不同而產(chǎn)生更加繁多的巖石命名。地質(zhì)學(xué)在與不同學(xué)科的交叉滲透中形成了眾多邊緣學(xué)科,這些學(xué)科的興起增加了地質(zhì)詞匯量[17]。

    (4)地質(zhì)文本具有專業(yè)的表達(dá)形式。任何一門學(xué)科都有其特有的表達(dá)形式,如化學(xué)用分子式表述、電學(xué)用正負(fù)號(hào)表述、數(shù)學(xué)用方程式表述等。在地質(zhì)文本中,除了使用自然語(yǔ)言外,還需要大量使用圖、表、符號(hào)、公式等。其中,圖表是地質(zhì)文本常見的兩種表述方法。在地質(zhì)文本中,表格具有形式簡(jiǎn)潔、內(nèi)容豐富、信息可靠、層次清晰等特點(diǎn),常用來表達(dá)背景條件、比較前提、使用方法、實(shí)測(cè)(或?qū)嶒?yàn)數(shù)據(jù))、統(tǒng)計(jì)資料、誤差分析、對(duì)比分析等內(nèi)容。地質(zhì)圖件是地質(zhì)成果的載體,是地質(zhì)文本的核心內(nèi)容,也是地質(zhì)學(xué)最好的表述方式。只要有地質(zhì)工作,就必然要編繪地質(zhì)圖件,哪里有地質(zhì)工作,哪里就有地質(zhì)圖件[8]。很多實(shí)際應(yīng)用中,僅靠對(duì)文字報(bào)告的理解掌握相應(yīng)的地質(zhì)資料是比較困難的。相反,一張精確的圖件,再配以文字表述才能更好地理解資料。

    (5)客觀陳述性描述(定性與定量描述)。觀察經(jīng)驗(yàn)事實(shí)并加以歸納的認(rèn)識(shí)方法是地質(zhì)學(xué)的基本方法[18],在地質(zhì)文本中存在大量的定性描述,如在描述一塊巖石時(shí),主要從巖石的顏色、結(jié)構(gòu)、構(gòu)造、主要礦物組成等方面進(jìn)行描述并獲得巖石定名。在地質(zhì)研究中,只做到定性描述地質(zhì)現(xiàn)象是不夠的,除定性敘述外,還應(yīng)該有嚴(yán)密的量化數(shù)據(jù),比如礦物成分、地質(zhì)體厚度、礦體品位等。在地質(zhì)工作過程中,定性描述與定量描述是相互統(tǒng)一、互為補(bǔ)充的。例如,在巖石描述與定名中,除了強(qiáng)調(diào)從巖石的各個(gè)特征進(jìn)行描述外,還需要對(duì)礦物成分做估算,這有助于提高巖石定名的準(zhǔn)確度。

    1.3 地質(zhì)詞語(yǔ)特征

    地質(zhì)學(xué)是完全由國(guó)外輸入的一門近代科學(xué)[19],因此地質(zhì)詞語(yǔ)中有相當(dāng)一部分詞來自外文直譯,如角閃巖、花崗巖、白堊、侏羅、三疊等。與此同時(shí),在地質(zhì)學(xué)發(fā)展過程中,有許多名詞實(shí)際上是物理化學(xué)生物及其它有關(guān)學(xué)科借用而來的,特別常見于礦物和古生物名詞,如礦物學(xué)中的大批化學(xué)名詞、結(jié)晶學(xué)中的幾何名詞。相關(guān)學(xué)科對(duì)地質(zhì)學(xué)影響很大,不但借用了許多名詞,甚至連造名詞方法也全部應(yīng)用。如古生物學(xué)上的命名法仍然完全采用生物學(xué)上的命名法,即用希臘文用作屬名拉丁文用作種名。

    地質(zhì)學(xué)經(jīng)過不斷發(fā)展產(chǎn)生了大量地質(zhì)專業(yè)詞匯,形成了一套嚴(yán)密的命名原則和方法,具有明顯的專業(yè)性、科學(xué)性、簡(jiǎn)明性和系統(tǒng)性。例如,巖石地層單位可分為正式巖石地層單位(群、組、段、層等)和非正式地層單位(帶、凸鏡體、巖丘、礁等),非正式巖石地層單位的地理專名不能與“組”、“段”、“層”等術(shù)語(yǔ)連用,以區(qū)別正式地層單位。

    中文地質(zhì)詞匯在構(gòu)成上遵循漢語(yǔ)規(guī)律,大部分詞語(yǔ)都是由單音節(jié)或雙音節(jié)構(gòu)成的,富有漢語(yǔ)特征,簡(jiǎn)明扼要而含意深刻。有的一字、一詞都確切反映出概念的分化原則,清晰地區(qū)分出一事物與它事物的不同,表達(dá)出事物的特征和屬性。地質(zhì)詞匯包含大量的復(fù)合詞,在這些復(fù)合詞中,絕大多數(shù)是復(fù)合名詞。在地質(zhì)詞匯中的復(fù)合名詞(如:地質(zhì)羅盤、鹽丘、鉆頭等)中,前一個(gè)組成部分通常是修飾詞,詞性多為形容詞、名詞、動(dòng)詞等,后一個(gè)組成部分為被修飾詞。除此之外,在地質(zhì)名詞中,往往包含地名、人名,如太原組、山西組、郯廬斷裂等。

    1.4 地質(zhì)文本分詞粒度

    文本應(yīng)用目標(biāo)不同,對(duì)分詞的要求也不同甚至是矛盾的,當(dāng)前技術(shù)水平還做不到百分之百的正確切分。漢語(yǔ)中詞語(yǔ)或詞組的界定還沒有統(tǒng)一確定的標(biāo)準(zhǔn),從而導(dǎo)致不同的信息處理場(chǎng)景對(duì)切分標(biāo)準(zhǔn)有不同要求。

    一般將中文分詞分為兩個(gè)粒度:①粗粒度切分,將詞語(yǔ)作為語(yǔ)言處理最小的基本單位進(jìn)行切分;②細(xì)粒度切分,不僅對(duì)詞匯進(jìn)行切分,還要對(duì)詞匯內(nèi)的語(yǔ)素進(jìn)行切分。

    例如:原始串:河南省西南部為南陽(yáng)盆地,具有明顯的環(huán)狀和階梯狀地貌特征。

    粗粒度切分:河南省/西南部/為/南陽(yáng)盆地,具有/明顯的/環(huán)狀/和/階梯狀/地貌特征。

    細(xì)粒度切分:河南省/西南部/為/南陽(yáng)/盆地,具有/明顯的/環(huán)狀/和/階梯狀/地貌/特征。

    在實(shí)際應(yīng)用中,粗粒度切分和細(xì)粒度切分都有使用范圍。粗粒度切分主要用于自然語(yǔ)言處理的各種應(yīng)用,而細(xì)粒度切分常應(yīng)用于搜索引擎。對(duì)于地質(zhì)文檔檢索系統(tǒng),常用的方案是在索引時(shí)使用細(xì)粒度分詞以保證查全率,在查詢時(shí)使用粗粒度分詞以保證查準(zhǔn)率。

    2 識(shí)別方法

    基于統(tǒng)計(jì)的分詞方法在跨領(lǐng)域應(yīng)用方面存在較大缺陷,而基于詞典的方法由于可以直接使用相應(yīng)領(lǐng)域的詞典進(jìn)行分詞,具有較強(qiáng)的領(lǐng)域適應(yīng)性,且領(lǐng)域?qū)I(yè)詞典的獲取相比語(yǔ)料庫(kù)而言要容易很多。因此,如果把這兩種方法結(jié)合起來,采用統(tǒng)計(jì)的方法合理應(yīng)用詞典,則可實(shí)現(xiàn)對(duì)地質(zhì)專業(yè)詞語(yǔ)的正確切分。

    基于統(tǒng)計(jì)的分詞方法是目前自然語(yǔ)言處理領(lǐng)域的主流分詞方法,比較有代表性的分詞系統(tǒng)為ICTCLAS分詞系統(tǒng)、Ansj中文分詞系統(tǒng)、結(jié)巴分詞等。如果直接使用通用分詞器對(duì)地質(zhì)專業(yè)文檔進(jìn)行分詞,分詞效果往往不佳,主要表現(xiàn)為以下3點(diǎn):①由于通用分詞器所使用的核心詞典對(duì)地質(zhì)專業(yè)詞匯覆蓋不全,即便是最基礎(chǔ)的地質(zhì)詞匯往往也不能正確切分,所以在這些切分錯(cuò)誤中往往會(huì)存在分詞碎片,如包含一些被切分開來的兩個(gè)或兩個(gè)以上的連續(xù)單字,一般情況下這些單字組合就是一個(gè)地質(zhì)詞匯;②新詞判別問題。地質(zhì)分詞是一個(gè)反復(fù)迭代過程,在這個(gè)過程中,需要不斷將發(fā)現(xiàn)的新詞收錄到詞典當(dāng)中。基于統(tǒng)計(jì)的中文分詞器往往具有新詞發(fā)現(xiàn)功能,需要解決如何判斷這些新詞是否正確;③有意義串的提取問題。在地質(zhì)領(lǐng)域中,重要的命名實(shí)體包括地層名、巖石命名、斷裂名、構(gòu)造名、礦體名、礦帶名等。地質(zhì)作為一門實(shí)踐性很強(qiáng)的自然科學(xué),其研究對(duì)象通常具有一定的空間特征,這種特征在地質(zhì)實(shí)體命名時(shí)也有所體現(xiàn),如“東昆侖山多金屬礦帶”、“中天山成礦帶”、“欒川鉬(鎢)礦床”、“龍河林場(chǎng)一滿歸斷裂”等,這些詞匯屬于地質(zhì)術(shù)語(yǔ)范疇,是對(duì)特定地質(zhì)體的表述,在語(yǔ)義上具有唯一性,在領(lǐng)域內(nèi)往往不能拆分理解,如“欒川鉬(鎢)礦床”往往不能理解為“欒川的鉬(鎢)礦床”。有意義串的提取對(duì)提高大數(shù)據(jù)環(huán)境下地質(zhì)文檔查準(zhǔn)率具有重要意義。

    上述3個(gè)問題在自然語(yǔ)言處理領(lǐng)域?qū)儆谛略~識(shí)別問題。在地質(zhì)文檔中,具有地學(xué)意義的地質(zhì)詞語(yǔ)或短語(yǔ)在文檔中會(huì)多次使用,即會(huì)在文檔中反復(fù)出現(xiàn)。因此,找出文檔中的重復(fù)串,便可得到地質(zhì)詞語(yǔ)的候選集合?;诮y(tǒng)計(jì)的分詞法受統(tǒng)計(jì)模型影響,大多只能發(fā)現(xiàn)4個(gè)字以內(nèi)的詞語(yǔ)。基于規(guī)則的分析法領(lǐng)域局限性大,如果切換領(lǐng)域就需要重建規(guī)則,而通過重復(fù)串查找獲得的地質(zhì)詞語(yǔ)候選集合不局限于字?jǐn)?shù)和領(lǐng)域。

    重復(fù)串查找分為基于字的重復(fù)串查找及基于詞的重復(fù)串查找,基于詞的重復(fù)串查找需要預(yù)先對(duì)文本進(jìn)行切分。本次地質(zhì)詞語(yǔ)識(shí)別建立在通用分詞器切分結(jié)果的基礎(chǔ)上,因此采用基于詞的重復(fù)串查找。在使用通用分詞器進(jìn)行切分時(shí),地質(zhì)詞語(yǔ)一般都是被切散,分為以下4種情況:①被切分為單字之間的組合。例如:“區(qū)調(diào)”被切為“區(qū)/調(diào)”,“水工環(huán)”被切分為“水/工/環(huán)”;②被切分為多字詞和單字的組合。例如:“古侵入體/”被切分成“古/侵入/體”,“三疊系”被切分成“三疊/系”,“倒轉(zhuǎn)背斜”被切分成“倒/轉(zhuǎn)/背斜”;③被切分為多字詞之間的組合。例如:“中國(guó)地調(diào)局”被切分成“中國(guó)/地調(diào)局”,“河南省地質(zhì)調(diào)查院”被切分成“河南省/地質(zhì)/調(diào)查院”;④在切分結(jié)果中,本應(yīng)組合成詞的多個(gè)字與其它字/詞組合。例如:“太古宇太華巖群”在切分時(shí)切成“太/古宇太華/巖群”,“煤窯溝組”切分成“煤窯/溝組”,“變長(zhǎng)石石英砂巖”切分為“變長(zhǎng)/石石英砂巖”。

    對(duì)于前3種情況,當(dāng)新詞在文檔中出現(xiàn)不少于兩次時(shí),采用重復(fù)串查找就可得到。在少量文檔下進(jìn)行地質(zhì)詞語(yǔ)提取時(shí),第4種情況會(huì)影響詞語(yǔ)發(fā)現(xiàn),這種情況的發(fā)生與分詞器所使用的語(yǔ)言模型相關(guān)。地質(zhì)分詞是一個(gè)反復(fù)迭代的過程,在這個(gè)過程中,分詞結(jié)果也處于動(dòng)態(tài)修正狀態(tài)。

    雖然重復(fù)串查找可以發(fā)現(xiàn)文檔中出現(xiàn)次數(shù)很少的新詞,但由于詞與詞之間的搭配非常多,因而在所獲得的集合中存在較多垃圾串。在地質(zhì)文檔中,重復(fù)串不僅包含了地質(zhì)術(shù)語(yǔ),還存在大量垃圾串。地質(zhì)專業(yè)詞語(yǔ)識(shí)別的實(shí)質(zhì)就是在重復(fù)串發(fā)現(xiàn)的基礎(chǔ)上過濾掉無意義的垃圾串。垃圾串一般分為3類:①冗余子串,例如“碳酸鹽”這樣的串包含在“碳酸鹽巖”中;②有意義串和常用字的組合,如“的地臺(tái)型基底”;③頻繁功能串,如“這是”、“其為”等。對(duì)于第一類垃圾串的判斷需要依賴它的外部使用環(huán)境,采用上下文鄰接分析識(shí)別。后兩類垃圾串的判斷要從串本身結(jié)構(gòu)著手,通過字的位置成詞概率進(jìn)行判斷、分析。

    為解決上述3方面問題,本文基于統(tǒng)計(jì)方法對(duì)地質(zhì)命名實(shí)體進(jìn)行提取。分詞流程如圖1所示。

    ①首先對(duì)地質(zhì)報(bào)告進(jìn)行預(yù)處理,轉(zhuǎn)換為txt文本格式,使用Ansj分詞工具進(jìn)行分詞,并執(zhí)行第②步;②提取分詞中的新詞,并采用上下文鄰接分析和基于字的成詞概率詞典進(jìn)行新詞判別,并執(zhí)行第③步或第⑤步;③當(dāng)在第②步中判別為新詞時(shí),新詞入庫(kù),執(zhí)行第④步;④更新基于字的成詞概率詞典,執(zhí)行第⑤步;⑤當(dāng)在第②步中判別不是新詞時(shí),對(duì)該詞進(jìn)行分詞,并將結(jié)果寫入文檔切分結(jié)果中,執(zhí)行第⑥步;⑥在文檔切分結(jié)果中提取重復(fù)串,形成有意義串候選集合,執(zhí)行第⑦步;⑦對(duì)候選有意義串采用上下文鄰接分析和基于字的成詞概率詞典進(jìn)行判別;執(zhí)行第⑧步或第⑩步;⑧當(dāng)在第⑦步中判別為有意義串時(shí),更新詞典庫(kù),執(zhí)行第⑨步;⑨更新基于字的成詞概率詞典,執(zhí)行第⑩步;⑩當(dāng)所有候選有意義串判別完畢后,執(zhí)行第①步,迭代進(jìn)行下一次分詞。

    3 基于質(zhì)串的地質(zhì)基本詞典庫(kù)構(gòu)建

    詞語(yǔ)根據(jù)詞形可分為質(zhì)詞和合詞。質(zhì)詞不可再分解為更小的詞語(yǔ),例如“珠穆朗瑪”一詞,任何組合(“珠穆”或“朗瑪”等)都不是詞。合詞是由質(zhì)詞組合而成的詞語(yǔ),例如“社會(huì)保障體系”是由“社會(huì)”、“保障”和“體系”3個(gè)質(zhì)詞組合而成[20]。

    在中文分詞系統(tǒng)中必須有一個(gè)核心詞典,無論是標(biāo)準(zhǔn)分詞還是命名實(shí)體識(shí)別都離不開詞典提供的詞匯和語(yǔ)言模型資源。核心詞典中包含的詞匯越多,能夠正確分詞的語(yǔ)料范圍就越大。地質(zhì)基本詞典庫(kù)是對(duì)核心詞典的補(bǔ)充,能夠保證通用分詞器對(duì)常用地質(zhì)詞匯的正確切分,便于后續(xù)處理。

    在地質(zhì)基本詞典收錄方面并不是地質(zhì)術(shù)語(yǔ)越長(zhǎng)越好。正如前面所述,分詞單元粒度大小需要考慮到查全率和查準(zhǔn)率的矛盾。本文以《地質(zhì)礦產(chǎn)術(shù)語(yǔ)分類代碼》(GB9649-1988)為基礎(chǔ),構(gòu)建了一個(gè)地質(zhì)基本詞典庫(kù),用以滿足在智能地質(zhì)調(diào)查大數(shù)據(jù)應(yīng)用體系下對(duì)地質(zhì)文檔的查全率要求。通過重復(fù)串提取以及相關(guān)統(tǒng)計(jì)分析方法,提取地質(zhì)有意義串以滿足查準(zhǔn)率要求。

    3.1《地質(zhì)礦產(chǎn)術(shù)語(yǔ)分類代碼》(GB 9649-1988)分析

    《地質(zhì)礦產(chǎn)術(shù)語(yǔ)分類代碼》(CB 9649-1988)(以下簡(jiǎn)稱“CB9649”)分為35個(gè)部分,涵蓋了宇宙地質(zhì)學(xué)、地球物理學(xué)、火山地質(zhì)、地震地質(zhì)、外動(dòng)力地質(zhì)學(xué)等地質(zhì)學(xué)領(lǐng)域各個(gè)方面。GB9649共包含詞語(yǔ)102 433個(gè),地質(zhì)專業(yè)詞語(yǔ)可分為二字詞、三字詞以及多字詞(四字詞、五字詞等等),按詞長(zhǎng)進(jìn)行分類如圖2所示。

    地質(zhì)詞典庫(kù)主要應(yīng)用方向是在大數(shù)據(jù)環(huán)境下的地質(zhì)文檔檢索,為提高地質(zhì)文檔查全率,傾向于分詞單位較小化。當(dāng)?shù)刭|(zhì)詞語(yǔ)長(zhǎng)度大于4時(shí),往往由多個(gè)二字詞或三字詞組成(例如:地質(zhì)勘探、俯沖構(gòu)造等)。本文采用質(zhì)串思想,對(duì)GB9649中的地質(zhì)詞語(yǔ)進(jìn)行分類,收錄符合質(zhì)串特征的地質(zhì)詞語(yǔ)用以構(gòu)建地質(zhì)基本詞典庫(kù)。

    3.2 基于質(zhì)串的地質(zhì)基本詞典庫(kù)構(gòu)建

    (5)合串。若串S有不少于3種的串分解時(shí)(自分解、單字分解、其它分解方式),則稱串S為合串。

    由質(zhì)串的相關(guān)定義可知,質(zhì)串中不包含詞語(yǔ),只能分解為單字,多個(gè)質(zhì)串與單字的組合可以構(gòu)成合串。因此,符合質(zhì)串特征的地質(zhì)詞語(yǔ)經(jīng)過組合可以構(gòu)成其它地質(zhì)詞語(yǔ),將這些詞語(yǔ)收錄進(jìn)地質(zhì)基本詞典庫(kù)中,既能滿足查全率要求,又可通過重復(fù)串提取地質(zhì)有意義串,以滿足查準(zhǔn)率要求。本文使用通用分詞器對(duì)GB9649中的地質(zhì)詞語(yǔ)進(jìn)行分詞。如前文所述,當(dāng)?shù)刭|(zhì)詞語(yǔ)長(zhǎng)度大于4時(shí),往往是由多個(gè)粒度較小的詞語(yǔ)組成,因此,本次工作僅對(duì)長(zhǎng)度不大于4的地質(zhì)詞語(yǔ)使用通用分詞器進(jìn)行分詞,將符合質(zhì)串特征的地質(zhì)詞語(yǔ)收錄進(jìn)地質(zhì)基本詞典庫(kù)。

    通用分詞器詞典中不包含地質(zhì)詞匯,在對(duì)地質(zhì)文本進(jìn)行分詞時(shí),往往只能將分詞器所包含的通用詞匯分出。對(duì)于二字術(shù)語(yǔ)(定義“A”、“B”為組成二字術(shù)語(yǔ)的單字),其切分方式只有AB(例“項(xiàng)目”一“項(xiàng)/目”)、A/B(例”心灘”一”心/灘”)兩種切分類型,”一”表示地質(zhì)詞語(yǔ)被通用分詞器切分,下同。

    對(duì)于三字術(shù)語(yǔ)(定義“A”、“B”、“C”為組成三字術(shù)語(yǔ)的單字),其切分方式有4種,分別是ABC(例“淡水湖”一“淡水湖”),AB/C(例“安順組”一“安順/組”),A/BC(例“假整合”一“假/整合”),A/B/C(例“苦橄巖”一“苦/橄/巖”)。

    同理,對(duì)于四字術(shù)語(yǔ)(定義“A”、“B”、“C”、“D”為組成四字術(shù)語(yǔ)的單字),其切分方式有8種,分別是ABCD(例“阿爾卑斯”一“阿爾卑斯”),ABC/D(例“重晶石化”一“重晶石/化”),AB/CD(例“鉆進(jìn)深度”一“鉆進(jìn)/深度”),AB/C/D(例“蚌殼蕨屬”一“蚌殼/蕨/屬”),A/BCD(例“堇長(zhǎng)角巖”一“堇/長(zhǎng)角巖”),A/B C/D(例“紙色譜法”一“紙/色譜/法”),AlB/CD(例“礫質(zhì)粘土”一“礫/質(zhì)/粘土”),A/B/C/D(例“采場(chǎng)突水”一“采/場(chǎng)/突/水”)。

    以四字詞為例對(duì)基本詞典庫(kù)的收錄規(guī)則進(jìn)行說明:對(duì)于四字詞的分詞結(jié)果來說,ABCD型的切分說明該詞已被通用分詞器的核心詞典收錄;對(duì)于能被切分成A/B/C/D型的詞語(yǔ),雖然沒有被分詞器的核心詞典收錄,但由于其本身被CB9649收錄,說明該詞是一個(gè)地質(zhì)詞匯,符合質(zhì)串特征,所以該詞應(yīng)被地質(zhì)核心詞典庫(kù)收錄;對(duì)于能夠被切分成其余類型的詞語(yǔ),說明該詞是通用詞和字或詞的組合,這種類型的詞可以使用重復(fù)串方法進(jìn)行識(shí)別處理,因此沒有收錄進(jìn)基本詞典庫(kù)中。同理,對(duì)于能切分成A/B/C類型的三字詞以及能被切分成A/B/C/D的詞語(yǔ)都應(yīng)被地質(zhì)核心詞典庫(kù)收錄。

    4 地質(zhì)專業(yè)詞語(yǔ)識(shí)別

    4.1 重復(fù)串提取算法思想

    本文地質(zhì)詞語(yǔ)識(shí)別建立在通用分詞器切分結(jié)果基礎(chǔ)上,因此采用基于詞的重復(fù)串提取,但基于詞的重復(fù)串提取算法與基于字的重復(fù)串提取算法一致,此處介紹基于字的重復(fù)串提取算法思想[21]。

    (1)對(duì)處理好的字序列建立索引。例如,對(duì)于只有5個(gè)字符的文本“礦化物礦化體礦化礦井礦礦化物”文本建立單字索引如圖3所示。

    (2)從單個(gè)字索引的信息開始擴(kuò)展得到所有重復(fù)串。因?yàn)閱巫炙饕^程中已記錄好語(yǔ)料中所有出現(xiàn)“礦”的地址集合A,而以“礦”打頭的所有重復(fù)串地址一定包含在集合A中,那么遍歷地址集合A,根據(jù)地址掃描語(yǔ)料進(jìn)行二字?jǐn)U展、三字?jǐn)U展……,可以發(fā)現(xiàn)以“礦”開頭的所有重復(fù)串。在上面例子中,掃描所有“礦”后面的第一個(gè)字符,擴(kuò)展得到以“礦”開頭的所有兩字串(見圖4)和三字串(見圖5)。

    頻次為1的串(如“礦井”、“礦礦”)不是重復(fù)串,將其刪除;對(duì)于頻次大于1的重復(fù)串(如“礦化”),要將所有信息寫入重復(fù)串文件中且繼續(xù)對(duì)其擴(kuò)展,發(fā)現(xiàn)長(zhǎng)度增1的重復(fù)串。

    (3)新產(chǎn)生的重復(fù)串寫入文件后繼續(xù)擴(kuò)展得到長(zhǎng)串,反復(fù)迭代,直到出現(xiàn)間隔符號(hào)或長(zhǎng)度達(dá)到指定的閾值。

    4.2 重復(fù)串提取流程

    基于重復(fù)串提取算法,需要記錄詞的ID索引。值得注意的是,在一段話中往往包含停用詞。停用詞主要包括副詞、助詞、連詞、介詞、標(biāo)點(diǎn)符號(hào)等,其本身并無明確意義,僅在句子中起一定作用,例如“在”、“的”、“且”等。采用串查找發(fā)現(xiàn)新詞時(shí),停用詞會(huì)導(dǎo)致垃圾串產(chǎn)生,例如:“官/道/口/群/在/測(cè)區(qū)/內(nèi)/出露/較/全/,/向/西/延伸/到/盧氏/,/靈寶/一帶/,/其/巖石/組合/和/沉積/建/造/特征/均/可/對(duì)比/。/”,這句話包含停用詞10個(gè)(標(biāo)點(diǎn)4個(gè)、“在”、“較”、“其”、“和”、“均”、“可”)。在建立詞的ID索引時(shí),需要將上面一段話分為8個(gè)部分:“官/道/口/群/”、“測(cè)區(qū)/內(nèi)/出露/”、“全/”、“/向/西/延伸/到/盧氏/”、“/靈寶/一帶/”、“巖石/組合/”、“沉積/建/造/特征/”和“對(duì)比/”,按照這8個(gè)部分建立詞的索引。因此,需要建立一個(gè)文檔用于記錄依據(jù)停用詞對(duì)文本分割后的結(jié)果,并以此為依據(jù)建立一個(gè)詞索引文檔,開辟一個(gè)緩沖棧用于存放當(dāng)前擴(kuò)展串及相關(guān)信息。根據(jù)索引地址鏈進(jìn)行擴(kuò)展,擴(kuò)展串中頻次大于1的串被認(rèn)為是重復(fù)串,統(tǒng)計(jì)詞頻和鄰接對(duì)信息后輸出到文件中,同時(shí)放人緩沖棧中用以后續(xù)擴(kuò)展。當(dāng)一次擴(kuò)展結(jié)束后再?gòu)臈V凶x取棧頂串進(jìn)行新一輪擴(kuò)展。第一次??諘r(shí)表示以第一個(gè)詞打頭的所有重復(fù)串發(fā)現(xiàn)完畢,然后讀取第二個(gè)詞的索引鏈并放人緩沖棧,依次反復(fù)直到所有重復(fù)串發(fā)現(xiàn)完畢。最后輸出一組文件,重復(fù)串文件用來存儲(chǔ)串的內(nèi)容、串長(zhǎng)、串頻、鄰接對(duì)頻次等信息。

    4.3 地質(zhì)專業(yè)詞語(yǔ)識(shí)別方法

    地質(zhì)專業(yè)詞語(yǔ)識(shí)別可以借助通用領(lǐng)域的新詞發(fā)現(xiàn)方法。新詞發(fā)現(xiàn)通過采用基于統(tǒng)計(jì)和規(guī)則過濾的方法對(duì)候選集進(jìn)行過濾得到最終結(jié)果[22]?;谝?guī)則的新詞發(fā)現(xiàn)依賴特定領(lǐng)域建立的規(guī)則庫(kù),其泛化性差,加之人工建立規(guī)則庫(kù)代價(jià)較大,規(guī)則之間多有沖突發(fā)生?;诮y(tǒng)計(jì)的新詞發(fā)現(xiàn)目前使用普遍,主要有上下文鄰接分析、位置成詞概率、雙字耦合度、頻率比和互信息等。本文主要采用上下文鄰接分析和位置成詞概率方法識(shí)別地質(zhì)專業(yè)詞語(yǔ)。

    (1)上下文鄰接分析。通用的已知詞語(yǔ)作為頻繁使用的語(yǔ)言單元,在實(shí)際生活中具有一定的流通度和廣泛性。一般來說,一個(gè)詞語(yǔ)的內(nèi)部結(jié)合度較高,其與外部上下文中的詞語(yǔ)關(guān)系就較為松散,例如“斷層”、“產(chǎn)狀”中的兩個(gè)字總是一起出現(xiàn)。地質(zhì)詞語(yǔ)作為獨(dú)立使用的語(yǔ)言單元,在地質(zhì)文本中具有一定的流通度,能夠應(yīng)用于多種不同的上下文環(huán)境。上下文分析是從串的上下文人手分析其使用環(huán)境,主要通過上下文鄰接種類、臨界熵、鄰接對(duì)種類以及鄰接對(duì)熵等鄰接特征量判斷。本文受文本大小限制,采用鄰接種類進(jìn)行判斷。

    對(duì)于一個(gè)串S,其鄰接種類V可分左鄰接種類VL和右鄰接種類VR,分別表示左、右鄰接集合中元素的數(shù)目,反映串S所處上、下文語(yǔ)境種類多少。當(dāng)VL≥n,VR≥n時(shí),該串為詞。鄰接種類在一定程度上反映字符串的語(yǔ)言環(huán)境。

    (2)位置成詞概率分析。在漢語(yǔ)構(gòu)詞中,每個(gè)字都有自己特有的構(gòu)詞作用,并非所有的字都可作為詞首、詞中、詞尾的成分,某些字往往出現(xiàn)在合成詞的某個(gè)或某幾個(gè)特定位置上,例如“老虎”、“老師”中的“老”通常出現(xiàn)在詞首,“產(chǎn)狀”、“鮞狀”中的“狀”通常出現(xiàn)在詞尾,而另一些字總是不會(huì)出現(xiàn)在詞首或詞尾。

    地質(zhì)命名實(shí)體開始是某個(gè)詞的詞首,串尾也一定是某個(gè)詞的詞尾。當(dāng)檢測(cè)到串首某個(gè)字的詞首成詞概率太低時(shí),該串可能是垃圾串;若串尾某個(gè)字的詞尾成詞概率太低時(shí),該串也可能是垃圾串。

    在切分好的語(yǔ)料中統(tǒng)計(jì)每個(gè)漢字出現(xiàn)在詞語(yǔ)中的總次數(shù)N和出現(xiàn)在詞首、詞尾的N1和N2,那么詞首成詞概率是Nl和N的比值,詞尾成詞概率是N2和N的比值。

    對(duì)地質(zhì)術(shù)語(yǔ)中單字成詞概率和多字成詞的詞首、詞尾概率進(jìn)行統(tǒng)計(jì),部分結(jié)果如表1所示。若某個(gè)字的詞首成詞概率太低,則認(rèn)為該字不能作為詞首;同樣,若某個(gè)字的詞尾成詞概率太低,則該字不能作為詞尾,這樣能有效過濾新詞和常用字組成的垃圾串。如判斷“主要巖性為”中的“為”,“在采樣過程中”的“在”即可將它們判斷為垃圾串而排除。此外,還有一部分頻繁功能串也能過濾掉,如“其為”、“這是”等高頻串。

    5 實(shí)驗(yàn)與分析

    5.1 測(cè)試集與評(píng)測(cè)指標(biāo)

    中文分詞研究旨在提出一種擁有通用性、實(shí)用性以及開放性的現(xiàn)代書面漢語(yǔ)自動(dòng)分詞方法,而評(píng)測(cè)中文分詞方法性能優(yōu)劣的評(píng)測(cè)標(biāo)準(zhǔn)為分詞準(zhǔn)確率與分詞效率[23]。本文在通用分詞器基礎(chǔ)上建立地質(zhì)專業(yè)詞匯抽取方法,因此對(duì)分詞效率不作評(píng)測(cè)。

    分詞準(zhǔn)確率是評(píng)估分詞方法有效性和合理性的核心評(píng)測(cè)標(biāo)準(zhǔn),包括正確率、召回率以及綜合指標(biāo)F值。

    準(zhǔn)確率P=識(shí)別正確的新詞數(shù)目/ 識(shí)別結(jié)果的新詞數(shù)目上×100%

    (1)

    召回率R=識(shí)別正確的新詞數(shù)目/ 重復(fù)串中正確的新詞數(shù)目× 100% (2)

    綜合指標(biāo)F=2×P×R/P+R

    (3)

    5.2 實(shí)驗(yàn)結(jié)果及分析

    本文實(shí)驗(yàn)語(yǔ)料來自《1:25萬內(nèi)鄉(xiāng)縣幅區(qū)域地質(zhì)調(diào)查報(bào)告》,約33萬字。使用Ansj中文分詞器的分詞結(jié)果與本文提出的地質(zhì)專業(yè)詞匯識(shí)別方法的結(jié)果進(jìn)行對(duì)比,如表2所示。

    本次結(jié)果抽取重復(fù)串14 070個(gè),去除單字、重復(fù)結(jié)果后,剩余3 704個(gè)。經(jīng)人工判別,正確結(jié)果2 513個(gè);經(jīng)過算法過濾后,重復(fù)串剩余2 496個(gè),本方法正確識(shí)別結(jié)果2 036個(gè)。使用分詞器進(jìn)行分詞后,分詞數(shù)量龐大,召回率難以評(píng)估。本次僅對(duì)Ansj中文分詞器所識(shí)別的新詞正確率進(jìn)行了計(jì)算,識(shí)別新詞4 478個(gè),正確識(shí)別1 050個(gè),正確率23.4%。

    通過對(duì)比,本文方法對(duì)地質(zhì)詞語(yǔ)的識(shí)別遠(yuǎn)遠(yuǎn)高于通用領(lǐng)域分詞器。通過分析發(fā)現(xiàn),由于通用分詞器一般在新詞發(fā)現(xiàn)方面采用基于統(tǒng)計(jì)的分詞方法,對(duì)于出現(xiàn)頻率不高的詞語(yǔ),統(tǒng)計(jì)的分詞方法學(xué)習(xí)度不夠,從而引起錯(cuò)分。而本文方法經(jīng)過重復(fù)串算法,能夠?qū)⒊霈F(xiàn)頻率較低的詞語(yǔ)查找出來,經(jīng)過上下文鄰接以及基于位置成詞概率過濾后,可有效地將原本錯(cuò)分的詞語(yǔ)組合到一起。但本文方法對(duì)僅出現(xiàn)一次和出現(xiàn)語(yǔ)境完全相同的新詞無法識(shí)別,因此需要添加其它策略進(jìn)一步提高其識(shí)別性能。

    6 結(jié)語(yǔ)

    針對(duì)基于統(tǒng)計(jì)的分詞方法受語(yǔ)料影響跨領(lǐng)域適應(yīng)性較差,基于詞典的分詞方法雖然可以直接利用領(lǐng)域詞典進(jìn)行分詞但不能解決未登錄詞識(shí)別等問題,基于質(zhì)串思想構(gòu)建了地質(zhì)基本詞典庫(kù),對(duì)通用分詞器的核心詞典庫(kù)進(jìn)行擴(kuò)充,在此基礎(chǔ)上提出基于統(tǒng)計(jì)的中文地質(zhì)詞語(yǔ)識(shí)別方法。采用重復(fù)串查找方法得到地質(zhì)詞語(yǔ)候選集,使用上下文鄰接以及基于位置成詞的概率詞典,對(duì)地質(zhì)詞語(yǔ)候選集進(jìn)行過濾,實(shí)現(xiàn)地質(zhì)詞語(yǔ)識(shí)別。實(shí)驗(yàn)證明該方法提高了地質(zhì)詞語(yǔ)識(shí)別準(zhǔn)確率,可在地質(zhì)大數(shù)據(jù)中進(jìn)行相關(guān)應(yīng)用。

    參考文獻(xiàn):

    [1]黃昌寧.中文信息處理中的分詞問題[J].語(yǔ)言文字應(yīng)用,1997(1):72-78.

    [2] 昊軍.數(shù)學(xué)之美[M].北京:人民郵電出版社,2014:41-49.

    [3]

    ZHU Y Q, ZHOU W W.XU Y,et al. Intelligent learning for knowledgegraph towards geological data[J].Scientific Programming, 2017(3):1-13.

    [4]

    ZEINALI H. SAMETI H. BURCET L,et al. Text-dependent speakerverification based on i-vectors, neural networks and hidden markovmodels[J].Computer Speech&Language, 2017( 46): 53-71.

    [5]

    SHUAI Z, JAYASUMANA S,ROMERA-PAREDES B,et al. Condi-tional random fields as recurrent neural networks[C].IEEE Interna-tional Conference on Computer Vision, 2016.

    [6] MENCEL S,Y Q J.Extracting structured data from web pages withmaximum entropy segmental markov models[C].International Confer-ence on Web Information System Engineering, 2009.

    [7]

    JIANG H J,REN X. LIU K.Research on dictionary for personalizedChinese word segmentation[C].The 4th International Conference onIntelligent System and Applied Material, 2014: 1-4.

    [8]

    ZHENC Q, LIU X Y. FU J L Neural networks incorporating dictionar-ies for Chinese word segmentation[C].Proceedings of the ThirtV- Sec-ond AAAI Conference on Artificial Intelligence, 2018: 1-8.

    [9]

    PANC B M, SHI H S.Research on improved algorithm for Chineseword segmentation based on mMarkov chain[C].Xi'an: InternationalConference on Information Assurance and Security. 2009.

    [10]

    HUANC L,DU Y F,CHEN G Y.CeoSegmenter: a statisticallvlearned Chinese word segmenter for the geoscience domain[J].Com-puters&Geosciences, 2015( 76): 11-17.

    [11] 陳婧汶,陳建國(guó),王成彬,等.基于條件隨機(jī)場(chǎng)的地質(zhì)礦產(chǎn)文本分詞研究[J].中國(guó)礦業(yè),2018.27( 9):69-74.101.

    [12] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2013:129-134.

    [13] 鄭捷.NLP漢語(yǔ)自然語(yǔ)言處理[M].北京:電子工業(yè)出版社,2017:88 -117

    [14]趙慶.地質(zhì)科技論文中語(yǔ)言文字表達(dá)的幾個(gè)要求[J].地質(zhì)找礦論叢.2013, 28(3): 493-498.

    [15] 鄭孝玉.地質(zhì)情報(bào)的特點(diǎn)及其服務(wù)工作的有關(guān)問題[J].情報(bào)雜志.1991. 10( 4):63-67.

    [16] 冀倩,翁望飛.地質(zhì)學(xué)專業(yè)英語(yǔ)詞匯特點(diǎn)及構(gòu)詞研究[J].皖西學(xué)院學(xué)報(bào),2011,27(4):116-121.

    [17]李廷棟,劉勇,王軍,等.略論地質(zhì)圖件的十大功能——紀(jì)念黃汲清先生誕辰110周年[J].地質(zhì)論評(píng),2014,60(3):473-485.

    [18]雨巖.概念·定性·定量[J].水文地質(zhì)工程地質(zhì),1991(6):10-14.

    [19]楊鍾健.地質(zhì)名詞的來源及統(tǒng)-[J].地質(zhì)論評(píng),1950( Z1):55-59.

    [20]何婷婷,張勇.基于質(zhì)子串分解的中文術(shù)語(yǔ)自動(dòng)抽取[J].計(jì)算機(jī)工程,2006, 32( 23):188-190.

    [21]張華平,高凱,黃河燕,等.大數(shù)據(jù)搜索與挖掘[M].北京:科學(xué)出版社,2014: 104-135.

    [22]黃軒,李熔烽.博客語(yǔ)料的新詞發(fā)現(xiàn)方法[J].現(xiàn)代電子技術(shù),2013,36(2):144-146.

    [23] 王威.基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞方法的研究[D].沈陽(yáng):東北大學(xué),2015.

    (責(zé)任編輯:杜能鋼)

    基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(41671404);中央高?;究蒲袠I(yè)務(wù)費(fèi)項(xiàng)目(N170104019);中國(guó)地質(zhì)調(diào)查局智能地質(zhì)調(diào)查支撐平臺(tái)建設(shè)項(xiàng)目(DD20160355)

    作者簡(jiǎn)介:王宏(1987-),男,碩士,河南省地質(zhì)調(diào)查院、河南省金屬礦產(chǎn)成礦地質(zhì)過程與資源利用重點(diǎn)實(shí)驗(yàn)室工程師,研究方向?yàn)榈貙W(xué)信息處理與應(yīng)用;朱學(xué)立(1963-),男,碩士,河南省地質(zhì)調(diào)查院、河南省金屬礦產(chǎn)成礦地質(zhì)過程與資源利用重點(diǎn)實(shí)驗(yàn)室教授級(jí)高級(jí)工程師,研究方向?yàn)榈刭|(zhì)信息技術(shù)分析與應(yīng)用;曾濤(1977-),男,河南省地質(zhì)調(diào)查院、河南省金屬礦產(chǎn)成礦地質(zhì)過程與資源利用重點(diǎn)實(shí)驗(yàn)室高級(jí)工程師,研究方向?yàn)榈貙W(xué)空間數(shù)據(jù)庫(kù);喬?hào)|玉(1975-),男,河南省地質(zhì)調(diào)查院、河南省金屬礦產(chǎn)成礦地質(zhì)過程與資源利用重點(diǎn)實(shí)驗(yàn)室助理工程師,研究方向?yàn)榈貙W(xué)空間數(shù)據(jù)庫(kù);郭甲騰(1980-),男,博士,東北大學(xué)資源與土木工程學(xué)院講師,研究方向?yàn)閿?shù)字礦山、數(shù)字巖土、數(shù)字城市領(lǐng)域的三維地學(xué)建模與可視化、三維拓?fù)潢P(guān)系分析、并行地理計(jì)算。

    猜你喜歡
    成詞新詞分詞
    結(jié)巴分詞在詞云中的應(yīng)用
    《微群新詞》選刊之十四
    “湊合”成詞及詞義演變考.
    小說月刊(2017年11期)2018-01-03 07:50:55
    先秦形容詞性反義并列詞語(yǔ)成詞規(guī)律考
    再論“睡覺”成詞的時(shí)代
    東方教育(2017年14期)2017-09-25 16:53:37
    值得重視的分詞的特殊用法
    “企業(yè)”的成詞及詞義內(nèi)涵考釋
    小議網(wǎng)絡(luò)新詞“周邊”
    高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
    外教新詞堂
    一个人观看的视频www高清免费观看| 成人av一区二区三区在线看| 婷婷精品国产亚洲av| 亚洲无线观看免费| 18+在线观看网站| 伊人久久精品亚洲午夜| 非洲黑人性xxxx精品又粗又长| 国产不卡一卡二| 欧美+亚洲+日韩+国产| 如何舔出高潮| 精品久久国产蜜桃| 一级毛片电影观看 | 国产成人aa在线观看| 一级毛片久久久久久久久女| av视频在线观看入口| 亚洲成人中文字幕在线播放| 国产精品久久久久久精品电影| 免费av不卡在线播放| 亚洲人成网站在线播| 精品免费久久久久久久清纯| 免费电影在线观看免费观看| 听说在线观看完整版免费高清| 国产高清视频在线播放一区| 亚洲国产日韩欧美精品在线观看| 午夜视频国产福利| 人人妻人人看人人澡| 国产亚洲欧美98| 高清日韩中文字幕在线| 国产一区亚洲一区在线观看| 91久久精品国产一区二区成人| 免费看美女性在线毛片视频| 18禁在线播放成人免费| 久久午夜福利片| 美女黄网站色视频| 日日干狠狠操夜夜爽| 99久久精品国产国产毛片| 成人鲁丝片一二三区免费| 直男gayav资源| 别揉我奶头 嗯啊视频| 99热这里只有是精品50| 国产69精品久久久久777片| 亚洲欧美中文字幕日韩二区| 国产精品一区www在线观看| 在线看三级毛片| 级片在线观看| 中文在线观看免费www的网站| 久久人妻av系列| 美女被艹到高潮喷水动态| 不卡视频在线观看欧美| 国产极品精品免费视频能看的| 欧美一区二区精品小视频在线| 亚洲中文字幕日韩| 国内精品美女久久久久久| 日本黄大片高清| av中文乱码字幕在线| 国产精品人妻久久久影院| av在线播放精品| 最近手机中文字幕大全| 直男gayav资源| 国产伦在线观看视频一区| 亚洲中文字幕一区二区三区有码在线看| 欧美区成人在线视频| 欧美日本亚洲视频在线播放| 久久久精品欧美日韩精品| 欧美色视频一区免费| 美女cb高潮喷水在线观看| 特大巨黑吊av在线直播| 久久亚洲国产成人精品v| 欧美不卡视频在线免费观看| 午夜福利18| 九色成人免费人妻av| 性插视频无遮挡在线免费观看| 热99re8久久精品国产| 男女那种视频在线观看| av在线亚洲专区| 又黄又爽又免费观看的视频| 97超碰精品成人国产| 国产成人aa在线观看| 欧美3d第一页| 免费av观看视频| 久久精品91蜜桃| 日韩精品有码人妻一区| 中文字幕熟女人妻在线| 精品人妻熟女av久视频| 国产综合懂色| 亚洲欧美日韩东京热| 午夜福利在线观看免费完整高清在 | 国产美女午夜福利| 免费一级毛片在线播放高清视频| av.在线天堂| 亚洲精品亚洲一区二区| 国产精品国产三级国产av玫瑰| 最近中文字幕高清免费大全6| 欧美色欧美亚洲另类二区| 成人二区视频| 国产伦一二天堂av在线观看| 又黄又爽又免费观看的视频| 国产毛片a区久久久久| 老熟妇仑乱视频hdxx| eeuss影院久久| 18禁在线播放成人免费| 亚洲一区高清亚洲精品| 欧美人与善性xxx| 一区二区三区高清视频在线| 久久婷婷人人爽人人干人人爱| 综合色丁香网| videossex国产| 日韩亚洲欧美综合| 精品久久久久久久久久久久久| 成人高潮视频无遮挡免费网站| 99久久久亚洲精品蜜臀av| 2021天堂中文幕一二区在线观| 亚洲欧美成人综合另类久久久 | 嫩草影院入口| 在线播放国产精品三级| 亚洲av二区三区四区| 悠悠久久av| 精品乱码久久久久久99久播| 欧美xxxx黑人xx丫x性爽| 女的被弄到高潮叫床怎么办| 日本熟妇午夜| 久久人人精品亚洲av| 嫩草影院精品99| 别揉我奶头~嗯~啊~动态视频| 久久久a久久爽久久v久久| 久久鲁丝午夜福利片| 日韩一本色道免费dvd| 大型黄色视频在线免费观看| 97在线视频观看| 久久综合国产亚洲精品| 精品欧美国产一区二区三| 内地一区二区视频在线| .国产精品久久| 亚洲精品日韩av片在线观看| 欧美一区二区国产精品久久精品| 最近2019中文字幕mv第一页| 91狼人影院| 日本免费一区二区三区高清不卡| 久久精品综合一区二区三区| 免费观看的影片在线观看| 亚洲图色成人| 亚洲经典国产精华液单| 黄片wwwwww| 国产精品三级大全| 午夜激情福利司机影院| 久久久久精品国产欧美久久久| 熟妇人妻久久中文字幕3abv| 一级a爱片免费观看的视频| 美女xxoo啪啪120秒动态图| 51国产日韩欧美| 久久久精品大字幕| 九九在线视频观看精品| 久久精品影院6| 亚洲最大成人手机在线| 晚上一个人看的免费电影| 欧美潮喷喷水| 国产高清视频在线播放一区| 久久久精品94久久精品| 99热全是精品| 亚洲人成网站在线观看播放| 熟女电影av网| www.色视频.com| 男女之事视频高清在线观看| 免费在线观看成人毛片| 在线国产一区二区在线| 中文字幕av成人在线电影| 日韩三级伦理在线观看| 在线免费十八禁| 成人综合一区亚洲| 啦啦啦韩国在线观看视频| 亚洲经典国产精华液单| 99热只有精品国产| 亚洲欧美日韩卡通动漫| 女的被弄到高潮叫床怎么办| 国产精品人妻久久久久久| 国产精品久久久久久亚洲av鲁大| 免费大片18禁| 国产v大片淫在线免费观看| 欧美成人精品欧美一级黄| 卡戴珊不雅视频在线播放| 欧美xxxx黑人xx丫x性爽| 国产精品精品国产色婷婷| 超碰av人人做人人爽久久| 啦啦啦啦在线视频资源| 日日摸夜夜添夜夜添小说| 97碰自拍视频| 一个人免费在线观看电影| 国产亚洲欧美98| 熟妇人妻久久中文字幕3abv| 国产蜜桃级精品一区二区三区| 精品久久久久久久末码| 欧洲精品卡2卡3卡4卡5卡区| 成人特级黄色片久久久久久久| 色吧在线观看| 一进一出抽搐动态| 日日摸夜夜添夜夜添av毛片| 色在线成人网| 日韩亚洲欧美综合| 亚洲三级黄色毛片| 又粗又爽又猛毛片免费看| 搡老岳熟女国产| 亚洲精品国产成人久久av| 成人av在线播放网站| 免费一级毛片在线播放高清视频| 97人妻精品一区二区三区麻豆| 我要搜黄色片| 亚洲精品乱码久久久v下载方式| 亚洲av五月六月丁香网| 久久中文看片网| 国产亚洲精品久久久com| 精品久久久噜噜| 国产精品久久久久久久电影| 国产一区亚洲一区在线观看| 性色avwww在线观看| 久久人妻av系列| 国产精品一区二区性色av| 免费高清视频大片| 亚洲av熟女| 亚洲人与动物交配视频| 天堂av国产一区二区熟女人妻| 亚洲中文字幕一区二区三区有码在线看| 免费av毛片视频| 亚洲最大成人av| а√天堂www在线а√下载| 国产美女午夜福利| 国产伦一二天堂av在线观看| 一区福利在线观看| 六月丁香七月| 亚洲欧美日韩高清在线视频| 亚洲第一区二区三区不卡| 国产精品国产三级国产av玫瑰| 精品免费久久久久久久清纯| 午夜老司机福利剧场| 久久久久精品国产欧美久久久| 黄色日韩在线| 精品一区二区免费观看| 一本久久中文字幕| 啦啦啦韩国在线观看视频| 国产三级中文精品| 国产 一区精品| 日日干狠狠操夜夜爽| 干丝袜人妻中文字幕| 91在线观看av| 久久精品国产自在天天线| 国产精品久久视频播放| 免费黄网站久久成人精品| 婷婷亚洲欧美| 久久国产乱子免费精品| 久久久久国内视频| 啦啦啦韩国在线观看视频| 国产精品99久久久久久久久| 久久欧美精品欧美久久欧美| 狠狠狠狠99中文字幕| 色播亚洲综合网| 啦啦啦啦在线视频资源| 老司机午夜福利在线观看视频| 亚洲性久久影院| 日本与韩国留学比较| av在线天堂中文字幕| 女的被弄到高潮叫床怎么办| 成人特级黄色片久久久久久久| 国产一区二区在线av高清观看| 精品人妻熟女av久视频| 亚洲欧美成人精品一区二区| 亚洲国产精品sss在线观看| 搡老妇女老女人老熟妇| 精品一区二区三区av网在线观看| 三级国产精品欧美在线观看| 亚洲18禁久久av| 久久精品夜色国产| 赤兔流量卡办理| 国产熟女欧美一区二区| 国产午夜精品久久久久久一区二区三区 | 网址你懂的国产日韩在线| 午夜福利在线在线| 嫩草影院入口| 国产av麻豆久久久久久久| 成人毛片a级毛片在线播放| 丰满人妻一区二区三区视频av| 深爱激情五月婷婷| 春色校园在线视频观看| 国产精品人妻久久久久久| 午夜a级毛片| 麻豆国产av国片精品| 精品久久久久久久久久免费视频| 国产亚洲精品久久久久久毛片| 有码 亚洲区| 久久人人爽人人片av| 日韩国内少妇激情av| 午夜a级毛片| 亚洲av.av天堂| 久久天躁狠狠躁夜夜2o2o| 欧美最黄视频在线播放免费| www日本黄色视频网| 午夜免费激情av| 亚洲无线观看免费| 九九久久精品国产亚洲av麻豆| 日本欧美国产在线视频| 中文资源天堂在线| 日本精品一区二区三区蜜桃| 久久精品国产99精品国产亚洲性色| 欧美一级a爱片免费观看看| 日韩国内少妇激情av| 美女黄网站色视频| 性欧美人与动物交配| 永久网站在线| av视频在线观看入口| 天堂网av新在线| 日本黄色视频三级网站网址| 亚洲精品成人久久久久久| 亚洲最大成人手机在线| 国产精品亚洲美女久久久| 亚洲av免费在线观看| 中出人妻视频一区二区| 三级经典国产精品| 国产精品三级大全| 老司机影院成人| 成人高潮视频无遮挡免费网站| АⅤ资源中文在线天堂| 91精品国产九色| 日韩国内少妇激情av| 久久精品国产清高在天天线| aaaaa片日本免费| 精品不卡国产一区二区三区| 成人午夜高清在线视频| 国产欧美日韩精品一区二区| 男人舔奶头视频| 久久天躁狠狠躁夜夜2o2o| 亚洲精华国产精华液的使用体验 | 午夜福利高清视频| 天天躁日日操中文字幕| 久久亚洲国产成人精品v| 免费不卡的大黄色大毛片视频在线观看 | 国产91av在线免费观看| 此物有八面人人有两片| 欧美精品国产亚洲| 老司机午夜福利在线观看视频| 在线天堂最新版资源| 激情 狠狠 欧美| 丝袜喷水一区| 村上凉子中文字幕在线| 亚洲成人久久爱视频| 亚洲av五月六月丁香网| 激情 狠狠 欧美| 男女那种视频在线观看| 欧美日韩精品成人综合77777| 精品人妻熟女av久视频| 久久精品91蜜桃| 两个人视频免费观看高清| 亚洲av中文字字幕乱码综合| 亚洲自偷自拍三级| 高清毛片免费看| 亚洲真实伦在线观看| 给我免费播放毛片高清在线观看| 成人高潮视频无遮挡免费网站| 久久久久久久午夜电影| 丝袜喷水一区| 一区福利在线观看| aaaaa片日本免费| 亚洲中文字幕一区二区三区有码在线看| 欧美激情在线99| 成人精品一区二区免费| 日韩欧美一区二区三区在线观看| 干丝袜人妻中文字幕| 1000部很黄的大片| 日韩高清综合在线| 日韩,欧美,国产一区二区三区 | 国产aⅴ精品一区二区三区波| 国产三级在线视频| 亚洲国产色片| 亚洲中文字幕日韩| 夜夜爽天天搞| 国产免费男女视频| 女生性感内裤真人,穿戴方法视频| 精品久久久久久久久久久久久| 国产一区二区三区av在线 | 97在线视频观看| av黄色大香蕉| 国产乱人视频| 插阴视频在线观看视频| 看免费成人av毛片| 久久天躁狠狠躁夜夜2o2o| 可以在线观看毛片的网站| 日本精品一区二区三区蜜桃| 人妻丰满熟妇av一区二区三区| 日本 av在线| 亚洲不卡免费看| 日本色播在线视频| 久久久久性生活片| 在线观看免费视频日本深夜| 精品欧美国产一区二区三| 人妻夜夜爽99麻豆av| 别揉我奶头~嗯~啊~动态视频| 成人毛片a级毛片在线播放| 日韩 亚洲 欧美在线| 男人舔奶头视频| 97超级碰碰碰精品色视频在线观看| 国产男靠女视频免费网站| 啦啦啦啦在线视频资源| 久久精品久久久久久噜噜老黄 | 麻豆国产av国片精品| 老熟妇仑乱视频hdxx| 最近2019中文字幕mv第一页| 国产av在哪里看| 99热6这里只有精品| 22中文网久久字幕| 日韩欧美精品免费久久| 成年女人看的毛片在线观看| 欧美成人一区二区免费高清观看| 欧美最黄视频在线播放免费| 一进一出好大好爽视频| 精品一区二区三区av网在线观看| 日日撸夜夜添| 欧洲精品卡2卡3卡4卡5卡区| 亚洲综合色惰| 最近的中文字幕免费完整| 亚洲国产高清在线一区二区三| 欧美zozozo另类| 尤物成人国产欧美一区二区三区| 黑人高潮一二区| 色尼玛亚洲综合影院| 一级a爱片免费观看的视频| 国产美女午夜福利| 日本与韩国留学比较| 中文字幕精品亚洲无线码一区| 99久久九九国产精品国产免费| 亚洲aⅴ乱码一区二区在线播放| 大又大粗又爽又黄少妇毛片口| 亚洲综合色惰| 亚洲人成网站在线播| 少妇丰满av| 干丝袜人妻中文字幕| 婷婷精品国产亚洲av在线| 亚洲欧美日韩高清专用| 亚洲精品亚洲一区二区| 国产成人aa在线观看| 三级国产精品欧美在线观看| 免费观看的影片在线观看| 特级一级黄色大片| 国产精品女同一区二区软件| 99久久精品一区二区三区| 国产精品国产三级国产av玫瑰| 久久精品国产鲁丝片午夜精品| 色噜噜av男人的天堂激情| 国产v大片淫在线免费观看| 在线观看av片永久免费下载| 国产麻豆成人av免费视频| ponron亚洲| 国产精品嫩草影院av在线观看| 成年版毛片免费区| 男女视频在线观看网站免费| 亚洲成av人片在线播放无| 午夜影院日韩av| 午夜激情福利司机影院| 亚洲精品日韩在线中文字幕 | 欧美激情在线99| 99久久九九国产精品国产免费| а√天堂www在线а√下载| 熟妇人妻久久中文字幕3abv| 校园人妻丝袜中文字幕| 两性午夜刺激爽爽歪歪视频在线观看| 我要搜黄色片| 欧美+日韩+精品| 99久久无色码亚洲精品果冻| 老熟妇乱子伦视频在线观看| 欧美在线一区亚洲| h日本视频在线播放| 女人十人毛片免费观看3o分钟| 亚洲性久久影院| 色播亚洲综合网| 精品福利观看| 六月丁香七月| 女同久久另类99精品国产91| 能在线免费观看的黄片| 亚洲精品日韩在线中文字幕 | 国产色爽女视频免费观看| 精品一区二区三区视频在线| 蜜臀久久99精品久久宅男| 欧美另类亚洲清纯唯美| 亚洲av美国av| 日韩成人伦理影院| 听说在线观看完整版免费高清| 尾随美女入室| 听说在线观看完整版免费高清| 麻豆一二三区av精品| АⅤ资源中文在线天堂| 国产成人a区在线观看| 美女黄网站色视频| 亚洲欧美日韩高清在线视频| 亚洲熟妇中文字幕五十中出| 看片在线看免费视频| 亚洲无线在线观看| 日韩国内少妇激情av| 欧美激情在线99| 免费无遮挡裸体视频| 欧美激情在线99| 日本熟妇午夜| 亚洲精品影视一区二区三区av| 亚洲av二区三区四区| 99久久无色码亚洲精品果冻| 国产一级毛片七仙女欲春2| 国产亚洲精品久久久com| av天堂中文字幕网| 久久久久九九精品影院| 久久欧美精品欧美久久欧美| 成人鲁丝片一二三区免费| 欧美日韩在线观看h| 国产在视频线在精品| 久久久久久久久久黄片| 99精品在免费线老司机午夜| 亚洲国产欧美人成| 大香蕉久久网| 99riav亚洲国产免费| 全区人妻精品视频| 久久九九热精品免费| 午夜福利18| 色av中文字幕| 色噜噜av男人的天堂激情| 午夜精品一区二区三区免费看| 亚洲精品粉嫩美女一区| 午夜日韩欧美国产| 久久综合国产亚洲精品| 全区人妻精品视频| 午夜爱爱视频在线播放| av在线观看视频网站免费| 国产69精品久久久久777片| 久久精品国产清高在天天线| 免费人成在线观看视频色| 亚洲精品国产成人久久av| 精品国内亚洲2022精品成人| 综合色丁香网| .国产精品久久| 久久国内精品自在自线图片| 国产精品综合久久久久久久免费| 色av中文字幕| av免费在线看不卡| 99热精品在线国产| 久久久精品94久久精品| 伦精品一区二区三区| 亚洲欧美日韩卡通动漫| 在线观看免费视频日本深夜| 99热全是精品| 欧美bdsm另类| 天堂影院成人在线观看| 日日撸夜夜添| 亚洲成av人片在线播放无| 一区二区三区四区激情视频 | 亚洲精品在线观看二区| 久久久国产成人精品二区| 日产精品乱码卡一卡2卡三| 男人和女人高潮做爰伦理| 91久久精品电影网| 午夜激情福利司机影院| 97人妻精品一区二区三区麻豆| 97超级碰碰碰精品色视频在线观看| 色在线成人网| 九九爱精品视频在线观看| 色吧在线观看| 免费人成在线观看视频色| 欧美激情在线99| 在线天堂最新版资源| 午夜福利视频1000在线观看| 欧美最新免费一区二区三区| 1024手机看黄色片| 人人妻,人人澡人人爽秒播| 色av中文字幕| 黑人高潮一二区| 亚洲精品乱码久久久v下载方式| 精品乱码久久久久久99久播| 小蜜桃在线观看免费完整版高清| 一夜夜www| 黄色日韩在线| 国产精品一区www在线观看| 日产精品乱码卡一卡2卡三| 成熟少妇高潮喷水视频| 久久久成人免费电影| 色5月婷婷丁香| 最近视频中文字幕2019在线8| 成年版毛片免费区| 日韩亚洲欧美综合| 亚洲真实伦在线观看| 高清毛片免费看| 国产精品av视频在线免费观看| 十八禁国产超污无遮挡网站| 欧美一区二区国产精品久久精品| 小说图片视频综合网站| 亚洲人与动物交配视频| 欧美日韩在线观看h| 亚洲av成人精品一区久久| 国产一区二区三区在线臀色熟女| 欧美绝顶高潮抽搐喷水| 国产片特级美女逼逼视频| 人人妻,人人澡人人爽秒播| 晚上一个人看的免费电影| 国产一区二区亚洲精品在线观看| 不卡视频在线观看欧美| 俺也久久电影网| 日本免费一区二区三区高清不卡| 99久久成人亚洲精品观看| 亚洲国产欧美人成| 久久精品国产亚洲av涩爱 | 女人十人毛片免费观看3o分钟| 插逼视频在线观看| 亚洲成a人片在线一区二区| www.色视频.com| 精品久久久久久久久久久久久| 日本免费a在线| 熟女电影av网| 国产精品美女特级片免费视频播放器| 亚洲欧美成人综合另类久久久 | 久久久午夜欧美精品| 久久精品国产亚洲av天美| 精品久久久久久久久av| 欧美激情国产日韩精品一区| 午夜福利视频1000在线观看|