摘要:自然語(yǔ)言處理是能夠?qū)崿F(xiàn)人機(jī)間利用自然語(yǔ)言進(jìn)行相互通信的重要手段,幫助計(jì)算機(jī)能夠迅速理解自然語(yǔ)言所表達(dá)的含義,最常見(jiàn)的運(yùn)用自然語(yǔ)言處理技術(shù)的應(yīng)用系統(tǒng)是信息檢索系統(tǒng)。本文從自然語(yǔ)言處理、信息檢索系統(tǒng)以及自然語(yǔ)言處理在信息檢索系統(tǒng)中的運(yùn)用三個(gè)方面進(jìn)行簡(jiǎn)要闡述,以供參考。
關(guān)鍵詞:自然語(yǔ)言處理;應(yīng)用系統(tǒng);信息檢索系統(tǒng)
中圖分類號(hào):TP391 ?文獻(xiàn)標(biāo)識(shí)碼:A ? ? 文章編號(hào):1007-9416(2020)06-0000-00
0引言
隨著科技水平的不斷提高,針對(duì)信息檢索系統(tǒng)的應(yīng)用變得越來(lái)越廣泛,讓與內(nèi)容查找有關(guān)的操作變得越來(lái)越輕松,然而信息檢索操作需要在特定的應(yīng)用系統(tǒng)中將自然語(yǔ)言處理技術(shù)進(jìn)行有效的運(yùn)用,才能夠達(dá)到查詢相應(yīng)的內(nèi)容,因此自然語(yǔ)言處理是實(shí)現(xiàn)信息檢索系統(tǒng)功能的核心內(nèi)容。
1自然語(yǔ)言處理的技術(shù)難點(diǎn)
1.1內(nèi)容的有效界定
日常生活中句子間的詞匯通常是不會(huì)孤立存在的,需要將話語(yǔ)中的所有詞語(yǔ)進(jìn)行相互關(guān)聯(lián)才能夠表達(dá)出相應(yīng)的含義,一旦形成特定的句子,詞語(yǔ)間就會(huì)形成相應(yīng)的界定關(guān)系。如果缺少有效的界定,內(nèi)容就會(huì)變得模棱兩可,無(wú)法進(jìn)行有效的理解[1]。例如他背著母親和姐姐悄悄的出去玩了。這句話中如果不對(duì)介詞“和”作出界定,就很容易形成母親和姐姐兩個(gè)人不知道他出去玩,或者是母親不知道他和姐姐出去玩。
1.2消歧和模糊性
詞語(yǔ)和句子在不同情況下的運(yùn)用往往具備多個(gè)含義,很容易產(chǎn)生模糊的概念或者是不同的想法,例如高山流水這個(gè)詞具備多重含義,既可以表示自然環(huán)境,也能表達(dá)兩者間的關(guān)系,甚至是形容樂(lè)曲的美妙,所以自然語(yǔ)言處理需要根據(jù)前后的內(nèi)容進(jìn)行界定,從中消除歧義和模糊性,表達(dá)出真正的意義。
1.3不規(guī)范的內(nèi)容
許多情況下,出現(xiàn)的詞句內(nèi)容存在不規(guī)范的情況,利用自然語(yǔ)言處理時(shí)需要根據(jù)對(duì)應(yīng)的內(nèi)容進(jìn)行判斷,或者是對(duì)不規(guī)范的內(nèi)容進(jìn)行校正,從而形成正確的內(nèi)容。例如輸入過(guò)程中文字的拼寫(xiě)或者語(yǔ)音輸入時(shí)帶有方言的口音等情況時(shí),需要進(jìn)行相應(yīng)的調(diào)整,才能是正確的內(nèi)容。
2信息檢索系統(tǒng)基本原理
2.1信息標(biāo)引和存儲(chǔ)
信息檢索系統(tǒng)的主要目的就是幫助查詢必要的信息內(nèi)容,然而信息檢索系統(tǒng)在獲取特定的查詢條件后,需要將信息內(nèi)容進(jìn)行標(biāo)引處理,也就是利用特定的檢索語(yǔ)言、標(biāo)識(shí)符、主題詞等對(duì)信息進(jìn)行標(biāo)記,確定查詢條件中的內(nèi)容類別,便于有針對(duì)性的進(jìn)行檢索。標(biāo)引完畢后將被標(biāo)引的信息進(jìn)行存儲(chǔ),讓其具有特定的序列,再按照順序進(jìn)行有效組合,作為信息檢索的主要工具或相關(guān)文檔,也就是將查找條件進(jìn)行有歸納整理的過(guò)程。
2.2需求分析與檢索
查找條件已經(jīng)被有效的歸類,接下來(lái)就需要進(jìn)行需求的分析,即已經(jīng)被標(biāo)引的內(nèi)容在信息檢索系統(tǒng)中所對(duì)應(yīng)的內(nèi)容和檢索方向。做好需求分析后,利用系統(tǒng)內(nèi)部的檢索方式將已經(jīng)存儲(chǔ)的被標(biāo)引內(nèi)容進(jìn)行檢索,才能夠找到與被指定的信息相對(duì)應(yīng)的內(nèi)容,避免了產(chǎn)生很多與信息內(nèi)容相關(guān)但又并非是需要查找的內(nèi)容,產(chǎn)生大量的數(shù)據(jù)冗余,造成數(shù)據(jù)資源的浪費(fèi),也會(huì)占用許多的系統(tǒng)資源。
2.3內(nèi)容判斷與反饋
檢索的過(guò)程中會(huì)根據(jù)檢索的情況產(chǎn)生相應(yīng)的結(jié)果后,需要信息檢索系統(tǒng)對(duì)內(nèi)容的判斷的過(guò)程,無(wú)論查找的信息內(nèi)容在系統(tǒng)中是否存在對(duì)應(yīng)的內(nèi)容,都會(huì)進(jìn)行內(nèi)容相關(guān)性的判斷,也會(huì)根據(jù)判斷的結(jié)果來(lái)對(duì)檢索的情況進(jìn)行反饋[2]。當(dāng)系統(tǒng)中存在檢索的內(nèi)容時(shí),系統(tǒng)就會(huì)將內(nèi)容迅速的顯示出來(lái),相反情況下,系統(tǒng)中沒(méi)有檢索到對(duì)應(yīng)的內(nèi)容,就會(huì)給予相應(yīng)的提示來(lái)作為內(nèi)容的判斷與反饋,這樣用戶就可以進(jìn)行直觀的辨別。
3自然語(yǔ)言處理在信息檢索系統(tǒng)中的運(yùn)用
3.1檢索條件的處理
信息檢索系統(tǒng)進(jìn)行檢索前將條件內(nèi)容進(jìn)行處理是首要的環(huán)節(jié),也就是對(duì)特定的句子或詞語(yǔ)進(jìn)行整理。整理的過(guò)程中只有運(yùn)用自然語(yǔ)言處理技術(shù)才達(dá)到有效處理的效果,畢竟檢索的條件內(nèi)容在格式和規(guī)范方面存在許多的不確定性,需要先對(duì)內(nèi)容進(jìn)行相應(yīng)的處理,讓其變得規(guī)范化,能夠達(dá)到信息檢索系統(tǒng)中的要求,便于計(jì)算機(jī)系統(tǒng)能夠有效的識(shí)別,才能夠讓信息檢索系統(tǒng)進(jìn)入正常的工作狀態(tài),發(fā)揮其信息檢索的功能。
3.2信息內(nèi)容的匹配
信息檢索系統(tǒng)在進(jìn)行檢索過(guò)程中需要對(duì)內(nèi)容進(jìn)行匹配,也就是查找對(duì)應(yīng)的內(nèi)容,然而查找過(guò)程中特定的信息內(nèi)容會(huì)被做好相應(yīng)的標(biāo)引操作,這種方式能夠?qū)⑿畔⑦M(jìn)行有效的標(biāo)記和分類,但當(dāng)中的很多內(nèi)容都會(huì)被分離,變成特定的部分內(nèi)容,比如文獻(xiàn)的名稱、類別、姓名等,當(dāng)這些內(nèi)容被做好標(biāo)記和分類后就會(huì)作為檢索時(shí)的索引,只是信息檢索系統(tǒng)中的數(shù)據(jù)內(nèi)容過(guò)于冗雜,信息量極大,只是針對(duì)單個(gè)的被標(biāo)記的索引進(jìn)行查找自然會(huì)有許多的內(nèi)容,此時(shí)就需要將被標(biāo)引的部分進(jìn)行有效排序,并利用自然語(yǔ)言處理重新進(jìn)行語(yǔ)句和詞語(yǔ)的界定,形成相互間的聯(lián)系,消除模糊性,這樣就能夠讓檢索的內(nèi)容變成指定的關(guān)聯(lián)內(nèi)容,系統(tǒng)內(nèi)的檢索方法會(huì)根據(jù)該內(nèi)容進(jìn)行有針對(duì)性的查找,這樣就能夠?qū)⒃S多不必要的內(nèi)容進(jìn)行過(guò)濾,只留下相同的部分[3]。
3.3檢索結(jié)果的輸出
查詢到準(zhǔn)確的結(jié)果,是用戶利用信息檢索系統(tǒng)的最終目的,檢索結(jié)果的輸出也就成為了信息檢索系統(tǒng)的必要環(huán)節(jié)。系統(tǒng)利用被標(biāo)引的內(nèi)容作為索引,通過(guò)simhash等各類算法在存儲(chǔ)大量數(shù)據(jù)的數(shù)據(jù)集中查詢到相應(yīng)的數(shù)據(jù)內(nèi)容后,會(huì)將查詢的結(jié)果作為初步的查詢結(jié)果,便于確定查詢結(jié)果的范圍并進(jìn)行判斷。除了對(duì)查詢結(jié)果的狀態(tài)信息進(jìn)行判斷外,還要對(duì)檢索內(nèi)容的順序進(jìn)行校驗(yàn),只有狀態(tài)信息與順序都得到保證,才能夠確保檢索條件與結(jié)果的精準(zhǔn)度。至于檢測(cè)已經(jīng)存在結(jié)果,進(jìn)行完全輸出呈現(xiàn)操作前,信息檢索系統(tǒng)需要通過(guò)自然語(yǔ)言處理將查詢到的結(jié)果還原為與檢索條件相同的內(nèi)容,這樣確保了檢索過(guò)程中關(guān)鍵詞匯與語(yǔ)法的正確運(yùn)用,即便是檢索內(nèi)容的關(guān)鍵詞匯與檢索條件存在差異,但是在顯示過(guò)程中語(yǔ)法不會(huì)出現(xiàn)問(wèn)題,保證檢索前后信息結(jié)構(gòu)的一致性,而且檢索結(jié)果以目錄的形式展現(xiàn)出來(lái)時(shí),也能夠讓截取到的關(guān)鍵詞匯處在語(yǔ)句的正確位置上,對(duì)關(guān)鍵信息的截取和突出顯示都能相互對(duì)應(yīng)。更好的幫助用戶迅速找到與檢索條件內(nèi)容相同或相似的信息進(jìn)行調(diào)用,提高對(duì)檢索結(jié)果的使用效率。
4結(jié)論
綜上所述,自然語(yǔ)言處理與信息檢索系統(tǒng)有著緊密的聯(lián)系,也是信息檢索系統(tǒng)的關(guān)鍵內(nèi)容,只有將自然語(yǔ)言處理技術(shù)不斷的進(jìn)行完善才能夠?yàn)樾畔z索系統(tǒng)提供有效的幫助,優(yōu)化信息檢索系統(tǒng)的功能,提升信息檢索系統(tǒng)的工作效率,達(dá)到更加快捷的提供信息服務(wù)的目的。
參考文獻(xiàn)
[1]李娟,曹晨.大數(shù)據(jù)時(shí)代信息檢索系統(tǒng)的發(fā)展[J].中國(guó)科技信息,2020(9):105-106.
[2]仲遠(yuǎn).自然語(yǔ)言處理在信息檢索中的研究和應(yīng)用[D].鎮(zhèn)江:江蘇科技大學(xué),2019.
[3]章涵,張志昌.自然語(yǔ)言處理在信息檢索中的應(yīng)用分析[J].電腦迷,2018(2):199.
收稿日期:2020-04-14
作者簡(jiǎn)介:曾照華(1975—),男,山西太原人,碩士研究生,講師,研究方向:人工智能。