文|黃以寶
空間信息技術已經(jīng)成為眾多行業(yè)發(fā)展重要組成部分,這使得空間信息數(shù)據(jù)數(shù)量、質量日益上升,對數(shù)據(jù)存儲、數(shù)據(jù)檢索等工作增加了難度,尤其是多樣化、復雜化空間信息元數(shù)據(jù),給搜索領域帶來諸多挑戰(zhàn)。本文主要分析自然語言發(fā)展現(xiàn)狀,明確自然語言處理空間信息檢索的優(yōu)勢,而后剖析現(xiàn)階段自然語言檢索存在的不足,并提出了具體優(yōu)化應用對策,旨在運用自然語言處理工具,優(yōu)化空間信息檢索效果。
自然語言處理本質上就是建立在統(tǒng)計學基礎上的機器學習方法,可以處理、理解自然語言。將自然語言應用到信息搜索引擎中,能夠更好理解用戶搜索行為,提升空間信息檢索準確性,為用戶帶來良好使用體驗。不少學者一直在探索嘗試在空間信息檢索中應用自然語言處理技術,目的在于使系統(tǒng)更好理解人類自然語言,發(fā)揮這一處理工具作用,提高檢索效果。
國外相關領域研究者要早于國內(nèi)學者發(fā)現(xiàn)自然語言工具性,并嘗試將其應用到計算機編程語言中,以此提高用戶操作便利性,進一步提高網(wǎng)絡檢索質量,為用戶帶來良好的使用體驗。由于國外研究技術受到較大局限,導致研究范圍非常有限,只能利用自然語言檢索簡單內(nèi)容,通過自然語言處理一些單一的文檔、斷句,或者分析簡單句子。在此后發(fā)展過程中,國外才有學者提出將自然語言應用到空間信息檢索領域中,并在不斷研究中構建受控語言的性能、信息檢索質量問題,使得復合詞、各詞之間的權重問題得到合理解決。
相比之下,我國在自然語言處理應用研究方面起步晚,直到20世紀90年代才受到相關領域重視。起初國內(nèi)學者在研究自然語言處理技術時,只是單一的注重漢語自然語言標注,研究內(nèi)容并不全面。隨著計算機技術推廣普及,為滿足更多用戶多元化需求,相關領域學者進行了進一步探究。從實際研究過程看,不僅遇到諸多挑戰(zhàn),也受到漢語語言本身復雜性、多樣性影響,再加上我國學者缺乏自然語言檢索方面的理論、技術方面的支持,導致自然語言應用到信息檢索領域研究工作各個環(huán)節(jié)備受阻礙,直接影響了此項技術在國內(nèi)的發(fā)展速度。
一是具有較強針對性。在空間信息檢索中應用自然語言處理,可以針對性地檢索相關語言。比如在文獻、資料中隨意選取一個詞語,將該詞語作為關鍵詞用于檢索相關內(nèi)容,能夠直接精確到具體的段落,這也足以證明自然語言處理方式具有極高的針對性。
二是準確性極高。自然語言包含了大量文獻作者的書面語言,屬于一個龐大的書面語言庫,因此,借助自然語言進行信息搜索,可以直接具體到指定的位置,檢索準確性非常突出。當用戶根據(jù)自身需求進行分類查詢時,可以根據(jù)不同學科分類檢索,這與查詢方式同以往傳統(tǒng)受控語言相比,更加準確快捷。
三是檢索更加方便快捷。傳統(tǒng)檢索會受到語言本身的限制,相比之下,基于自然語言處理技術的空間信息檢索更加便利,可以快速檢索。前提是用戶選擇的檢索關鍵詞與中心文獻詞語意思相近,若是意思偏離較大則無法體現(xiàn)這種便捷性、準確性。用戶只需要使用自然語言,便可快速檢索,并獲得精準信息內(nèi)容。
四是更新速度較快。對于一些文獻中出現(xiàn)的新詞語,用戶可以將新詞語納入到檢索系統(tǒng)中,并設置對應的檢索入口。與以往局限于語言搜索的方式相比,此種檢索方法適用性更強,用戶只需要轉換相關詞義,利用一些意思、類型相近的規(guī)范化語句便可完成檢索任務,此種檢索適用范圍更大,覆蓋面更廣。
五是具有較低容錯率。在空間信息檢索中應用自然語言,能夠拓展多條路徑,作為檢索入口,這在很大程度上可以降低出錯率,有效防止受控語言搜索路徑少而產(chǎn)生的一系列問題。
六是具有較高的自動化水平。由于自然語言誕生在大數(shù)據(jù)、互聯(lián)網(wǎng)+環(huán)境下,所以語言標引更加方便、快捷,具有較高的自動化水平,用戶在實際應用過程中,可以節(jié)約更多時間,提高檢索效率,整體應用體驗感較好。
七是節(jié)省更多時間和精力?;谧匀徽Z言處理下的空間信息檢索有統(tǒng)一標準。以往受控語言檢索中主要由標引人員完成大量工作,但標引人員作為獨立個體,其在學識、專業(yè)素養(yǎng)方面存在明顯差異。同時不同人的理解能力、判斷能力不同,所以極易導致詞語分類、選詞路徑差異,進而影響到使用者信息檢索。相比之下,自然語言處理方法可以很好的規(guī)避這些現(xiàn)象,標準統(tǒng)一,很多自然語言主要選自“現(xiàn)成詞語”,所以即便解釋不同,其總體上也不會出現(xiàn)較大誤差,能夠保證為用戶提供統(tǒng)一的解釋,使得用戶信息檢索節(jié)省更多時間和精力。
通過上文分析不難發(fā)現(xiàn),將自然語言應用到空間信息檢索中,具有明顯優(yōu)勢,也表現(xiàn)出更為廣闊的發(fā)展前景。從實際應用情況看,其中也存在一些不足,若想更好發(fā)揮自然語言檢索作用,有必要重視這些問題。經(jīng)過具體分析后可知,若是自然語言應用中不采用任何方式限制標引詞語,會導致搜索中出現(xiàn)較多的近義詞、同義詞,并且詞和詞之間的關聯(lián),也無法進行準確提示。在不設限制的情況下,會直接影響檢索準確性,無法得到精準檢索信息,出現(xiàn)一些明顯的錯誤搭配,導致信息檢索范圍更大。除此之外,一些搜索引擎在開發(fā)設置階段就不完善,比如缺乏明確的分類,各科目間界限模糊,知識體系梳理不明、缺乏嚴謹邏輯性等,都會嚴重影響到信息檢索質量,導致檢索速度得不到提高。
總體來看,目前自然語言檢索主要問題可以概括為兩點:一是怎樣才能提取自然文本庫中最主要、最核心的詞語來明確表達,針對用戶需求可以及時準確滿足;二是改變一些不規(guī)范用語、語義關聯(lián)性等問題。漢語言不僅語義復雜,而且有的漢語中詞與詞之間缺乏明確的分割符號,往往一個漢字可以與其他多個漢字組合,最終表達的意思也多種多樣,不同詞語在不同語境下表達的含義也存在較大差異,針對此類問題,若想使得計算機處理過程中可以準確表達,必須克服斷句難題,同時也要做到準確識別一些漢字與詞語的具體連接,才能保證語句中相關語氣詞的理解正確。
在信息化時代,計算機依托互聯(lián)網(wǎng)技術得到進一步發(fā)展,同時大眾對信息檢索的需求也發(fā)生了極大改變,以往代替檢索的中介性行為已經(jīng)無法迎合受眾需求,并且這種方式也很難實現(xiàn)大量數(shù)據(jù)資料的復制和應用?,F(xiàn)代社會多樣化發(fā)展,使得人們在信息檢索中,更想獲得知識并相互聯(lián)系,由此獲得新知識,而非單一的將目錄相關內(nèi)容直接提供給用戶?,F(xiàn)階段,網(wǎng)絡搜索功能開發(fā)與研究工作不斷深入,為更好滿足各類用戶多樣化需求,必須高度關注并深入了解用戶對空間信息檢索的喜好等特點,全面了解并熟練掌握不同使用者的搜索習慣和行為,并與使用者過往搜索行為進行對比,找出其中存在的誤差,以此作為依據(jù)和導向,逐步優(yōu)化、提升用戶體驗感,減少錯誤情況。
現(xiàn)代社會,將智能化技術引入到信息檢索中,可以進一步提高檢索技術智能化水平。智能化檢索技術主要原理就是通過模擬人腦,結合相關詞語,借助大數(shù)據(jù)、云計算技術,精準、快速分析出用戶想要獲取的信息,并進行展現(xiàn)?,F(xiàn)階段進行智能檢索主要分為三個步驟:第一是理解語義;第二是管理知識;第三是搜索知識。用戶根據(jù)自身需求輸入關鍵詞后,系統(tǒng)會自動識別相關詞義,并進行分類處理,而后提取數(shù)據(jù)庫中的準確含義,通過整理后最終呈現(xiàn)給用戶。在自然語言檢索中,最為關鍵的技術就是智能代理技術,該技術包含了一些關鍵性智能化程序,當用戶在不斷搜索時,該智能化程序會分析、學習用戶的搜索行為,了解用戶實際偏好,在此基礎上,通過搜索系統(tǒng)找出用戶需求的信息,在實際應用中可以進一步提高用戶信息檢索效率。同時,智能化檢索技術也會不斷更新,更好為用戶服務??梢哉f,智能化檢索技術是結合用戶需求而不斷發(fā)展的,通過不斷分析、建立智能化數(shù)據(jù)庫,構建智能搜索模式,可以滿足數(shù)據(jù)庫自動維護、數(shù)據(jù)庫自動更新等功能,簡化檢索流程,節(jié)省用戶搜索時間。
在空間信息檢索中,混合檢索技術的應用受到業(yè)內(nèi)人士廣泛重視,混合檢索技術地主要工作機理就是對自然語言的良好控制,防止出現(xiàn)一些相近詞義大范圍出現(xiàn)的情況。深入分析混合檢索技術可知,其主要就是構建一種混合詞表,在設計混合詞表過程中,并沒有具體要求,對精確度也不高,屬于一種較大范圍的詞表,并且數(shù)量非常少,通常只要幾百個詞匯便可形成一種長條形的檢索流程。用戶在搜索標引詞語時,無法精確到具體的詞語,只需要輸入一個模糊的詞語,便可將文獻、資料中的詞語提取出來。此種混合檢索方式,不僅包含了傳統(tǒng)受控語言,也借助自然語言檢索,具有一定復雜性。
一方面,需要從先控技術入手,加強優(yōu)化。所謂先控技術,主要就是在技術使用前建立一個與自然語言、檢索語言相對應的語言庫,當中包含了自然語言和檢索語言,用戶在運用自然語言檢索所需信息時,計算機系統(tǒng)可以結合對應的自然語言,找出相關檢索語言,借助這種互換體系,實現(xiàn)對文本庫內(nèi)容的精準檢索。在實際檢索中,該方法僅僅是一小部分,對原有標引工具、相關數(shù)據(jù)信息并無影響,由于其存在可以提升受控語言性能,使自然語言自身的優(yōu)勢得以充分發(fā)揮,這在很大程度上可以提高檢索準確性,進而降低容錯率,對使用者帶來很好的使用體驗。
另一方面,除了先控技術之外,檢索過程中還涉及到后控技術,后控技術主要應用在人工智能檢索系統(tǒng)、后控詞表中。用戶利用關鍵詞進行檢索后,在人工智能檢索技術作用下,可以分析、分類用戶自然語言,在此基礎上,運用一些數(shù)據(jù)進行轉化,并在計算機系統(tǒng)下準確識別、規(guī)范檢索要求,使得對應指令傳達給后續(xù)程序,最終檢索任務順利完成。分析這一過程不難發(fā)現(xiàn),后控技術在檢索技術中發(fā)揮著重要作用,若用戶輸入自然語言后,智能化機器可以結合自然語言情況,在后控詞表中提取出準確、規(guī)范的詞語,展現(xiàn)給用戶。用戶也可以根據(jù)提示,小范圍檢索。此技術可以作為自然語言檢索的補充,有效提高檢索精準度。應用此種方法,能夠在一定程度上放寬對標引階段的控制。與此同時,當用戶利用這種方法進行檢索時,能夠以一個關鍵詞切入,而后從文本庫內(nèi)搜索出大量與之相近的等級詞、近義詞。用戶在檢索過程中,并不需要考慮自己搜索的主題、關鍵詞是什么,以及到底有哪些近義詞、等級詞等情況,而是直接利用后控技術,獲得更多相關詞語,并且獲取速度更快、檢索任務完成效率更高,這對用戶而言,會減少使用負擔,提高檢索效率,帶來更多體驗。
綜上所述,在自然語言檢索技術發(fā)展中,我國雖然起步較晚,但隨著技術人員不斷實踐與探究,已經(jīng)獲得很大的發(fā)展空間,各領域學者也都提高了對自然語言的重視程度。在日后研究中,希望有關學者和相關領域研究人員可以從其他語言學角度入手,深入探究存在于自然語言檢索過程中的問題,并不斷積累經(jīng)驗,積極創(chuàng)新發(fā)展。