郭松青 何鵬
摘要:隨著計算機技術、網(wǎng)絡技術和通信技術的發(fā)展和應用,公安信息化也得到了突飛猛進的發(fā)展。近年來,各地公安機關建設了大量的服務各警種的信息化系統(tǒng),隨著公安信息化系統(tǒng)的廣泛引用,數(shù)據(jù)量以幾何級開始增長。如何在龐大的數(shù)據(jù)中快速、精確地檢索數(shù)據(jù),已經(jīng)成為公安信息化發(fā)展的重點,建立基于公安業(yè)務的全文檢索系統(tǒng)能夠有效地滿足這個需求。文章首先對全文檢索技術進行簡要的介紹,對業(yè)務需求進行了深入分析,重點進行了全文檢索系統(tǒng)的數(shù)據(jù)分析和功能模塊設計。
關鍵詞:全文檢索;公安信息化;公安業(yè)務
全文檢索是現(xiàn)代信息檢索技術的一個非常重要的分支,它是處理非結構化數(shù)據(jù)的強大工具,也是搜索引擎的核心技術之一。全文檢索是以文本數(shù)據(jù)為主要處理對象,根據(jù)數(shù)據(jù)資料的內(nèi)容而不是外在特征實現(xiàn)的信息檢索手段。全文檢索就是指計算機索引程序通過掃描文章中的每一個詞,對每一個詞建立索引,當用戶查詢時,檢索程序就根據(jù)事先建立好的索引進行查找,并將查找的結果反饋給用戶的檢索方式。這個過程類似于通過字典中的檢索字表查字的過程。
1 關鍵技術
建立一個全文檢索系統(tǒng),首先要將源文檔轉(zhuǎn)化為能夠進行文本查找的全文數(shù)據(jù)庫,包括全文的分割處理以及檢索標識的提取,這稱為全文本的前處理工作。眾所周知,英文是以詞為單位的,單詞之間以空格作為自然分界符,而中文是字的序列,詞之間沒有間隔標記,使得詞的界定缺乏自然標準。而“詞”又是自然語言處理的一個基本單位,是最小的能夠獨立活動的有意義的語言成分。顯而易見,自動識別詞的邊界,將書面漢字序列切分成正確的詞串的中文分詞問題無疑是實現(xiàn)中文信息處理的首要問題。
2 全文檢索系統(tǒng)設計
2.1 業(yè)務需求分析
全文檢索系統(tǒng)依附于具體的公安業(yè)務系統(tǒng),全文檢索數(shù)據(jù)庫與業(yè)務數(shù)據(jù)庫進行數(shù)據(jù)對接,同步更新。
目前來說,系統(tǒng)的索引范圍按照對象的物理分布不同分為2類:第1類是業(yè)務數(shù)據(jù)庫中存在的相關數(shù)據(jù)記錄內(nèi)容。第2類是系統(tǒng)上傳的各類文檔附件,包括WORD,EXCEL,PDF,TXT等格式的文檔。
全文檢索系統(tǒng)實現(xiàn)對現(xiàn)有業(yè)務要素高效、準確、全面的查詢分析,主要包括幾部分:(1)實現(xiàn)對全部業(yè)務關注數(shù)據(jù)的文本抽取、信息聚集、主題描述,能通過關鍵詞檢索到相關聯(lián)的主題信息。如通過人名可以查詢到與之相關的人員基礎庫信息、關聯(lián)的情報信息、關聯(lián)的人員相關附件。(2)建立相關業(yè)務要素主題庫,主題庫包含業(yè)務要素對應的業(yè)務系統(tǒng)內(nèi)部所有關聯(lián)信息;搭建全文檢索環(huán)境,提供對主題庫的索引建立、排序等。(3)建立合理的結果排名權值模型,為用戶提供精準的數(shù)據(jù)探查,提供對業(yè)務系統(tǒng)內(nèi)部所有信息的全文檢索,在業(yè)務系統(tǒng)中快速查找與關鍵詞相關信息項。
2.2 數(shù)據(jù)庫設計
全文檢索數(shù)據(jù)表為Search_Content,主要包括以下幾個字段。
ID:數(shù)據(jù)表的主鍵,唯一標識該實體。
CONTENT:人員或者情報信息的全項信息,包括人員或者情報信息的所有關聯(lián)信息,以及人員或者情報信息相關的附件文檔內(nèi)容。
OBJNAME:檢索結果的分類,包括人員、情報信息、人員附件、情報信息附件等幾項內(nèi)容,對檢索出的結果進行分類展示。
BASEID:關聯(lián)的業(yè)務數(shù)據(jù)庫中的人員表、情報信息表的主鍵。
BASETABLE:關聯(lián)的業(yè)務數(shù)據(jù)庫表名,包括人員表名、情報信息表名、相關附件文檔表名等。
KEYWORDS:關鍵字的權值,為搜索結果的排名時使用。
3 全文檢索功能的實現(xiàn)
全文檢索系統(tǒng)覆蓋足夠全面的數(shù)據(jù)范圍,提供高效快速的全文、智能檢索和多樣化的查詢和檢索手段,使用戶能快速在海量的匯集數(shù)據(jù)中找到相關信息,并進行一定的統(tǒng)計、監(jiān)控、分析等應用。
3.1 信息抽取
為實現(xiàn)全文檢索,提高整體的響應速度,系統(tǒng)應采取預先建立全文索引的方式。原則上,數(shù)據(jù)庫表的所有字段都建立索引,做到索引信息與數(shù)據(jù)庫信息完全匹配。系統(tǒng)應具備多數(shù)據(jù)源的混合抽取能力,并能針對各種不同業(yè)務數(shù)據(jù)源進行不同方式的掃描處理。
3.2 精確查詢
采用搜索引擎的架構,面向數(shù)據(jù)采用預先抽取數(shù)據(jù)建立全文檢索以及字段獨立索引,系統(tǒng)的精確查詢是基于索引的,它繼承了搜索引擎高效、穩(wěn)定性能的同時,用戶的精確查