鐘炳志 劉琦 陳昌平
摘 要:伴隨著互聯網技術的興起,企業(yè)的信息技術建設也發(fā)展的朝氣蓬勃。有些企業(yè)的規(guī)模非常龐大,諸如多區(qū)域分公司或全球跨國企業(yè)等,企業(yè)內部的數據是非常龐大的,在如此眾多的信息中,如何能快速、有效的獲得所需要的信息,是一個非常重要的課題。企業(yè)搜索引擎就如日程生活中所使用的那些引擎一樣,能很好的解決這個問題。
關鍵詞:一站式搜索引擎;關聯性檢索;跨地域全網檢索;搜索引擎
中圖分類號:TP391.3 文獻標識碼:A 文章編號:1671-2064(2018)05-0045-01
1 引言
依托于互聯網技術,企業(yè)的信息技術也得到了前所未有的發(fā)展。以一個電力系統企業(yè)為例,技術資料、工藝參數、銷售相關的數據非常之多,它們均以文件、郵件、照片等各種形式被保存在企業(yè)的計算機系衡量統中。一旦要被查詢,需要企業(yè)人員能準確、快速、無誤的進行查詢并識別出來。這也是一個企業(yè)是否高度信息化建設與否的主要指標。
2 企業(yè)一站式搜索引擎的開發(fā)背景
目前有些企業(yè),雖然經過信息化的管理,也實現了對IRS、知識管理、協同辦公等系統進行全過程的搜索,但是,有些仍然存在以下問題:
(1)系統的接入量偏少,只接入了內網辦公門戶2.0、統一權限、協調辦公、知識管理、IRS這幾個系統;(2)企業(yè)的所有格式的辦公文檔、圖片資料、各類報表、圖像和各種格式的音頻及視頻信息等業(yè)務元數據并不能自動錄入系統,而是仍然需要手動錄入,缺少智能化、自動化的技術手段來支撐;(3)缺少多業(yè)務場景,無法進行多元化的業(yè)務進行應用;(4)與門戶2.0統一權限的集成不能實現;(5)系統的數據,由于更新難度大或者更新不及時,導致數據陳舊,無法滿足企業(yè)的正常的搜索需求;(6)不支持模糊搜索,需要高精度的搜索關鍵詞,且有可能需要多次搜索,企業(yè)無法達到快速查找的效果,搜索難度大。在這樣的背景下,企業(yè)門戶一站式搜索服務的實現就顯得非常有意義。
3 企業(yè)一站式搜索引擎的工作原理
企業(yè)的各種信息數據采集機制按照某種固定的規(guī)則進行信息資源的歸類,并保存至企業(yè)的數據庫中。同時,采用數據分類索引機制對數據庫中的頁面信息進行索引,經過整理形成各種倒排文檔,并在系統中建立起相應的索引數據庫。在查詢界面中,只要根據查詢者的查詢任務,并接受所提交的訪問相應的索引數據庫,結果搜索引擎的查詢,最終將負荷要求的全部結果按照某種規(guī)則排列出,便于查詢者的確認。
4 企業(yè)一站式搜索引擎設計的方案
(1)面向業(yè)務場景的搜索:針對企業(yè)的典型業(yè)務模型設計等進行搜索結果的全景視圖展現,集成基建管控系統、政工管理系統、科技管理系統、紀檢監(jiān)察系統、國際合作系統、規(guī)劃計劃管理系統、工會班組系統、標準化管理系統8個業(yè)務系統進行接入,全面擴大了接入的范圍,實現了企業(yè)的業(yè)務全覆蓋、信息數據與模型設計自動關聯以及全景視圖的展示。(2)關聯性檢索:陳舊的檢索工具會直接影響到搜索的質量,以及檢索內容的妥當性,因此,對企業(yè)的元數據進行歸類,構建各信息點的關系圖譜,包括業(yè)務的模型,關系圖譜模型,數據提取規(guī)則,識別命名實體、建立涵蓋新增加各業(yè)務系統所涉及的業(yè)務規(guī)則庫,將非結構化文檔中的命名實體提取出來,作為該文檔元數據的一部分,從而提高搜索的質量。(3)跨地域全網檢索:企業(yè)的數據往往僅僅被保存在本地,無法進行系統內的跨地域的檢索,這就使得有些數據不能共享使用。為了解決這一問題,通過對索引文件的數據增加的同步與合并,將索引生效,并將其應運到全網系統中的索引,以此實現跨地域的全網檢索。這在同一集團不同區(qū)域的子企業(yè)之間業(yè)務的關聯上起到了非常重要的作用。
5 企業(yè)一站式搜索引擎的技術架構
基于企業(yè)自主可管控的軟件基礎設施,將搜索的引擎,數據分析、全景視圖的應運和展示等主要構建進行系統的管理,通過這些各組件的協作統一對外提供基于非結構化數據的一站式搜索服務,支撐帶權限的跨地域檢索功能,實現各數據的動態(tài)關聯檢索,為了更好的支撐一站式的引擎搜索,將圍繞著基礎數據的集成、數據庫的權限控制、搜索過程等內容進行方案設計的展開。具體包括以下:
(1)數據級權限設計方案。企業(yè)用戶者通過被授權的身份進入系統,在搜索引擎的檢索欄中輸入相關的搜索條件,由于系統會識別用戶的權限,因此,搜索的過程會根據用戶的權限信息向搜索引擎發(fā)出搜索請求,用以提高檢索的效率。(2)語義搜索方案。首先,通過企業(yè)對網頁、電子文件、文本、音頻、視頻等多媒體資料等的數據采集,進行數據的編排和整理;其次,對采集的數據根據其特征或者表述內容進行初步的處理,并采用關聯圖譜或者全視角景模型,為用戶檢索提供更多全面的信息支撐。(3)對應企業(yè)用戶輸入的請求,當企業(yè)用戶通過引擎搜索窗口輸入關健詞或則短句時,相關被查詢信息,以及用戶權限等的信息一同被帶入搜索引擎中進行查詢。(4)搜索引擎根據用戶權限的設定,將符合該權限的索引結果展現出來,查詢的結果可能會有很多內容,一般會按照與查詢關健詞接近程度高低進行排列,除了相關的文字或圖片信息,被編排的關聯業(yè)務圖譜等也一同被可視化體現出來。
6 企業(yè)搜索引擎關聯用戶角色的定義
(1)普通的用戶,這也是最常見的角色,它是指系統普通的使用用戶,一般是通過企業(yè)搜索引擎查詢相關的信息,促進工作上的完善。(2)相關業(yè)務的管理員,這類人員一般都要肩負著業(yè)務分析、系統基礎配置、權限同步、數據集成等的工作職責。一般都屬于得通信公司人員。(3)審計管理員,這類人員主要負責系統的日志管理、審核創(chuàng)建普通用戶是否通過等職責。(4)系統運營維護人員,主要負責系統的運行和維護,可以查看系統的日志,以及對系統進行故障恢復等。
7 應當注意的應運安全問題
(1)用戶的身份認證??紤]到信息的保密性、以及對引擎使用者信息的追蹤和把握,對登陸驗證設置獨立的個人賬號和密碼,且為了提高密碼的精度,使用數字和字母互組合的方式進行。當密碼連續(xù)三次登陸驗證錯誤是,賬號將被鎖定,最終只能通過企業(yè)系統的維護人員或者事先預留的身份驗證等方式進行解鎖。另外,通過配置方式啟用禁止同一賬號同時在不同的IP上登陸。(2)授權。基于不同的賬號,進行適當的資源配置,當訪問到某些關鍵核心信息是,需要進行授權認證。(3)異常時的管理。當界面顯示頁面出錯的異常信息時,應該被記入日志,以便系統維護人員的確認和問題的排查。
8 企業(yè)搜索引擎未來發(fā)展的一些建議
(1)從用戶輸入的關鍵詞或短句中能快速匹配到相關信息,提高索引的效率以及內容的有效性。很多用戶都有這樣的體會,企業(yè)搜索引擎中輸入關鍵詞后,顯示出來的結果非常多,但是,與自己實際所需要的內容相符合的信息,卻就沒有那么多了,這就需要用戶進行新的的再次篩選,甚至需要花費大量的時間逐條確認。如果搜索引擎能獲得用戶沒有在查詢條件中表達出來的真正用途,那么最終顯示出來的查詢結果將會刪減很多,用戶最終確認也變得簡單。這就需要使用智能跟蹤用戶的索引行為,通過用戶的多次交互查詢,讓搜索引擎真正意義上明白那些索引的結果和查詢者的需求有關。(2)信息過濾技術利用信息智能代理,使用自動獲得的用戶模型進行信息搜集,從所有信息中自動過濾,將用戶感興趣的、或對用戶有實質幫助的內容保留下來,達到個性化的服務。(3)面對系統規(guī)模的日益擴大,采用分布式體系結構,提高系統的性能和使用感官。當前的企業(yè)搜索引擎一般有集中式體系結構和分布式體系結構這兩種。這兩種方法面對不同的系統規(guī)模時,也是各有千秋。一般來說,當系統的規(guī)模擴大時,會采用分布式體系結構,即,搜索引擎一旦被下達任務后,將在多臺的機器上進行并行索引,以提高檢索的速度。增加用戶的使用感官。(4)重視信息的交叉檢索的研究。被保存至企業(yè)信息數據庫中的信息形式是多種多樣的額,甚至是多種語言的。因此,搜索引擎如果能夠將用戶的搜索關鍵詞轉換成其他形式的各種語言,再由搜索引擎下達搜索任務,這樣,就更能全面的將所有有用的信息全部展現出來。但是,這個技術要實現它,存在的難處是語言之間的準確表達以及精準位的定義。不過,隨著現在網絡技術的迅猛發(fā)展,相信智能的檢索機制很快就能攻克各種技術難題,讓企業(yè)體驗到不同的搜索方式。