王 銳,張穎慧,陳 麗
(1.中國(guó)移動(dòng)通信集團(tuán)公司廣東分公司 廣州 510623;2.億陽(yáng)信通股份有限公司 北京 100095;3.廣東交通職業(yè)技術(shù)學(xué)院計(jì)算機(jī)工程學(xué)院 廣州510650)
目前,隨著通信網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)容量愈來(lái)愈龐大,新型設(shè)備層出不窮,電信運(yùn)營(yíng)商之間的競(jìng)爭(zhēng)也越來(lái)越激烈,為了盤(pán)活網(wǎng)絡(luò)存量資產(chǎn),加快網(wǎng)絡(luò)割接效率,達(dá)到有效使用網(wǎng)絡(luò)資源和快速開(kāi)通業(yè)務(wù)的目的,各通信運(yùn)營(yíng)商建立了自己的網(wǎng)絡(luò)資源管理系統(tǒng),包括傳輸、無(wú)線(xiàn)、數(shù)據(jù)、交換、動(dòng)力、管線(xiàn)等各專(zhuān)業(yè)資源數(shù)據(jù),為企業(yè)網(wǎng)絡(luò)管理和規(guī)劃、運(yùn)營(yíng)生產(chǎn)提供數(shù)據(jù)支撐。早期的資源管理系統(tǒng)各自獨(dú)立,例如無(wú)線(xiàn)資源管理系統(tǒng)、傳輸資源管理系統(tǒng)等,目前逐步向統(tǒng)一資源管理系統(tǒng)演進(jìn)和發(fā)展,形成統(tǒng)一的網(wǎng)絡(luò)資源管理平臺(tái)。
綜合資源管理系統(tǒng)作為通信運(yùn)營(yíng)商O(píng)SS域的核心系統(tǒng)之一,管理了通信網(wǎng)絡(luò)中各專(zhuān)業(yè)的網(wǎng)絡(luò)資源。其最關(guān)鍵的業(yè)務(wù)應(yīng)用之一就是給使用者提供從海量資源數(shù)據(jù)中快速、精確定位所需資源的能力,從而為后續(xù)資源的其他業(yè)務(wù)應(yīng)用提供快捷的數(shù)據(jù)支撐及應(yīng)用入口。
傳統(tǒng)的資源數(shù)據(jù)搜索方法都基于關(guān)系型數(shù)據(jù)庫(kù),用戶(hù)查詢(xún)界面的方法主要有兩種。一種是完全基于用戶(hù)特定查詢(xún)條件需求的定制化開(kāi)發(fā),即用戶(hù)根據(jù)自己的搜索需求,給出一系列搜索條件,然后資源系統(tǒng)建設(shè)廠(chǎng)商根據(jù)搜索條件需求,從網(wǎng)絡(luò)資源數(shù)據(jù)的數(shù)據(jù)庫(kù)中按需進(jìn)行搜索;另一種是資源系統(tǒng)建設(shè)廠(chǎng)商實(shí)現(xiàn)查詢(xún)條件在一定范圍的自定義能力,允許用戶(hù)在資源模型的范圍內(nèi),根據(jù)資源的屬性對(duì)查詢(xún)條件進(jìn)行自定義,從而自行配置出滿(mǎn)足自己需要的搜索條件,由系統(tǒng)根據(jù)搜索條件從網(wǎng)絡(luò)資源數(shù)據(jù)的數(shù)據(jù)庫(kù)中按需進(jìn)行搜索。
本文通過(guò)基于配置策略的網(wǎng)絡(luò)資源數(shù)據(jù)搜索方法,實(shí)現(xiàn)綜合、跨專(zhuān)業(yè)、快速、簡(jiǎn)潔、準(zhǔn)確的資源搜索方法,具體表現(xiàn)在:建立了在多個(gè)資源系統(tǒng)或多個(gè)專(zhuān)業(yè)資源搜索的索引,當(dāng)發(fā)現(xiàn)資源有更新時(shí),及時(shí)更新資源索引信息;同時(shí)針對(duì)資源模型進(jìn)行業(yè)務(wù)模型抽象,建立網(wǎng)絡(luò)資源特有的數(shù)據(jù)抽取字段及索引分詞字段,使用戶(hù)以最少的輸入條件獲取盡可能多的匹配信息;同時(shí)通過(guò)關(guān)注優(yōu)先技術(shù),屏蔽傳統(tǒng)權(quán)限預(yù)定義模式,通過(guò)分析用戶(hù)行為,保障用戶(hù)搜索定位結(jié)果逐步趨向個(gè)人最期望獲取的搜索結(jié)果,即隨需而變。
傳統(tǒng)的資源數(shù)據(jù)搜索方法一般都存在如下缺點(diǎn)。
(1)按需定制化開(kāi)發(fā)的搜索方法
·需要針對(duì)不同的用戶(hù)需求,開(kāi)發(fā)出不同的資源數(shù)據(jù)搜索功能。一旦用戶(hù)需求有變更則必須重新進(jìn)行定制開(kāi)發(fā),隨著資源系統(tǒng)業(yè)務(wù)應(yīng)用的日益廣泛,需求的變更幾乎是必然的,這就導(dǎo)致后續(xù)的應(yīng)用開(kāi)發(fā)和維護(hù)成本非常高昂。
·主要針對(duì)某個(gè)資源管理系統(tǒng)或某個(gè)專(zhuān)業(yè),如果涉及公共資源或多個(gè)專(zhuān)業(yè)資源關(guān)聯(lián)信息的搜索,就需要到各個(gè)系統(tǒng)或各個(gè)專(zhuān)業(yè)分別進(jìn)行資源的搜索,搜索的信息孤立而且效率較低。
·無(wú)法根據(jù)用戶(hù)的關(guān)注點(diǎn)或查詢(xún)的頻次,個(gè)性化地提供搜索結(jié)果,無(wú)法提供基于用戶(hù)行為的搜索結(jié)果。
(2)基于模型的自定義搜索方法
·實(shí)現(xiàn)技術(shù)門(mén)檻較高,尤其是涉及多表關(guān)聯(lián)的資源數(shù)據(jù)搜索方法的自定義,目前業(yè)內(nèi)缺乏成功的案例,絕大部分只實(shí)現(xiàn)了基于單表的資源搜索。
·用戶(hù)需要對(duì)資源模型有一定了解,自定義搜索條件有一定的難度及工作量。
由于目前傳統(tǒng)的資源數(shù)據(jù)搜索方法都是基于關(guān)系型數(shù)據(jù)庫(kù)的搜索模式,所以對(duì)于綜合資源系統(tǒng)這種資源模型復(fù)雜(資源關(guān)聯(lián)關(guān)系繁多),而且日益海量的數(shù)據(jù)的搜索,存在搜索效率低下的問(wèn)題,無(wú)法滿(mǎn)足實(shí)際生產(chǎn)的需要。
基于以上問(wèn)題,在資源項(xiàng)目中,引入了全文檢索技術(shù)。通過(guò)如下方面解決傳統(tǒng)資源檢索面臨的問(wèn)題。
·統(tǒng)一檢索入庫(kù),所有的資源準(zhǔn)實(shí)時(shí)同步到索引庫(kù)中,采用統(tǒng)一的檢索頁(yè)面進(jìn)行資源檢索。
·提供分次策略的可配置性及可維護(hù)性。按照業(yè)務(wù)屬性組合成用于某個(gè)業(yè)務(wù)屬性的精確查詢(xún)維度及全文模糊匹配維度策略,以滿(mǎn)足可擴(kuò)展的業(yè)務(wù)需求。
·提供用戶(hù)的屬性、檢索信息和業(yè)務(wù)屬性的相關(guān)性,記錄分析用戶(hù)的檢索喜好,提供快速及智能的查詢(xún)結(jié)果優(yōu)化分析。
基于配置策略的網(wǎng)絡(luò)資源數(shù)據(jù)搜索平臺(tái)的技術(shù)架構(gòu),主要包括配置控制層、資源索引層和資源搜索層,如圖1所示。
·配置控制層:根據(jù)資源數(shù)據(jù)的業(yè)務(wù)特點(diǎn),進(jìn)行數(shù)據(jù)的模型配置,支撐資源的索引建立和搜索,是整個(gè)系統(tǒng)的核心控制中樞。
·資源索引層:負(fù)責(zé)從網(wǎng)絡(luò)資源管理系統(tǒng)及外部系統(tǒng)提取資源數(shù)據(jù),并按照從配置控制層抽取的資源搜索模型進(jìn)行數(shù)據(jù)清洗以及相關(guān)的索引分詞策略配置,完成索引庫(kù)的創(chuàng)建,以便進(jìn)行資源數(shù)據(jù)搜索。由于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的搜索必須依賴(lài)于資源存儲(chǔ)的數(shù)據(jù)庫(kù)表查詢(xún),而本搜索平臺(tái)是基于搜索引擎的設(shè)計(jì),支持從多數(shù)據(jù)源獲取數(shù)據(jù),滿(mǎn)足綜合資源管理的業(yè)務(wù)定位要求。故本搜索平臺(tái)在設(shè)計(jì)上考慮了對(duì)多數(shù)據(jù)源、多數(shù)據(jù)格式的支持,如 DB、XML、Excel。
·資源搜索層:負(fù)責(zé)分析用戶(hù)行為,即根據(jù)用戶(hù)輸入條件按照配置控制層定義的資源搜索模型權(quán)值,從資源索引層進(jìn)行數(shù)據(jù)搜索,并將搜索結(jié)果轉(zhuǎn)化為用戶(hù)可識(shí)別的格式化數(shù)據(jù)。
下面就核心的配置控制模塊作進(jìn)一步表述。
在資源管理系統(tǒng)中,所涵蓋的數(shù)據(jù)覆蓋了業(yè)務(wù)、物理、邏輯、空間等領(lǐng)域,并且數(shù)據(jù)量達(dá)到TB級(jí)以上。采用搜索引擎技術(shù)很好地解決了傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)查詢(xún)單一以及效率低下的問(wèn)題。配置控制層就是通過(guò)對(duì)資源業(yè)務(wù)模型以及索引模型的關(guān)系進(jìn)行配置,使搜索引擎的查詢(xún)效率滿(mǎn)足用戶(hù)需求。
配置控制層包括了業(yè)務(wù)模型的描述以及依賴(lài)業(yè)務(wù)模型的索引模型配置。在本搜索平臺(tái)的全生命周期運(yùn)行中,包括數(shù)據(jù)抽取、索引入庫(kù)、輸入分析、資源搜索等環(huán)節(jié),都需要通過(guò)配置控制層進(jìn)行相關(guān)的業(yè)務(wù)分析處理,主要包括如下信息。
(1)業(yè)務(wù)模型
業(yè)務(wù)模型表示從復(fù)雜的資源特征數(shù)據(jù)中抽取出共有的以及適合搜索的信息,并將關(guān)系型數(shù)據(jù)轉(zhuǎn)化成平面的二維數(shù)據(jù)格式。業(yè)務(wù)模型的定義為數(shù)據(jù)的抽取采集提供了執(zhí)行指導(dǎo)和標(biāo)準(zhǔn)。
業(yè)務(wù)模型主要包括以下兩類(lèi)。
·群體模型:群體特征屬性,如專(zhuān)業(yè)、網(wǎng)絡(luò)層次、地區(qū)、狀態(tài)等,按照群體將資源分類(lèi)后,可以依據(jù)群體特征為后續(xù)的模型配置完成各種個(gè)性化的場(chǎng)景定制。
·個(gè)體模型:根據(jù)群體特征屬性進(jìn)行細(xì)分,如網(wǎng)元名稱(chēng)、電路名稱(chēng)、管理IP地址、互聯(lián)IP地址等,個(gè)體模型的配置依賴(lài)于群體模型。
(2)搜索模型
為了有效地保障查詢(xún)的命中率,合理的分詞技術(shù)是關(guān)鍵。搜索模型就是針對(duì)業(yè)務(wù)模型,按照業(yè)務(wù)特征進(jìn)行索引字段、分詞策略和權(quán)重的定義,提高資源搜索的命中率以及關(guān)注優(yōu)先級(jí)。
(3)視圖模型
視圖模型是將搜索結(jié)果進(jìn)行轉(zhuǎn)換,把結(jié)果轉(zhuǎn)換成用戶(hù)識(shí)別的業(yè)務(wù)結(jié)構(gòu)化數(shù)據(jù)。
本方法的實(shí)施流程如圖2所示,具體包括創(chuàng)建資源索引(步驟1)和資源檢索查詢(xún)(步驟2)。
步驟1.1:建立資源模型的示意如圖3所示,根據(jù)目前電信資源業(yè)務(wù)模型,將資源搜索按照資源專(zhuān)業(yè)劃分為IP承載網(wǎng)、核心網(wǎng)、無(wú)線(xiàn)網(wǎng)、智能網(wǎng)、CMNET、GPRS、WLAN、IMS、集客、傳輸、動(dòng)環(huán)、空間等大類(lèi)。根據(jù)各大類(lèi)包含的資源模型相似度,抽取資源模型的基礎(chǔ)屬性、擴(kuò)展屬性。
基礎(chǔ)屬性指該大類(lèi)內(nèi)所有資源都具備的常用屬性,如IP承載網(wǎng)網(wǎng)元的基礎(chǔ)屬性包括網(wǎng)元名稱(chēng)、別名、集團(tuán)標(biāo)準(zhǔn)名、所屬站點(diǎn)、所屬機(jī)房、所屬專(zhuān)業(yè)、狀態(tài)、網(wǎng)元類(lèi)型、管理IP地址、廠(chǎng)商等,傳輸鏈路的基礎(chǔ)屬性包括鏈路名稱(chēng)、本端站點(diǎn)、本端網(wǎng)元、本端端口、對(duì)端站點(diǎn)、對(duì)端網(wǎng)元、對(duì)端端口等,集客的基礎(chǔ)屬性包括產(chǎn)品編碼、產(chǎn)品類(lèi)型、客戶(hù)名稱(chēng)、行業(yè)、客戶(hù)級(jí)別等。
擴(kuò)展屬性指該資源預(yù)留的可擴(kuò)展搜索屬性,對(duì)目前沒(méi)有固化的資源搜索屬性,做出針對(duì)性的搜索擴(kuò)展,如對(duì)基站滿(mǎn)足廣東是否超級(jí)基站的搜索需求擴(kuò)展。
為保證搜索結(jié)果的有效、準(zhǔn)確,降低后續(xù)搜索擴(kuò)展對(duì)框架的影響,就上述屬性進(jìn)行約束,各類(lèi)屬性均基于10個(gè)名稱(chēng)類(lèi)屬性、5個(gè)枚舉類(lèi)屬性和3個(gè)日期類(lèi)屬性約束定義。名稱(chēng)屬性對(duì)應(yīng)n0,n1,n2,…,n9,如名稱(chēng)、站點(diǎn)、機(jī)房等,枚舉屬性對(duì)應(yīng)s0,s1,s2…,s4,如專(zhuān)業(yè)、類(lèi)型、狀態(tài)等,日期屬性對(duì)應(yīng)d0,d1,d2,如創(chuàng)建日期、最后修改日期等。
步驟1.2:根據(jù)綜合資源管理的數(shù)據(jù)范圍,按照模型從各網(wǎng)管系統(tǒng)進(jìn)行數(shù)據(jù)抽取。針對(duì)資源內(nèi)部數(shù)據(jù),可采用DB方式從各資源關(guān)系模型中抽取搜索模型字段,而對(duì)于其他網(wǎng)管系統(tǒng),不一定完全能采用DB,可能采用Web Service+FTP方式進(jìn)行XML格式數(shù)據(jù)傳遞,因此數(shù)據(jù)的來(lái)源可能是文件或XML消息。為了適應(yīng)數(shù)據(jù)來(lái)源的多樣性,需要對(duì)數(shù)據(jù)采集模塊進(jìn)行適配器設(shè)計(jì),使其支持不同的數(shù)據(jù)源。同時(shí),為了及時(shí)維護(hù)索引,還需要增加任務(wù)調(diào)度接口。資源索引建立的UML類(lèi)圖設(shè)計(jì)如圖4所示。
以DB方式實(shí)現(xiàn)數(shù)據(jù)網(wǎng)的資源索引策略描述主要的運(yùn)行過(guò)程,即配置數(shù)據(jù)集與索引模型的映射以及執(zhí)行的SQL。運(yùn)行過(guò)程如圖5所示。
圖5配置定義了索引文檔調(diào)用的數(shù)據(jù)源(如數(shù)據(jù)網(wǎng)數(shù)據(jù)視圖 view_search_datanet)、查詢(xún) SQL、更新調(diào)度 SQL、索引字段與SQL結(jié)果集的映射。
步驟1.3:基于步驟1.1,將各大類(lèi)資源數(shù)據(jù)進(jìn)行基礎(chǔ)屬性、擴(kuò)展屬性、全部屬性的組合打包,實(shí)現(xiàn)基于基礎(chǔ)屬性包、擴(kuò)展屬性包、全部屬性包的多重屬性分詞,如BTS可以將n0,n1,n2,n3,n4屬性打包分詞,BSC可以將n0,n2,n4,s打包分詞,同樣也可以將BTS的n0字段與BSC的n0字段打包分詞。
對(duì)各搜索屬性、屬性包進(jìn)行特有的分詞規(guī)則定制。如基本名稱(chēng)類(lèi),采用資源特有的中文詞庫(kù)的中文分詞規(guī)則;對(duì)于特殊類(lèi)名稱(chēng),由于特殊詞組多,命名規(guī)則特殊,采用較松散的字符串匹配分詞;對(duì)于枚舉類(lèi),采用全詞匹配;對(duì)于描述類(lèi),由于內(nèi)容偏多,采用基于統(tǒng)計(jì)的分詞,根據(jù)關(guān)鍵詞的出現(xiàn)次數(shù),獲取匹配率最高的數(shù)據(jù)。
屬性的打包配置分析如下。
(1)定義分詞策略
定義分詞策略運(yùn)行流程如圖6所示。
圖6 定義分詞策略運(yùn)行流程
(2)查詢(xún)索引庫(kù)策略
將n0,n1,n2,n3打包成n_s屬性包,如作為BSC網(wǎng)元的查詢(xún)索引庫(kù)策略,其運(yùn)行流程如圖7所示。
(3)為n_s配置相應(yīng)的分詞策略
為n_s配置相應(yīng)的分詞策略的流程如圖8所示。
圖7 查詢(xún)索引庫(kù)策略運(yùn)行流程
圖8為n_s配置相應(yīng)的分詞策略流程
步驟2.1:根據(jù)資源模型類(lèi)型及搜索模型,定義其顯示的業(yè)務(wù)名稱(chēng),這里需要配置映射規(guī)則,保障搜索結(jié)果的格式化顯示。
以實(shí)現(xiàn)無(wú)線(xiàn)專(zhuān)業(yè)的視圖模型配置為例,說(shuō)明索引字段對(duì)應(yīng)的業(yè)務(wù)顯示屬性映射,如圖9所示。
圖9 實(shí)現(xiàn)無(wú)線(xiàn)專(zhuān)業(yè)的視圖模型配置
步驟2.2:針對(duì)資源的搜索模型,劃分了不同的維度模型,如專(zhuān)業(yè)、網(wǎng)元類(lèi)型、狀態(tài)、名稱(chēng)、廠(chǎng)商等屬性,分別屬于大類(lèi)、基礎(chǔ)、擴(kuò)展。而這些信息的查詢(xún)權(quán)重不同,可以定義查詢(xún)的權(quán)重策略,優(yōu)先查詢(xún)權(quán)重高的索引字段。
以BSC網(wǎng)元的查詢(xún)權(quán)重配置為例,說(shuō)明按照專(zhuān)業(yè)及維度建立索引字段的權(quán)重配置,如圖10所示。
圖10 建立索引字段的權(quán)重配置
步驟2.3:針對(duì)用戶(hù)經(jīng)常關(guān)注的資源進(jìn)行記錄,記錄其專(zhuān)業(yè)及網(wǎng)元類(lèi)型,保障用戶(hù)搜索資源時(shí),進(jìn)行用戶(hù)行為習(xí)慣的專(zhuān)業(yè)權(quán)重規(guī)則匹配。目前模式策略有兩種:統(tǒng)計(jì)優(yōu)先原則,即根據(jù)用戶(hù)一段時(shí)間內(nèi)的資源關(guān)注記錄,進(jìn)行專(zhuān)業(yè)及網(wǎng)元類(lèi)型匯總統(tǒng)計(jì),將匯總結(jié)果最高的專(zhuān)業(yè)及網(wǎng)元類(lèi)型作為默認(rèn)搜索的權(quán)重規(guī)則匹配條件;最近優(yōu)先原則,即將用戶(hù)上次關(guān)注的資源的所在專(zhuān)業(yè)和網(wǎng)元類(lèi)型作為搜索的權(quán)重規(guī)則匹配條件。其實(shí)現(xiàn)步驟如下。
·用戶(hù)輸入關(guān)鍵字“廣州”進(jìn)行搜索,查詢(xún)結(jié)果按照順序顯示如下:站點(diǎn)廣州羅沖圍;IP承載網(wǎng)的廣州地市的AR01;傳輸電路廣州西德勝—清遠(yuǎn)核心站點(diǎn)30N0002等。
·用戶(hù)點(diǎn)擊 “傳輸電路廣州西德勝—清遠(yuǎn)核心站點(diǎn)30N0002”,進(jìn)行資源履歷信息或拓?fù)洳樵?xún)等業(yè)務(wù)操作,系統(tǒng)記錄當(dāng)前用戶(hù)點(diǎn)擊的“傳輸電路廣州西德勝—清遠(yuǎn)核心站點(diǎn)30N0002”的所屬專(zhuān)業(yè)及網(wǎng)元類(lèi)型,并進(jìn)行點(diǎn)擊次數(shù)的計(jì)數(shù)器累加。
·用戶(hù)下次輸入“廣州”搜索,系統(tǒng)根據(jù)傳輸或傳輸電路的權(quán)重規(guī)則,自動(dòng)優(yōu)先查詢(xún)“業(yè)務(wù)站點(diǎn)A”字段。則當(dāng)前的查詢(xún)結(jié)果按照順序顯示如下:傳輸電路廣州西德勝—清遠(yuǎn)核心站點(diǎn)30N0002;IP承載網(wǎng)的廣州地市的AR01;站點(diǎn)廣州羅沖圍等。
至此,完成了從數(shù)據(jù)抽取、索引創(chuàng)建到客戶(hù)搜索查詢(xún)的過(guò)程。
本文彌補(bǔ)了傳統(tǒng)的基于關(guān)系型數(shù)據(jù)庫(kù)的搜索技術(shù)對(duì)于海量資源數(shù)據(jù)的搜索效率不高及資源定位不準(zhǔn)確以及需要根據(jù)需求定制搜索功能等缺陷,充分利用資源索引策略的配置和建立,結(jié)合用戶(hù)行為分析、關(guān)注優(yōu)先的技術(shù),在提升搜索效率的基礎(chǔ)上,真正實(shí)現(xiàn)了用戶(hù)搜索結(jié)果的隨需而變。
目前此搜索方法已經(jīng)應(yīng)用于網(wǎng)絡(luò)資源管理系統(tǒng)中,運(yùn)行結(jié)果穩(wěn)定、可靠,用戶(hù)能夠迅速、準(zhǔn)確、便捷地查詢(xún)和配置資源數(shù)據(jù),給網(wǎng)管支撐、網(wǎng)絡(luò)管理和監(jiān)控等工作帶來(lái)價(jià)值和便捷。后續(xù)將進(jìn)一步完善網(wǎng)絡(luò)資源管理的中文分詞和業(yè)務(wù)模型研究,提升搜索結(jié)果的廣度、深度和準(zhǔn)度。
1 程錦,張建.網(wǎng)絡(luò)化制造資源垂直搜索引擎的研究與應(yīng)用.計(jì)算機(jī)應(yīng)用,2007,27(5):1 116~1 118
2 王莉云,王華,陳剛等.基于Lucene的全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).計(jì)算機(jī)工程與設(shè)計(jì),2007,28(24):5 959~5 961
3 朱學(xué)昊,王儒敬,余鋒林等.基于Lucene的站內(nèi)搜索設(shè)計(jì)與實(shí)現(xiàn).計(jì)算機(jī)應(yīng)用與軟件,2008,25(10)