烏 寶 貴
(中國電子信息產(chǎn)業(yè)發(fā)展研究院 北京 100048)
經(jīng)過幾十年的發(fā)展,因特網(wǎng)(Internet)現(xiàn)已成為一個海量信息資源庫。概言之,網(wǎng)絡(luò)信息資源特點(diǎn)有三:一是信息的分布式存儲,因特網(wǎng)上的信息分散存儲在數(shù)以千萬計的各類網(wǎng)站服務(wù)器中。二是信息的更新頻率高,網(wǎng)上信息每時每刻都在發(fā)生著變化,每天新增的信息達(dá)到EB數(shù)量級。三是信息的多媒體性,網(wǎng)上信息的載體多種多樣,既有一般的數(shù)字、文本,也有大量的圖片和音、視頻。如何從諾大的網(wǎng)絡(luò)信息資源庫中尋找到適合具體需求的信息,是一個尚未徹底解決的問題。
因特網(wǎng)信息檢索大致經(jīng)歷了三個階段:第一階段,因特網(wǎng)發(fā)展早期,網(wǎng)上的資源類網(wǎng)站比較少,人們采取直接瀏覽相關(guān)網(wǎng)站的方式查找信息,可稱之為“網(wǎng)站瀏覽信息檢索”方式,效率極低。第二階段,隨著網(wǎng)上資源的迅速增加,雅虎(Yahoo)率先推出導(dǎo)航式信息搜索服務(wù),將因特網(wǎng)上的網(wǎng)站進(jìn)行“樹形”分類,引導(dǎo)用戶沿著某一信息類別分支逐層找到目標(biāo)網(wǎng)站,一定程度上提高了信息搜索效率,可稱之為“導(dǎo)航式信息檢索”方式。第三階段,搜索引擎的出現(xiàn),為人們從因特網(wǎng)上查找信息提供了很大便利。人們只要在搜索框中輸入要查尋信息的主題詞,搜索引擎就可以返回相應(yīng)查詢結(jié)果,供用戶取用,可稱之為“搜索引擎信息檢索”方式。然而,當(dāng)下普遍使用的百度等搜索引擎,在功能上還存在許多局限,難以完全滿足人們的需求。局限一:單一語言信息檢索。搜索引擎的搜索范圍一般局限于與檢索主題詞所使用相同語言的網(wǎng)站,而不能實(shí)現(xiàn)以一種語言輸入主題詞,而檢索時進(jìn)行跨語言內(nèi)容檢索。比如:用中文輸入檢索主題詞“云計算”,搜索引擎搜索的范圍局限于包含中文“云計算”內(nèi)容的相關(guān)網(wǎng)站,而不能自動擴(kuò)展至包括英文“Cloud Computing”以及其他語種的網(wǎng)站。局限二:被動式信息檢索。搜索引擎只有當(dāng)用戶發(fā)出檢索請求時,才被動地響應(yīng)檢索所需信息,然后把結(jié)果反饋給用戶,而不能根據(jù)用戶需求搜尋信息,并主動推送給用戶。局限三:缺乏個性化服務(wù)能力。搜索引擎不能根據(jù)用戶的個性化需求為用戶提供訂制化信息服務(wù)。這三大局限,降低了搜索引擎信息檢索的完整性、主動性和個性化服務(wù)能力。
本文提出一種基于個性化定制、跨語言搜索及主動推送服務(wù)的網(wǎng)絡(luò)信息服務(wù)平臺,可以突破以上三大局限,彌補(bǔ)當(dāng)下一般搜索引擎的不足,更好地滿足人們網(wǎng)絡(luò)信息檢索的需要。
對于一些普通的、淺層次的網(wǎng)絡(luò)信息需求,目前通用的搜索引擎尚能夠基本滿足要求。但是對于一些專業(yè)人士(比如:科研人員、情報搜集人員等)而言,其信息需求還有更高要求。主要是:
(1) 個性化服務(wù) 希冀信息服務(wù)平臺能夠根據(jù)不同用戶的信息需求,為其提供個性化的信息服務(wù)。比如,某一工程科研人員與某一醫(yī)學(xué)專家,他們因?yàn)閺氖碌膶I(yè)領(lǐng)域不同,對信息的需求也絕然不同。好的信息服務(wù)平臺應(yīng)能根據(jù)不同用戶的個性化需求,有針對性地為其提供信息服務(wù)。
(2) 跨語言搜索 在信息搜索時,系統(tǒng)接收的檢索條件可以一種語言表達(dá),而在檢索執(zhí)行時,系統(tǒng)自動將檢索條件擴(kuò)展、轉(zhuǎn)化為多種語言。比如:用中文提交檢索詞“云計算”,搜索引擎搜索與“云計算”主題相關(guān)的信息之前,先經(jīng)多語種翻譯引擎將中文表達(dá)的“云計算”檢索詞自動翻譯成英文、法文、德文、日文等語種(根據(jù)用戶需要)的相對應(yīng)檢索詞,然后再以每種語言表達(dá)的檢索詞為條件,在相應(yīng)語種網(wǎng)站范圍內(nèi)執(zhí)行網(wǎng)絡(luò)搜索,由此將搜索范圍由原來單一語種搜索擴(kuò)展至多語種信息搜索。并且,系統(tǒng)得到搜索結(jié)果后,再將不同語言的搜索結(jié)果經(jīng)過二次轉(zhuǎn)換,翻譯成與檢索字所用語言相同的結(jié)果,返回給用戶。
(3) 主動推送服務(wù) 系統(tǒng)的搜索行為不是等到用戶在檢索框中輸入檢索條件后才執(zhí)行,而是根據(jù)事先用戶訂制好的搜索條件,不間斷地執(zhí)行網(wǎng)絡(luò)搜索,且將搜索結(jié)果不斷地主動推送給用戶。
由此可見,一個更高級的網(wǎng)絡(luò)信息服務(wù)平臺,除了具備目前一般搜索引擎功能外,還應(yīng)能滿足以上三個服務(wù)需求,具備個性化服務(wù)、跨語言檢索和主動推送信息三大功能。
本文提出的新網(wǎng)絡(luò)信息服務(wù)平臺的實(shí)現(xiàn)原理是,將個性化訂制技術(shù)、多語種機(jī)器自動翻譯技術(shù)、跨語言搜索引擎技術(shù)和主動推送技術(shù)相結(jié)合,研制出一種新的網(wǎng)絡(luò)信息服務(wù)平臺。該平臺的系統(tǒng)邏輯結(jié)構(gòu)如圖1所示。
圖1 系統(tǒng)邏輯結(jié)構(gòu)圖
從圖中可以看出,新的網(wǎng)絡(luò)信息服務(wù)平臺主要由用戶界面及服務(wù)引擎兩大部分構(gòu)成。“用戶界面”是用戶使用系統(tǒng)的橋梁,為其提供個性化訂制、信息檢索條件輸入、搜索結(jié)果信息展示等服務(wù)?!胺?wù)引擎”是系統(tǒng)的核心,主要由“個性化主題訂制子系統(tǒng)”、“多語種機(jī)器自動翻譯子系統(tǒng)”、“跨語言網(wǎng)絡(luò)搜索引擎”及“主動推送服務(wù)子系統(tǒng)”幾大部分構(gòu)成。其中:
? 個性化主題訂制子系統(tǒng)負(fù)責(zé)處理用戶的個性化訂制請求。用戶通過信息訂制頁面選擇“主題詞+信息源網(wǎng)站+刷新頻率”的方式,告知系統(tǒng)其信息需求,系統(tǒng)將所有用戶的個性化訂制進(jìn)行結(jié)構(gòu)化處理,生成單語種訂制數(shù)據(jù)庫。
? 多語種機(jī)器翻譯子系統(tǒng)負(fù)責(zé)根據(jù)用戶在訂制階段選擇的語種,將其輸入的主題詞翻譯成其他語種對應(yīng)的主題詞,生成“多語種訂制數(shù)據(jù)庫”。
? 跨語言網(wǎng)絡(luò)搜索引擎負(fù)責(zé)根據(jù)多語種訂制數(shù)據(jù)庫庫的搜索需求,不間斷地進(jìn)行跨語種網(wǎng)絡(luò)搜索,并將結(jié)果進(jìn)行分類、排序等處理,生成多語種搜索結(jié)果庫。
? 主動推送服務(wù)子系統(tǒng)負(fù)責(zé)經(jīng)多語種機(jī)器翻譯子系統(tǒng)進(jìn)行了二次翻譯(即將不同語種的搜索結(jié)果翻譯成與個性化訂制主題詞所用語種相同的結(jié)果)的單語種搜索結(jié)果庫內(nèi)容主動推送給訂制用戶。
整個信息服務(wù)流程可描述為以下五大步驟:
(1) 個性化信息需求訂制 用戶通過信息需求訂制頁面(見表1),填報(或者編輯修改以前的)信息需求訂制表并向系統(tǒng)提交。最基本的信息需求表包括:序號、主題詞、信息源地址、檢索語言、刷新頻率等項(xiàng)目,其中:序號由系統(tǒng)自動生成;主題詞由用戶根據(jù)自己的個性化需求設(shè)定,數(shù)量上沒有限制;信息源地址是指用戶讓系統(tǒng)重點(diǎn)關(guān)注的網(wǎng)站地址,一個主題詞可以對應(yīng)多個信息源。用戶也可以不指定信息源,搜索引擎網(wǎng)絡(luò)爬蟲按照既定的搜索策略尋找與主題詞有關(guān)的信息。填報需求表時,設(shè)定的該主題詞需要檢索的語言種類,是機(jī)器翻譯引擎將主題詞翻譯成其他語言的依據(jù)。如果不設(shè)定語言種類,系統(tǒng)默認(rèn)只檢索主題詞所用語言范圍。設(shè)定刷新頻率是告訴系統(tǒng)查詢結(jié)果推送及顯示頻率,可以有多種選擇,如以分鐘為單位。如果不設(shè)定,有新的信息搜索結(jié)果時,系統(tǒng)將及時推送給用戶,并刷新結(jié)果顯示頁面。
表1 用戶信息需求訂制表
(2) 機(jī)器翻譯引擎將主題詞翻譯成多語種主題詞 用戶提交信息需求表后,多語種機(jī)器自動翻譯引擎將表中的主題詞翻譯成相應(yīng)語言表達(dá)的主題詞,生成新的多語種主題詞表。此時,用戶提交的主題詞表中的一個主題詞可能對應(yīng)多個新的不同語種表達(dá)的主題詞。
(3) 搜索引擎進(jìn)行多語種信息搜索 跨語言網(wǎng)絡(luò)搜索引擎根據(jù)新的主題詞表進(jìn)行網(wǎng)絡(luò)信息搜索,并對搜索結(jié)果進(jìn)行分類、標(biāo)引和排序,生成多語種搜索結(jié)果庫。
(4) 多語種翻譯引擎將搜索結(jié)果進(jìn)行逆向翻譯 多語種翻譯引擎根據(jù)主題詞表,將搜索結(jié)果進(jìn)行語言逆向翻譯,生成與用戶提交的主題詞表語言相同的單語言搜索結(jié)果庫。
(5) 將最終結(jié)果推送給用戶 用戶通過信息顯示頁面,可以看到不同主題詞的搜索結(jié)果。對于經(jīng)過翻譯的搜索結(jié)果,如果需要,用戶可以點(diǎn)擊源文檔地址(信息展示頁面提供的原始文檔網(wǎng)絡(luò)地址),進(jìn)一步瀏覽相關(guān)語言原始文檔。
實(shí)現(xiàn)提供個性化訂制、跨語言搜索及主動推送服務(wù)的網(wǎng)絡(luò)信息服務(wù)平臺,必須了解和掌握以下關(guān)鍵技術(shù):
(1) 個性化訂制技術(shù) 個性化訂制是系統(tǒng)的基礎(chǔ)功能,采用關(guān)系數(shù)據(jù)庫技術(shù)即可實(shí)現(xiàn)。主要是處理好用戶與主題詞、主題詞與信息源網(wǎng)址、主題詞與相關(guān)語種的“一對多”關(guān)系。用戶界面應(yīng)盡量設(shè)計得簡潔易用,最好用填寫(或修改)需求信息表的形式完成需求訂制。
(2) 主題詞多語種自動機(jī)器翻譯技術(shù) 將用戶以一種語言(如漢語)表達(dá)的主題詞通過機(jī)器翻譯引擎自動翻譯成其他語言(如英語、日語、德語等等)表達(dá)的主題詞,是本系統(tǒng)實(shí)現(xiàn)跨語言網(wǎng)絡(luò)搜索的前提。技術(shù)難點(diǎn)是如何保證用戶提交的原主題詞與翻譯生成的其他語言主題詞在語義上保持一致。造成此種困難的原因是,不同語言詞匯之間的“多對多對應(yīng)關(guān)系”以及目前的自然語言處理技術(shù)還不能完全解決語義的理解問題。構(gòu)建系統(tǒng)時,采用權(quán)威的“雙語詞典”及先進(jìn)的機(jī)器翻譯引擎是提高主題詞翻譯準(zhǔn)確性的關(guān)鍵。
(3) 跨語言網(wǎng)絡(luò)搜索技術(shù) 實(shí)現(xiàn)跨語言網(wǎng)絡(luò)搜索有兩條途徑:一是自行開發(fā)一個能支持多語種的網(wǎng)絡(luò)搜索引擎,難度非常之大;二是通過“元搜索引擎”技術(shù)實(shí)現(xiàn)跨語言網(wǎng)絡(luò)搜索,經(jīng)驗(yàn)證明這是一條比較可行的技術(shù)途徑。所謂“元搜索引擎”,是一種調(diào)用其他獨(dú)立搜索引擎的引擎,是對多個獨(dú)立搜索引擎的整合、調(diào)用、控制和優(yōu)化利用。相對元搜索引擎,可被利用的獨(dú)立搜索引擎稱為“源搜索引擎”,或“搜索資源”,整合、調(diào)用、控制和優(yōu)化利用源搜索引擎的技術(shù),稱為“元搜索技術(shù)”,元搜索技術(shù)是元搜索引擎的核心。
(4) 多語種文檔機(jī)器翻譯技術(shù) 實(shí)現(xiàn)對跨語言搜索得到的多語種文檔進(jìn)行自動化的機(jī)器翻譯,途徑也有兩種:一種是自行研發(fā)多語種文檔機(jī)器翻譯系統(tǒng),對源文檔進(jìn)行翻譯;另外一種是將技術(shù)成熟的機(jī)器翻譯系統(tǒng)融入本系統(tǒng)平臺,通過API調(diào)用機(jī)器翻譯系統(tǒng)完成不同語言的翻譯工作。“Google翻譯”目前支持多達(dá)數(shù)十種語言的雙向翻譯,其利用統(tǒng)計算法及大數(shù)據(jù)處理、人工智能等技術(shù),大大提高了翻譯的準(zhǔn)確率。本文建議采取第二種技術(shù)途徑解決多語種文檔自動翻譯問題。
(5) 信息主動推送技術(shù) 從因特網(wǎng)上獲取信息的方式有兩種。一種是利用Google和百度等搜索引擎,在檢索框中輸入查詢條件,搜索引擎將搜索結(jié)果返回給用戶。從用戶角度看,這種方式是把信息拉向“客戶端”,稱為“拉(Pull)”的方式。另外一種與之對立,是“推(Push)”的方式,如本文提出的個性化信息訂制和系統(tǒng)主動推送模式?!袄?Pull)”和“推(Push)”技術(shù)對用戶來說都是信息獲取技術(shù),但二者存在著根本的不同。以Pull技術(shù)為核心的信息拉取技術(shù),在信息獲取時,用戶必須時刻處于主動地位,也就是說,用戶必須參與信息獲取的整個過程。而以Push技術(shù)為核心的信息推送技術(shù),在信息推送過程中,服務(wù)器始終處于主動地位,用戶卻處于被動地位?!袄?Pull)”與“推(Push)”的根本區(qū)別是:相對一次會話,Pull由客戶發(fā)起,主動方是客戶;Push由服務(wù)器發(fā)起,主動方是服務(wù)器。與Pull技術(shù)相比,Push技術(shù)不僅獲取信息的效率高,費(fèi)用低,而且及時性強(qiáng)。Push技術(shù)能夠通過一定的技術(shù)標(biāo)準(zhǔn)或協(xié)議,把用戶感興趣的信息,按照用戶的要求及時、主動地推送給用戶。用戶收到信息后,還可以離線瀏覽。
本文將個性化訂制、多語種機(jī)器自動翻譯、網(wǎng)絡(luò)跨語言搜索及主動信息推送技術(shù)相結(jié)合,提出了一種新的網(wǎng)絡(luò)信息服務(wù)平臺的系統(tǒng)架構(gòu),為網(wǎng)絡(luò)信息搜索及個性化信息服務(wù)平臺的構(gòu)建提供了一種新的參考模型。事實(shí)上,如果將多語種機(jī)器自動翻譯和跨語言網(wǎng)絡(luò)搜索技術(shù)應(yīng)用于人們慣常使用的百度等搜索引擎(可稱之為“即時搜索引擎”)中,也可以大大提升這些搜索引擎的檢索效率和服務(wù)質(zhì)量。將基于個性化訂制和主動推送服務(wù)的搜索引擎與即時搜索引擎相配合,就可以比較好地滿足人們各種不同的網(wǎng)絡(luò)信息檢索需求。
另外,隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展與不斷成熟,并在搜索引擎中合理加以應(yīng)用,就可以在個性化、智能化網(wǎng)絡(luò)搜索引擎方向上作出功能更加強(qiáng)大的網(wǎng)絡(luò)信息服務(wù)平臺,讓因特網(wǎng)上的信息資源充分發(fā)揮其應(yīng)有的價值。