張?jiān)骆? 徐明松
摘 要:文章簡(jiǎn)要介紹了公開(kāi)網(wǎng)絡(luò)環(huán)境下信息資源的組織方式和檢索語(yǔ)言,分析了目前網(wǎng)絡(luò)信息資源組織和檢索存在的一些主要問(wèn)題,并專門(mén)介紹了網(wǎng)絡(luò)內(nèi)容管理系統(tǒng)和智能檢索策略。
關(guān)鍵詞:網(wǎng)絡(luò)信息;資源組織與檢索
在互聯(lián)網(wǎng)高速發(fā)展的今天,網(wǎng)絡(luò)的廣泛應(yīng)用,使人們獲取信息越來(lái)越容易。但是,一方面信息的大量增加,出現(xiàn)了信息爆炸;另一方面,碎片化信息越聚越多。這種情況的出現(xiàn),大大增強(qiáng)了人們獲得所需有用信息的難度,同時(shí)也給網(wǎng)絡(luò)信息的組織與檢索提出了前所未有的挑戰(zhàn)。面對(duì)日益頻繁的網(wǎng)絡(luò)信息資源,進(jìn)一步熟悉其內(nèi)涵和特點(diǎn),采取更有效的措施,成為當(dāng)前網(wǎng)絡(luò)信息資源組織與管理越來(lái)越重要的一項(xiàng)工作。
1 網(wǎng)絡(luò)信息資源概述
從廣義來(lái)說(shuō),網(wǎng)絡(luò)信息資源的范圍比較廣闊,本文這里特指在公開(kāi)網(wǎng)絡(luò)環(huán)境下可以利用的所有信息資源,比如網(wǎng)站上一些信息。與其他類型信息資源相比,網(wǎng)絡(luò)信息資源具有以下主要特點(diǎn):(1)表現(xiàn)形式多樣性。(2)存取方式廣泛性。(3)存在形態(tài)無(wú)序性與不穩(wěn)定性。(4)信息值差異性。其來(lái)源分散,難以控制,內(nèi)容龐雜,幾乎涵蓋了各個(gè)領(lǐng)域,表現(xiàn)形式豐富多樣,除結(jié)構(gòu)化信息外,還有非結(jié)構(gòu)化或半結(jié)構(gòu)化。根據(jù)不同的標(biāo)準(zhǔn),還可以將網(wǎng)絡(luò)信息資源劃分為不同的類型。例如根據(jù)內(nèi)容范圍可劃分為商業(yè)信息、政府信息、教育信息、學(xué)術(shù)信息、娛樂(lè)信息等。根據(jù)內(nèi)容類型可劃分為文本、圖像、音頻、視頻等。隨著網(wǎng)絡(luò)的深入發(fā)展,未來(lái)網(wǎng)絡(luò)信息資源也會(huì)有更多類型的內(nèi)容出現(xiàn)。
2 網(wǎng)絡(luò)信息資源組織方式和檢索利用
2.1 網(wǎng)絡(luò)信息資源主要組織方式
網(wǎng)絡(luò)信息的組織方式比較豐富,大致有以下幾種方式:(1)文件方式。主要以文件為單位共享和傳輸信息,但是,隨著網(wǎng)絡(luò)中持續(xù)增加的數(shù)據(jù)量,以文件組織方式的信息會(huì)使網(wǎng)絡(luò)負(fù)荷加大,導(dǎo)致控制和管理的難度增加,從而影響信息資源組織效率。(2)數(shù)據(jù)庫(kù)方式。主要是把所獲得的資源按照一定的規(guī)則存儲(chǔ)起來(lái),用戶可以通過(guò)關(guān)鍵詞查詢到所需要的信息線索,它能高速處理大量各種類型的信息資源,尤其是在關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)中,不僅能提供用戶查詢,還實(shí)現(xiàn)了信息的知識(shí)關(guān)聯(lián),極大地提高了用戶對(duì)知識(shí)需求滿意度。但是查詢規(guī)則的建立比較繁瑣,前期花費(fèi)時(shí)間較多。(3)主題樹(shù)方式。主要通過(guò)將所有獲得的信息資源,按照某種事件確定的概念體系結(jié)構(gòu)加以組織,然后建立主題類目和子類目,這種方式結(jié)構(gòu)比較清晰、目的性更強(qiáng)、查準(zhǔn)率也較高。但對(duì)于體系結(jié)構(gòu)的要求比較簡(jiǎn)單,所以只能適合建立在專業(yè)性或示范性的網(wǎng)絡(luò)信息資源體系中。(4)超媒體方式。主要通過(guò)將文字、聲音、圖像、視頻等各種多媒體信息以超文本方式組織起來(lái),實(shí)現(xiàn)高度鏈接的網(wǎng)絡(luò)結(jié)構(gòu),用戶可以在多種信息類型中查詢到所需要的信息。這種方式類似于人類的聯(lián)想記憶結(jié)構(gòu),把各種類型的資源有機(jī)整合起來(lái),方便描述和建立各媒體信息之間的語(yǔ)義關(guān)系。但是,多種類型的融合,使所占空間變大,這給網(wǎng)站的內(nèi)容規(guī)劃與設(shè)計(jì)增加了工作量。
2.2 網(wǎng)絡(luò)信息資源的檢索
網(wǎng)絡(luò)信息資源的檢索應(yīng)用在網(wǎng)絡(luò)環(huán)境下,要想獲得信息,除了要了解網(wǎng)絡(luò)信息資源的組織方式外,還要學(xué)會(huì)檢索策略、利用檢索工具,才能更有效地獲得自己想要的信息資源。檢索策略一般是在分析檢索提問(wèn)的基礎(chǔ)上,根據(jù)需要確定檢索的數(shù)據(jù)庫(kù)、檢索的用詞,并明確檢索詞之間的邏輯關(guān)系和查找步驟的科學(xué)安排。通常情況下,網(wǎng)絡(luò)信息資源檢索策略主要有2種實(shí)現(xiàn)方式:(1)一般檢索。以瀏覽的方式,采用主題法的自然語(yǔ)言進(jìn)行檢索,它使檢索變得更加直接、簡(jiǎn)單,這種檢索方式通常又被稱為“智能檢索”。(2)高級(jí)檢索。使用敘詞語(yǔ)言進(jìn)行檢索,如布爾邏輯檢索、鄰近檢索、截詞檢索、字段限制檢索、短語(yǔ)檢索等。它提高了用戶檢索網(wǎng)絡(luò)信息資源的準(zhǔn)確性和時(shí)間效率。檢索工具。是指用于存儲(chǔ)、查找和報(bào)銷檔案信息的系統(tǒng)化文字描述工具,是目錄、索引、指南等統(tǒng)稱,也是檢索策略實(shí)施的平臺(tái)。主要方式有3種:(1)自動(dòng)搜尋。通過(guò)自動(dòng)搜尋網(wǎng)絡(luò)資源、自動(dòng)索引和摘要,提供檢索方法和用戶界面等功能。但是其收錄信息良莠不齊,雖然檢全率高,但檢準(zhǔn)率較低。(2)人工分類。通過(guò)人工或機(jī)器進(jìn)行搜尋,使用人工分類制作索引數(shù)據(jù)庫(kù),可以達(dá)到信息質(zhì)量高、準(zhǔn)確性強(qiáng),但人工花費(fèi)時(shí)間和工作量都較大。(3)混合搜尋。這種方式是多種方式的結(jié)合體,既可以通過(guò)類目瀏覽查詢,也可以輸入句子、短語(yǔ)等進(jìn)行自由查詢,并且它具有自動(dòng)搜尋與人工分類的2種方式的特點(diǎn)。
3 網(wǎng)絡(luò)信息資源組織與檢索存在問(wèn)題及對(duì)策
3.1 存在的主要問(wèn)題
當(dāng)前,網(wǎng)絡(luò)信息資源的組織與檢索主要面臨以下一些問(wèn)題:一般網(wǎng)站上的信息資源,在整體組織上還比較混亂,主要表現(xiàn)在類目劃分標(biāo)準(zhǔn)上還不夠合理,對(duì)信息資源在同一層次上劃分不統(tǒng)一。如一些網(wǎng)站,在網(wǎng)站內(nèi)容規(guī)劃與設(shè)計(jì)的時(shí)候考慮不周全,導(dǎo)致不能適應(yīng)不斷變化的用戶需求等。還有一些網(wǎng)站一個(gè)類目下面包含一些不屬于它的下一層子類的現(xiàn)象,這樣一來(lái),導(dǎo)致用戶檢索時(shí),出現(xiàn)一些毫不相干的內(nèi)容。如色情信息、虛假新聞、網(wǎng)絡(luò)廣告等。多數(shù)網(wǎng)站動(dòng)態(tài)反映比較多。從一定意義上方便用戶及時(shí)了解最新變化,但是一些動(dòng)態(tài)腳本、小程序、插件等,在一定程度上影響了用戶的檢索時(shí)間。檢索結(jié)果缺乏準(zhǔn)確性,平均50%的返回信息是無(wú)用的。如在百度搜索引擎中,用戶檢索一個(gè)關(guān)鍵詞,出來(lái)相關(guān)甚至不相關(guān)的信息會(huì)成千上萬(wàn)條,這些信息當(dāng)中真正發(fā)揮對(duì)用戶作用的有效信息屈指可數(shù)。檢索失敗,用戶得到的有用信息少于20%,大多數(shù)據(jù)情況下,普遍用戶檢索信息的返回結(jié)果并不理想,甚至有的返回信息為零。
3.2 解決的主要對(duì)策
目前,國(guó)際國(guó)內(nèi)的許多專家一致認(rèn)同對(duì)網(wǎng)絡(luò)信息資源的有效管理和利用,離不開(kāi)先進(jìn)的技術(shù)支持,尤其是網(wǎng)絡(luò)內(nèi)容管理系統(tǒng)和智能化的概念檢索系統(tǒng)將是提高網(wǎng)絡(luò)信息組織與檢索效率的關(guān)鍵。在此主要介紹網(wǎng)絡(luò)內(nèi)容管理系統(tǒng)和智能信息檢索系統(tǒng)。
網(wǎng)絡(luò)內(nèi)容管理系統(tǒng)是可以協(xié)助進(jìn)行網(wǎng)絡(luò)內(nèi)容管理的一種工具或者一套工具的組合,是提供給組織中懂得技術(shù)的成員和不懂得技術(shù)的成員創(chuàng)建、編輯、管理和出版內(nèi)容的工具,在此過(guò)程中還要受到一套規(guī)則、過(guò)程和工作流程的限制,以確保管理組織的有效性(見(jiàn)圖1)。
目前,國(guó)內(nèi)部分知名中文的Web內(nèi)容管理系統(tǒng)有北京拓爾思信息技術(shù)有限公司開(kāi)發(fā)的TRS內(nèi)容協(xié)作平臺(tái)、北京泰得互聯(lián)開(kāi)發(fā)的TurboCMS、深圳市藍(lán)電科技有限公司開(kāi)發(fā)的Xplus網(wǎng)站內(nèi)容管理系統(tǒng)、上海網(wǎng)達(dá)信息技術(shù)有限公司開(kāi)發(fā)的網(wǎng)達(dá)內(nèi)容管理系統(tǒng)、聯(lián)想集團(tuán)開(kāi)發(fā)的聯(lián)想內(nèi)容管理系統(tǒng)等。雖然在這方面國(guó)內(nèi)取得了一定的成果,但國(guó)內(nèi)的網(wǎng)絡(luò)內(nèi)容管理系統(tǒng)供應(yīng)商和國(guó)外的網(wǎng)絡(luò)內(nèi)容管理系統(tǒng)供應(yīng)商之間還存在著一定的差距,有待于進(jìn)一步提高完善。
智能信息檢索系統(tǒng)。當(dāng)前,國(guó)外的檢索系統(tǒng)如The telcordia semantic indexing software(簡(jiǎn)稱LSI),檢索效果比較好,在實(shí)際應(yīng)用中已經(jīng)克服了普遍使用以關(guān)鍵詞為基礎(chǔ)進(jìn)行的檢索的缺點(diǎn),并已經(jīng)應(yīng)用廣泛。但是,國(guó)內(nèi)現(xiàn)階段專業(yè)人員提高檢索效率的主要有6種方式:(1)利用各種分類表、主題詞表、敘詞表建立網(wǎng)上信息檢索自動(dòng)索引、在線目錄和主題索引。如采用張琪玉教授提出的“分類法主題法一體化”方法,即編制一種分類號(hào)與主題詞的雙向?qū)?yīng)表,作為網(wǎng)絡(luò)資源分類、檢索的依據(jù)。(2)建立同義詞轉(zhuǎn)換概念空間。通過(guò)這種方法建立轉(zhuǎn)換系統(tǒng)對(duì)提高信息的查全率和查準(zhǔn)率有著非常重要的作用。就是把表示同一概念的詞轉(zhuǎn)換為同一等級(jí)的代碼,如電腦、計(jì)算機(jī)統(tǒng)一轉(zhuǎn)化為“計(jì)算機(jī)”等。(3)建立學(xué)科領(lǐng)域統(tǒng)一概念。主要是建立專門(mén)領(lǐng)域或?qū)W科的詞典,可以起到主題過(guò)濾的作用。如統(tǒng)一的醫(yī)學(xué)語(yǔ)言系統(tǒng)UMLS數(shù)據(jù)表。(4)建立否定關(guān)鍵詞程序。通過(guò)準(zhǔn)確計(jì)算的否定模式來(lái)消除不相關(guān)。也就是說(shuō)在實(shí)際操作中用戶可以消除不想得到的信息,從而得到真正想要的內(nèi)容。(5)建立和完善信息反饋程序。就是通過(guò)設(shè)計(jì)一個(gè)用戶信息反饋程序,在用戶進(jìn)行信息檢索時(shí),可以提高檢索效率和用戶的滿意程度。(6)建立個(gè)性化過(guò)濾系統(tǒng)。這個(gè)主要基于用戶特別的興趣偏好,通過(guò)過(guò)濾系統(tǒng)實(shí)現(xiàn)模仿用戶本人,并選擇符合用戶需求的信息傳送給用戶。如利用先進(jìn)的感知器獲得用戶個(gè)人信息,再通過(guò)使用時(shí)間序列分析等預(yù)測(cè)技術(shù)推斷用戶行為模型。
4 結(jié)語(yǔ)
在科技迅速發(fā)展的今天,人們已經(jīng)置身于網(wǎng)絡(luò)信息的汪洋大海之中,唯有不斷地對(duì)網(wǎng)絡(luò)信息資源的進(jìn)行有效組織管理,才能更好地為用戶檢索分析提供優(yōu)質(zhì)服務(wù)。本文總結(jié)在網(wǎng)絡(luò)信息資源組織和檢索中常見(jiàn)的一些問(wèn)題,所提出的對(duì)策是基于網(wǎng)絡(luò)內(nèi)容管理系統(tǒng)和檢索策略2個(gè)方面的知識(shí)梳理。如何面對(duì)未來(lái)網(wǎng)絡(luò)信息資源組織與檢索的新問(wèn)題,如何提出有效地解決新辦法,留給了人們廣闊的研究和探索空間。
[參考文獻(xiàn)]
[1]戴偉輝.網(wǎng)絡(luò)內(nèi)容管理與情報(bào)分析[M].北京:商務(wù)印書(shū)館,2009.
[2]徐海燕.互聯(lián)網(wǎng)信息組織與檢索初探[J].圖書(shū)館建設(shè),2003(4):78-80.
[3]穆穎麗.網(wǎng)絡(luò)信息資源的組織與檢索[J].圖書(shū)館學(xué)刊,2004(2):52-53.
[4]邱桂梅.主題語(yǔ)言在網(wǎng)絡(luò)信息組織與檢索中的應(yīng)用[J].現(xiàn)代情報(bào),2005(2):152-154.
[5]燕惠蘭,桂筱丹.網(wǎng)絡(luò)環(huán)境下信息資源的組織與檢索[J].情報(bào)科學(xué),2001(9):37-41.
Analysis on Public Network Information Resource Organization and Retrieval
Zhang Yueting Xu Mingsong(Military Information Management Department, Nanjing Political College Shanghai Campus, Shanghai 200433, China)
Abstract: The article briefly introduces the public information resources under the network environment of the organization and retrieval language, the analysis of the current network information resources organization and retrieval, some of the major problems and specifically introduces the web content management systems and intelligent retrieval strategy.
Key words: network information; resources organization and retrieval