郭建偉,燕 娜,陳佳宇
(北京市科學(xué)技術(shù)情報(bào)研究所 信息資源部 北京100044)
互聯(lián)網(wǎng)已經(jīng)越來(lái)越深入地融入了人們的生活,并在不斷地改變著人們的思維及工作方式[1]。有一句名言被改為:“知之為知之,不知百度知”。由此可見(jiàn),人們已經(jīng)習(xí)慣到互聯(lián)網(wǎng)上,借助信息技術(shù)尋找自己需要的各種信息。網(wǎng)民除了瀏覽新聞、收發(fā)郵件之外,對(duì)查找資料、網(wǎng)上購(gòu)物等深層次應(yīng)用的需求和接受程度大幅度提高。
傳統(tǒng)的情報(bào)收集以印刷型文獻(xiàn)、電子信息資源、報(bào)紙、廣播等大眾傳媒、會(huì)議、訪談等為主要科技情報(bào)信息源[2]。隨著互聯(lián)網(wǎng)的普及,大量的科技情報(bào)信息開(kāi)始在互聯(lián)網(wǎng)上傳輸,如政府部門(mén)、各行業(yè)部門(mén)、各種企事業(yè)單位等,都已經(jīng)或準(zhǔn)備在互聯(lián)網(wǎng)運(yùn)行大量的信息,讓用戶更方便快捷獲取資訊?;ヂ?lián)網(wǎng)由于其信息量大、時(shí)效性強(qiáng)等特點(diǎn),將逐漸成為最主要的情報(bào)來(lái)源。目前,通過(guò)搜索引擎、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、網(wǎng)站、數(shù)字圖書(shū)館、網(wǎng)絡(luò)出版物、網(wǎng)絡(luò)討論組等工具和方式可以快速獲取第一手資料。因此,了解并掌握基于互聯(lián)網(wǎng)的信息收集方法,對(duì)于提高情報(bào)研究的質(zhì)量和效率,具有重要意義。
搜索引擎(Search Engine)是一種利用互聯(lián)網(wǎng)自采集技術(shù),對(duì)各種情報(bào)信息資源進(jìn)行標(biāo)識(shí),并為使用者提供搜索的工具,例如:AltaVista、Yahoo!、Google和百度[3]。搜索引擎作為用戶訪問(wèn)互聯(lián)網(wǎng)的入口和指南,已經(jīng)成為人們利用最廣泛的工具。搜索引擎的收集對(duì)象是互聯(lián)網(wǎng)網(wǎng)站的各種文檔,如 html、htm、asp、nsf、shtml、txt、pdf等格式的文檔。最大特點(diǎn)是把分散在全球的數(shù)據(jù)統(tǒng)一成一個(gè)標(biāo)準(zhǔn)的大型數(shù)據(jù)庫(kù),查詢信息結(jié)果是優(yōu)質(zhì)信息源,而不是信息本身。
搜索引擎通過(guò)從網(wǎng)絡(luò)抓取的有關(guān)網(wǎng)站的信息,查詢到使用者查找的相匹配的記錄,反饋給使用者。全文搜索引擎的特點(diǎn)是能夠?qū)Ω骶W(wǎng)站的每個(gè)頁(yè)面中的每個(gè)詞進(jìn)行搜索,缺點(diǎn)是提供的科技情報(bào)信息數(shù)據(jù)量雖大,但因可選擇的條件多而降低命中率。由于沒(méi)有按照類(lèi)別搜索的結(jié)構(gòu),會(huì)給使用者多而雜的感覺(jué)。
目錄索引搜索按照目錄進(jìn)行檢索,分類(lèi)目錄也能找到需要的信息。最具代表性的有 Yahoo!,國(guó)內(nèi)的Sohu、Sina等也屬于這一類(lèi)。目錄索引搜索特點(diǎn)是查準(zhǔn)率高、查全率低、搜索范圍較小。
分類(lèi)全文搜索引擎是基于全文搜索引擎和分類(lèi)搜索引擎的缺點(diǎn)而設(shè)計(jì)的,設(shè)計(jì)上加入了全文檢索。這樣既可以使用戶在分類(lèi)目錄中瀏覽,保證了一定的查準(zhǔn)率,又可以使用戶進(jìn)行全文查詢。其特點(diǎn)是誤查率低,搜索范圍小。
“二次檢索”是指在上一次檢索的結(jié)果中再進(jìn)行更為精確的檢索[4]。百度、雅虎、infoseek等都提供“在結(jié)果內(nèi)查找”的查詢功能。
垂直搜索引擎是針對(duì)某一個(gè)行業(yè)的專(zhuān)業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁(yè)庫(kù)中的某類(lèi)專(zhuān)門(mén)的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶[5]。
垂直搜索引擎具有搜索功能模塊強(qiáng)大,切換性強(qiáng),使用者容易上手操作;瀏覽器會(huì)發(fā)現(xiàn)新的引擎,成為默認(rèn)瀏覽;內(nèi)容豐富,適于用多款瀏覽器瀏覽模式;兼容性強(qiáng),基于多種內(nèi)核瀏覽器;安全性高,收集大量正規(guī)金融、新聞、咨詢等網(wǎng)站功能的優(yōu)點(diǎn)。
利用搜索引擎進(jìn)行信息檢索是一項(xiàng)實(shí)踐性很強(qiáng)的工作,科技情報(bào)工作者應(yīng)該在使用過(guò)程中不斷總結(jié)檢索技巧,以提高有用信息的命中率。
1.5.1 搜索關(guān)鍵字設(shè)置
我們?cè)谑褂弥邪l(fā)現(xiàn):在搜索引擎中如果只輸入一個(gè)字或短句來(lái)進(jìn)行查詢,會(huì)有大量相關(guān)性不大的文檔,查詢者使用起來(lái)浪費(fèi)時(shí)間。要進(jìn)行針對(duì)性的搜索,應(yīng)該輸入多且精準(zhǔn)的詞或詞組,使之在搜索時(shí)自動(dòng)過(guò)濾掉無(wú)用的信息。提供的詞組越精確,搜索得到的結(jié)果越少,文檔的相關(guān)性越強(qiáng)。搜索關(guān)鍵字應(yīng)盡量選用專(zhuān)指詞或非常用詞,如果應(yīng)用布爾邏輯符,或者加上引號(hào),檢索結(jié)果可以更加精確。
1.5.2 選擇合適的搜索引擎
目前,互聯(lián)網(wǎng)上的搜索引擎種類(lèi)繁多,面向的對(duì)象各有不同,從中找出與所查信息主題相符合的搜索引擎,可以做到有的放矢,快速、準(zhǔn)確、全面地找到所需信息。在使用搜索引擎之前,應(yīng)研究一下它的用法和特殊之處,能夠收到事半功倍的效果。進(jìn)行搜索前需要從搜索引擎的類(lèi)型、功能、特點(diǎn),檢索問(wèn)題的類(lèi)型,查詢目標(biāo)可能的存在形式(是網(wǎng)頁(yè)還是FTP)等方面綜合考慮,選擇相應(yīng)類(lèi)型的檢索工具。例如,對(duì)于一般性的瀏覽查詢,或希望獲取較為綜合、準(zhǔn)確的信息時(shí),一般應(yīng)使用雅虎(http∶//www.yahoo.com/)這樣的目錄型檢索工具。
1.5.3 根據(jù)結(jié)果進(jìn)一步修訂搜索策略
系統(tǒng)返回檢索結(jié)果后,可根據(jù)檢索效果進(jìn)一步修訂搜索策略。雖然有時(shí)檢索結(jié)果并不理想,甚至包含有大量的“垃圾信息”,但也有可能在這些結(jié)果中發(fā)現(xiàn)一些更合適的檢索詞或提供更準(zhǔn)確的檢索信息。這樣就可以進(jìn)一步確定檢索表達(dá)式,或者轉(zhuǎn)向其他引擎搜索。
互聯(lián)網(wǎng)作為海量信息源,具有3個(gè)特點(diǎn):
①擴(kuò)大了數(shù)據(jù)資源共享范圍、便于數(shù)據(jù)傳輸交流。哪里有網(wǎng)絡(luò),哪里就可以實(shí)現(xiàn)數(shù)據(jù)資源共享。
②大批量的數(shù)據(jù)處理,可分解給不同的計(jì)算機(jī)處理,實(shí)現(xiàn)分布式處理的目的。
③既可以采用 C/S方式,也可以采用 B/S。降低了系統(tǒng)的使用費(fèi)用,提高了計(jì)算機(jī)可用性。
正是由于互聯(lián)網(wǎng)信息資源分布零散,并且難以規(guī)范化、結(jié)構(gòu)化,因此對(duì)信息資源的組織和管理提出了更高的要求。網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的出現(xiàn)可以很好地解決上述問(wèn)題。
網(wǎng)絡(luò)數(shù)據(jù)庫(kù)具有以下特點(diǎn):
①信息資源專(zhuān)業(yè)性較強(qiáng),主題明確,檢索的相關(guān)性非常高。
②資源被有效地分類(lèi)和標(biāo)識(shí),存取的效率比較高。
③實(shí)現(xiàn)異地遠(yuǎn)程檢索,故障率較低,能夠不間斷提供服務(wù)。
④數(shù)據(jù)更新快,用戶可隨時(shí)利用,并且具有豐富、可靠、權(quán)威的數(shù)據(jù)資源和全面多樣的服務(wù)方式。
數(shù)字圖書(shū)館[6]提供的特色資源主要集中在本地區(qū)的歷史沿革、發(fā)展現(xiàn)狀、社會(huì)狀況、資源分布、民俗風(fēng)情、人文景觀等,便于訪問(wèn)者了解該地區(qū)的投資環(huán)境和發(fā)展前景,比如首都圖書(shū)館(www.clcn.net.cn)擁有明清北京城垣資源庫(kù)、北京地方文獻(xiàn)報(bào)刊索引數(shù)據(jù)庫(kù)、中國(guó)共產(chǎn)黨北京黨史資源庫(kù)、奧林匹克運(yùn)動(dòng)會(huì)與藝術(shù)多媒體資源庫(kù)、中國(guó)人民解放軍將帥多媒體資源庫(kù)等特色資源。上海圖書(shū)館的《全國(guó)報(bào)刊索引》數(shù)據(jù)庫(kù)、國(guó)內(nèi)專(zhuān)業(yè)會(huì)議數(shù)據(jù)庫(kù)、家譜書(shū)目數(shù)據(jù)庫(kù);吉林圖書(shū)館的吉林省兩院院士及省管優(yōu)秀專(zhuān)家數(shù)據(jù)庫(kù)、省文化法規(guī)數(shù)據(jù)庫(kù)、省生態(tài)信息數(shù)據(jù)庫(kù)等都因內(nèi)容翔實(shí)而全面在業(yè)界具有重要的地位。
目前,互聯(lián)網(wǎng)上已經(jīng)存在著上千萬(wàn)個(gè)網(wǎng)站,以文字、圖片、語(yǔ)音、動(dòng)畫(huà)、電影等多媒體技術(shù)及各種綜合手段進(jìn)行實(shí)時(shí)信息發(fā)布。充分利用互聯(lián)網(wǎng)網(wǎng)站獲取有價(jià)值的信息可以收到事半功倍的效果。在我國(guó),政府網(wǎng)站可以提供政策法規(guī)、經(jīng)濟(jì)信息、服務(wù)信息等三大類(lèi)信息;各種行業(yè)(學(xué)會(huì)、協(xié)會(huì))網(wǎng)站可提供行業(yè)新聞、行業(yè)動(dòng)態(tài)、市場(chǎng)行情、學(xué)術(shù)動(dòng)態(tài)、行業(yè)政策法規(guī)等資源和信息,用戶可以通過(guò)行業(yè)網(wǎng)站,對(duì)整個(gè)行業(yè)有所了解,掌握行業(yè)目前的狀況;企業(yè)網(wǎng)站可提供公司信息、經(jīng)營(yíng)動(dòng)態(tài)、產(chǎn)品宣傳、新產(chǎn)品研究方案、售后服務(wù)、合作伙伴信息等??梢?jiàn),互聯(lián)網(wǎng)網(wǎng)站中蘊(yùn)含了豐富的科技情報(bào)資源。科技情報(bào)工作者在對(duì)搜集目標(biāo)不很明確或不知從何處入手時(shí),直接登錄相關(guān)網(wǎng)站是最好的選擇。
互聯(lián)網(wǎng)由于其信息量大、時(shí)效性強(qiáng)等特點(diǎn),已逐漸成為最主要的情報(bào)來(lái)源。了解并掌握基于互聯(lián)網(wǎng)的信息收集方法,對(duì)于提高情報(bào)研究的質(zhì)量和效率具有重要的意義。搜索引擎是情報(bào)搜集的主要工具之一,本章介紹了搜索引擎的各種分類(lèi)和適用情況,總結(jié)了利用搜索引擎進(jìn)行信息檢索的技巧。介紹了更加專(zhuān)業(yè)、更有針對(duì)性的搜索引擎——垂直搜索引擎,并總結(jié)了幾種發(fā)展比較成熟,且能夠在科技情報(bào)收集工作中發(fā)揮較大作用的垂直搜索引擎。網(wǎng)絡(luò)數(shù)據(jù)庫(kù)由于專(zhuān)業(yè)性強(qiáng),檢索相關(guān)度高,是科技查新工作及科技情報(bào)收集工作的基礎(chǔ)。介紹了網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的特點(diǎn)。由于許多數(shù)字圖書(shū)館既是各種文獻(xiàn)資源的聚集地,同時(shí)也是各種特色數(shù)據(jù)資源的建設(shè)者和提供者,情報(bào)工作者通過(guò)訪問(wèn)數(shù)字圖書(shū)館可以獲得多種渠道的信息來(lái)源,所以本文也將數(shù)字圖書(shū)館作為網(wǎng)絡(luò)信息的來(lái)源之一進(jìn)行了介紹。另外,一些專(zhuān)業(yè)的科技情報(bào)網(wǎng)站中蘊(yùn)含了豐富的科技情報(bào)資源,介紹了政府門(mén)戶網(wǎng)站、行業(yè)(協(xié)會(huì))網(wǎng)站在情報(bào)搜集中的應(yīng)用?!?/p>
[1]王興偉,李婕,譚振華,等.面向“互聯(lián)網(wǎng)+”的網(wǎng)絡(luò)技術(shù)發(fā)展現(xiàn)狀與未來(lái)趨勢(shì)[J].計(jì)算機(jī)研究與發(fā)展,2016,53(4):727-741.
[2]劉佳.如何通過(guò)互聯(lián)網(wǎng)收集情報(bào)[J].中國(guó)牧業(yè)通訊,2011(7):93.
[3]印鑒,陳憶群,張鋼,等.搜索引擎技術(shù)研究與發(fā)展[J].計(jì)算機(jī)工程,2005,31(14):54-56.
[4]嚴(yán)永松.XML在搜索引擎中的應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2009(12):58-60.
[5]肖冬梅.垂直搜索引擎研究[J].圖書(shū)館學(xué)研究,2003(2):87-89.
[6]鄭志蘊(yùn),宋瀚濤,牛振東,等.基于網(wǎng)格技術(shù)的數(shù)字圖書(shū)館互操作關(guān)鍵技術(shù)[J].北京理工大學(xué)學(xué)報(bào),2005,25(12):1066-1070.