• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于互聯(lián)網(wǎng)的情報(bào)收集技術(shù)研究

      2018-01-28 09:07:08郭建偉陳佳宇
      天津科技 2018年5期
      關(guān)鍵詞:科技情報(bào)搜索引擎檢索

      郭建偉,燕 娜,陳佳宇

      (北京市科學(xué)技術(shù)情報(bào)研究所 信息資源部 北京100044)

      0 引 言

      互聯(lián)網(wǎng)已經(jīng)越來(lái)越深入地融入了人們的生活,并在不斷地改變著人們的思維及工作方式[1]。有一句名言被改為:“知之為知之,不知百度知”。由此可見(jiàn),人們已經(jīng)習(xí)慣到互聯(lián)網(wǎng)上,借助信息技術(shù)尋找自己需要的各種信息。網(wǎng)民除了瀏覽新聞、收發(fā)郵件之外,對(duì)查找資料、網(wǎng)上購(gòu)物等深層次應(yīng)用的需求和接受程度大幅度提高。

      傳統(tǒng)的情報(bào)收集以印刷型文獻(xiàn)、電子信息資源、報(bào)紙、廣播等大眾傳媒、會(huì)議、訪談等為主要科技情報(bào)信息源[2]。隨著互聯(lián)網(wǎng)的普及,大量的科技情報(bào)信息開(kāi)始在互聯(lián)網(wǎng)上傳輸,如政府部門(mén)、各行業(yè)部門(mén)、各種企事業(yè)單位等,都已經(jīng)或準(zhǔn)備在互聯(lián)網(wǎng)運(yùn)行大量的信息,讓用戶更方便快捷獲取資訊?;ヂ?lián)網(wǎng)由于其信息量大、時(shí)效性強(qiáng)等特點(diǎn),將逐漸成為最主要的情報(bào)來(lái)源。目前,通過(guò)搜索引擎、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、網(wǎng)站、數(shù)字圖書(shū)館、網(wǎng)絡(luò)出版物、網(wǎng)絡(luò)討論組等工具和方式可以快速獲取第一手資料。因此,了解并掌握基于互聯(lián)網(wǎng)的信息收集方法,對(duì)于提高情報(bào)研究的質(zhì)量和效率,具有重要意義。

      1 搜索引擎在情報(bào)收集工作中的應(yīng)用

      搜索引擎(Search Engine)是一種利用互聯(lián)網(wǎng)自采集技術(shù),對(duì)各種情報(bào)信息資源進(jìn)行標(biāo)識(shí),并為使用者提供搜索的工具,例如:AltaVista、Yahoo!、Google和百度[3]。搜索引擎作為用戶訪問(wèn)互聯(lián)網(wǎng)的入口和指南,已經(jīng)成為人們利用最廣泛的工具。搜索引擎的收集對(duì)象是互聯(lián)網(wǎng)網(wǎng)站的各種文檔,如 html、htm、asp、nsf、shtml、txt、pdf等格式的文檔。最大特點(diǎn)是把分散在全球的數(shù)據(jù)統(tǒng)一成一個(gè)標(biāo)準(zhǔn)的大型數(shù)據(jù)庫(kù),查詢信息結(jié)果是優(yōu)質(zhì)信息源,而不是信息本身。

      搜索引擎通過(guò)從網(wǎng)絡(luò)抓取的有關(guān)網(wǎng)站的信息,查詢到使用者查找的相匹配的記錄,反饋給使用者。全文搜索引擎的特點(diǎn)是能夠?qū)Ω骶W(wǎng)站的每個(gè)頁(yè)面中的每個(gè)詞進(jìn)行搜索,缺點(diǎn)是提供的科技情報(bào)信息數(shù)據(jù)量雖大,但因可選擇的條件多而降低命中率。由于沒(méi)有按照類(lèi)別搜索的結(jié)構(gòu),會(huì)給使用者多而雜的感覺(jué)。

      1.1 目錄索引搜索

      目錄索引搜索按照目錄進(jìn)行檢索,分類(lèi)目錄也能找到需要的信息。最具代表性的有 Yahoo!,國(guó)內(nèi)的Sohu、Sina等也屬于這一類(lèi)。目錄索引搜索特點(diǎn)是查準(zhǔn)率高、查全率低、搜索范圍較小。

      1.2 分類(lèi)全文搜索引擎

      分類(lèi)全文搜索引擎是基于全文搜索引擎和分類(lèi)搜索引擎的缺點(diǎn)而設(shè)計(jì)的,設(shè)計(jì)上加入了全文檢索。這樣既可以使用戶在分類(lèi)目錄中瀏覽,保證了一定的查準(zhǔn)率,又可以使用戶進(jìn)行全文查詢。其特點(diǎn)是誤查率低,搜索范圍小。

      1.3 “二次檢索”

      “二次檢索”是指在上一次檢索的結(jié)果中再進(jìn)行更為精確的檢索[4]。百度、雅虎、infoseek等都提供“在結(jié)果內(nèi)查找”的查詢功能。

      1.4 垂直搜索引擎

      垂直搜索引擎是針對(duì)某一個(gè)行業(yè)的專(zhuān)業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁(yè)庫(kù)中的某類(lèi)專(zhuān)門(mén)的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶[5]。

      垂直搜索引擎具有搜索功能模塊強(qiáng)大,切換性強(qiáng),使用者容易上手操作;瀏覽器會(huì)發(fā)現(xiàn)新的引擎,成為默認(rèn)瀏覽;內(nèi)容豐富,適于用多款瀏覽器瀏覽模式;兼容性強(qiáng),基于多種內(nèi)核瀏覽器;安全性高,收集大量正規(guī)金融、新聞、咨詢等網(wǎng)站功能的優(yōu)點(diǎn)。

      1.5 利用搜索引擎進(jìn)行信息檢索的技巧

      利用搜索引擎進(jìn)行信息檢索是一項(xiàng)實(shí)踐性很強(qiáng)的工作,科技情報(bào)工作者應(yīng)該在使用過(guò)程中不斷總結(jié)檢索技巧,以提高有用信息的命中率。

      1.5.1 搜索關(guān)鍵字設(shè)置

      我們?cè)谑褂弥邪l(fā)現(xiàn):在搜索引擎中如果只輸入一個(gè)字或短句來(lái)進(jìn)行查詢,會(huì)有大量相關(guān)性不大的文檔,查詢者使用起來(lái)浪費(fèi)時(shí)間。要進(jìn)行針對(duì)性的搜索,應(yīng)該輸入多且精準(zhǔn)的詞或詞組,使之在搜索時(shí)自動(dòng)過(guò)濾掉無(wú)用的信息。提供的詞組越精確,搜索得到的結(jié)果越少,文檔的相關(guān)性越強(qiáng)。搜索關(guān)鍵字應(yīng)盡量選用專(zhuān)指詞或非常用詞,如果應(yīng)用布爾邏輯符,或者加上引號(hào),檢索結(jié)果可以更加精確。

      1.5.2 選擇合適的搜索引擎

      目前,互聯(lián)網(wǎng)上的搜索引擎種類(lèi)繁多,面向的對(duì)象各有不同,從中找出與所查信息主題相符合的搜索引擎,可以做到有的放矢,快速、準(zhǔn)確、全面地找到所需信息。在使用搜索引擎之前,應(yīng)研究一下它的用法和特殊之處,能夠收到事半功倍的效果。進(jìn)行搜索前需要從搜索引擎的類(lèi)型、功能、特點(diǎn),檢索問(wèn)題的類(lèi)型,查詢目標(biāo)可能的存在形式(是網(wǎng)頁(yè)還是FTP)等方面綜合考慮,選擇相應(yīng)類(lèi)型的檢索工具。例如,對(duì)于一般性的瀏覽查詢,或希望獲取較為綜合、準(zhǔn)確的信息時(shí),一般應(yīng)使用雅虎(http∶//www.yahoo.com/)這樣的目錄型檢索工具。

      1.5.3 根據(jù)結(jié)果進(jìn)一步修訂搜索策略

      系統(tǒng)返回檢索結(jié)果后,可根據(jù)檢索效果進(jìn)一步修訂搜索策略。雖然有時(shí)檢索結(jié)果并不理想,甚至包含有大量的“垃圾信息”,但也有可能在這些結(jié)果中發(fā)現(xiàn)一些更合適的檢索詞或提供更準(zhǔn)確的檢索信息。這樣就可以進(jìn)一步確定檢索表達(dá)式,或者轉(zhuǎn)向其他引擎搜索。

      2 網(wǎng)絡(luò)數(shù)據(jù)庫(kù)

      互聯(lián)網(wǎng)作為海量信息源,具有3個(gè)特點(diǎn):

      ①擴(kuò)大了數(shù)據(jù)資源共享范圍、便于數(shù)據(jù)傳輸交流。哪里有網(wǎng)絡(luò),哪里就可以實(shí)現(xiàn)數(shù)據(jù)資源共享。

      ②大批量的數(shù)據(jù)處理,可分解給不同的計(jì)算機(jī)處理,實(shí)現(xiàn)分布式處理的目的。

      ③既可以采用 C/S方式,也可以采用 B/S。降低了系統(tǒng)的使用費(fèi)用,提高了計(jì)算機(jī)可用性。

      正是由于互聯(lián)網(wǎng)信息資源分布零散,并且難以規(guī)范化、結(jié)構(gòu)化,因此對(duì)信息資源的組織和管理提出了更高的要求。網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的出現(xiàn)可以很好地解決上述問(wèn)題。

      網(wǎng)絡(luò)數(shù)據(jù)庫(kù)具有以下特點(diǎn):

      ①信息資源專(zhuān)業(yè)性較強(qiáng),主題明確,檢索的相關(guān)性非常高。

      ②資源被有效地分類(lèi)和標(biāo)識(shí),存取的效率比較高。

      ③實(shí)現(xiàn)異地遠(yuǎn)程檢索,故障率較低,能夠不間斷提供服務(wù)。

      ④數(shù)據(jù)更新快,用戶可隨時(shí)利用,并且具有豐富、可靠、權(quán)威的數(shù)據(jù)資源和全面多樣的服務(wù)方式。

      3 數(shù)字圖書(shū)館

      數(shù)字圖書(shū)館[6]提供的特色資源主要集中在本地區(qū)的歷史沿革、發(fā)展現(xiàn)狀、社會(huì)狀況、資源分布、民俗風(fēng)情、人文景觀等,便于訪問(wèn)者了解該地區(qū)的投資環(huán)境和發(fā)展前景,比如首都圖書(shū)館(www.clcn.net.cn)擁有明清北京城垣資源庫(kù)、北京地方文獻(xiàn)報(bào)刊索引數(shù)據(jù)庫(kù)、中國(guó)共產(chǎn)黨北京黨史資源庫(kù)、奧林匹克運(yùn)動(dòng)會(huì)與藝術(shù)多媒體資源庫(kù)、中國(guó)人民解放軍將帥多媒體資源庫(kù)等特色資源。上海圖書(shū)館的《全國(guó)報(bào)刊索引》數(shù)據(jù)庫(kù)、國(guó)內(nèi)專(zhuān)業(yè)會(huì)議數(shù)據(jù)庫(kù)、家譜書(shū)目數(shù)據(jù)庫(kù);吉林圖書(shū)館的吉林省兩院院士及省管優(yōu)秀專(zhuān)家數(shù)據(jù)庫(kù)、省文化法規(guī)數(shù)據(jù)庫(kù)、省生態(tài)信息數(shù)據(jù)庫(kù)等都因內(nèi)容翔實(shí)而全面在業(yè)界具有重要的地位。

      4 專(zhuān)業(yè)科技情報(bào)網(wǎng)站

      目前,互聯(lián)網(wǎng)上已經(jīng)存在著上千萬(wàn)個(gè)網(wǎng)站,以文字、圖片、語(yǔ)音、動(dòng)畫(huà)、電影等多媒體技術(shù)及各種綜合手段進(jìn)行實(shí)時(shí)信息發(fā)布。充分利用互聯(lián)網(wǎng)網(wǎng)站獲取有價(jià)值的信息可以收到事半功倍的效果。在我國(guó),政府網(wǎng)站可以提供政策法規(guī)、經(jīng)濟(jì)信息、服務(wù)信息等三大類(lèi)信息;各種行業(yè)(學(xué)會(huì)、協(xié)會(huì))網(wǎng)站可提供行業(yè)新聞、行業(yè)動(dòng)態(tài)、市場(chǎng)行情、學(xué)術(shù)動(dòng)態(tài)、行業(yè)政策法規(guī)等資源和信息,用戶可以通過(guò)行業(yè)網(wǎng)站,對(duì)整個(gè)行業(yè)有所了解,掌握行業(yè)目前的狀況;企業(yè)網(wǎng)站可提供公司信息、經(jīng)營(yíng)動(dòng)態(tài)、產(chǎn)品宣傳、新產(chǎn)品研究方案、售后服務(wù)、合作伙伴信息等??梢?jiàn),互聯(lián)網(wǎng)網(wǎng)站中蘊(yùn)含了豐富的科技情報(bào)資源。科技情報(bào)工作者在對(duì)搜集目標(biāo)不很明確或不知從何處入手時(shí),直接登錄相關(guān)網(wǎng)站是最好的選擇。

      5 總 結(jié)

      互聯(lián)網(wǎng)由于其信息量大、時(shí)效性強(qiáng)等特點(diǎn),已逐漸成為最主要的情報(bào)來(lái)源。了解并掌握基于互聯(lián)網(wǎng)的信息收集方法,對(duì)于提高情報(bào)研究的質(zhì)量和效率具有重要的意義。搜索引擎是情報(bào)搜集的主要工具之一,本章介紹了搜索引擎的各種分類(lèi)和適用情況,總結(jié)了利用搜索引擎進(jìn)行信息檢索的技巧。介紹了更加專(zhuān)業(yè)、更有針對(duì)性的搜索引擎——垂直搜索引擎,并總結(jié)了幾種發(fā)展比較成熟,且能夠在科技情報(bào)收集工作中發(fā)揮較大作用的垂直搜索引擎。網(wǎng)絡(luò)數(shù)據(jù)庫(kù)由于專(zhuān)業(yè)性強(qiáng),檢索相關(guān)度高,是科技查新工作及科技情報(bào)收集工作的基礎(chǔ)。介紹了網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的特點(diǎn)。由于許多數(shù)字圖書(shū)館既是各種文獻(xiàn)資源的聚集地,同時(shí)也是各種特色數(shù)據(jù)資源的建設(shè)者和提供者,情報(bào)工作者通過(guò)訪問(wèn)數(shù)字圖書(shū)館可以獲得多種渠道的信息來(lái)源,所以本文也將數(shù)字圖書(shū)館作為網(wǎng)絡(luò)信息的來(lái)源之一進(jìn)行了介紹。另外,一些專(zhuān)業(yè)的科技情報(bào)網(wǎng)站中蘊(yùn)含了豐富的科技情報(bào)資源,介紹了政府門(mén)戶網(wǎng)站、行業(yè)(協(xié)會(huì))網(wǎng)站在情報(bào)搜集中的應(yīng)用?!?/p>

      [1]王興偉,李婕,譚振華,等.面向“互聯(lián)網(wǎng)+”的網(wǎng)絡(luò)技術(shù)發(fā)展現(xiàn)狀與未來(lái)趨勢(shì)[J].計(jì)算機(jī)研究與發(fā)展,2016,53(4):727-741.

      [2]劉佳.如何通過(guò)互聯(lián)網(wǎng)收集情報(bào)[J].中國(guó)牧業(yè)通訊,2011(7):93.

      [3]印鑒,陳憶群,張鋼,等.搜索引擎技術(shù)研究與發(fā)展[J].計(jì)算機(jī)工程,2005,31(14):54-56.

      [4]嚴(yán)永松.XML在搜索引擎中的應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2009(12):58-60.

      [5]肖冬梅.垂直搜索引擎研究[J].圖書(shū)館學(xué)研究,2003(2):87-89.

      [6]鄭志蘊(yùn),宋瀚濤,牛振東,等.基于網(wǎng)格技術(shù)的數(shù)字圖書(shū)館互操作關(guān)鍵技術(shù)[J].北京理工大學(xué)學(xué)報(bào),2005,25(12):1066-1070.

      猜你喜歡
      科技情報(bào)搜索引擎檢索
      基于數(shù)據(jù)工程的國(guó)防科技情報(bào)生態(tài)體系構(gòu)建
      2019年第4-6期便捷檢索目錄
      銅陵市科技情報(bào)工作存在的問(wèn)題與發(fā)展對(duì)策
      安徽科技(2018年9期)2018-12-31 12:54:31
      加強(qiáng)科技情報(bào)檔案管理工作的建議
      專(zhuān)利檢索中“語(yǔ)義”的表現(xiàn)
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于創(chuàng)新環(huán)境下的科技情報(bào)研究
      基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
      廣告主與搜索引擎的雙向博弈分析
      國(guó)際標(biāo)準(zhǔn)檢索
      革吉县| 大庆市| 黄陵县| 阿拉善盟| 托克托县| 仙居县| 绵阳市| 台东县| 玛曲县| 潼关县| 康乐县| 甘德县| 石嘴山市| 皋兰县| 吴旗县| 南江县| 商城县| 高碑店市| 囊谦县| 奉节县| 龙口市| 双鸭山市| 石城县| 道真| 肃南| 重庆市| 哈尔滨市| 大悟县| 海盐县| 昌平区| 全州县| 平乡县| 黄平县| 依兰县| 富蕴县| 宁乡县| 沧州市| 宁津县| 元阳县| 朝阳县| 万载县|