• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      2000—2009年國內(nèi)鏈接分析研究文獻計量分析

      2011-05-08 08:28:26曾晶晶王亞平奉國和
      圖書館界 2011年2期
      關(guān)鍵詞:分析法論文算法

      曾晶晶,王亞平,奉國和

      (華南師范大學(xué)經(jīng)濟與管理學(xué)院,廣東 廣州 510006)

      鏈接分析法(link analysis)是指運用網(wǎng)絡(luò)數(shù)據(jù)庫、數(shù)學(xué)分析軟件等工具,利用數(shù)學(xué)和情報學(xué)方法,對網(wǎng)絡(luò)鏈接自身屬性、鏈接對象、鏈接網(wǎng)絡(luò)等各種對象進行分析,以便揭示其數(shù)量特征和內(nèi)在規(guī)律,并用以解決各方面問題的一種研究方法[1]。隨著網(wǎng)絡(luò)技術(shù)、通訊技術(shù)、計算機技術(shù)的迅猛發(fā)展,結(jié)合文獻計量學(xué)方法原理,鏈接分析應(yīng)用范圍變得更為廣泛[2]。鏈接分析法已成為目前網(wǎng)絡(luò)計量學(xué)中應(yīng)用最多的一種方法[3],在近十幾年發(fā)展中取得了豐碩的研究成果。筆者利用文獻計量法統(tǒng)計了 2000—2009年這 10年來我國在鏈接分析研究領(lǐng)域發(fā)表的論文,試圖通過回溯分析揭示這 10年來該領(lǐng)域研究的發(fā)展軌跡,并對其發(fā)展趨勢進行展望。

      1 論文統(tǒng)計分析

      1.1 年度論文數(shù)量分布分析

      筆者以 CNKI期刊全文數(shù)據(jù)庫、碩博士學(xué)位論文全文數(shù)據(jù)庫為檢索范圍,以“鏈接分析”為檢索詞,以關(guān)鍵詞為檢索項,以 2000—2009年為時間跨度進行精確匹配檢索,經(jīng)過去重等整理、篩選工作,共檢索到 368篇與鏈接分析相關(guān)的論文。

      論文發(fā)表年代分布在一定程度上能反映出鏈接分析研究狀況及發(fā)展速度,并能通過圖表反映出哪一時間段內(nèi)為研究熱點時期,368篇論文的具體年代分布見表 1。

      表1 2000—2009年國內(nèi)鏈接分析研究論文年度數(shù)量分布表

      統(tǒng)計表明,論文年度數(shù)量分布呈現(xiàn)出明顯的遞增趨勢和階段性特征,可將國內(nèi)鏈接分析的研究劃分為三個階段:1)初始階段(2000—2001年)。此階段國內(nèi)鏈接分析研究初露端倪,屬于開始引進國外理論并進行研究的階段,相關(guān)論文數(shù)占總數(shù)的1.1%。2)穩(wěn)步增長階段(2002—2006年)。此階段相關(guān)論文數(shù)逐年穩(wěn)步增加,處于上升階段,占總量的33.9%,說明學(xué)界開始重視鏈接分析的研究。3)激增階段(2007—2009年)。相關(guān)論文數(shù)激增,占總數(shù)的 65%,說明近年來該領(lǐng)域進入了熱點研究時期,主要原因是隨著國內(nèi)外學(xué)者對鏈接分析研究的深入,鏈接分析的方法在各方面的應(yīng)用開始凸顯,由此吸引越來越多的學(xué)者對鏈接分析研究的關(guān)注。

      1.2 論文來源分布分析

      論文來源分析是了解鏈接分析研究領(lǐng)域空間分布特點的最有效方法,有利于鏈接分析研究領(lǐng)域資料的搜集、整理和研究,從而促進該領(lǐng)域研究的全面、深入發(fā)展(見表 2)。

      表2 2000—2009年國內(nèi)鏈接分析研究論文來源分布表

      表 2表明,學(xué)術(shù)期刊的發(fā)文量處于絕對的主導(dǎo)地位,而博、碩士學(xué)位論文也占了發(fā)文總量的19.8%,這說明鏈接分析領(lǐng)域的研究已經(jīng)受到了博、碩士研究生的高度重視,成為博、碩士畢業(yè)論文的熱門選題。

      為進一步掌握有關(guān)鏈接分析研究領(lǐng)域核心期刊群,筆者統(tǒng)計了 295篇學(xué)術(shù)期刊論文,發(fā)現(xiàn)其共刊登在 127種期刊上,其中發(fā)文量在 5篇以上(含 5篇)的期刊有 15種(見表 3),占期刊總數(shù)的 11.8%;共收錄論文 137篇,占論文總數(shù)的 46.4%,表明有近半數(shù)的論文刊載在 11.8%的少數(shù)期刊上,這 15種期刊可視為研究鏈接分析的核心期刊。圖書情報類的期刊和計算機類期刊是研究鏈接分析的重要陣地,其中共有 25種圖書情報類的期刊發(fā)表相關(guān)論文127篇,占發(fā)文總量的 43.1%;44種計算機類期刊共發(fā)表文章 103篇,占發(fā)文總量的 34.9%,兩者合計占期刊發(fā)文總量的 78%。而圖書情報核心期刊排名前三位的《中國圖書館學(xué)報》《圖書情報工作》《情報學(xué)報》發(fā)文量分別為 8篇、19篇和 12篇。

      表3 2000—2009年國內(nèi)鏈接分析研究發(fā)文量在 5篇以上的期刊

      1.3 作者分布分析

      衡量科研論文合作程度常用指標(biāo)是合作率,2000—2009年鏈接分析研究作者合著情況見表 4。

      表4 2000—2009年國內(nèi)鏈接分析研究論文著者合著情況表

      在 295篇期刊論文中,獨立作者的為 75篇,占發(fā)文總量的 25.4%;2人及 3人合作發(fā)文量占63.4%;4人及以上合作發(fā)文量占發(fā)文總數(shù)的11.2%,論文合作率為 74.6%,可見鏈接分析研究的合作程度相當(dāng)高,是一個需要學(xué)科間相互交流與合作的綜合性研究領(lǐng)域。

      統(tǒng)計顯示,期刊論文作者總?cè)藬?shù)為 521人,而其中發(fā)文量在 3篇以上(含 3篇)的作者(包括第二作者)占總?cè)藬?shù)的 4.0%,共發(fā)文 105篇,占發(fā)文總量的 35.6%(見表 5)。這說明在鏈接分析的研究上已初步形成了該領(lǐng)域的核心作者群。

      表5 2000—2009年國內(nèi)鏈接分析研究核心作者分布表

      295篇鏈接分析的期刊論文共涉及 170多個來源單位,其中發(fā)文量為 5篇以上(含 5篇)的單位 13個,共發(fā)論文 118篇,占論文總數(shù)的 40%(見表 6)。同時表中數(shù)據(jù)表明高校是鏈接分析研究的中心力量,而東、中部地區(qū)的研究成果明顯要多于西部地區(qū)。

      表6 2000—2009年國內(nèi)鏈接分析研究論文的作者單位分布表

      1.4 主題分布分析

      論文主題分析在一定程度上能夠反映鏈接分析研究領(lǐng)域的熱點與重點,有利于了解其目前學(xué)界的研究現(xiàn)狀和水平,幫助研究人員正確地預(yù)測該領(lǐng)域的發(fā)展趨勢與方向,使研究更具針對性、更有價值。

      關(guān)鍵詞是揭示論文主題的有利線索之一。從檢索到的相關(guān) 368篇論文中,共出現(xiàn)關(guān)鍵詞 688個,其中出現(xiàn)頻次達 10次(包括 10次)以上的見表 7。由于有關(guān)鏈接分析研究論文的關(guān)鍵詞劃分標(biāo)準(zhǔn)不一致,加上作者理解角度不同,出現(xiàn)了比較多相近的關(guān)鍵詞,如果規(guī)范鏈接分析術(shù)語的話,相關(guān)的關(guān)鍵詞出現(xiàn)的頻次會更高。

      表7 2000—2009年鏈接分析研究論文的關(guān)鍵詞統(tǒng)計

      通過對鏈接分析研究的主題進行劃分,可分為基礎(chǔ)理論研究和應(yīng)用研究兩部分。其中前者按所屬學(xué)科劃分為:情報學(xué)視角、計算機學(xué)視角、社會科學(xué)視角;而國內(nèi)從情報學(xué)視角對鏈接分析的研究相對較多,將其分為:鏈接分析法、鏈接分析工具、鏈接分析指標(biāo)。后者按應(yīng)用領(lǐng)域分為:資源評價、信息檢索、數(shù)據(jù)挖掘。按以上主題對 295篇期刊論文進行主題歸納,得到鏈接分析的論文主題分布如表 8所示。

      表 8(見第 85頁)表明,國內(nèi)的研究主要集中在鏈接分析的基礎(chǔ)理論研究上,共發(fā)文 198篇,占期刊論文總數(shù)的 67.1%,其中計算機學(xué)視角的研究最多,社會學(xué)視角作為一個相對較新的角度,相關(guān)研究偏少,而情報學(xué)視角的鏈接分析法、鏈接分析工具、鏈接分析指標(biāo)方面的發(fā)文量則相對持平。其中鏈接分析在信息資源評價上的研究比較多,在信息檢索和數(shù)據(jù)挖掘方面的發(fā)文相對偏少。筆者認為在繼續(xù)完善基礎(chǔ)理論研究的同時,相關(guān)的應(yīng)用研究也有待加強。

      2 國內(nèi)鏈接分析基礎(chǔ)理論研究現(xiàn)狀

      2.1 情報學(xué)視角的鏈接分析

      2.1.1 鏈接分析法。

      (1)共鏈分析法和引文分析法。邱均平等分析了共鏈分析研究方法的缺陷及其各自產(chǎn)生的原因及分類,提出了可能的解決方案[4]。趙丹群從網(wǎng)絡(luò)鏈接分析研究、基于網(wǎng)頁鏈接分析的搜索引擎排序算法研制和新型網(wǎng)絡(luò)引文索引工具的編制等方面,分析了引文分析方法在網(wǎng)絡(luò)環(huán)境下的發(fā)展和應(yīng)用[5]。引文分析是傳統(tǒng)文獻計量學(xué)和科學(xué)計量學(xué)的一種獨特研究方法,而鏈接分析是以引文分析理論為基礎(chǔ)的,因此有必要從引文分析和鏈接分析的相似性及各自的特征方面進行深入研究。共鏈分析是鏈接分析中的一種,它與引文分析有密切的聯(lián)系。

      (2)鏈接分析相關(guān)算法。PageRank算法是利用網(wǎng)絡(luò)超鏈接和文獻引文機制的相似性,把引文分析思想借鑒到網(wǎng)絡(luò)文檔重要性的計算中來,賦予所有網(wǎng)頁一個量化指標(biāo),即 PageRank值,根據(jù)PageRank值的大小進行排序的方法[6]。張慧英等基于PageRank算法和主題鏈接分析,提出面向主題的鏈接評價算法 TL-PageRank算法[7]。何曉陽等介紹了 SALSA算法的基本原理及算法步驟,從多個方面分別將其與 PageRank算法及 HITS算法進行比較分析[8]。對鏈接分析相關(guān)算法的研究主要集中在對PageRank算法和 HITS算法的研究上,針對其缺陷提出在各種基礎(chǔ)、模型、應(yīng)用上的新算法,以使其更有針對性,這也是學(xué)界爭論的焦點。

      (3)鏈接分析法在應(yīng)用中的可行性研究。楊光以海爾和 LG集團為例,說明鏈接分析原理和方法可應(yīng)用到企業(yè)競爭情報系統(tǒng)中[9]。劉雁書通過對有代表意義網(wǎng)站站外鏈接類型及特征的調(diào)查分析,證明用鏈接分析法評價網(wǎng)絡(luò)信息是可行的[10]。對鏈接分析法在相關(guān)應(yīng)用中的可行性研究很有必要,可為實踐應(yīng)用奠定理論基礎(chǔ)。

      2.1.2 鏈接分析工具。

      (1)鏈接分析工具的缺陷。邱均平指出當(dāng)前鏈接分析工具(商業(yè)搜索引擎、自制軟件和 SEO工具)的缺陷,提出相應(yīng)的兩套解決方案:一是從搜索引擎工作原理的角度完善商業(yè)搜索引擎的鏈接分析功能;二是參照引文分析工具開發(fā)專業(yè)鏈接分析工具[11]。湯天波對幾個典型的可視化檢索系統(tǒng)和鏈接分析工具中可視化鏈接分析的應(yīng)用實例進行分析,指出其不足及未來可能的研究方向和可用的方法與技術(shù)[12]。當(dāng)前鏈接分析工具是存在缺陷的,這方面的研究有待深入,以便為開發(fā)新的工具提供支持。

      表8 2000—2009年國內(nèi)鏈接分析研究論文主題分布表

      (2)鏈接分析工具的比較。楊木容比較了主要用于搜集鏈接分析數(shù)據(jù)的各搜索引擎在國內(nèi)研究實踐中的應(yīng)用、使用后的評價、檢索式構(gòu)造等方面[13]。呂俊生等對用于網(wǎng)絡(luò)鏈接關(guān)系檢索的搜索引擎,從檢索功能、檢索表達式、基本性能等方面進行調(diào)研分析和比較,提出了用于鏈接分析的搜索引擎的選擇方案[14]。鏈接分析工具的比較研究不僅可以更好地指導(dǎo)其應(yīng)用,且有利于發(fā)現(xiàn)現(xiàn)有工具存在的問題。

      (3)新鏈接分析工具的研究。邱均平等在分析目錄學(xué)索引與傳統(tǒng)引文索引的基礎(chǔ)上,提出了“博客鏈接索引”的概念,并進行設(shè)計,從數(shù)據(jù)庫設(shè)計的角度分析了博客鏈接索引所具有的內(nèi)涵、結(jié)構(gòu)及功能,闡述其理論價值、實踐意義與實現(xiàn)的難點[15]。彭忱針對現(xiàn)有網(wǎng)站分析工具不穩(wěn)定和不夠直觀的弊端,利用 Java開發(fā)網(wǎng)站鏈接分析器 Webstat,提出合理的應(yīng)用程序及開發(fā)步驟[16]。目前,國內(nèi)對新的鏈接分析工具的研究才剛剛起步。

      2.1.3 鏈接分析指標(biāo)。

      (1)網(wǎng)絡(luò)影響因子。李江分析了網(wǎng)絡(luò)影響因子的三大缺陷:網(wǎng)絡(luò)影響因子的適用性缺陷、算法自身缺陷及假設(shè)前提缺陷[17]。付鑫金通過選取中國重點大學(xué)綜合實力排名前 20名的高校網(wǎng)站為樣本,利用搜索引擎 AltaVista搜集各網(wǎng)站的鏈接量及計算網(wǎng)絡(luò)影響因子,發(fā)現(xiàn)鏈接量對于綜合實力得分的相關(guān)性優(yōu)于網(wǎng)絡(luò)影響因子[18]。晏爾伽認為網(wǎng)絡(luò)影響因子在現(xiàn)階段不適合用于評價政府網(wǎng)站的建設(shè)情況[19]。研究網(wǎng)絡(luò)影響因子這一鏈接分析指標(biāo)是國內(nèi)研究的熱點,不僅有從其本身進行論述的,而且也有從其應(yīng)用角度進行分析的,且爭論頗多。

      (2)其他鏈接分析指標(biāo)。鄧中華分析了網(wǎng)絡(luò)使用因子在假設(shè)前提、數(shù)據(jù)獲取和算法本身等方面的缺陷,對不同類型的鏈接進行加權(quán)得到“加權(quán)出鏈數(shù)”,并據(jù)此計算“加權(quán)網(wǎng)絡(luò)使用因子”[20]。王建冬指出基于網(wǎng)站鏈接分析的高校評價存在不足,在對社會網(wǎng)絡(luò)分析中節(jié)點重要性測度的 3種指標(biāo)的排名效果進行實驗后,發(fā)現(xiàn)鄰近度聲望指標(biāo)最優(yōu),引入PageRank,提出對其改進的新指標(biāo) UnivRank[21]??傊?國內(nèi)對鏈接分析新指標(biāo)的研究較少,在評價相關(guān)的信息資源時,多數(shù)學(xué)者建議結(jié)合鏈接分析的各項指標(biāo)進行。

      2.2 計算機學(xué)視角的鏈接分析

      計算機學(xué)視角的鏈接分析基礎(chǔ)理論研究主要是對鏈接分析算法的研究。

      (1)HITS算法及其相關(guān)算法。對 HITS算法的研究主要集中在分析 HITS算法的缺陷——主題偏移上,并在此基礎(chǔ)上引進其他的方法進行算法改進。國內(nèi)針對 HITS算法的主題偏移問題,提出了較多的改進算法(一直是個研究熱點)。郭希娟等分析了原始的 HITS算法是純粹基于鏈接分析來發(fā)現(xiàn)權(quán)威網(wǎng)頁和中心網(wǎng)頁,HITS算法存在三個問題:1)單純分析網(wǎng)頁之間的鏈接信息,不考慮頁面本身的重要性,使分析結(jié)果有一定的偏差;2)大量實驗表明,同一個服務(wù)器下頁面之間的鏈接通常是為提高用戶訪問的方便性,對計算頁面權(quán)威值沒有實際意義;3)“相互加強”現(xiàn)象——故意在一個服務(wù)器下制造了指向另一個服務(wù)器下同一個頁面的很多鏈接,導(dǎo)致這個頁面的權(quán)威值不合理地上升。這三個問題導(dǎo)致“主題偏移”現(xiàn)象,郭希娟等認為 PHITS算法能在一定程度上抑制了“主題偏移”現(xiàn)象的發(fā)生,使得發(fā)現(xiàn)的 Web社區(qū)更精確[22]。

      (2)PageRank算法及其相關(guān)算法。劉惠義為提高 PageRank算法的性能,提出 APE算法能減少運算量,最終達到減少運算時間的目的,以實驗數(shù)據(jù)初步證明了該算法的有效性[23]。黃德才在分析PageRank算法及其有關(guān)改進算法的基礎(chǔ)上,提出了基于虛擬文檔的主題相似度模型和基于主題相似度模型的 TS-PageRank算法框架[24]。對于 PageRank算法的研究,主要集中在為省時、高效而提出相應(yīng)的計算方法及其相關(guān)的改進算法上。

      (3)頁面排序算法。鞠時光針對傳統(tǒng)的頁面排序算法偏重于舊網(wǎng)頁的缺陷,提出時間鏈接分析,認為 WTPR算法能使新網(wǎng)頁集在排序中上升,高質(zhì)量的舊網(wǎng)頁比普通的舊網(wǎng)頁更能獲得較高的排序值[25]。肖明軍等對網(wǎng)頁排序算法——ARC算法進行了改進,提出了一種基于超鏈接和內(nèi)容的網(wǎng)頁排序算法——SHITS(Similarity-HITS)算法[26]。對于頁面排序算法的研究,很多是基于 PageRank算法和HITS算法的基礎(chǔ)上進行的改造。搜索引擎的相關(guān)排序技術(shù)要綜合各種排序算法的精華,從而才能提出更好的頁面排序方法。

      (4)其他算法。柳助民針對傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法缺點,提出了基于 PCM聚類算法的 Blog社區(qū)發(fā)現(xiàn)算法,以識別 Blog社區(qū)的核心和邊界[27]。焦金濤提出一種改進的 Web挖掘算法,將網(wǎng)頁使用信息和網(wǎng)頁添加日期信息做成點擊向量和日期向量,2個向量加權(quán)后標(biāo)準(zhǔn)化得到的一個向量作為常數(shù)加入到改進的迭代算法[28]??梢?鏈接分析算法可以應(yīng)用到較多領(lǐng)域,需要進一步研究相應(yīng)領(lǐng)域的算法。

      2.3 社會學(xué)視角的鏈接分析

      社會學(xué)視角的鏈接分析主要是運用社會學(xué)的相關(guān)理論,如用社會網(wǎng)絡(luò)理論來對 Web中的鏈接關(guān)系等進行闡述。當(dāng)前國內(nèi)利用 SNA的鏈接分析研究主要集中在兩個方面:一方面將鏈接網(wǎng)與社會網(wǎng)絡(luò)、引文網(wǎng)進行比較,旨在探討新的研究視角;另一方面則利用 SNA來分析鏈接網(wǎng)絡(luò),為現(xiàn)實對象間的關(guān)系分析提供支撐或說明[29]。劉曉娟將局部網(wǎng)絡(luò)空間劃分為學(xué)術(shù)空間、商業(yè)網(wǎng)站空間、政府網(wǎng)站空間和特定主題網(wǎng)絡(luò)空間,由此推論現(xiàn)實空間中的社會現(xiàn)象[30]。社會學(xué)視角的鏈接分析在當(dāng)前的研究中是比較薄弱的,有待加強。

      3 國內(nèi)鏈接分析應(yīng)用研究現(xiàn)狀

      3.1 資源評價

      鏈接分析在資源評價方面的應(yīng)用主要指應(yīng)用鏈接分析的方法和工具來分析評價網(wǎng)絡(luò)信息資源的重要性、影響力及特征,評價網(wǎng)站排名,測算資源的使用情況等。目前的研究主要集中在以下兩個方面。

      (1)評價網(wǎng)站。芮寶宣采用文獻資料法、網(wǎng)絡(luò)鏈接分析法、數(shù)理統(tǒng)計法,通過相關(guān)搜索引擎對我國部分省、市體育局網(wǎng)站及其頁面的信息資源鏈接特征進行分析,揭示這些網(wǎng)站的特征及發(fā)展態(tài)勢[31]。王宏鑫運用鏈接分析方法評價公共圖書館的網(wǎng)站建設(shè)質(zhì)量,給出各館網(wǎng)站建設(shè)質(zhì)量按不同指標(biāo)的排序和綜合排序[32]。對網(wǎng)站資源的評價在資源評價研究方面占主導(dǎo)地位。利用鏈接分析法的相關(guān)評價指標(biāo)對某類型的網(wǎng)站進行評價,可從中發(fā)現(xiàn)某類網(wǎng)站的特征,為網(wǎng)站建設(shè)提供參考。

      (2)評價某類網(wǎng)絡(luò)資源。邱均平分析了應(yīng)用鏈接分析方法評價圖書館博客資源的可行性和優(yōu)越性[33]。夏翠軍應(yīng)用鏈接分析工具分析 CALIS重點學(xué)科網(wǎng)絡(luò)資源導(dǎo)航庫的使用情況[34]。董文鴛對開放存取期刊運用引文分析法、網(wǎng)絡(luò)鏈接分析法等方法進行學(xué)術(shù)影響力分析[35]。學(xué)界應(yīng)用鏈接分析法對特定類型資源的評價研究相對較少,有待加強。

      3.2 信息檢索

      鏈接分析在信息檢索方面的應(yīng)用研究主要體現(xiàn)在綜合鏈接分析法和其他方法上,它會提出新的檢索方法,且該檢索方法具有一定的優(yōu)勢。在現(xiàn)階段,鏈接分析法應(yīng)用于信息檢索領(lǐng)域的研究還不是很多,但鏈接分析法具有強大的生命力,必將成為今后的一個研究趨勢。吳斌提出了一種針對中文文獻索引數(shù)據(jù)的重名分析方法——NDC方法,經(jīng)過實驗發(fā)現(xiàn) NDC方法在執(zhí)行效率方面能滿足實際應(yīng)用的要求[36]。余旸利用 Wikipedia中的內(nèi)部鏈接關(guān)系析取語義關(guān)系,定義了一種新的算法,使用詞條“相容率”(Mutual Awareness Ratio)來描述詞間距及對知識空間節(jié)點(詞條)進行相關(guān)度的重新排序,重新構(gòu)造知識空間,并用實驗證明此算法有效地提高了查詢精度與用戶滿意度[37]。

      3.3 數(shù)據(jù)挖掘

      鏈接分析在數(shù)據(jù)挖掘方面的應(yīng)用主要是應(yīng)用鏈接分析的方法、模式,挖掘網(wǎng)絡(luò)上、系統(tǒng)中的各種潛在的、有價值的信息,其研究主要集中在三個方面。

      (1)網(wǎng)絡(luò)結(jié)構(gòu)挖掘。李小宇通過頁面鏈接分析,揭示了中文維基百科政策環(huán)境的三層結(jié)構(gòu),結(jié)合對政策制定、施行和維護過程的定性分析,基于社會科學(xué)理論探討了中文維基百科政策環(huán)境制定與運行原則[38]。牛春華等用鏈接分析方法分析我國 38所“985工程”院校網(wǎng)站 Web空間內(nèi)部的鏈接情況,總結(jié)了 Web空間內(nèi)部網(wǎng)站之間的鏈接特征[39]。

      (2)網(wǎng)絡(luò)內(nèi)容挖掘。李素建引入鏈接分析方法分析詞語在各個領(lǐng)域中的使用重要性,并通過詞語在各個領(lǐng)域中的使用差異性計算其領(lǐng)域度,達到領(lǐng)域分析的目的,獲取某個領(lǐng)域的領(lǐng)域部件詞[40]。

      (3)用戶行為模式挖掘。張成虎提出了一種交易路徑異常鏈接分析模式來識別不同交易主體間交易活動的內(nèi)在聯(lián)系,發(fā)現(xiàn)交易流向、來源以及用途或性質(zhì)異常等交易關(guān)系,在挖掘金融交易關(guān)系網(wǎng)絡(luò)方面具有優(yōu)勢[41]。劉芳等利用聚類技術(shù)和鏈接分析技術(shù),對外匯資金交易數(shù)據(jù)庫進行分析,從中發(fā)現(xiàn)可疑賬戶類,為發(fā)現(xiàn)外匯金融犯罪提供決策依據(jù)[42]。

      鏈接分析法用于數(shù)據(jù)挖掘領(lǐng)域已經(jīng)成為學(xué)界的研究熱點,它在數(shù)據(jù)挖掘方面具有的優(yōu)勢將為相關(guān)領(lǐng)域的數(shù)據(jù)挖掘提供方法指導(dǎo)。

      4 研究熱點與趨勢

      4.1 鏈接分析研究熱點

      通過對鏈接分析研究成果的歸納,總結(jié)當(dāng)前鏈接分析研究熱點主要有:1)關(guān)于鏈接分析的經(jīng)典算法及各種改進算法的研究;2)網(wǎng)絡(luò)影響因子研究;3)鏈接分析工具研究;4)鏈接分析法在資源評價方面的研究;5)鏈接分析法在數(shù)據(jù)挖掘方面的研究。

      4.2 鏈接分析研究趨勢

      通過文獻計量分析,我們認為鏈接分析研究將呈以下發(fā)展趨勢:1)基于各個視角對鏈接分析算法的研究與改進;2)用于評價特定領(lǐng)域網(wǎng)絡(luò)信息資源的鏈接分析指標(biāo)研究;3)基于鏈接分析的信息檢索的優(yōu)化研究;4)基于鏈接分析的數(shù)據(jù)挖掘在各種領(lǐng)域中的應(yīng)用研究;5)社會學(xué)視角的鏈接分析研究;6)基于可視化技術(shù)等先進技術(shù)的各種新的鏈接分析工具和系統(tǒng)的研究與開發(fā);7)應(yīng)用鏈接分析的Web模型研究。

      5 結(jié) 語

      鏈接分析研究雖然還存在一些有待解決的問題,但鏈接分析由于其有效性、科學(xué)性和可操作性方面的突出優(yōu)點,相信將會在相關(guān)領(lǐng)域得到廣泛應(yīng)用,并在發(fā)展中走向完善。希望本文給該領(lǐng)域研究者以借鑒,共同將現(xiàn)有的鏈接分析研究推向更高的研究層次。

      [1]董江山,胡吉祥,邱均平.鏈接分析法及其應(yīng)用[J].情報科學(xué),2004(9):1081— 1084.

      [2]張 洋,邱均平,文庭孝.網(wǎng)絡(luò)鏈接分析研究進展[J].圖書情報知識,2004(6):3— 8.

      [3]王知津,張收棉.網(wǎng)絡(luò)計量學(xué)方法在網(wǎng)站評價中的應(yīng)用及其理論模型[J].圖書與情報,2006(3):34—39.

      [4]邱均平,李曄君,李 江.共鏈分析的缺陷及其解決方案研究[J].情報理論與實踐,2008(2):170—174.

      [5]趙丹群.試論引文分析方法的網(wǎng)絡(luò)化發(fā)展與應(yīng)用[J].圖書情報工作,2009(8):39—42.

      [6]Brin S,Page L.The Anatomy of a Large-scale Hypertextual Web Search Engine[C].In:Proceedings of the 7th ACM-WWW International Conference San Francisco,California,United States,January;Brisbane;ACM Press,1998:107—117.

      [7]張慧英,原福永,尹春霞.一種面向主題的鏈接評價算法[J].情報雜志,2008(9):6— 8.

      [8]何曉陽,吳治蓉,連麗紅,等.SALSA算法技術(shù)剖析[J].情報雜志,2004(7):26—27.

      [9]楊 光.鏈接分析在企業(yè)競爭情報活動中的應(yīng)用[J].圖書情報工作,2005(1):19—21.

      [10]劉雁書,方 平.Web網(wǎng)站站外鏈接類型與特征調(diào)查——鏈接分析法可行性研究[J].大學(xué)圖書館學(xué)報,2001(5):65—68.

      [11]邱均平,李 江.當(dāng)前鏈接分析工具的缺陷及其解決方案[J].情報科學(xué),2007(5):641—647.

      [12]湯天波,高 峰.可視化技術(shù)在網(wǎng)絡(luò)鏈接分析中的應(yīng)用研究[J].現(xiàn)代圖書情報技術(shù),2009(2):78—82.

      [13]楊木容.搜索引擎在網(wǎng)絡(luò)鏈接分析中的應(yīng)用研究[J].圖書情報工作,2006(11):91— 94.

      [14]呂俊生,楊金鳳.用于鏈接關(guān)系檢索的搜索引擎的比較研究[J].情報雜志,2005(2):98—100.

      [15]邱均平,李 江,任全娥,等.論博客鏈接索引的設(shè)計[J].情報理論與實踐,2007(4):489—492.

      [16]彭 忱,金 奇.網(wǎng)站鏈接分析器的開發(fā)與應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2008(8):76—78.

      [17]李 江.網(wǎng)絡(luò)影響因子的三大缺陷探析[J].圖書情報工作,2008(5):107—109.

      [18]付鑫金,王效岳,李長玲.基于灰關(guān)聯(lián)度的大學(xué)網(wǎng)站鏈接數(shù)據(jù)分析[J].情報科學(xué),2009(2):223—226.

      [19]晏爾伽.中國省會城市政府網(wǎng)站鏈接分析[J].情報科學(xué),2008(2):218— 223.

      [20]鄧中華,陳小平.網(wǎng)絡(luò)使用因子的缺陷及改進[J].圖書情報工作,2009(5):87—90.

      [21]王建冬,孫慧明.基于網(wǎng)站鏈接分析的“211工程”高校排名實證研究[J].現(xiàn)代圖書情報技術(shù),2008(9):64—69.

      [22]郭希娟,劉 靜.PH-MaxFlow算法發(fā)現(xiàn) Web社區(qū)[J].計算機工程與應(yīng)用,2009(5):113—116.

      [23]劉惠義,董志勇.基于 Power Extrapolation和 Adaptive Method的網(wǎng)頁評估新算法[J].計算機工程與應(yīng)用,2006(15):66—68.

      [24]黃德才,戚華春,錢 能.基于主題相似度模型的TS-PageRank算法[J].小型微型計算機系統(tǒng),2007(3):510—514.

      [25]鞠時光,呂 霞,王 崝.基于時間鏈接分析的頁面排序優(yōu)化算法[J].計算機應(yīng)用研究,2009(7):2438—2441.

      [26]肖明軍,黃劉生,羅永龍.SHITS:一種基于超鏈接和內(nèi)容的網(wǎng)頁排序方法[J].小型微型計算機系統(tǒng),2006(12):2177—2182.

      [27]柳助民,李紹滋,林達真,等.基于 PCM聚類算法的 Blog社區(qū)發(fā)現(xiàn)[J].廈門大學(xué)學(xué)報(自然科學(xué)版),2009(4):508—513.

      [28]焦金濤.基于 PageRank的 Web挖掘改進算法[J].計算機工程,2009(15):284— 285.

      [29]殷之明,馬瑞敏:國內(nèi)圖書情報領(lǐng)域應(yīng)用 SNA研究綜述[J].圖書情報知識,2009(6):64—69.

      [30]劉曉娟.網(wǎng)絡(luò)計量在局部 Web空間中的應(yīng)用[J].圖書情報工作,2009(20):93—97.

      [31]芮寶宣,司虎克,李 芳,等.基于鏈接分析的我國省市體育局網(wǎng)站信息特征研究[J].上海體育學(xué)院學(xué)報,2009(5):62—66.

      [32]王宏鑫.我國省級以上公共圖書館網(wǎng)站的鏈接分析[J].中國圖書館學(xué)報,2005(3):86— 89.

      [33]邱均平,徐 蓓,李 江.BlogRank算法及其在圖書館博客中的應(yīng)用[J].圖書情報知識,2008(1):68—71.

      [34]夏翠軍.CALIS重點學(xué)科網(wǎng)絡(luò)資源導(dǎo)航庫的使用情況分析[J].圖書情報工作,2009(3):75—78.

      [35]董文鴛,陳清文.圖情領(lǐng)域開放存取期刊學(xué)術(shù)影響力評價[J].圖書館建設(shè),2009(5):104—107.

      [36]吳 斌,徐超群,王文彬,等.基于鏈接的作者重名處理方法研究與應(yīng)用[J].計算機科學(xué),2008(3):197—199.

      [37]余 旸,林漳希,夏國平.開放內(nèi)容中的知識發(fā)現(xiàn)——基于 WIKIPEDIA鏈接分析[J].情報雜志,2009(7):141—144.

      [38]李小宇,羅志成.中文維基百科演化趨勢與政策環(huán)境結(jié)構(gòu)研究[J].情報雜志,2009(2):160—166.

      [39]牛春華,沙勇忠.Web空間內(nèi)部鏈接特征的聚類分析[J].圖書情報知識,2006(6):22—27.

      [40]李素建 ,宋 濤,高 杰,等.一種基于使用差異的詞語領(lǐng)域性分析方法[J].中文信息學(xué)報,2009(6):72—78.

      [41]張成虎,趙小虎.基于鏈接分析的洗錢交易識別研究[J].上海金融,2009(8):78—82.

      [42]劉 芳,薛 蕾.利用鏈接分析技術(shù)監(jiān)測可疑外匯資金流動[J].計算機工程與科學(xué),2007(9):117—119.

      猜你喜歡
      分析法論文算法
      異步機傳統(tǒng)分析法之困難及其克服
      防爆電機(2022年4期)2022-08-17 05:59:06
      基于MapReduce的改進Eclat算法
      Travellng thg World Full—time for Rree
      進位加法的兩種算法
      基于時間重疊分析法的同車倒卡逃費探析
      一種改進的整周模糊度去相關(guān)算法
      層次分析法在SWOT分析法中的應(yīng)用
      AHP和SWOT分析法在規(guī)劃編制中的應(yīng)用
      下期論文摘要預(yù)登
      下期論文摘要預(yù)登
      基隆市| 黄梅县| 北京市| 开原市| 琼结县| 城固县| 昌图县| 任丘市| 乐平市| 东阿县| 安西县| 襄汾县| 阿拉善右旗| 姚安县| 西青区| 沈阳市| 泗洪县| 云梦县| 洪江市| 梓潼县| 措勤县| 博湖县| 固原市| 高陵县| 图片| 图木舒克市| 专栏| 康乐县| 丽江市| 祁阳县| 邹平县| 霍邱县| 潞城市| 泾源县| 乌拉特中旗| 霸州市| 乐至县| 宜丰县| 高阳县| 贵港市| 巴彦淖尔市|