黃琳凱
摘要:文章研究當前中國對于知識圖譜的應用和對于Web信息關聯網絡的研究狀況,分析當前主題社區(qū)發(fā)現方式,比照不同方式的優(yōu)勢與不足,借鑒優(yōu)點。通過研究,文章認為基于知識圖譜的Web信息關聯網絡分析知識圖譜介紹是一種全新的方式,有助于主題社區(qū)的發(fā)現,能提高運行的效率和精度。
關鍵詞:知識圖譜;Web信息關聯;網絡主題社區(qū)
知識圖譜是指對大量科學文獻的新生信息,借助諸如統計學知識、圖論、計算機技術等科學技術手段,以可視化的形式來展現科學學科體系之間的內部結構、項目特點、研究前段等信息的一種科學方法。知識圖譜用于Web信息分析,對于主題社區(qū)的發(fā)現大有幫助。
1 知識圖譜介紹
1.1 知識圖譜特點簡介
知識圖譜有以下幾方面的特性:(1)用戶搜集的數次越多,所涉及范圍越大。(2)賦予字串不同的嶄新的意義,而不只是單純的簡單字串。(3)涵蓋了所有的學科,方便了用戶搜索時的連續(xù)性。(4)為用戶找出更為精確的信息,作出更全面的表述并提供更具思考力的相關信息。(5)把與核心詞相關的知識脈絡成體系地展示給用戶。(6)從整個因特網尋找篩選有價值含量的信息讓用戶能夠收獲更多相應的公共資源。
1.2 知識圖譜的應用
1.2.1 基于知識圖譜的學科方法研究
從知識圖譜出發(fā),進行研究的學科主題識別方法,探究的是融合多種有關計量學的方法和科學理論知識圖譜技術,深入淺出地研究分析不同學科在知識研究體系上的內外部結構關系,分辨和測量不同學科各個領域的科研熱點方向及其未來發(fā)展變化方向的方法研究,從而有助于更好地幫助進行科研工作的人員從浩如煙海的科技文獻中快速掌握不同學科的內外部結構與熱點話題,這將成為新的宏觀環(huán)境下科學技術決策者高效開展科學技術治理工作的全新手段和新路徑。
1.2.2 基于知識圖譜的中國品牌理論演進研究
按照研究的對象作為分類標準的話,可以把對于品牌的科學研究劃分為兩個不同類別:(1)將品牌相應的活動作為實驗對象的研究;(2)以品牌相應理論為對象的科學研究。將品牌活動作為研究對象,在中國已經有了將近20年的發(fā)展歷史,到今天已經形成了頗為豐碩的知識研究成果[1]。在這樣的背景下,將品牌理論作為所要研究的對象,引入知識圖譜的相關理論和研究方法,系統性地探討當今中國存在的品牌理論發(fā)展的內部規(guī)律,發(fā)現其知識基礎、核心理論的知識構架與進化脈絡,揭示研究的熱點和研究前端,評論當今主流的學術群與相應觀點的代表人物,探索并創(chuàng)立品牌學及其主要知識理論體系。首先,在中國的品牌理論構架與知識理論基礎的知識圖譜研究中,憑借21世紀前后在中文社會科學引文索引(Chinese Social Sciences Citation Index,CSSCI)源刊發(fā)表的4 000余篇論文和將近3 000條參考文獻作為核心數據,采用關鍵詞分析方法,描繪和解析品牌主干理論的網絡圖譜,從而發(fā)現品牌核心理論的動態(tài)知識結構及在不同時間下的發(fā)展脈絡的主題變化;將發(fā)展階段和科研維度結合,構建出關鍵演化路徑分析的科學模型。其次,在中國品牌理論研究熱點和探索前端的知識圖譜研究中,以2010年在csscr源刊發(fā)表的2 000余篇論文和將近2 000條參考文獻作為數據,結合文獻引用網絡圖譜中高頻次文獻的內容數據分析和引文獻的關鍵詞共現網絡圖譜進行研究,發(fā)現了品牌理論的研究重點和主要研究方向。再次,在中國品牌理論研究的主要學術群與觀點領軍人物的知識圖譜研究中,基于例文分析、共同分析和社會結構網絡分析等多種方法,繪制并且分析了核心的作者群合著的共現社會網絡,探索并評論了中國品牌理論研究的具有超高影響力作者、主流的學術群體、派別及其代表人物。最后,在劃分品牌的含義、外延及其定義之間關系的前提之下,提出了一個實驗中的實操性品牌的概念及全方位的品牌管理模式;依據理論形成的內部機制及理論的構架情況,提出了對于品牌進行科學分類的標準和范圍,構建了品牌學的科學知識體系,探討并提出了關于品牌學這一理論的知識構架的規(guī)范范式、框架及其“學科一研究方法一對象”多維的動態(tài)結構。
1.2.3 我國關于管理學學科演化的知識圖譜探究
在管理學知識的體系中,管理科學知識的來源是多種多樣的,一方面包括根據嚴格的數學推理模型以及科學邏輯思維得到科學理論管理知識,另一方面也包括基于故事講述而總結出來的管理相應知識,當然同樣包括依照比較進行歸納從而得出的管理知識。但是必須指出的是,目前管理“叢林”問題仍然存在,而且有著進一步分化和細化態(tài)勢,在目前的管理科學研究的領域,充滿著類型差異明顯和分類眾多的研究方法[2]。為了更為全方位了解新世紀管理科學發(fā)展的學科結構,研究管理科學發(fā)展的路徑與所獲得的成就,知識圖譜的方法應運而生。首先,對我國管理科學研究學者進行知識圖譜分析,界定高產作者,給出高產作者的分布,并對10年來高產作者的演變進行分析。其次,對我國管理科學的科研機構進行知識圖譜分析,包括其類型分析,整體分布以及地域分析。最后,繪制我國管理科學基金項目的知識圖譜,對重點基金項目進行分析以及演化研究,分析不同研究機構與重點基金項目的支撐情況。我國管理科學“學科結構”知識圖譜研究:管理學發(fā)展態(tài)勢大好,逐步形成了三大逐漸趨向于成熟的分支學科領域:企業(yè)與事物管理、管理的基礎與方式、宏觀角度的管理與政策理論研究。目前在我國管理學被引頻次較高的作者有張維迎、陳勁、陳小悅等。我國當前具有較大影響作用的文獻有張維迎的《博弈論與信息經濟學》、傅家驥的《技術創(chuàng)新學》等。目前中國的管理科學界的合作體系具有較高的群聚性質,具有微觀的世界效應,管理科學界的科研人員之間的合作頻率與效果隨著時間的推移正在逐步提高。在目前合作網絡中,具有較強的團體結構,且相應團體的數量也正在逐年增長,專業(yè)社團規(guī)模也在不斷壯大。但不足之處是,不同社團與社團之間的對接數量較少。
2 Web信息關聯網絡分析
2.1 面向Web數據集成的數據融合問題研究
隨著互聯網的高速發(fā)展,Web技術憑借其廣泛性、互通性、便捷性和融合性等諸多特點快速風靡全球,并且已然滲入社會各方面領域,網站與網頁的數目正在以指數級爆炸式增長。怎樣準確、高效地集合到大量的具有較高價值的Web信息,對于例如市場商業(yè)情報分析、輿論情況分析、商業(yè)智能化等方面的分析應用十分重要,具有非同一般的實用價值和現實意義[3]。但是,比較于傳統方式下數據集成的數據源,Web數據具有方式多種、闡述自由、發(fā)布開放等特點,這導致集成到的結果冗余度高、精確性能差、數據分散程度高,極大地降低了集成數據的質量。綜上所述,如何減少冗余量、去偽存真、聯系數據,從而高效地融合數據,不僅是保證集成數據質量的核心所在,也是深入進行準確數據分析和發(fā)掘的基礎。作為Web數據集成的核心構架,數據融合是集成數據的質量保障和探究挖掘的基礎。
2.2 面向信息檢索的Web文本挖掘方法研究
當今,互聯網早已成為一個平民化和大眾式的信息交流平臺。通過Web數據挖掘的探究,把新的Web文本挖掘技術和方式使用到互聯網信息搜尋與檢索中去,利用Web文本挖掘的研究成果來改善信息檢索中關于網頁分類、聚類的精度和效率,改善檢索結果,提高Web信息搜查和使用的效率,能夠間接或者直接地解決當前搜索引擎準確度不高、召回率低下、信息量過多、提供的服務形式相對單調等方面缺陷,從而最終為信息檢索系統演化到一個新的水平提供相應技術前提。
3 主題社區(qū)研究現狀
3.1 基于LDA模型的社交網絡主題社區(qū)挖掘
在互聯網媒體當中,以微博為典型的社交網絡已經是社會輿情的主打要地。對于社交平臺中隱藏的主題社區(qū)的挖掘,具有很高的商業(yè)推廣和輿情監(jiān)控價值。近些年來,概率生成主題模型(Latent Dirichlet Allocation,LDA)在數據挖掘領域實現了大規(guī)模應用。但是,在通常情況下,LDA主要適合于文本的處理還有一部分數字信號。實際上并不能很合適地用來處理關于社交網絡用戶產生的關系數據。對LDA實行修改,提出適合于處理互聯網用戶關系數據的模型,發(fā)現社交網絡中的主打社區(qū)。
3.2 基于分布式非負矩陣分解的大規(guī)模主題社區(qū)挖掘
當今互聯網的主題社區(qū)發(fā)掘具備重要的實用價值,但現存方法的可擴展性不高,對于高效挖掘規(guī)模相對較大的復雜網絡的主題社區(qū)反應性能差。針對這一問題,部分研究者提出了一種以分布式非負矩陣分解為基礎的主題社區(qū)挖掘方法。這一方法基于非負矩陣聯合分解模型,能夠有效統一集成節(jié)點鏈接和內容信息挖掘主題社區(qū)。
4 結語
知識圖譜作為一種新的研究方式,借助科學理論和研究技術,能對Web信息關聯網絡進行分析。雖然當今國內已經有針對于此的分析,但應用知識圖譜的較少。并且,該方法能夠作用于主題社區(qū)的發(fā)現,無疑具有高度的實用意義和推廣價值。
[參考文獻]
[1]施生生.精確Web信息抽取關鍵技術與系統研究[D].南京:南京大學,2017.
[2]汪沛.基于領域知識圖譜的個性化推薦方法研究[D].昆明:昆明理工大學,2017.
[3]邵元新.基于Web的工業(yè)產品知識圖譜構建及應用[D].沈陽:沈陽航空航天大學,2017.