趙海濤,趙 毅,尤江東
(信息工程大學(xué),河南 鄭州 450000)
本體論源于哲學(xué),它與事物的基本存在有關(guān)。自20 世紀(jì)計(jì)算機(jī)的開始和發(fā)展以來(lái),計(jì)算機(jī)就使用本體來(lái)表示特定領(lǐng)域(通常是詞匯)中的概念和術(shù)語(yǔ)。本體試圖通過(guò)RDF 和OWL建立概念上的類和屬性,創(chuàng)建的類是指表示資源屬性定義和關(guān)聯(lián)的資源,并使用邏輯推理規(guī)則評(píng)估和描述不同資源之間的關(guān)系。因此,給定領(lǐng)域中的通用概念構(gòu)成了知識(shí),從而創(chuàng)建了可以更好地共享和重用的知識(shí)網(wǎng)絡(luò)。在波蘭等其他國(guó)外的圖書館和信息科學(xué)領(lǐng)域,大量的科學(xué)家和研究機(jī)構(gòu)在本體論領(lǐng)域進(jìn)行了相關(guān)研究,而圖書館和信息領(lǐng)域是重要的研究主題領(lǐng)域本體論的。2010 年后,因?yàn)榛ヂ?lián)網(wǎng)技術(shù)的飛速發(fā)展,國(guó)內(nèi)外的圖形學(xué)和信息學(xué)領(lǐng)域在本體論研究的熱點(diǎn)問(wèn)題中具有鮮明的時(shí)代特征。但是,由于國(guó)內(nèi)外學(xué)科發(fā)展水平的不一致以及國(guó)家研究發(fā)展環(huán)境的影響,圖書館學(xué)和信息學(xué)領(lǐng)域的本體研究的方向是不確定的,導(dǎo)致國(guó)內(nèi)外不同。本文的目的是分析和比較國(guó)內(nèi)外圖書館和信息學(xué)領(lǐng)域的本體研究熱點(diǎn)。本文從2012-2017 年國(guó)外SCI 數(shù)據(jù)庫(kù)和CNKI 國(guó)家數(shù)據(jù)庫(kù)中選擇相關(guān)文獻(xiàn),并根據(jù)發(fā)表的文章數(shù)量、文獻(xiàn)的分布情況,采用適當(dāng)?shù)男畔⒂?jì)量方法進(jìn)行統(tǒng)計(jì)分析,如關(guān)鍵字和受歡迎的作者。在收集并匯總了數(shù)據(jù)之后,使用陳超美博士的VOSviwer 和CitespaceII 社交媒體分析工具繪制了一個(gè)知識(shí)圖,以便直觀地分析和比較該國(guó)家和地區(qū)的圖書館和信息研究熱點(diǎn)。并在我國(guó)提供相關(guān)研究人員還有國(guó)家和國(guó)外進(jìn)行數(shù)據(jù)參考。
對(duì)于詞源和字典的解答,聚合一詞首先用于聚合物化學(xué)領(lǐng)域。它的英文表達(dá)是“聚合”,主要是指通過(guò)單體或單體混合物的化學(xué)反應(yīng)形成新的聚合物。由于合成或重組,已經(jīng)發(fā)生了質(zhì)的變化。在《牛津現(xiàn)代英漢詞典》中,用于信息聚合的英文表達(dá)為“信息聚合”,其基本定義是指通過(guò)組合許多事物或?qū)⑵湔w對(duì)待而生成的復(fù)雜信息。從字面意義和詞典定義的角度來(lái)看,信息聚合是多學(xué)科,多領(lǐng)域的研究?jī)?nèi)容。盡管信息聚合已成為跨學(xué)科研究的內(nèi)容,但其定義和相關(guān)概念尚未有清晰統(tǒng)一的描述。在綜合了國(guó)內(nèi)外信息聚合研究的當(dāng)前普遍應(yīng)用和重要成果之后,可以總結(jié)信息聚合的定義以及所有學(xué)科的相關(guān)概念的描述。表1 列出了經(jīng)濟(jì)管理、計(jì)算機(jī)科學(xué)、圖書館學(xué)和信息科學(xué)領(lǐng)域中信息聚合的定義、范圍、技術(shù)措施等相關(guān)概念。
表1 信息聚合在不同學(xué)科領(lǐng)域中的概念表述
表1 顯示了跨學(xué)科的信息聚合的目標(biāo)基本上是相同的,即通過(guò)特定方法或技術(shù)將定義范圍內(nèi)的離散信息對(duì)象重新集成到邏輯上相關(guān)的信息集中。處理對(duì)象,應(yīng)用程序范圍和處理行為是不同的。特別是,各學(xué)科之間信息聚合概念表達(dá)的差異主要體現(xiàn)在以下幾個(gè)方面:
處理對(duì)象和應(yīng)用范圍存在差異。實(shí)際上,不同的學(xué)科認(rèn)為信息聚合處理的主要對(duì)象是信息,但是不同的學(xué)科對(duì)信息的理解也不同。在經(jīng)濟(jì)管理中,信息聚合被視為實(shí)現(xiàn)特定目標(biāo),將許多內(nèi)部人員已知或支配的信息組織成一個(gè)有機(jī)整體,然后借助集體智慧做出決策來(lái)彌補(bǔ)的過(guò)程。個(gè)人決策模型不足,該定義將信息定義為社會(huì)系統(tǒng)參與者的個(gè)人主觀信念和去中心化直覺(jué),這是一種抽象的表達(dá)形式。在計(jì)算機(jī)科學(xué)領(lǐng)域,信息聚合通常被認(rèn)為是信息融合的廣泛過(guò)程,并且信息聚合處理的主題也定義為在每個(gè)應(yīng)用程序領(lǐng)域的物理級(jí)別也可以感知的數(shù)據(jù)。例如信息源,信息類型和相應(yīng)的信息模式,像媒體一樣,它比其他學(xué)科更廣泛。在圖書館學(xué)和信息學(xué)領(lǐng)域,研究人員認(rèn)為,數(shù)據(jù)、信息和知識(shí)分布在信息聚合過(guò)程的不同級(jí)別,但是它們通常具有轉(zhuǎn)換關(guān)系。因此,該領(lǐng)域的大多數(shù)研究并不嚴(yán)格涉及聚集對(duì)象。區(qū)分僅將應(yīng)用范圍限制為網(wǎng)絡(luò)的信息資源。
操作方式有所不同。計(jì)算機(jī)科學(xué)家認(rèn)為,在信息聚合處理的行為中,“聚合”“集成”“融合”和“集成”的表達(dá)主要不同。例如,Lenzerini 等人相信,數(shù)據(jù)集成和集成是根據(jù)特定關(guān)系將來(lái)自不同來(lái)源和不同結(jié)構(gòu)的數(shù)據(jù)進(jìn)行組合。Dong 等人認(rèn)為,數(shù)據(jù)融合是指來(lái)自現(xiàn)實(shí)世界中引用同一實(shí)體的不同來(lái)源的數(shù)據(jù)的集成和融合,其主要功能是將一種類型的數(shù)據(jù)擴(kuò)展到存在它的另一種類型的數(shù)據(jù)特定的關(guān)系??梢钥闯觯瑪?shù)據(jù)集成,數(shù)據(jù)集成和數(shù)據(jù)融合解決了不同的處理對(duì)象和行為,但是它們的目標(biāo)基本相同。在圖書館和信息領(lǐng)域,由于聚合對(duì)象、聚合方法、聚合粒度等因素的不同,重要子域(例如科學(xué)計(jì)量、信息組織和信息檢索)中的信息聚合,通常根據(jù)特定的研究任務(wù)或用途分配不同的類型。短語(yǔ),但實(shí)質(zhì)上將信息聚合定義為網(wǎng)絡(luò)信息資源的關(guān)聯(lián),聚合或集合。因此,在該領(lǐng)域中,“聚集”“集成”“融合”和“集成”之間沒(méi)有嚴(yán)格的區(qū)別,它們通常被認(rèn)為是相同或相似的概念。根據(jù)先前的分析,可以看出信息的聚集是一個(gè)動(dòng)態(tài)過(guò)程,其主要功能是通過(guò)多種方法對(duì)來(lái)自多種來(lái)源的異構(gòu)信息進(jìn)行轉(zhuǎn)換、組織、整合和組合,并生成可以滿足需求的聚集結(jié)果。但是,就概念表達(dá)、技術(shù)手段和應(yīng)用而言,不同學(xué)科具有其自身的特征,這些特征定義了信息的聚合和特定的研究方法。反過(guò)來(lái),圖書館和信息領(lǐng)域是表達(dá)信息匯總的最靈活方式。
按照RGR 和Dt 的計(jì)算方式,計(jì)算了國(guó)內(nèi)外圖書館信息領(lǐng)域的出版物規(guī)模和書目信息聚合趨勢(shì),并得出了表3 所示的結(jié)果。如表2 所示,它顯示出線性上升趨勢(shì),雖然國(guó)家出版物的總數(shù)略高于外國(guó),但該國(guó)的年度出版物在2011-2012 年略有增加。有所下降,隨后呈上升趨勢(shì),但在2016 年急劇下降。RGR 和Dt 的統(tǒng)計(jì)結(jié)果表明,國(guó)內(nèi)外結(jié)果的RGR 和Dt 呈下降和上升趨勢(shì),但國(guó)內(nèi)結(jié)果的Dt 在2016 年出現(xiàn)了指數(shù)上升梯度。原因是2016 年年度刊物發(fā)行量偏低。全國(guó)性報(bào)刊的年平均刊載量略高于外國(guó)報(bào)刊,且全國(guó)報(bào)刊的發(fā)行量為Dt。這幾乎是外國(guó)人的兩倍,但外國(guó)的平均RGR 高于國(guó)內(nèi)人的RGR,這表明外國(guó)價(jià)值的年增長(zhǎng)率相對(duì)較快,并且需要很長(zhǎng)的時(shí)間才能實(shí)現(xiàn)翻倍成果數(shù)量[1]。
表2 2007-2016 增長(zhǎng)趨勢(shì)
這項(xiàng)研究為單詞頻率大于8 的中外關(guān)鍵字創(chuàng)建了一個(gè)不相似矩陣,并將它們導(dǎo)入SPSS 以進(jìn)行多變量分析,以獲得相關(guān)的知識(shí)圖譜進(jìn)行多尺度量表分析。從圖1 和圖2 中可以看出,國(guó)家和國(guó)際信息聚合研究中的高頻關(guān)鍵詞可以粗略地分為三個(gè)主題研究組。從圖1 所示的結(jié)果可以看出,國(guó)家地圖C1 區(qū)域中的大多數(shù)關(guān)鍵字與圖書館、博物館、檔案館等的內(nèi)容有關(guān)。它們屬于公共服務(wù)領(lǐng)域中信息聚合的研究;C2 區(qū)域中的關(guān)鍵詞與信息檢索有關(guān)。與政府事務(wù)和供應(yīng)鏈相關(guān)的電子內(nèi)容是對(duì)大數(shù)據(jù)環(huán)境中來(lái)自多個(gè)來(lái)源的信息融合的調(diào)查;從研究數(shù)據(jù)處理的角度來(lái)看,區(qū)域C3 中的關(guān)鍵字與技術(shù)內(nèi)容有關(guān),例如模型、鏈接數(shù)據(jù)和語(yǔ)義網(wǎng),這些信息與信息聚合和知識(shí)創(chuàng)新有關(guān)。為了進(jìn)行比較,本國(guó)演奏會(huì)C1 與外國(guó)演奏會(huì)C3 相同,本國(guó)演奏會(huì)C3 與外國(guó)演奏會(huì)C2 相同,而本國(guó)演奏會(huì)C2 和外國(guó)演奏會(huì)C1 在該關(guān)鍵字中具有更多相同的關(guān)鍵字因此,這兩個(gè)主題也與在大數(shù)據(jù)環(huán)境中使用信息聚合的實(shí)踐研究大致相同。綜上所述,國(guó)內(nèi)外信息聚集研究的主題分布和發(fā)展趨勢(shì)具有相似的特征[2]。
圖1 國(guó)內(nèi)信息聚合研究多維度分析圖譜
圖2 國(guó)內(nèi)信息聚合研究多維度分析圖譜
從表4 給出的20 個(gè)最受歡迎的中外關(guān)鍵字列表中可以看出,國(guó)內(nèi)外相同的研究主題包括:知識(shí)管理、圖書館、資源共享和知識(shí)整合。國(guó)外文獻(xiàn)中出現(xiàn)了有關(guān)“信息檢索”“創(chuàng)新”“案例研究”“信息技能”“協(xié)作”“互操作性”和“GIS 熱點(diǎn)”的研究。國(guó)家文獻(xiàn)中出現(xiàn)的頻率相對(duì)較低的有“本體論”“電子政府”“數(shù)字圖書館”和“大學(xué)圖書館”之類的研究熱點(diǎn)在外國(guó)文學(xué)中的出現(xiàn)頻率較低。從語(yǔ)義關(guān)鍵詞的泛化和分布的角度來(lái)看,外國(guó)文學(xué)關(guān)鍵詞是高度標(biāo)準(zhǔn)化的,幾乎不是同義詞,但是大多數(shù)高頻關(guān)鍵詞不是特定的,例如“整合”“聚集”“信息”“知識(shí)”“管理”“知識(shí)管理”等。重點(diǎn)放在知識(shí)管理領(lǐng)域的集成、共享、協(xié)作、創(chuàng)新、學(xué)習(xí)以及信息或知識(shí)管理;在頻率術(shù)語(yǔ)中,有12 個(gè)是與“信息聚合”同義的表達(dá),它們的短語(yǔ)主要由“數(shù)據(jù)”“資源”“信息”“知識(shí)”和“整合”組成,但明顯減少;根據(jù)統(tǒng)計(jì)結(jié)果,國(guó)內(nèi)和國(guó)際結(jié)果的Dt、RGR 和Dt 分別呈下降趨勢(shì)和上升趨勢(shì),但2016 年國(guó)內(nèi)結(jié)果的Dt 呈指數(shù)上升趨勢(shì)。原因是2016 年出版的年鑒數(shù)量很少[3]。
表3 國(guó)內(nèi)外信息聚合高頻關(guān)鍵詞對(duì)比
在過(guò)去的十年中,國(guó)家對(duì)信息聚合的研究首先出現(xiàn)在數(shù)字圖書館領(lǐng)域,其研究重點(diǎn)是根據(jù)特定的模型或規(guī)格成功地集成或集成來(lái)自多個(gè)來(lái)源的異構(gòu)數(shù)字資產(chǎn),然后結(jié)合大數(shù)據(jù)時(shí)代的到來(lái),信息聚集研究的主題正在逐漸轉(zhuǎn)移到Internet 上的信息搜索和大數(shù)據(jù)領(lǐng)域,并且也從最初的信息集成轉(zhuǎn)變?yōu)橹R(shí)提取和挖掘數(shù)據(jù)驅(qū)動(dòng)的,即知識(shí)的融合和聚合。國(guó)外文獻(xiàn)首先側(cè)重于信息檢索領(lǐng)域的數(shù)據(jù)融合與合作,然后逐漸將研究主題擴(kuò)展到社交媒體和信息技術(shù)領(lǐng)域的圖書館知識(shí)整合和知識(shí)管理[4]。
信息聚合是跨學(xué)科和跨領(lǐng)域的研究?jī)?nèi)容,主要適用于信息學(xué)、經(jīng)濟(jì)學(xué)和管理學(xué),以及圖書館學(xué)和信息學(xué)。相似的概念和研究類別的定義的概念和表達(dá)因一門學(xué)科而異。從學(xué)科的角度出發(fā),文章首先對(duì)不同學(xué)科中信息聚合的概念、相關(guān)術(shù)語(yǔ)、應(yīng)用范圍和實(shí)現(xiàn)方法的描述進(jìn)行了比較和分析,并明確了含義的定義和相似術(shù)語(yǔ)的表達(dá)在此字段中添加信息。然后,在圖書館領(lǐng)域的信息聚合和圖書館中的信息研究中,對(duì)文獻(xiàn)的增長(zhǎng)趨勢(shì)、熱點(diǎn)的分布、熱點(diǎn)主題的識(shí)別及其發(fā)展方向進(jìn)行了深入分析。最后總結(jié)了研究的特點(diǎn)和未來(lái)的發(fā)展趨勢(shì)。當(dāng)然,本文還存在一些不足和局限性,需要在以后的研究中加以完善:首先,沒(méi)有類似方法的實(shí)驗(yàn)比較。在爆炸物探測(cè)方面的研究中,陳朝美教授提出的爆炸物探測(cè)方法是應(yīng)用最廣泛的方法。此方法類似于本文中提出的方法,并且都使用突然的關(guān)鍵字更改作為評(píng)估新興主題的基礎(chǔ)。因此,下一步將重點(diǎn)通過(guò)實(shí)證研究對(duì)這兩種方法進(jìn)行比較分析。其次,改進(jìn)識(shí)別新出現(xiàn)問(wèn)題的方法,由于作者在文獻(xiàn)中定義的關(guān)鍵詞相對(duì)抽象,并且往往具有更多的同義詞表達(dá),因此本文提出的主題識(shí)別方法可以與主題分析模型結(jié)合起來(lái),在以后的研究中獲得。使用主題分析模型創(chuàng)建多個(gè)主題。并結(jié)合主題頻率和加權(quán)計(jì)算,以改善識(shí)別新興主題的方法。最后,分析對(duì)象需要進(jìn)一步擴(kuò)展。由于本文僅以圖書館數(shù)據(jù)和信息為研究主題,因此不能完全準(zhǔn)確地反映信息聚合的總體發(fā)展趨勢(shì)。因此,有必要將分析對(duì)象進(jìn)一步擴(kuò)展到社會(huì)科學(xué)和生命科學(xué)的許多學(xué)科,例如計(jì)算機(jī)科學(xué)、經(jīng)濟(jì)管理、心理學(xué)、公共管理、定量統(tǒng)計(jì)等。充分了解信息聚合的當(dāng)前發(fā)展和未來(lái)趨勢(shì),全面而系統(tǒng)地比較和解析[5]。