• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      文獻(xiàn)集規(guī)模對科技領(lǐng)域情報分析的影響:多種任務(wù)場景下的實(shí)證分析

      2021-09-09 03:18:20陳果王盼停王曰芬
      情報學(xué)報 2021年8期
      關(guān)鍵詞:學(xué)科分類全量排序

      陳果,王盼停,王曰芬

      (1.南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院信息管理系,南京 210094;2.江蘇省社會公共安全科技協(xié)同創(chuàng)新中心,南京 210094)

      1 引言

      以文獻(xiàn)為數(shù)據(jù)源的科技領(lǐng)域情報分析中,情報工作人員往往會遇到這樣的質(zhì)疑:用于分析的文獻(xiàn)集是否真的可靠?這一問題直接決定了科技情報分析結(jié)果有效與否。然而,遺憾的是,這一至關(guān)重要的問題至今懸而未決。在現(xiàn)實(shí)中,情報工作人員不得不基于過往常規(guī)經(jīng)驗(yàn),而非量化論據(jù)來回答這一問題。

      實(shí)際上,領(lǐng)域文獻(xiàn)集可靠性這一問題產(chǎn)生的根源,是科技文獻(xiàn)普遍存在的集中與離散的分布規(guī)律:其集中性使得人們能低成本、快速地獲取一批與領(lǐng)域相關(guān)的文獻(xiàn);然而,其離散性又使得人們難以有效獲取與領(lǐng)域相關(guān)的“全部且精準(zhǔn)”文獻(xiàn)集。這與信息檢索中理想結(jié)果集的不可得問題是類似的。值得注意的是,即使是在當(dāng)前“大數(shù)據(jù)”環(huán)境下,大規(guī)模開源文獻(xiàn)數(shù)據(jù)集獲取相對容易,但即便擁有世界上全部的文獻(xiàn)數(shù)據(jù),仍然難以從中有效地抽取構(gòu)造能代表給定領(lǐng)域的“理想文獻(xiàn)集”。

      通過深入分析可知,在科技領(lǐng)域情報分析中,文獻(xiàn)集是否可靠這一問題可分解為兩個子問題:一是全不全;二是準(zhǔn)不準(zhǔn)。前者側(cè)重于文獻(xiàn)集的規(guī)模問題,后者側(cè)重于文獻(xiàn)集中的雜質(zhì)和代表性偏差問題。本文針對第一個子問題開展探索:在不考慮文獻(xiàn)集中雜質(zhì)和代表性偏差的情況下,單純的文獻(xiàn)集規(guī)模對科技情報分析結(jié)果可靠性有何影響?鑒于科技情報分析中有多種任務(wù)場景,本文將綜合考慮待分析領(lǐng)域大小、待分析對象(學(xué)科分類、國家、機(jī)構(gòu)、關(guān)鍵詞、引文、作者以及其各自共現(xiàn)關(guān)系)、待分析對象的Top值(如高頻詞)截取數(shù)量、結(jié)果是否考慮排序等常見的多種任務(wù)場景,計算不同規(guī)模抽樣子文獻(xiàn)集對全量文獻(xiàn)集的擬合情況,以量化指標(biāo)解答該問題。后續(xù)將在此基礎(chǔ)上進(jìn)一步考慮幾種常見的領(lǐng)域文獻(xiàn)集構(gòu)造方式的準(zhǔn)確性問題。

      2 相關(guān)研究與本文思路

      2.1 相關(guān)研究

      評判情報研究有效性的一個重要依據(jù),是其結(jié)果接近真實(shí)結(jié)果的程度[1];而制約情報研究有效性的首要因素,則是信息不充分問題,包括信息不完全(即搜集到的信息不完整、不真實(shí))和信息量短缺(即搜集到信息在規(guī)模上不足以支撐其結(jié)論)[2]。在數(shù)據(jù)挖掘相關(guān)工作中,技術(shù)方案有效性的一個重要評估指標(biāo)是數(shù)據(jù)集規(guī)模,其原因是大規(guī)模數(shù)據(jù)集能夠更好地覆蓋真實(shí)情況中的多樣性問題[3]。在自然語言處理相關(guān)工作中,語料庫可靠性的本質(zhì)問題是其能否真正代表所期望的語言或語體[4];相應(yīng)地,規(guī)模是語料庫構(gòu)造的重要問題,直接關(guān)系到最終結(jié)果的可靠性,但這也是一個難以回答的問題[5]。

      目前,在科技情報分析相關(guān)研究中,還沒有專門針對領(lǐng)域文獻(xiàn)集規(guī)模問題開展的研究。馮璐[6]在《面向?qū)W科信息集成的領(lǐng)域分析數(shù)據(jù)集構(gòu)建》中,對領(lǐng)域數(shù)據(jù)集界域、來源數(shù)據(jù)組織狀態(tài)、數(shù)據(jù)集數(shù)據(jù)質(zhì)量控制等進(jìn)行分析研究,明確了邊界模糊、交叉的領(lǐng)域數(shù)據(jù)集構(gòu)建應(yīng)該包含的要素,但并未對數(shù)據(jù)集的規(guī)模問題開展深入研究。實(shí)際上,在研究和實(shí)踐中,情報工作者往往是采用慣用方式,從數(shù)據(jù)庫中檢出相應(yīng)的領(lǐng)域題錄數(shù)據(jù)。通過對以往面向領(lǐng)域的科技情報分析研究中文獻(xiàn)集構(gòu)造方式進(jìn)行歸納可知,典型的領(lǐng)域文獻(xiàn)集構(gòu)造方式有兩種:一種是將待分析領(lǐng)域直接與文獻(xiàn)數(shù)據(jù)庫中若干類目對應(yīng),這種方式看似較為理想的情況相對受限,且所檢出文獻(xiàn)的可靠性受文獻(xiàn)數(shù)據(jù)庫組織方式影響,典型的如WoS(Web of Science)數(shù)據(jù)庫中類目是按正本期刊粒度給定,已有研究發(fā)現(xiàn),WoS學(xué)科類目下文獻(xiàn)雜質(zhì)多且不全[7];另一種方式是針對待分析領(lǐng)域,基于作者經(jīng)驗(yàn)、專家意見或特定的列表,選定代表給定領(lǐng)域的若干關(guān)鍵詞[8-9]、主題詞[10]、期刊(或會議)[11-12]、引文[13-14],作為檢索條件獲取結(jié)果文獻(xiàn)集作為分析數(shù)據(jù)源。這些文獻(xiàn)集構(gòu)造方式都默認(rèn)所得檢索結(jié)果能夠代表待分析領(lǐng)域,因而文獻(xiàn)集的規(guī)模問題并未引起重視。相應(yīng)地,出現(xiàn)了在分析同一領(lǐng)域時,文獻(xiàn)集規(guī)模差異懸殊的現(xiàn)象。例如,同樣是分析“Library and Information Science”這一領(lǐng)域,研究者們采用的文獻(xiàn)集規(guī)模的差異明顯[15],從幾十篇[16],到幾百篇[17]、上千篇[18]、上萬篇[11]不等。但可以肯定的是,文獻(xiàn)集規(guī)模對于領(lǐng)域分析結(jié)果的可靠性存在影響[19]。

      一方面,在開展科技領(lǐng)域情報分析時,文獻(xiàn)集的構(gòu)造不可能既全面又準(zhǔn)確,這是由文獻(xiàn)分布的集中與離散定律決定的[20]。因此,文獻(xiàn)集的構(gòu)造實(shí)質(zhì)上是“準(zhǔn)”和“全”兩個互相干擾因素的均衡問題。另一方面,數(shù)據(jù)分析相關(guān)實(shí)踐已表明,當(dāng)數(shù)據(jù)集達(dá)到一定規(guī)模后,再增加數(shù)據(jù)后通常難以再帶來收益[21]。因此,如何尋找有代表性的數(shù)據(jù)子集引起人們關(guān)注,在文本數(shù)據(jù)集上也有相關(guān)研究[3]。進(jìn)一步具體到科技領(lǐng)域文獻(xiàn)分析上,有研究者認(rèn)為,應(yīng)在開展文獻(xiàn)重要特征遴選與測度的基礎(chǔ)上,按比例抽樣縮減文獻(xiàn),以初步形成領(lǐng)域分析文獻(xiàn)集[22]。此外,鑒于領(lǐng)域文獻(xiàn)數(shù)據(jù)集構(gòu)造與領(lǐng)域分析需求和目標(biāo)直接相關(guān)[23],在考慮其規(guī)模對結(jié)果影響時,也需要區(qū)分相應(yīng)的情報分析任務(wù)場景。

      2.2 本文研究思路

      如前文所述,在排除文獻(xiàn)集中雜質(zhì)和代表性偏差干擾的影響下,單純的文獻(xiàn)集規(guī)模對結(jié)果可靠性的影響,本質(zhì)上是在多大規(guī)模的子文獻(xiàn)集上開展分析,所得到的結(jié)果能夠與全量文獻(xiàn)集結(jié)果(可稱為“真實(shí)結(jié)果”)保持一致。因此,對于文獻(xiàn)規(guī)??煽啃缘奶剿?,可轉(zhuǎn)化為從某個文獻(xiàn)集上生成一定規(guī)模的抽樣子文獻(xiàn)集,在子文獻(xiàn)集下的分析結(jié)果與原文獻(xiàn)集結(jié)果的一致性計算。這就是本文實(shí)驗(yàn)方案設(shè)計的基本思路。

      然而,在現(xiàn)實(shí)中,科技情報分析任務(wù)場景繁多,不同任務(wù)場景對文獻(xiàn)集規(guī)模的要求必然存在差異。因此,本文實(shí)驗(yàn)方案不僅是簡單的抽樣,還需要較為全面地梳理科技情報分析的諸多任務(wù)場景,并在相應(yīng)任務(wù)場景下考察不同抽樣規(guī)模子文獻(xiàn)集對真實(shí)結(jié)果的擬合效果?;趯σ酝墨I(xiàn)的調(diào)研和既有實(shí)踐經(jīng)驗(yàn),本文將基于文獻(xiàn)的科技情報分析任務(wù)場景歸納為如下幾個方面。

      1)待分析領(lǐng)域本身大?。捍箢I(lǐng)域和小領(lǐng)域

      在探討科技情報分析中所采用領(lǐng)域文獻(xiàn)集規(guī)模時,需要考慮待分析領(lǐng)域本身規(guī)模的大小對所采用的文獻(xiàn)集規(guī)模產(chǎn)生相應(yīng)影響。例如,分析一個大的領(lǐng)域(如計算機(jī)學(xué)科)和分析一個小的領(lǐng)域(如“本體”相關(guān)研究)兩種情況下,前者自然要求采用的文獻(xiàn)集規(guī)模更大。考慮這一問題,本文需要至少構(gòu)造“大領(lǐng)域”“小領(lǐng)域”兩種待擬合的全量文獻(xiàn)集。

      2)待分析對象:元素和元素共現(xiàn)

      根據(jù)當(dāng)前科技情報分析普遍關(guān)注的元素,重點(diǎn)考慮文獻(xiàn)題錄數(shù)據(jù)中的6個重要字段(學(xué)科分類、國家、機(jī)構(gòu)、論文關(guān)鍵詞、引文、作者),以及6種同字段共現(xiàn)項(xiàng)(學(xué)科分類共現(xiàn)、國家合作、機(jī)構(gòu)合作、作者合著、關(guān)鍵詞共現(xiàn)、引文共被引),共12種待分析對象,以考察不同規(guī)模抽樣子文獻(xiàn)集對全量文獻(xiàn)集在各個元素和元素共現(xiàn)項(xiàng)上的擬合程度。需要注意的是,由于WoS文獻(xiàn)集中包括期刊論文和會議論文,因此,本文不專門針對期刊這一元素進(jìn)行分析。

      3)待分析對象的Top數(shù)量截取

      鑒于在科技情報分析中,人們往往關(guān)注頻次較高的元素和元素共現(xiàn),例如,分析結(jié)果中通常列舉TopN的元素,或者在構(gòu)建共現(xiàn)網(wǎng)絡(luò)時,過濾掉連接強(qiáng)度較低的邊。本文實(shí)驗(yàn)中,需要考察各分析對象在多種TopN取值下的擬合結(jié)果。進(jìn)一步地,不同分析對象的Top數(shù)量需要有所區(qū)別。例如,Top國家的數(shù)量宜在5~100的范圍內(nèi)逐步增加,而Top關(guān)鍵詞的數(shù)量則宜在50~1000的范圍內(nèi)逐步增加。具體數(shù)量,需要結(jié)合實(shí)踐經(jīng)驗(yàn)界定。

      4)結(jié)果排序與否

      科技情報分析中,對待分析對象的獲取有兩種常見要求:一是重要元素識別,即識別出某一分析元素上有哪些重要的結(jié)果,例如,某領(lǐng)域重要作者有哪些;二是重要元素排序,不僅要識別出重要的結(jié)果,還要考慮結(jié)果之間的排序,如某領(lǐng)域的作者榜單。前者的可靠性可采用重合率評估;后者的可靠性可采用斯皮爾曼系數(shù)來評估。

      3 實(shí)驗(yàn)設(shè)計

      依據(jù)上述研究思路,本文設(shè)計了相應(yīng)的實(shí)驗(yàn):對人工智能領(lǐng)域兩種全量文獻(xiàn)集開展不同規(guī)模的隨機(jī)抽樣,計算各種規(guī)模下子文獻(xiàn)集結(jié)果與全量文獻(xiàn)集結(jié)果的重合率、斯皮爾曼系數(shù)結(jié)果值,評估不同背景領(lǐng)域文獻(xiàn)集規(guī)模、不同分析任務(wù)、不同待分析對象下,不同規(guī)模子文獻(xiàn)集在全量文獻(xiàn)集上的擬合結(jié)果??傮w思路如圖1所示。

      圖1 實(shí)驗(yàn)方案總體流程圖

      3.1 數(shù)據(jù)來源與處理

      本文使用的數(shù)據(jù)來源于WoS數(shù)據(jù)庫中的核心合集數(shù)據(jù),這些數(shù)據(jù)對于學(xué)科領(lǐng)域分析來說是非常重要的,因?yàn)槠洳粌H收錄了具有廣泛認(rèn)可、權(quán)威性的期刊和論文,而且相關(guān)知識單元也非常完整,如學(xué)科分類、國家、機(jī)構(gòu)、作者、關(guān)鍵詞、引文等文獻(xiàn)計量指標(biāo),能夠較好的滿足本文的研究需求[24]。

      3.1.1 大領(lǐng)域、小領(lǐng)域全量文獻(xiàn)集的構(gòu)造

      在WoS數(shù)據(jù)庫中,選擇高級檢索,按照“WC=Artificial Intelligence and PY=1996-2016”的檢索式,選擇數(shù)據(jù)庫中“Web of Science核心合集”,獲取到1996—2016年人工智能領(lǐng)域的723187篇文獻(xiàn)的題錄數(shù)據(jù)。以此為基礎(chǔ),構(gòu)造待擬合的大領(lǐng)域、小領(lǐng)域全量文獻(xiàn)集。

      大領(lǐng)域全量文獻(xiàn)集:上述人工智能領(lǐng)域的723187篇文獻(xiàn),其規(guī)模在現(xiàn)有的科技情報分析中可作為較大領(lǐng)域的代表,故直接采納作為大領(lǐng)域全量文獻(xiàn)集。

      小領(lǐng)域全量文獻(xiàn)集:為便于后續(xù)比較的一致性,我們從上述文獻(xiàn)集中,抽出2016年的47666篇文獻(xiàn),作為一個模擬的“小領(lǐng)域”全量文獻(xiàn)集,供后續(xù)實(shí)驗(yàn)比較。

      這兩個全量文獻(xiàn)集是作為后續(xù)不同規(guī)模文獻(xiàn)集的抽樣背景和擬合的“真實(shí)標(biāo)準(zhǔn)”。

      3.1.2 抽樣數(shù)據(jù)集

      抽樣數(shù)據(jù)集是用來與全量集進(jìn)行擬合的數(shù)據(jù)集。我們對723187篇文獻(xiàn)所代表的“大領(lǐng)域”,采用5000、10000、20000、50000和100000共5種 規(guī)模進(jìn)行抽樣;對47666篇文獻(xiàn)所代表的“小領(lǐng)域”,采用5000、10000和20000共3種規(guī)模進(jìn)行抽樣。為了避免單次抽樣帶來的不確定性,本文對每種規(guī)模抽樣5次,后續(xù)評估指標(biāo)計算時,采用5次抽樣的平均值。

      3.1.3 待分析對象提取及其Top值設(shè)定

      從原始題錄數(shù)據(jù)中抽取相應(yīng)元素,并進(jìn)行預(yù)處理,得到本文實(shí)驗(yàn)中的12種待分析對象。各對象及其在WoS中的來源字段、預(yù)處理過程如表1所示。

      根據(jù)上述對各字段的預(yù)處理,最終得到6種元素作為待分析對象,在其基礎(chǔ)上進(jìn)一步統(tǒng)計共現(xiàn)信息,得到另外6種元素共現(xiàn)信息作為待分析對象,分別為:學(xué)科分類共現(xiàn)、國家合作、機(jī)構(gòu)合作、關(guān)鍵詞共現(xiàn)、引文共被引和作者合著。針對各分析對象,結(jié)合文獻(xiàn)調(diào)研和實(shí)踐經(jīng)驗(yàn),本文設(shè)置了各分析對象待擬合的TopN值,如表2所示。

      表2 各分析對象待擬合的Top N值選擇

      值得注意的是,實(shí)際操作中,N不一定與表2中給定值相同,因?yàn)榻敌蚝笕〉贜個對象時,通常會出現(xiàn)后面還有若干個(記為n)對象與其頻次一樣,不宜簡單按N個截取,而應(yīng)順延截取N'=N+n個對象。

      3.2 評估指標(biāo)

      在上述待分析對象上,本文針對科技情報分析中常見的兩種任務(wù)——重要元素識別和重要元素排序,分別設(shè)計相應(yīng)的擬合評估指標(biāo)。

      1)重要元素識別

      在重要元素識別任務(wù)上,人們更關(guān)注的是重要的元素或元素共現(xiàn)項(xiàng)是否被覆蓋到,例如,Top10國家中有多少個被識別出來了。本文采用抽樣結(jié)果與全量結(jié)果的重合率[25](overlap rate)來評估擬合情況,其計算方法為

      其中,Cx為某一字段的抽樣數(shù)據(jù);N為某一Top值;|Cx∩Call|為抽樣文獻(xiàn)集Cx和全量數(shù)據(jù)Call在該字段該TopN值上所得結(jié)果的重合數(shù);N'為實(shí)際的TopN值。

      2)重要元素排序

      在排序重要元素任務(wù)上,人們更關(guān)注所得重要元素的排序與實(shí)際是否一致。例如,Top 10國家的次序與實(shí)際上的一致性。本文采用斯皮爾曼系數(shù)(Spearman correlation)來評估擬合情況。斯皮爾曼系數(shù)[26]又稱斯皮爾曼秩相關(guān)系數(shù),其中的“秩”即順序、排序,其可用于衡量抽樣擬合排序與真實(shí)排序間的相關(guān)程度,計算方法為

      其中處理的基本數(shù)值是排序等級值。計算公式(2)前,先將抽樣數(shù)據(jù)集Cx、全量數(shù)據(jù)集Call中TopN個對象進(jìn)行合并,得到對象集合Ex∪all,xi、yi為Ex∪all中 任 一 對 象Ei在Cx、Call中 的 排 序 值,xˉ、yˉ則對應(yīng)Ex∪all中全部對象在Cx、Call中的平均降序位置。

      本文根據(jù)上述方案開展實(shí)驗(yàn),具體而言:在大、小兩種規(guī)模的全量文獻(xiàn)集的基礎(chǔ)上,進(jìn)行8種規(guī)模各5次抽樣,每次抽樣計算12種評估對象(包括6種元素和6種元素共現(xiàn)項(xiàng))在5個TopN上與全量結(jié)果之間的2個擬合值(包括重合率和斯皮爾曼系數(shù))。最終,共得到8×5×12×5×2=4800個擬合指標(biāo)值。

      4 結(jié)果分析與討論

      完成抽樣實(shí)驗(yàn)、計算得到重復(fù)率和斯皮爾曼系數(shù)后,分別將大領(lǐng)域、小領(lǐng)域各分析對象在不同抽樣規(guī)模、不同Top取值上對全量文獻(xiàn)集的擬合指標(biāo)值繪制成折線圖(圖2~圖5),以便觀察和判斷在不同的科技情報分析場景下,領(lǐng)域文獻(xiàn)集規(guī)模對全量文獻(xiàn)集擬合效果。

      通過觀察圖2~圖5,對擬合結(jié)果進(jìn)行歸納分析。首先,基于整體分析,得到一個整體的規(guī)律;其次,從不同元素之間、不同Top值之間、元素與元素共現(xiàn)、結(jié)果排序與否四個方面,分別得到不同維度的規(guī)律。下文將做詳細(xì)論述。

      圖5 小領(lǐng)域知識關(guān)聯(lián)擬合結(jié)果

      4.1 整體規(guī)律

      第一,單純從規(guī)模上看,文獻(xiàn)集規(guī)模越大越好。無論待分析的科技領(lǐng)域規(guī)模多大,在各種分析場景下,均出現(xiàn)抽樣的子文獻(xiàn)集規(guī)模越大,擬合的情況越好。例如,從圖2和圖3中,可以明顯地看出,除了學(xué)科分類和國家這兩個元素的擬合結(jié)果上有個別值不穩(wěn)定外,其他元素都是隨著抽樣集規(guī)模的增加,擬合結(jié)果值在不斷的提升。這說明科技領(lǐng)域情報分析在沒有雜質(zhì)干擾和檢索偏差的前提下,無論做何種分析,文獻(xiàn)集規(guī)模越大,分析結(jié)果就越能代表真實(shí)情況。那么,現(xiàn)實(shí)中是否有必要盡可能地擴(kuò)大文獻(xiàn)集規(guī)模呢?我們發(fā)現(xiàn)還有如下第二個整體規(guī)律。

      圖3 小領(lǐng)域知識單元擬合結(jié)果

      第二,文獻(xiàn)集規(guī)模擴(kuò)大,存在明顯的邊際效益遞減效應(yīng)。隨著抽樣子文獻(xiàn)集規(guī)模的增加,擬合效果在提升的同時,也存在明顯的邊際效益遞減規(guī)律。例如,在圖2中,抽樣規(guī)模從5000擴(kuò)大到10000時,盡管只增加了5000個樣本,擬合指標(biāo)卻出現(xiàn)了大幅地提升;然而,當(dāng)抽樣規(guī)模從50000擴(kuò)大到100000時,盡管增加了50000個樣本,擬合指標(biāo)值的提升卻不明顯。這說明在科技情報分析中(除分析對象是作者外),當(dāng)文獻(xiàn)集規(guī)模達(dá)到一定程度后,再繼續(xù)擴(kuò)大文獻(xiàn)集規(guī)模收益已經(jīng)不大了。相應(yīng)地,可將注意力轉(zhuǎn)移到檢索方式導(dǎo)致的文獻(xiàn)集雜質(zhì)和代表性偏差問題。

      圖2 大領(lǐng)域知識單元擬合結(jié)果

      4.2 不同分析對象對文獻(xiàn)集規(guī)模的要求

      不同分析對象對文獻(xiàn)集規(guī)模的要求不同。無論是在元素,還是在元素共現(xiàn)上;無論是在元素識別,還是在元素排序上,不同待分析對象的擬合結(jié)果之間存在差異。從圖2~圖5可看出,通過不同規(guī)模抽樣文獻(xiàn)集來擬合全量文獻(xiàn)集時,學(xué)科分類和國家的擬合效果都很好,機(jī)構(gòu)、關(guān)鍵詞和引文的擬合效果稍差,而作者的擬合效果最差。例如,在圖2中,用5000篇抽樣文獻(xiàn)去擬合大領(lǐng)域720000多篇全量文獻(xiàn)時,學(xué)科分類和國家在重合率、斯皮爾曼系數(shù)兩種指標(biāo)值上均基本達(dá)到0.9;而機(jī)構(gòu)、關(guān)鍵詞和引文的擬合指標(biāo)要想達(dá)到0.9,抽樣規(guī)模至少需要100000;作者則很難利用抽樣子文獻(xiàn)集擬合到0.9的水平。結(jié)合圖3可進(jìn)一步得知,即使是隨機(jī)抽樣20000篇文獻(xiàn),來對50000篇左右的小領(lǐng)域全量集中作者元素進(jìn)行擬合,其重合率只有0.6左右,而考慮排序的斯皮爾曼系數(shù),則隨著TopN的增加進(jìn)一步下降到0.2附近。

      這說明,在科技情報分析中,不同分析對象對文獻(xiàn)集規(guī)模的要求存在明顯的差異。分析學(xué)科分類或國家時,對文獻(xiàn)集的規(guī)模要求較低;分析機(jī)構(gòu)、關(guān)鍵詞或引文時,對文獻(xiàn)集的規(guī)模要求處在中等水平;而分析作者時,對文獻(xiàn)集的規(guī)模要求是極高的。特別是,對于各種“作者排名”“作者合著分析”,一定要保障其文獻(xiàn)集足夠大,否則結(jié)果可靠性是存疑的。相應(yīng)的結(jié)果,可歸納如表3所示。

      表3 不同元素文獻(xiàn)集規(guī)模要求對比

      究其原因,主要是由于不同元素的集中與分散效應(yīng)差別明顯。學(xué)科分類、國家的數(shù)量少,因而文獻(xiàn)集中情況明顯;機(jī)構(gòu)、關(guān)鍵詞、引文、作者的數(shù)量多,但文獻(xiàn)集中情況有差異:在機(jī)構(gòu)、關(guān)鍵詞、引文上,高頻元素累積了大量的文獻(xiàn),會有明顯的“頭部聚集效應(yīng)”;而就作者而言,由于發(fā)文成本高,盡管也存在馬太效應(yīng),但高頻作者累積的文獻(xiàn)量規(guī)模并不懸殊,更明顯的是“長尾離散效應(yīng)”。

      4.3 不同Top值對文獻(xiàn)集規(guī)模的要求

      同一分析對象下,取不同Top值開展分析時,對文獻(xiàn)集規(guī)模要求也不同。觀察圖2~圖5可知,除了某些小規(guī)模抽樣指標(biāo)不穩(wěn)定的情況下,隨著Top值的增加:①學(xué)科分類及其共現(xiàn)、國家及其共現(xiàn)、以及機(jī)構(gòu)的擬合結(jié)果都不存在明顯的增加或下降規(guī)律;②機(jī)構(gòu)共現(xiàn)、關(guān)鍵詞及其共現(xiàn)、作者及其共現(xiàn)、引文及其共現(xiàn)的擬合結(jié)果都呈現(xiàn)出明顯的下降趨勢。并且這種下降趨勢在小規(guī)模抽樣數(shù)據(jù)集上更為劇烈。例如,圖2和圖3中的引文、關(guān)鍵詞擬合指標(biāo),隨著TopN的增加,較大規(guī)模抽樣集(如20000、50000、100000)的擬合指標(biāo)緩慢下降,但較小規(guī)模抽樣集(如5000、10000)的擬合指標(biāo)急劇下降;圖2中關(guān)鍵詞在5000抽樣集上,斯皮爾曼擬合指標(biāo)從Top 50的0.7急劇下降到Top 100的0.3左右。

      這些說明,在科技情報分析中,如果要列舉或者排序大量除學(xué)科分類、國家之外的高頻分析對象,那么需要采用較大規(guī)模的文獻(xiàn)集(本例中無論領(lǐng)域全量集大小,用于擬合的抽樣集規(guī)模應(yīng)達(dá)到20000以上),才能得到較為可靠的結(jié)果。

      究其原因,應(yīng)與特定領(lǐng)域內(nèi)論文涉及的學(xué)科分類、國家、機(jī)構(gòu)數(shù)量相對有限,論文在高頻元素上的集中效應(yīng)導(dǎo)致TopN個元素相對穩(wěn)固,因此,增加待分析對象的Top值不會導(dǎo)致擬合效果變差。而關(guān)鍵詞、引文、作者的數(shù)量較多,高頻元素上的集中效應(yīng)不如前幾者明顯,導(dǎo)致頻次排序不夠穩(wěn)定,因此,增加待分析對象的Top值會導(dǎo)致擬合效果變差。

      4.4 元素排序與否對文獻(xiàn)集規(guī)模的要求

      元素排序?qū)ξ墨I(xiàn)集規(guī)模要求更高。如果科技情報分析任務(wù)中需要對相應(yīng)元素進(jìn)行排序(如作者排名、機(jī)構(gòu)合作排名等),那么其對文獻(xiàn)集規(guī)模的要求比不排序更高。由圖2~圖5可知,除學(xué)科分類這種擬合情況普遍極高的特例外,無論待擬合的背景文獻(xiàn)集有多大(即大領(lǐng)域、小領(lǐng)域),無論是哪一個待分析對象,無論是元素分析還是元素共現(xiàn)分析,排序的擬合結(jié)果(斯皮爾曼系數(shù))均差于不排序。代表性的例子如圖2中的引文擬合折線圖,橫向來看,抽樣規(guī)模是10000時,不同Top取值下,重復(fù)率值在0.7~0.85之間,而斯皮爾曼系數(shù)值在0.6~0.8之間;而縱向來看,當(dāng)取相同的Top值時,無論抽樣規(guī)模多大,重復(fù)率值總是高于斯皮爾曼系數(shù)值。

      排序?qū)ξ墨I(xiàn)集規(guī)模要求更高在以下三種情況會帶來極端影響:①文獻(xiàn)集規(guī)模太小時;②待分析元素Top值較大時;③分析元素共現(xiàn)情況時。例如,在圖2和圖3中,抽樣5000分別擬合大領(lǐng)域、小領(lǐng)域時,引文、關(guān)鍵詞的排序擬合情況欠佳,尤其是在Top值提升時,斯皮爾曼系數(shù)急劇下降。而在圖4和圖5中,除學(xué)科分類共現(xiàn)、國家合作的排序擬合效果較好外,其他元素共現(xiàn)的排序擬合大多為負(fù)值。

      圖4 大領(lǐng)域知識關(guān)聯(lián)擬合結(jié)果

      另外,由于重復(fù)率與斯皮爾曼系數(shù)的計算方式不同,使用其絕對值難以進(jìn)行比較,但是對比同一任務(wù)下這兩個擬合指標(biāo)的相對值(同一圖同一列的上下子圖對比),可發(fā)現(xiàn)不同抽樣規(guī)模下斯皮爾曼系數(shù)折線的間距明顯大于重復(fù)率;并且同一規(guī)模子文獻(xiàn)集上,改變Top值的大小,斯皮爾曼系數(shù)值的折線變化則更加明顯。

      總體而言,在科技情報分析中,除學(xué)科分類、國家外:①如果要對機(jī)構(gòu)、引文、關(guān)鍵詞開展排序(如各種排名),那么文獻(xiàn)集規(guī)模不宜低于10000~20000級別;如果是對元素共現(xiàn)進(jìn)行排序,那么文獻(xiàn)集規(guī)模需要盡可能大;②涉及作者、作者合著的排序,對文獻(xiàn)量要求極高,有必要盡可能全地收集文獻(xiàn);③排序的元素數(shù)量越多,對文獻(xiàn)集要求越高,即現(xiàn)實(shí)中生成的榜單越長,其文獻(xiàn)集要求越全?;谶@些發(fā)現(xiàn),本文在研究和實(shí)踐中,可以明確有哪些科技情報分析結(jié)果值得質(zhì)疑。例如,用少量文獻(xiàn)做作者排序或者除國家和學(xué)科分類外各種共現(xiàn)分析時,所得結(jié)果的可靠性不強(qiáng)。

      4.5 元素分析與共現(xiàn)分析對文獻(xiàn)集規(guī)模的要求

      相比基本的元素(如機(jī)構(gòu)、引文等)分析而言,元素共現(xiàn)(如機(jī)構(gòu)合作、共被引等)分析對文獻(xiàn)集規(guī)模要求更大。觀察圖2~圖5可知,這一結(jié)論在全部任務(wù)場景下均成立。典型例子如機(jī)構(gòu)和機(jī)構(gòu)合作,在圖2中,5000篇文章擬合大領(lǐng)域時,機(jī)構(gòu)的重復(fù)率在0.75左右,斯皮爾曼系數(shù)在0.6左右;而在圖4中,5000篇文章擬合大領(lǐng)域時,機(jī)構(gòu)合作的重復(fù)率均低于0.4,斯皮爾曼系數(shù)為負(fù)值;若要使機(jī)構(gòu)合作的重復(fù)率達(dá)到同等的0.75,則其文獻(xiàn)規(guī)模至少要達(dá)到50000,若要使其斯皮爾曼系數(shù)達(dá)到同等的0.6,則其文獻(xiàn)規(guī)模需要超過100000。同樣地,也可以觀察到國家、關(guān)鍵詞、引文、作者各自的共現(xiàn)分析與元素分析的擬合效果差距明顯。

      除了學(xué)科分類共現(xiàn)和國家合作外,用小規(guī)模數(shù)據(jù)集做機(jī)構(gòu)合作、共被引分析、關(guān)鍵詞共現(xiàn)、作者合著等共現(xiàn)分析時,結(jié)果可靠性都很差;如果要進(jìn)一步對共現(xiàn)關(guān)系進(jìn)行排序,那么結(jié)果可靠性更差。與此同時,機(jī)構(gòu)合作、共被引分析、關(guān)鍵詞共現(xiàn)這幾種情況,在文獻(xiàn)集規(guī)模達(dá)到一定值時,結(jié)果可靠性可保持相對較高的水平。例如,從圖4和圖5可知,針對700000余篇文獻(xiàn)的大領(lǐng)域,大約100000篇文獻(xiàn)即可保持大多任務(wù)下這三種共現(xiàn)分析的兩種擬合值不低于0.8;而針對50000余篇文獻(xiàn)的小領(lǐng)域,大約20000篇文獻(xiàn),即可保持相對較好的擬合結(jié)果。

      5 結(jié)語

      在基于文獻(xiàn)的科技領(lǐng)域情報分析中,排除文獻(xiàn)集中雜質(zhì)和代表性偏差干擾的影響,為了得到可靠的結(jié)果,領(lǐng)域文獻(xiàn)集規(guī)模越大越好;但另一方面,隨著文獻(xiàn)集規(guī)模的增大,進(jìn)一步擴(kuò)展其規(guī)模的成本較高,且對結(jié)果可靠性的提升效果逐漸消失。另外,分析學(xué)科分類、國家(及其共現(xiàn)關(guān)系)的任務(wù)對于文獻(xiàn)集規(guī)模要求極低,本文中5000篇抽樣文獻(xiàn)即可在絕大多數(shù)任務(wù)場景下可靠地擬合包含700000余篇文獻(xiàn)的大領(lǐng)域;分析作者及其共現(xiàn)關(guān)系的任務(wù)對于文獻(xiàn)集規(guī)模要求極高,本文中以20000篇抽樣文獻(xiàn),仍不能可靠地擬合50000篇文獻(xiàn)的小領(lǐng)域;分析機(jī)構(gòu)、關(guān)鍵詞、引文(及其共現(xiàn)關(guān)系)的任務(wù),盡管可以用一定規(guī)模(相對來說,仍是總量的一小部分)文獻(xiàn)集得到可靠的結(jié)果,但不同任務(wù)場景對文獻(xiàn)集規(guī)模的要求不同,如果是涉及結(jié)果排序、共現(xiàn)關(guān)系分析、元素Top取值較多這三種情況,那么文獻(xiàn)集規(guī)模要求更高。

      上述發(fā)現(xiàn)以及本文詳細(xì)圖表,可在一定程度上可指導(dǎo)情報工作人員明確其分析任務(wù),文獻(xiàn)集規(guī)模到底是否合適;特別是,有助于情報工作人員判斷是應(yīng)進(jìn)一步搜集文獻(xiàn)以擴(kuò)大規(guī)模,還是避免擴(kuò)大文獻(xiàn)規(guī)模帶來的雜質(zhì)和代表性偏差,抑或是關(guān)注已有的文獻(xiàn)集中的非領(lǐng)域相關(guān)文獻(xiàn)清洗。同時,本文的研究結(jié)論也有助于人們在接觸到情報分析結(jié)果時,更有依據(jù)地判斷其可靠性。例如,作者排序這一任務(wù)對于文獻(xiàn)集規(guī)模要求極高,遇到這類報告時,有必要追尋其文獻(xiàn)集是否全面。

      由于實(shí)驗(yàn)工作的復(fù)雜性和數(shù)據(jù)展現(xiàn)的局限性,本文只針對了一個領(lǐng)域開展了實(shí)驗(yàn)。實(shí)際上,決定文獻(xiàn)集規(guī)??煽啃缘闹饕蛩?,在于各分析任務(wù)場景下,文獻(xiàn)在相應(yīng)元素上分布的“頭部聚集效應(yīng)”和“長尾效應(yīng)”。盡管文獻(xiàn)在各種元素上均符合冪律分布規(guī)律,但不同元素的總體數(shù)量(如國家很少、關(guān)鍵詞很多)和文獻(xiàn)累積成本(如關(guān)鍵詞上累積文獻(xiàn)容易、作者上累積文獻(xiàn)困難),決定了文獻(xiàn)在該元素上的頭部聚集和長尾程度,進(jìn)一步?jīng)Q定了用多大規(guī)模的子文獻(xiàn)集能夠擬合全貌。此外,不同領(lǐng)域下文獻(xiàn)集在同一元素上的分布規(guī)律存在相似性,例如,在任何領(lǐng)域中,文獻(xiàn)在作者上分布的頭部聚集效應(yīng)均不如在國家上分布的頭部聚集效應(yīng)明顯。因此,可以推斷,本文的結(jié)論在一定程度上存在普適性。在后續(xù)的研究中,本課題組將進(jìn)一步探索領(lǐng)域文獻(xiàn)集構(gòu)造的“準(zhǔn)確性”問題。

      猜你喜歡
      學(xué)科分類全量排序
      基于學(xué)科識別功能的中國學(xué)位服色彩設(shè)計研究
      絲綢(2024年7期)2024-12-31 00:00:00
      排序不等式
      成都市溫江區(qū)全力推進(jìn)醫(yī)保全量數(shù)據(jù)采集試點(diǎn)工作
      恐怖排序
      節(jié)日排序
      刻舟求劍
      兒童繪本(2018年5期)2018-04-12 16:45:32
      審計學(xué)成為一級學(xué)科可行性研究
      土壤重金屬污染調(diào)查與評估的誤區(qū)及其改進(jìn)方法
      中醫(yī)藥信息學(xué)教育發(fā)展歷程回顧與學(xué)科發(fā)展現(xiàn)狀分析
      麥秸全量還田下氮肥運(yùn)籌對水稻產(chǎn)量及其產(chǎn)量構(gòu)成的影響
      台南市| 黄石市| 平罗县| 武安市| 逊克县| 河南省| 嘉荫县| 曲麻莱县| 平遥县| 固安县| 广河县| 额济纳旗| 新津县| 剑川县| 汪清县| 长宁区| 建平县| 汉沽区| 英超| 武山县| 昌江| 宜昌市| 咸阳市| 盐津县| 聂荣县| 平乡县| 循化| 巨鹿县| 文水县| 清流县| 东方市| 塔城市| 辽源市| 洛阳市| 麦盖提县| 江山市| 汪清县| 夏津县| 锡林浩特市| 内乡县| 上虞市|