馬宇馳 牟冬梅 楊鑫禹
優(yōu)化關(guān)鍵詞利用策略的共詞分析研究*
馬宇馳1牟冬梅2楊鑫禹3
(1. 吉林財經(jīng)大學(xué)圖書館,長春 130117;2. 吉林大學(xué)第一醫(yī)院,長春 130021;3. 吉林大學(xué)公共衛(wèi)生學(xué)院,長春 130021)
本文提出關(guān)鍵詞利用策略的優(yōu)化方案,解決小數(shù)量級概念失焦、關(guān)鍵詞組概念缺失等問題,優(yōu)化共詞分析結(jié)果,以發(fā)現(xiàn)潛在研究熱點,拓展研究熱點主題識別的深度。關(guān)鍵詞利用策略優(yōu)化方案在高頻詞共詞分析的基礎(chǔ)上,引入關(guān)鍵詞與關(guān)鍵詞組相結(jié)合的處理方案,通過調(diào)整數(shù)據(jù)集范圍,實現(xiàn)共詞分析結(jié)果優(yōu)化。實證部分以“主動健康”主題為例,使用DDA軟件,完成基于關(guān)鍵詞利用策略優(yōu)化方案的共詞分析,探測主動健康的學(xué)科主題熱點。在初始發(fā)現(xiàn)的5類研究領(lǐng)域、12個熱點之外,基于關(guān)鍵詞利用策略優(yōu)化方案的共詞分析擴展識別了7個潛在熱點話題,補充發(fā)現(xiàn)5個復(fù)合詞組表達的研究概念。關(guān)鍵詞利用策略優(yōu)化方案令小數(shù)量級概念聚焦形成類團,在聚類過程中得到表達,令關(guān)鍵詞組代表的概念得到完整呈現(xiàn)。
共詞分析;關(guān)鍵詞;關(guān)鍵詞組;主動健康;優(yōu)化方案;DDA
學(xué)科知識結(jié)構(gòu)揭示模型將學(xué)科知識結(jié)構(gòu)模塊分為低中高三個層級,其中對關(guān)鍵詞、主題詞、標題詞、特征詞等節(jié)點的共詞分析是揭示中層級知識結(jié)構(gòu)的主要技術(shù)方法,在數(shù)據(jù)整合與智慧服務(wù)領(lǐng)域起到發(fā)現(xiàn)學(xué)科研究熱點、探究學(xué)科發(fā)展進程的作用[1]。結(jié)合時間軸屬性,共詞分析能在縱向上反映一段時間內(nèi)專業(yè)領(lǐng)域的動態(tài)發(fā)展演化歷程,在橫向上反映某個時間節(jié)點靜態(tài)知識單元分布結(jié)構(gòu)[2],揭示了領(lǐng)域的基本特征,對該領(lǐng)域的研究人員有重要的指導(dǎo)作用[3]。共詞分析方法基本分為6個環(huán)節(jié),即確定分析問題、術(shù)語詞源選擇、高頻詞選定、術(shù)語相關(guān)計算、多元統(tǒng)計分析及統(tǒng)計結(jié)果分析[4]。共詞分析結(jié)果的展示主要有聚類樹圖、戰(zhàn)略坐標及社會網(wǎng)絡(luò)圖譜等方式,聚類樹圖展現(xiàn)學(xué)科領(lǐng)域的主題結(jié)構(gòu),戰(zhàn)略坐標展現(xiàn)各主題在整個學(xué)科結(jié)構(gòu)上的重要性或特性,社會網(wǎng)絡(luò)圖譜展現(xiàn)各主題內(nèi)部關(guān)系[5]。
對于共詞分析的改良優(yōu)化,學(xué)者從多個環(huán)節(jié)進行探索,積累了豐厚的研究成果。李綱等[6]通過在關(guān)鍵詞統(tǒng)計和計數(shù)過程中使用改進加權(quán)算法,實現(xiàn)了為關(guān)鍵詞重要性加權(quán),而后采取混合關(guān)鍵詞策略,選取低頻關(guān)鍵詞和突發(fā)詞,優(yōu)化了共詞聚類效果以及關(guān)鍵詞網(wǎng)絡(luò)共現(xiàn)效果[7]。傅柱等[8]就共詞分析詞源選擇述評了元數(shù)據(jù)取詞與全文自動標引取詞的研究現(xiàn)狀,就術(shù)語規(guī)范化問題述評了基于受控詞典與基于人工方式的方案。楊麗等[9]應(yīng)用自然語言的處理方法,考察了除關(guān)鍵詞以外的分析單元,提取了題名、摘要及全文的高頻詞,識別動物學(xué)領(lǐng)域的研究熱點。李鋒[10]提出了在選詞個數(shù)范圍內(nèi)的高頻區(qū)全部采納、中低頻區(qū)按2:1實行配額采納的兼顧中低頻關(guān)鍵詞的選詞方案。徐坤等[11]提出次高頻詞概念,利用次高頻詞進行了領(lǐng)域研究內(nèi)容的聚類分析,在揭示領(lǐng)域研究熱點上具有較好效果。余本功等[12]針對文獻層面和詞層面“同量不同質(zhì)”、高頻孤立詞等問題,提出基于文獻多屬性加權(quán)的共詞分析方法。唐曉波等[13]抽取并融合文本的詞語特征和詞權(quán)重特征,對文本聚類,提取關(guān)鍵詞識別主題并進行分析。滕廣青等[14]對科技信息多維復(fù)合分析演進過程進行歸納,總結(jié)通過多數(shù)據(jù)源更全面地識別領(lǐng)域知識或技術(shù)前沿。
但現(xiàn)有共詞分析研究仍然存在一定的局限。胡昌平等[15]指出,傳統(tǒng)的詞源選定、關(guān)鍵詞提取方法忽略了關(guān)鍵詞本身的特征,未充分發(fā)揮共詞分析的優(yōu)勢,大量的強共現(xiàn)關(guān)系由中頻詞與高頻詞或中頻詞與中頻詞構(gòu)成,截取高頻詞進行共詞分析對重要關(guān)系的保留情況不能令人滿意。詞語可以是關(guān)鍵詞、主題詞或自然語言處理下的全文標引等不同元數(shù)據(jù),不論來自何種分析單元,關(guān)鍵詞詞頻及共現(xiàn)強度的冪律分布都帶來難以調(diào)和的局限,導(dǎo)致共詞分析在發(fā)現(xiàn)熱點與全面概括兩項目標難以達到平衡[16]。犧牲低頻關(guān)鍵詞,基于高頻詞進行共詞分析可以發(fā)現(xiàn)主題熱點,但不能很好地探查學(xué)科全貌;針對低頻詞分析有助于探查隱含主題或前沿?zé)狳c,然而人工降低截取關(guān)鍵詞的詞頻閾值受人為影響大,也無法在發(fā)現(xiàn)重點和認識全貌中求得合理的平衡。
針對上述問題,筆者將關(guān)口前移,在聚類前提出關(guān)鍵詞利用策略的優(yōu)化方案,從而拓展研究熱點主題識別的廣度與深度,以期實現(xiàn)對共詞分析理論的進一步完善和方法的進一步優(yōu)化。
高頻詞閾值選取方法主要有自定義選取法(頻次選取法、前N位選取法、中心度選取法)、高低頻詞界定公式選取法、普賴斯公式選取法及混合選取法[17]。然而無論采取何種方法,現(xiàn)有的共詞分析都位于截取關(guān)鍵詞步驟與聚類分析步驟之間,囿于聚類分析中類團形成的客觀過程以及關(guān)鍵詞表義能力的局限,關(guān)鍵詞分析往往存在如下缺陷。①高頻關(guān)鍵詞聚類效果不足,在類團劃分過程中出現(xiàn)“馬太效應(yīng)”。概念(Concept)是學(xué)科領(lǐng)域內(nèi)科學(xué)共同體共享的基本知識單元,通過術(shù)語的形式被語言符號限定或表達出來,這些術(shù)語之間的相關(guān)強度決定了共詞分析聚類的結(jié)果與形態(tài)。觀察聚類過程可知,起初不存在明顯確定的聚類中心,各組分在逐步形成類團時傾向發(fā)生強者愈強的吸引效應(yīng)[4]。致使與某個個體相關(guān)密切的其他成員會被吞噬納入“超級類團”,強大的類團變得愈發(fā)強大,弱小類團地位愈加無法突出,導(dǎo)致小數(shù)量級的類團無法脫出,失去表達信息的機會,最終使得以這些術(shù)語為載體的概念得不到有效的呈現(xiàn)。②關(guān)鍵詞表達不完整,關(guān)鍵詞組表達的復(fù)雜概念缺失。概念被術(shù)語表達,具有語義信息的術(shù)語按一定的邏輯結(jié)構(gòu)組成文獻,這些邏輯不僅包含物理順序的先后關(guān)系,還存在句法篇章上的支配從屬關(guān)系與隱含的語義聯(lián)系[18]。關(guān)鍵詞分析中以詞組形式凝練的概念,被拆分成單獨的單詞歸檔統(tǒng)計,導(dǎo)致詞組切割,語義呈現(xiàn)不完善,重要信息不完整,概念的完整性受限,使得最終的分析結(jié)果不全面。
針對關(guān)鍵詞分析的主要問題,提出關(guān)鍵詞利用策略優(yōu)化方案,實現(xiàn)對關(guān)鍵詞的深入開發(fā)和對其攜帶信息的充分挖掘。關(guān)鍵詞利用策略優(yōu)化方案是指在獲取數(shù)據(jù)集步驟之后、執(zhí)行聚類分析步驟之前,在挖掘“超級類團”核心概念的一次分析基礎(chǔ)上,通過多粒度、多角度的透視,調(diào)整數(shù)據(jù)集范圍,進行二次聚類分析,聚焦小數(shù)量級關(guān)鍵詞所代表的概念;隨后引入關(guān)鍵詞組,進行三次分析,增加由詞組單元呈現(xiàn)的科學(xué)概念。
(1)調(diào)整數(shù)據(jù)集范圍,聚焦小數(shù)量級關(guān)鍵詞所代表的概念。關(guān)鍵詞、熱點都來自論文作者的實際工作,并非在科技論文寫作時預(yù)先固定,因此“關(guān)鍵詞-文獻數(shù)據(jù)記錄-熱點”組成的網(wǎng)絡(luò)往往是立體的,具有高自由度、高復(fù)雜度的特性,并不嚴格遵循一對一關(guān)系或一對多關(guān)系。在考慮去掉高頻關(guān)鍵詞時,提出“最大化去除”原則,以文獻數(shù)據(jù)記錄為最小單位,在文獻數(shù)據(jù)集層面進行調(diào)整。其優(yōu)勢在于去掉引起“超級類團”的高頻關(guān)鍵詞的同時,同樣移除了其來源文獻數(shù)據(jù)記錄中包含的其他關(guān)鍵詞,實現(xiàn)了對與“超級類團”高度相關(guān)關(guān)鍵詞的限制,使“超級類團”的清除更加徹底。進而更多地讓位給前期被吸入“超級類團”中、未得到體現(xiàn)的關(guān)鍵詞及其代表的研究熱點,使整個發(fā)掘過程更加充分深入。
將關(guān)口前移,在聚類開始之前進行優(yōu)化操作,將位于頭部“超級類團”的核心概念所對應(yīng)的文獻數(shù)據(jù)集刪除,使其余“弱勢類團”得以免于吸入“超級類團”,小數(shù)量級關(guān)鍵詞所代表的概念有機會在聚類過程中被充分表達,弱化了聚類過程中量級較大關(guān)鍵詞引起的“馬太效應(yīng)”,使聚類結(jié)果能夠更加豐富和全面地展示學(xué)科研究潛在熱點。
(2)引入關(guān)鍵詞組,增加由詞組單元呈現(xiàn)的科學(xué)概念的表達。關(guān)鍵詞組以多角度、更全面反映領(lǐng)域主題為目的,可以是作者與關(guān)鍵詞的組合,也可以是關(guān)鍵詞與其他詞的組合;可由數(shù)據(jù)庫商提供、計算機程序自動標引,也可由作者及領(lǐng)域?qū)<胰斯そM配。引入關(guān)鍵詞組的共詞分析能夠利用關(guān)鍵詞組類似于主題詞組配的特性,通過詞組的形態(tài)保留研究的核心主題,從不同視角補充主題信息,以最貼近研究者本意的形式多維度地全面描述研究主題。
關(guān)鍵詞利用策略優(yōu)化方案在標準的共詞分析的基礎(chǔ)上,遵循“數(shù)據(jù)導(dǎo)入→優(yōu)化關(guān)鍵詞數(shù)據(jù)處理→聚類分析、識別熱點→整合熱點、形成最終探測結(jié)果”的過程,其最終結(jié)果由3個識別結(jié)果匯總而成:①對檢索獲得的原始數(shù)據(jù)集執(zhí)行普遍采用的高頻詞共詞分析,所獲得的初步發(fā)現(xiàn)的熱點;②調(diào)整數(shù)據(jù)集范圍,在高頻關(guān)鍵詞共詞分析之外,剝離原始數(shù)據(jù)集中詞頻數(shù)排行靠前概念對應(yīng)的文獻數(shù)據(jù)集,對剩余文獻數(shù)據(jù)集內(nèi)的關(guān)鍵詞執(zhí)行第二次分析,聚焦相對小數(shù)量級概念所代表的細節(jié)熱點;③引入關(guān)鍵詞組視角,對來自原始數(shù)據(jù)集的關(guān)鍵詞組執(zhí)行第三次聚類分析,通過不破壞概念的方案,透視作者在選題、構(gòu)思、實驗、分析等各環(huán)節(jié)的研究思維,發(fā)現(xiàn)主題脈絡(luò),獲得補充熱點信息。將三步的探測結(jié)果相結(jié)合,使全部文獻數(shù)據(jù)集蘊含的科學(xué)信息得到更充分體現(xiàn),最終填補聚類過程中“超級類團”導(dǎo)致的潛在信息遺漏,提供還原作者科研意圖的信息發(fā)現(xiàn)與學(xué)科熱點探測服務(wù)。
我國自2016年至今陸續(xù)發(fā)布《“健康中國2030”規(guī)劃綱要》《“十三五”衛(wèi)生與健康科技創(chuàng)新專項規(guī)劃》《健康中國行動(2019—2030年)》等文件,以增進健康為導(dǎo)向,推動以疾病治療為中心向健康提升為中心的轉(zhuǎn)變,研發(fā)健康管理解決方案,從注重“治已病”向“治未病”過渡,制定實施主動健康計劃[19-21]。主動健康的研究是實施“健康中國”行動的重要組成部分,著眼當(dāng)前是為人民謀幸福、謀健康,展望長遠是為民族謀復(fù)興、謀發(fā)展。通過實證研究評測關(guān)鍵詞利用策略優(yōu)化方案對共詞分析的提升效果,同時分析國外主動健康相關(guān)研究進展,以期為我國健康服務(wù)與管理領(lǐng)域相關(guān)研究提供參考借鑒。
選取數(shù)據(jù)來自Web of Science(WoS)核心合集,以“健康自主管理”(health self-management)、“主動醫(yī)療”(proactive medicine)、“主動干預(yù)”(proactive intervention)、“主動健康”(proactive health、positive health)、“疾病預(yù)防性治療”(preventive treatment of disease)、“健康促進行為”(health promotion behavior)、“自我護理”(self-care)為檢索詞,布爾邏輯檢索詞為“或”(OR),限制語種為“英語”,時間跨度為“1900—2020”,索引包含SCI-EXPANDED、SSCI、A&HCI、CPCI-S、CPCI-SSH、ESCI。共檢索到文獻4?493篇,構(gòu)成本研究的原始數(shù)據(jù)。
將上述原始數(shù)據(jù)以文本形式導(dǎo)入,將每條文獻記錄內(nèi)容按作者、摘要、作者地址、作者關(guān)鍵詞等提取,寫入對應(yīng)字段,生成DDA數(shù)據(jù)集。在分析之前對原始數(shù)據(jù)進行清洗,剔除可能導(dǎo)致分析結(jié)果失準的“DEAN”4類數(shù)據(jù):數(shù)據(jù)庫內(nèi)重復(fù)或多個數(shù)據(jù)庫檢索結(jié)果合并之后的重復(fù)記錄(Duplicates),不符合檢索需求的文獻類型記錄(Errors),不同數(shù)據(jù)分類和標引規(guī)范下的相同概念關(guān)鍵詞(Alias),對研究熱點造成干擾的低頻關(guān)鍵詞或子網(wǎng)絡(luò)(Noises)[22]。
本次實驗應(yīng)用的工具Derwent Data Analyzer(DDA)是由科睿唯安和喬治亞理工學(xué)院共同研發(fā)的信息情報分析和挖掘軟件。統(tǒng)計“WoS入藏號”,確保該字段內(nèi)的每個對象出現(xiàn)次數(shù)為且僅為1,結(jié)果中不存在重復(fù)記錄。統(tǒng)計“文獻類型”字段,確保記錄的文獻均為學(xué)術(shù)信息本身,不包含書目、傳記、案例報告或數(shù)據(jù)集等,符合本次實驗需求。處理近義關(guān)鍵詞和同義關(guān)鍵詞,清洗“關(guān)鍵詞”字段,最終得到原始數(shù)據(jù)集關(guān)鍵詞列表(見表1),共有關(guān)鍵詞6?786個,其中頻次為1的關(guān)鍵詞有4?701個。
最終采取混合選取法[17]:按高低頻詞分界公式[23]確定高頻詞范圍,計算截取關(guān)鍵詞降序排列的前96個,考慮研究需要及結(jié)果易讀性,經(jīng)多次預(yù)實驗,應(yīng)用前N位選取法截取排名前40的關(guān)鍵詞進行分析。
觀察預(yù)處理數(shù)據(jù),首位關(guān)鍵詞“自我護理/自我醫(yī)療”(self-care)頻次4?076,數(shù)量和時間維度優(yōu)勢突出,其余高頻關(guān)鍵詞所代表的概念難以在其覆蓋之下的分析中得到充分體現(xiàn),因此考慮刪除包含“self-care”關(guān)鍵詞的部分文獻數(shù)據(jù)集。
(1)調(diào)整數(shù)據(jù)集范圍。利用DDA調(diào)整數(shù)據(jù)集范圍的功能,在原始數(shù)據(jù)集(包含關(guān)鍵詞“self-care”的文獻記錄)基礎(chǔ)之上調(diào)整生成子數(shù)據(jù)集(不包含關(guān)鍵詞“self-care”的文獻記錄),為調(diào)整數(shù)據(jù)集范圍的共詞分析提供數(shù)據(jù)準備。
(2)引入關(guān)鍵詞組。關(guān)鍵詞組提取自WoS數(shù)據(jù)集中的“Keywords Plus”字段。該字段是由計算機程序?qū)γ科恼聟⒖嘉墨I的標題內(nèi)容進行自動標引而生成,數(shù)量多、含義廣,可以有效探討學(xué)科領(lǐng)域的知識結(jié)構(gòu)[24],能夠從方法、技術(shù)等視角補充領(lǐng)域主題信息[25]。將其寫入DDA特定字段,并移除其中“rights reserved”“current study”等無實義類型詞組以及“control group”“descriptive statistics”等描述實驗操作的語義類型的詞組,進行引入關(guān)鍵詞組的共詞分析。
關(guān)鍵詞利用策略優(yōu)化方案下的實證研究共執(zhí)行了三次分析,最終的呈現(xiàn)結(jié)果來自三次共詞分析結(jié)果的整合匯總。第一次是對于完整原始數(shù)據(jù)集執(zhí)行的普遍采用的高頻詞共詞分析,確保了“自我護理/自我醫(yī)療”(self-care)核心概念所代表的熱點得到充分的呈現(xiàn),保證核心重要概念熱點不丟失。第二次共詞分析將關(guān)口前移,通過聚類前的優(yōu)化操作,以預(yù)實驗結(jié)合人工經(jīng)驗的模式移除了“超級類團”(超級關(guān)鍵詞)“self-care”,使小數(shù)量級概念類團得到體現(xiàn),成功識別出潛在研究熱點。第三次共詞分析引入提取自WoS數(shù)據(jù)集中“Keywords Plus”字段的關(guān)鍵詞組,憑借不同于第一、第二次共詞分析關(guān)鍵詞且同樣具備探查學(xué)科領(lǐng)域知識結(jié)構(gòu)作用的分析素材,明晰了熱點側(cè)重方向,拓寬了所發(fā)現(xiàn)研究熱點的廣度。將第一次共詞分析發(fā)現(xiàn)的研究熱點同第二、第三次經(jīng)過關(guān)鍵詞利用策略優(yōu)化方案處理的共詞分析新增研究熱點進行對比,形成表2,并在下文具體分析。
2.4.1 原始數(shù)據(jù)集未經(jīng)優(yōu)化的共詞分析結(jié)果
第一次對原始數(shù)據(jù)集執(zhí)行未經(jīng)優(yōu)化的高頻詞共詞分析方法,確定了5類基本研究領(lǐng)域,對應(yīng)識別了12個研究熱點(見表2):①護理學(xué)研究領(lǐng)域識別出“自主鍛煉活動”(self-care maintenance)、“癥狀和體征監(jiān)測”(self-care monitoring)、“癥狀和體征應(yīng)對”(self-care management)3個熱點;②臨床醫(yī)學(xué)研究領(lǐng)域識別出“糖尿病癥狀管理”(diabetes)、“心力衰竭癥狀管理”(heart failure)2個熱點;③醫(yī)學(xué)信息學(xué)研究領(lǐng)域識別出“遠程醫(yī)療”(telemedicine)、“移動醫(yī)療”(Internet)兩個熱點;④心理學(xué)研究領(lǐng)域識別出“抑郁癥狀”(depression)、“焦慮”(anxiety)、“職業(yè)倦怠”(burnout)3個熱點;⑤公共衛(wèi)生學(xué)研究領(lǐng)域識別出“醫(yī)護人員自身屬性”(empowerment)、“ 社區(qū)患者/家屬健康教育”(health promotion)2個熱點。
2.4.2 調(diào)整數(shù)據(jù)集范圍的共詞分析結(jié)果
第二次分析是基于關(guān)鍵詞利用策略優(yōu)化方案的調(diào)整數(shù)據(jù)集范圍的實驗。對比第一次共詞分析的熱點識別效果,它移除了“self-care”關(guān)鍵詞所代表“超級類團”所對應(yīng)的文獻數(shù)據(jù)集,弱化了聚類過程中“self-care”“超級類團”對諸如“戒煙主動干預(yù)”(smoking cessation、proactive intervention)、“感知健康狀況”(perceived health status)、“口腔保健干預(yù)”(oral health)、“個人健康記錄”(personal health record)、“同情疲勞”(compassion fatigue)、“護理人員素養(yǎng)”(health education)和“營養(yǎng)與運動康復(fù)”(nutrition、physical activity)等小數(shù)量級概念的吸引效應(yīng),聚焦了7個小數(shù)量級關(guān)鍵詞所代表的概念,令其成功地在聚類過程形成類團,在結(jié)果中得到表達。在原始數(shù)據(jù)固定的前提下,關(guān)鍵詞利用策略優(yōu)化方案發(fā)揮了聚焦小數(shù)量級概念,拓展學(xué)科潛在熱點探測廣度的優(yōu)勢。
2.4.3 引入關(guān)鍵詞組的共詞分析結(jié)果
第三次的分析是基于關(guān)鍵詞利用策略優(yōu)化方案的引入關(guān)鍵詞組的實驗。對比第一次共詞分析的熱點識別效果,優(yōu)勢體現(xiàn)在:引入了“認知障礙”(cognitive impairment)、“血糖控制”(glycemic control)、“心理計量學(xué)”(psychometric properties)、“健康相關(guān)生活質(zhì)量”(health-related quality)、“專業(yè)護理人員”(health care providers)等關(guān)鍵詞組的方案,不分解、不破壞作者科研概念的完整度,避免以詞組形式凝練表現(xiàn)出的概念被拆分成單獨的單詞歸檔統(tǒng)計,以致語義信息不完善、重要信息不完整。在識別出研究對象之外,捕獲了更多關(guān)于熱點的側(cè)重方向、應(yīng)用技術(shù)、發(fā)生場景等起補充作用的信息,發(fā)現(xiàn)了健康自主管理的“認知障礙”側(cè)重、糖尿病研究的“血糖控制與主動干預(yù)”、醫(yī)學(xué)信息學(xué)的“心理計量學(xué)應(yīng)用”等5個熱點補充。在原始數(shù)據(jù)固定的前提下,關(guān)鍵詞利用策略優(yōu)化方案發(fā)揮了保留關(guān)鍵詞組概念,明晰學(xué)科熱點側(cè)重方向,擴展學(xué)科熱點探測深度的優(yōu)勢。
本次實證分析在第一次共詞分析初始發(fā)現(xiàn)的5類研究領(lǐng)域、12個熱點之外,經(jīng)關(guān)鍵詞利用策略優(yōu)化方案處理后第二次及第三次共詞分析擴展識別了7個潛在熱點話題,補充發(fā)現(xiàn)了5個復(fù)合詞組表達的研究概念。對領(lǐng)域主題熱點的拓展,擴充了概念數(shù)目,使之達到原有的2倍。
針對共詞分析研究中高頻詞分析聚類不足,類團劃分過程中“馬太效應(yīng)”突出,以及獨立關(guān)鍵詞分裂了詞組表達信息,使主題不完整的問題,提出了關(guān)鍵詞利用策略優(yōu)化方案。通過調(diào)整數(shù)據(jù)集范圍削弱了聚類過程中類團間的馬太效應(yīng)。在原始數(shù)據(jù)集高頻詞共詞分析的基礎(chǔ)上,基于調(diào)整之后的數(shù)據(jù)集成功聚焦小數(shù)量級概念,發(fā)現(xiàn)多個潛在研究熱點,拓展了研究熱點的識別廣度。此外,引入關(guān)鍵詞組具有熱點補充作用。通過詞組間攜帶的組配特性,從語義的層面保留了作者的科研意圖,在研究對象范圍不變的情況下補充得出更多研究熱點信息,擴展了識別的深度。綜上所述,關(guān)鍵詞利用策略優(yōu)化方案令小數(shù)量級關(guān)鍵詞代表的概念聚焦,關(guān)鍵詞組代表的概念呈現(xiàn)完整,從多維度、多角度豐富了共詞分析結(jié)果。通過調(diào)整數(shù)據(jù)集范圍,借助軟件DDA的創(chuàng)建數(shù)據(jù)子集功能,分析人員能夠自由選擇過濾某些“干擾”強的關(guān)鍵詞,放大知識單元分析的細節(jié),進一步增益了對知識全貌的還原。引入關(guān)鍵詞組有助于獲得隱含的主題信息,在相當(dāng)數(shù)量的高頻關(guān)鍵詞處理的基礎(chǔ)上,融入表意更豐富的關(guān)鍵詞組,是對共詞分析的有益增補。不過,本文仍然存在一定局限,在剝離靠前概念對應(yīng)的文獻集時,仍需以預(yù)實驗結(jié)合人工經(jīng)驗的模式判斷剝離分界程度,而且共詞分析在得到研究熱點主題后,需要返回原始論文中進行學(xué)科領(lǐng)域認知與內(nèi)容分析,對內(nèi)容的概括與認知程度取決于研究執(zhí)行者的學(xué)術(shù)經(jīng)驗。
[1] 牟冬梅,鄭曉月,琚沅紅,等. 學(xué)科知識結(jié)構(gòu)揭示模型構(gòu)建[J]. 圖書情報工作,2017,61(12):6-13.
[2] 鐘偉金,李佳. 共詞分析法研究(一)——共詞分析的過程與方式[J]. 情報雜志,2008(5):70-72.
[3] 黃月,王鑫. 基于高維稀疏聚類的知識結(jié)構(gòu)識別研究[J]. 現(xiàn)代情報,2019,39(12):72-80.
[4] 李綱,巴志超. 共詞分析過程中的若干問題研究[J]. 中國圖書館學(xué)報,2017,43(4):93-113.
[5] 楊穎. 基于共詞分析的學(xué)科結(jié)構(gòu)可視化研究[D]. 沈陽:中國醫(yī)科大學(xué),2010.
[6] 李綱,李軼. 一種基于關(guān)鍵詞加權(quán)的共詞分析方法[J]. 情報科學(xué),2011,29(3):321-324,332.
[7] 李綱,李昱瑤,謝子霖,等. 混合關(guān)鍵詞選擇策略對共詞分析效果的影響研究[J]. 情報理論與實踐,2017,40(11):110-116.
[8] 傅柱,王曰芬. 共詞分析中術(shù)語收集階段的若干問題研究[J]. 情報學(xué)報,2016,35(7):704-713.
[9] 楊麗,張彤彤,周文杰. 共詞分析識別研究熱點的效標關(guān)聯(lián)效度研究:基于自然語言處理[J]. 圖書與情報,2018(1):15-19.
[10] 李鋒. 兼顧中低頻關(guān)鍵詞的共詞分析實踐——以圖書情報學(xué)高被引文章為例[J]. 圖書館雜志,2018,37(4):34-42.
[11] 徐坤,畢強. 次高頻關(guān)鍵詞的選擇及在共詞分析中的應(yīng)用[J]. 情報理論與實踐,2019,42(5):148-152.
[12] 余本功,王龍飛,陳楊楠,等. 基于文獻多屬性加權(quán)的共詞分析方法研究[J]. 情報科學(xué),2019,37(1):122-128.
[13] 唐曉波,李津. 在線健康社區(qū)信息需求主題分析[J]. 數(shù)字圖書館論壇,2019(2):12-17.
[14] 滕廣青,葉心,郭思月,等. 科技信息分析從單一維度到多維復(fù)合的演進[J]. 數(shù)字圖書館論壇,2019(12):2-8.
[15] 胡昌平,陳果. 科技論文關(guān)鍵詞特征及其對共詞分析的影響[J]. 情報學(xué)報,2014,33(1):23-32.
[16] 楊建林. 關(guān)鍵詞選擇策略及其對共詞分析的影響[J]. 情報學(xué)報,2014,33(10):1083-1090.
[17] 劉奕杉,王玉琳,李明鑫. 詞頻分析法中高頻詞閾值界定方法適用性的實證分析[J]. 數(shù)字圖書館論壇,2017(9):42-49.
[18] 郭紅梅,張智雄. 基于圖挖掘的文本主題識別方法研究綜述[J]. 中國圖書館學(xué)報,2015,41(6):97-108.
[19] 中共中央 國務(wù)院印發(fā)《“健康中國2030”規(guī)劃綱要》[EB/OL].[2021-12-01]. http://www.gov.cn/zhengce/2016-10/25/content_5124174.htm.
[20] 關(guān)于印發(fā)《“十三五”衛(wèi)生與健康科技創(chuàng)新專項規(guī)劃》的通知[EB/OL].[2021-12-01]. http://www.most.gov.cn/tztg/201706/t20170613_133484.html.
[21] 新華社. 聚焦“治未病”健康指標納入政府考核——權(quán)威解讀健康中國行動有關(guān)文件[EB/OL].[2021-12-01]. https://baijiahao.baidu.com/s?id=1639124386954279536&wfr=spider&for=pc.
[22] 潘瑋,鄭鵬,黃錦泉,等.基于數(shù)據(jù)清洗“DEAN”流程的健康信息領(lǐng)域研究熱點探測[J]. 現(xiàn)代情報,2018,38(10):73-77.
[23] 孫清蘭. 高頻詞與低頻詞的界分及詞頻估算法[J]. 中國圖書館學(xué)報,1992(2):78-81,95-96.
[24] 章娟,盧祖洵,段志光. Web of Science數(shù)據(jù)庫中Keywords Plus的準確性研究——以患者依從性研究論文為例[C]. 第一屆兩岸三地科學(xué)計量學(xué)與信息計量學(xué)研討會論文集,西安:中國科學(xué)學(xué)與科技政策研究會,中國科學(xué)技術(shù)信息研究所,2013.
[25] ZHANG J,YU Q,ZHENG F,et al. Comparing keywords plus of WOS and author keywords:a case study of patient adherence research[J]. Journal of the Association for Information Science and Technology,2016,67(4):967-972.
Research on Co-word Analysis Based on Keyword Optimization
MA YuChi1MU DongMei2YANG XinYu3
( 1. Library of Jilin University of Finance and Economics, Changchun 130117, P. R. China; 2. The First Hospital of Jilin University, Changchun 130021, P. R. China; 3. School of Public Health, Jilin University, Changchun 130021, P. R. China )
This paper propose a keyword optimization plan to solve the problems of small-scale concept defocus and keyword group concept missing, optimize the results of co-word analysis, and expand the breadth and depth of research hotspots recognition. The keyword optimization mode is based on the high-frequency word co-word analysis, introduces the processing method of combining keywords and keyword groups, and obtains the optimization of the co-word analysis results by adjusting the range of the data set. The empirical part takes the topic of “proactive health” as an example, uses DDA software to complete a co-word analysis based on the keyword optimization plan, and detects the research hotspots of proactive health. A keyword optimization plan is proposed, which optimizes the co-word analysis by adjusting the scope of the data set and introducing keyword group recognition. In the empirical research part, in addition to the 5 types of research fields and 12 hotspots initially discovered, the co-word analysis based on the keyword optimization plan expanded to identify 7 potential hotspots and supplemented the discovery of 5 research concepts expressed by compound phrases. The keyword optimization mode enables small-scale concepts to focus on forming clusters, which can be expressed in the clustering process, and also enables the concepts represented by keyword groups to be fully presented.
Co-word Analysis; Keywords; Keyword Groups; Proactive Health; Optimization Plan; DDA
(2021-12-01)
G250.252
10.3772/j.issn.1673-2286.2021.12.006
馬宇馳,牟冬梅,楊鑫禹. 優(yōu)化關(guān)鍵詞利用策略的共詞分析研究[J]. 數(shù)字圖書館論壇,2021(12):34-40.
馬宇馳,男,1989年生,碩士,助理館員,研究方向:數(shù)據(jù)整合與智慧服務(wù)。
牟冬梅,女,1970年生,博士,教授,通信作者,研究方向:醫(yī)學(xué)數(shù)據(jù)整合與智慧服務(wù),E-mail:moudm@jlu.edu.cn。
楊鑫禹,女,1996年生,博士研究生,研究方向:醫(yī)學(xué)數(shù)據(jù)整合與智慧服務(wù)。
*本研究得到國家自然科學(xué)基金項目“信息鏈視域下電子病歷數(shù)據(jù)驅(qū)動健康服務(wù)供給側(cè)決策的路徑與模式研究”(編號:71974074)資助。