張書諳 王曦 代繼鵬 隋毅 孫仁誠
摘要:針對主題詞提取中關鍵詞提取不準確以及僅考慮單一相關性的問題,提出一種將集成思想與復雜網絡相結合的主題詞提取算法。首先通過集成算法提取話題數據的關鍵詞,以提高關鍵詞提取的準確性,其次改進傳統詞共現公式計算關鍵詞的共現度,并建立關鍵詞共現網絡,在網絡的基礎上得到最優(yōu)連通子圖,同時以節(jié)點度中心性為權重衡量關鍵詞重要性并從中映射出主題詞。最后,使用微博話題數據集進行實例驗證,證明該算法是有效的,并優(yōu)于傳統的詞共現算法,并在青島社區(qū)話題數據集中進行應用。
關鍵詞:關鍵詞;共現度;共現網絡; 主題詞; 微博話題
中圖分類號: TP391.1文獻標識碼: A
收稿日期:2021-09-08;修回日期:2021-11-30
基金項目:國家自然科學基金青年科學基金(41706198)
第一作者:張書諳(1998-),女,山東泰安人,碩士研究生,主要研究方向為自然語言處理,復雜網絡大數據分析。
通信作者:孫仁誠(1977-),男,山東青島人,博士,教授,主要研究方向為基于復雜網絡的大數據分析。
Subject Words Extraction Algorithm Based on Keyword Co-occurrence Network
ZHANG Shuan1, WANG Xi2, DAI Jipeng1, SUI Yi1, SUN Rencheng1
(1.School of Computer Science and Technology, QingDao University, Qingdao 266071, China;
2.Communication Dispatching Department, Qingdao Emergency Center,Qingdao 266035, China)
Abstract:Aiming at the problems of inaccurate keywords extraction and only considering single correlation in subject words extraction, a subject words extraction algorithm combining integration idea with complex network is proposed. Firstly, the keywords of topic data are extracted through the integration algorithm to improve the accuracy of keywords extraction. Secondly, the traditional word co-occurrence formula is improved to calculate the co-occurrence degree of keywords, and a keywords co-occurrence network is established. Based on the network, the optimal connected subgraph is obtained. At the same time, the importance of keywords is measured by taking the centrality of node degree as the weight, and the subject words are mapped. Finally, the micro-blog topic data set is used to verify the example, which proves that the algorithm is effective and better than the traditional word co-occurrence algorithm, and it is applied in the Qingdao community topic data set. Key words: keywords; co-occurrence degree; co-occurrence network; subject words; micro-blog topic
0 引言
用戶在社交平臺提交的數據稱為話題數據。主題詞是描述一類相似話題的詞或短語,一般認為3個主題詞可以表征一類話題。在熱點話題研究中,主題詞提取的質量決定熱點話題發(fā)現的準確性[1]。
經典的主題詞提取方法主要針對長文本,大都采用基于統計的方法。如Witten[2]提出KEA系統,基于詞語出現的位置及頻率等提取主題詞,適用性好,但易產生干擾詞。為此,趙英環(huán)[3]提出主題詞迭代提取算法,提高了準確性。為了將詞語與文本信息結合,文獻[4-7]等基于語義理解提出相應的主題詞提取算法。另外,復雜網絡理論也被用來發(fā)現文檔主題詞,文獻[8-9]等將語言與復雜網絡結合提取主題詞。
對于微博話題等短文本數據,由于字數有限,話題中主題詞出現的頻率低,因此基于統計的方法對短文本的處理不是很適用。為提高短文本中主題詞提取的質量,葉成緒[10]利用維基百科知識設計算法篩選主題詞并用于微博熱點話題發(fā)現。另外,一些學者對LDA算法[11]進行改進,張晨逸等[12]針對微博數據建立MB-LDA模型,李繼云等[13]提出CGRMB-LDA模型,馮勇等[14]基于時間權重和影響因子提出TIF-LDA算法。另一方面,張孝飛等[15]將語義概念和詞共現結合提取微博主題詞,考慮了相關詞對短文本主題詞提取的影響,但需要將短文本擴充為長文本。關鍵詞是表征話題數據的核心詞語,實際上,主題詞提取的關鍵在于話題中關鍵詞提取的準確性以及基于詞語相關性的主題詞發(fā)現。上述算法針對各自解決的問題僅考慮單一方面,為了更好地結合這兩方面,本文采用集成算法思想與復雜網絡理論完成主題詞的提取。
考慮到TextRank算法[16]較好地考慮話題數據內詞語關聯性,TF-IDF算法[17-18]考慮了話題間詞語的相關性,因此本文集成多種算法的提取結果,提出話題關鍵詞提取算法;然后通過關鍵詞共現關系構建話題的關鍵詞共現網絡,最終在網絡中映射出代表某類話題的主題詞。
1 符號描述
在表1中給出本文使用的主要符號及其說明。
本文涉及到的部分術語定義如下:
定義1 話題集,由所有的話題數據組成,記為T;T中每一句話稱為一個話題ti,其中i=1,2,3…|T|,|T|為話題集中的話題個數。
定義2 關鍵詞集,對ti∈T,可以提取出多個關鍵詞表征該話題,稱為ti的關鍵詞集合,記為Ki;在T中提取出的所有關鍵詞稱為T的關鍵詞集,記為K,K=K1∪K2∪K3…∪Ki,其中i=1,2,3…|T|。
定義3 共現次數,若關鍵詞ki,kj出現在同一ti中,就說ki,kj共現,關鍵詞共現在某種程度上反映了關鍵詞之間的上下文語義關聯。本文用f表示兩個關鍵詞共現的次數。
定義4 關鍵詞共現網,記為KeyNet=〈K,E,W〉。K={k1,k2,…,kn}是網絡中節(jié)點的集合,由關鍵詞組成;E={e|e=〈ki,kj〉,ki,kj∈K}是邊的集合,為關鍵詞節(jié)點之間的共現無向邊;W表示各邊的權重,若e=〈ki,kj〉∈E,那么0
定義5 話題簇,表達同一類主題的話題稱為話題簇,可以從一類話題簇中映射出一個或多個關鍵詞表征該話題簇,這類關鍵詞叫做主題詞。
定義6 主題詞集,所有話題簇的主題詞組成主題詞集,記為D。D=D1∪D2∪D3…∪Di,i表示T被分為i類話題簇,Di={d1,d2,…,dj}表示在第i類話題中提取出的主題詞集合,j表示每個話題簇中提取的主題詞個數為j個。當j=1時,D={d1,d2,…,di}。
定義7 度中心性,指無向網絡中當前節(jié)點與鄰居節(jié)點直接連邊數量的總和,反映節(jié)點在網絡中的重要程度[19]。在關鍵詞共現網絡中,Z值越大節(jié)點熱度越高,越能代表話題簇。Zi計算如式(1)中所示:
其中,N為節(jié)點總數,zij為節(jié)點i和節(jié)點j之間是否存在連邊,如果連邊,則zij=1,否則zij=0。
根據上述定義,給出本文的主題詞提取算法的符號描述:{D1,D2,…,Di}=FUN(T),i表示在所有話題數據T中可以得到i個話題簇。
2 基于關鍵詞共現網絡的主題詞提取算法
該算法基于集成算法和改進的詞共現公式提取主題詞,既可以提高關鍵詞提取的準確性,又保留了詞與詞之間的共現關系,同時提取出的主題詞具有更強的主題表現力。算法大致分為三步:1)將關鍵詞提取算法集成產生K;2)計算關鍵詞之間的共現關系建立KeyNet;3)調整閾值產生連通子圖并映射出主題詞。
2.1 關鍵詞提取
關鍵詞是主題詞提取的關鍵。目前較經典的關鍵詞提取算法有TF-IDF算法、TextRank算法和哈工大的LTP關鍵詞提取技術,它們各有優(yōu)缺點。TF-IDF算法易于理解和實現,考慮整體語境,但它僅以詞頻衡量詞語的準確性,使得頻率低的特征詞不能被識別;TextRank算法可以有效地查詢節(jié)點之間的相關性,考慮話題內部詞語的相似關系,但沒有考慮上下文信息;LTP可以自動分析語句中詞語的依存關系,提取出具有關聯關系的關鍵詞,但在分詞中存在誤差,產生一些錯誤的關聯關系。
基于此,本文利用TextRank算法和LTP提取話題中的語義關系,如相似和依存關系,TF-IDF算法提取詞頻關系,對兩種算法補充,避免使用單一算法產生的不準確問題。同時使用百度自然語言處理工具(LAC)進行分詞監(jiān)督,減少誤差,并將命名實體識別出來存入停詞表P中,得到ti的候選關鍵詞集K′i。最終將3種算法提取的關鍵詞集按一定比例集成得到ti的關鍵詞集合Ki。集成操作H如公式(2)中定義。
算法1 Key_Extract
輸入:話題集合T,權重參數a,b,c
輸出:關鍵詞集K
1)對每個話題ti分詞,使用LAC工具進行分詞監(jiān)督;2)分詞后的詞語作為候選關鍵詞,加入候選關鍵詞集Ki'中;3)對Ki'執(zhí)行TF-IDF算法,得到關鍵詞集KIi;4)對Ki'執(zhí)行TestRank算法,得到關鍵詞集KRi;5)對Ki'執(zhí)行LTP技術,得到關鍵詞集KLi;6)執(zhí)行集成操作H,將KIi、KRi、KLi按照權重為a:b:c的比例集成得到Ki;7)將每個話題ti的關鍵詞集合Ki合并到K中;8)return K。
2.2 建立關鍵詞共現網絡
將詞語映射到復雜網絡,發(fā)現詞和詞之間的聯系符合自然語言學特性,可以更好為文本分析提供幫助。另外,關鍵詞共現在某種程度上可以被認為代表一個相關主題,屬于一個話題簇。在此基礎上,將關鍵詞按照共現關系連接成網,建立關鍵詞共現網絡,網絡模型如圖1所示。
共現關系由共現度體現,它用來描述ki,kj共現的頻率。頻率越高,關鍵詞之間聯系越緊密。節(jié)點ki相對于節(jié)點kj的相對共現度R(ki,kj)如式(3)中所示。
其中,f(ki,kj)為關鍵詞ki,kj共現的次數,f(kj)為kj出現的總次數。
若ki,kj均是一個話題的特征詞,但同時出現次數過少,那么根據R計算出的值會很小,連邊時容易被忽略。針對話題內容簡短,特征數量少的問題,本文對R進行改進得到共現度計算公式,如式(4)所示。
其中,C(ki,kj)為關鍵詞ki,kj的共現度,f(ki)為ki出現的總次數。
式(4)中,C(ki,kj)的結果比R相對較大一些,更可能產生連邊。其次,R中R(ki,kj)一般不等于R(kj,ki),最終結果不是一個確定的數,而在本文的公式中,共現度是一個確定值。KeyNet建立算法如下:
算法2 KeyNet_Establish
輸入:關鍵詞集K,初始連邊閾值p
輸出:關鍵詞共現網絡KeyNet
1)對K中的關鍵詞ki,兩兩計算共現度Wkikj=C(ki,kj);2)判斷共現度Wkikj是否大于初始閾值p;3)若Wkikj大于p,則關鍵詞ki、kj之間連邊,連邊權重為Wkikj,且e=
2.3 主題詞提取算法
KeyNet包含多個連通子圖,連通子圖之間是獨立的,通過調整連邊閾值可以使劃分的連通子圖效果達到最優(yōu)。觀察K可以發(fā)現,同一類話題中關鍵詞成對出現的概率較大,表達的主題相關,共現度更高。這說明連通子圖內部話題之間是有關聯的,每個連通子圖代表一個話題簇。連通子圖模型如圖2所示。
定義C表示節(jié)點在KeyNet中的重要程度,C為與當前節(jié)點相連的所有節(jié)點的共現度之和。若節(jié)點i與節(jié)點j和k都有連邊,則Ci=C(ki,kj)+C(ki,kk)。在連通子圖內部,節(jié)點的C值越高,越能代表該話題簇?;诖?,首先計算連通子圖中節(jié)點的度中心性,并以此為權重與C值相乘,得到節(jié)點的加權C值,然后進行排序,選出排名靠前的節(jié)點所代表的關鍵詞作為該話題簇的主題詞。在圖2中,不同的橢圓框表示產生不同的連通子圖,節(jié)點的大小表示該節(jié)點C值的大小,節(jié)點越大,表示該節(jié)點C值越大,更容易作為該話題簇的主題詞提取出來。主題詞提取算法如下:
算法3 D_Extract
輸入:關鍵詞共現網絡KeyNet,每個話題簇中主題詞個數h
輸出:主題詞集合D
1)修改KeyNet網絡的連邊閾值,得到最優(yōu)連通子圖集合N;2)統計連通子圖個數n=N,以此作為話題簇的數量;3)對于每個連通子圖,計算每個節(jié)點的度中心性Zi和重要程度Ci;4)將Zi與Ci相乘得到每個節(jié)點的加權C值;5)按照加權C值的大小對每個連通子圖中節(jié)點的重要性從大到小排序;6)在排序后的每個連通子圖中抽取前h個關鍵詞作為該話題簇的主題詞集Di;7)將每個話題簇的最終主題詞合并,得到整個話題集的主題詞集D={D1,D2,…,Dn};8)return D。
3 實驗
為驗證算法有效性,設置以下實驗。首先使用微博話題數據集驗證算法的有效性,然后在青島社區(qū)話題數據集上進行實例應用。實驗均使用Anaconda3和Pycharm進行開發(fā),所用編程語言為Python。話題數據一般都帶有Emoji表情、顏文字、特殊字符、網址等無關信息,這些信息沒有實際意義,并且可能導致分詞錯誤。因此,使用規(guī)則過濾庫對話題數據進行預處理,保證實驗順利進行。
3.1 算法有效性驗證
3.1.1 數據集及實驗介紹
因微博數據帶有分類標簽,易對實驗結果進行判斷,所以使用它驗證算法的有效性。該數據集囊括了12個主題的微博數據,包括用戶發(fā)起的話題信息、轉發(fā)信息和評論信息等。共進行4次實驗,每次實驗隨機選取10個主題,在每個主題中選取100條話題數據,每次共1 000條數據。
在KeyNet中通過調整閾值產生最優(yōu)的連通子圖,在產生的所有連通子圖中得到最終的10個話題簇,并選擇C值最大的主題詞代表該話題簇,記錄實驗結果,將選出的主題詞與標簽詞語進行比較。為了科學地評價算法的效果,使用查準率P作為實驗的衡量指標,計算公式如式(5)所示。
其中,TP為提取的與原標簽一致的詞語,FP為提取的與原標簽不一致的詞語。
3.1.2 集成比例與閾值確定
為確定共現度閾值,分別使用0.25,0.3,0.35,0.4,0.45,0.5,0.55,0.6進行實驗。同時,為了確定集成比例對實驗結果的影響,使用TF-IDT: TextRank: LTP為1∶1∶2,1∶2∶1,2∶1∶1以及1∶1∶1進行實驗,其中1∶1∶2表示在集成過程中LTP方法的影響較大。在閾值與集成比例的不同組合下,共進行4組實驗,計算P值,并取平均值,實驗結果如表2中所示。為便于分析,將實驗結果繪制成折線圖如圖3所示。
通過圖3,可以看出不同閾值下實驗結果的波動性很大,另外,不同的集成比例對結果也有影響,3種算法的集成比例分別為1∶1∶2時效果較好。在集成比例為1∶1∶2下,選擇0.5作為閾值所產生的效果最好,且查準率的平均值達到峰值0.83。經多次實驗得到在微博數據集上較好閾值范圍為0.4到0.5之間。
3.1.3 對比實驗
使用閾值0.5,在相同數據條件下將TextRank算法、TF-IDF算法與本文算法進行對比,使用查準率驗證主題詞提取的準確性。4組實驗的結果及平均值如表3所示,任選一組實驗的提取效果進行展示如表4所示。
從表3中看到,TextRank算法平均P值為0.68,TF-IDF算法為0.75,而本文為0.83,這證明相同實驗數據環(huán)境下本文算法比傳統算法效果要好。在表4中,可以直觀地看出每種方法在話題簇中提取出的主題詞。由此得到,本文的方法對主題詞的提取是有效的,同時提高了話題簇劃分的準確性。
3.2 基于社區(qū)話題數據的實例應用
現在越來越多的社區(qū)采用線上管理,用戶提交話題到后臺,由管理人員篩選并處理用戶關心的事件。借助本文的方法可以幫助管理人員將話題歸類并得到代表一類話題的主題詞,然后根據主題詞對用戶亟待解決的問題進行大致了解。以便管理人員后期選擇用戶所關注的熱點話題,更好地解決社區(qū)事務。
在青島市部分社區(qū)話題數據集上進行應用,尋找青島市民所關心的話題主題,數據集的時間范圍是2019年12月到2020年7月。從數據集中隨機抽取2 000條數據,建立其關鍵詞共現網絡如圖4所示,該無向網絡的節(jié)點數為1 526,邊數為4 986條。
由于閾值對本文算法的結果影響較大,因此要首先確定當前數據的共現度閾值。在當前數據集上進行多次實驗并調整閾值,得到當共現度為0.45時,話題簇能被很好地區(qū)分開來。選取最終10個話題簇并進展示,如圖5所示,每個話題簇提取的主題詞個數為5,選出的主題詞集以及它們的C值如下所示。
1)(′疫情′, 6.56), (′義務′, 1.93), (′力度′, 1.58), (′巡邏′, 1.57), (′汗水′, 1.56);
2)(′志愿者′, 5.54), (′防疫′, 1.46), (′修補′, 1.43), (′馬路′, 1.35), (′報名′, 1.12);
3)(′垃圾′, 4.83), (′打掃′, 1.45), (′清除′, 0.77), (′生活′, 0.77), (′管理′, 0.56);
4)(′清理′, 3.48), (′居民′, 2.36), (′擾民′, 2.09), (′雜物′, 1.89), (′東頭′, 1.56); 5)(′老人′, 2.88), (′地址′, 2. 60), (′請問′, 2.53), (′公攤′, 1.77), (′復工′, 1.16);
6)(′垃圾桶′, 2.29), (′推到′, 1.21), (′旁邊′, 1.15), (′外溢′, 1.05), (′邊上′, 1.04); 7)(′消毒′, 2.01), (′解除′, 1.45), (′辦公室′, 1.20), (′通知′, 1.17), (′私家車′, 1.03);
8)(′口罩′, 1.83), (′居家′, 1.53), (′捐贈′, 1.18), (′防御′, 1.14), (′運動′, 1.09);
9)(′水果′, 1.56), (′廣告′, 1.29), (′有人′, 1.06), (′游客′, 1.05), (′擺攤′, 0.56);
10)(′日?!洌?1.55), (′通行證′, 1.08), (′假期′, 1.08), (′嬰兒′, 1.07), (′防護′, 1.07)。
如果在每個話題簇的主題集中選擇C值最大的1個作為最終的主題詞,根據本文所做的實驗結果可以看出,青島市民所關心的話題為疫情、志愿者、垃圾、清理、老人、垃圾桶、消毒、口罩、水果、日常等。
4 結論
本文提出了一種基于關鍵詞共現網絡的主題詞提取算法,不僅可以考慮詞語之間的相關性,準確率也得到了提升。首先通過集成算法提取關鍵詞,并對共現度公式進行改進計算關鍵詞之間的共現度,以此為權重建立關鍵詞共現網絡,在一定的集成比例下,找出產生連通子圖的最優(yōu)網絡狀態(tài),并以度中心性為權重計算節(jié)點的C值,以此為根據對關鍵詞進行排序,選出前k個關鍵詞作為該話題簇的主題詞。實驗表明,該主題詞提取算法是有效的,并優(yōu)于傳統的主題詞提取算法。在該方法中,對沒有標簽的數據集選擇閾值進行最優(yōu)連通子圖判斷時,需要通過人工識別的方法對話題數據進行大致分類,然后判斷效果。在后面的研究中,希望找到一種能自動對話題數據識別分類的方法,并將該方法用到熱點話題的發(fā)現研究中去。
參考文獻:
[1]程肖. 網絡輿情熱點主題詞提取研究[D]. 杭州:杭州電子科技大學,2010. CHENG X. Research on extraction of hot topic words of network public opinion[D]. Hangzhou: Hangzhou Dianzi University: 2010.
[2]WITTEN I H, PAYNTER G W, FRANK E, et al. KEA: practical automatic keyphrase extraction[C]// Proceedings of the 4th ACM Conference on Digital Libraries. New York : ACM Press, 1999: 254-255.
[3]趙英環(huán),郭貴鎖. 基于主題詞迭代提取的信息檢索算法[J]. 華南理工大學學報(自然科學版), 2004, 32(S1): 77-80. ZHAO Y H, GUO G S. Information retrieval algorithm based on subject word iterative extraction[J]. Journal of South China University of Technology (Natural Science), 2004, 32(S1): 77-80.
[4]唐培麗,王樹明,胡明. 基于語義的漢語文獻主題詞提取算法研究[J]. 吉林大學學報,2005, 23(5): 535-540.
TANG P L, WANG S M, HU M. Research on semantic based Chinese literature subject word extraction algorithm[J]. Journal of Jilin University, 2005, 23(5): 535-540.
[5]程濤,施水才,王霞,等. 基于同義詞詞林的中文文本主題詞提取[J]. 廣西師范大學學報(自然科學版), 2007, 25(2): 145-148. CHENG T, SHI S C, WANG X, et al. Extraction of Chinese text subject words based on synonym forest[J]. Journal of Guangxi Normal University (Natural Science), 2007, 25(2): 145-148.
[6]李芳芳,葛斌,毛星亮,等. 基于語義關聯的中文網頁主題詞提取方法研究[J]. 計算機應用研究, 2011, 28(1): 105-107. LI F F, GE B, MAO X L, et al. Research on extraction method of Chinese web page main inscription based on semantic Correlation[J]. Computer Application Research, 2011, 28(1): 105-107.
[7]王立霞. 基于語義的中文文本關鍵詞提取算法[J]. 計算機工程, 2012, 38(1): 1-4.
WANG L X. Semantic based keyword extraction algorithm for Chinese text[J]. Computer Engineering, 2012, 38(1): 1-4.
[8]趙鵬,蔡慶生,王清毅.一種基于復雜網絡特征的中文文檔關鍵詞抽取算法[J]. 模式識別與人工智能,2007, 20(6): 817-831.
ZHAO P, CAI Q S, WANG Q Y. A Chinese document keyword extraction algorithm based on complex network features[J]. Pattern recognition and artificial intelligence, 2007, 20(6): 817-831.
[9]劉通. 基于復雜網絡的文本關鍵詞提取算法研究[J]. 計算機應用研究, 2016, 33(2): 365-369. LIU T. Research on text keyword extraction algorithm based on complex network[J]. Computer Application Research, 2016, 33(2): 365-369.
[10]葉成緒,楊萍,劉少鵬. 基于主題詞的微博熱點話題發(fā)現[J]. 計算機應用與軟件,2016, 33(2): 46-50. YE C X, YANG P, LIU S P. Micro-blog hot topic discovery based on subject words[J]. Computer Applications and Software, 2016, 36(2): 67-71.
[11]BLEI D, NG A, JORDAN M . Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(4/5): 993-1022.
[12]張晨逸,孫建伶,丁軼群. 基于MB-LDA模型的微博主題挖掘[J]. 計算機研究與發(fā)展,2011, 48(10): 1795-1802. ZHANG C Y, SUN J L, DING Y Q. Micro-blog topic mining based on MB-LDA model[J]. Computer Research And Development, 2011, 48(10): 1795-1802.
[13]李繼云,黃昀,陳捷. CGRMB_LDA: 面向隱式微博的主題挖掘[J]. 計算機應用,2016, 36(S1): 67-71. LI J Y, HUANG J, CHEN J. CGRMB_LDA: topic mining for implicit micro-blog[J]. Computer application, 2016, 36(S1): 67-71.
[14]馮勇,屈渤浩,徐紅艷,等. 采用可變時間窗口的TIF-LDA微博主題模型[J].小型微型計算機系統,2018, 39(9): 2067-2071. FENG Y, QU B H, XU H Y, et al. TIF-LDA micro-blog theme model with variable time window is adopted[J]. Small Microcomputer System, 2018, 39(9): 2067-2071.
[15]張孝飛,陳航行. 基于語義概念和詞共現的微博主題詞提取研究[J]. 情報科學,2021, 39(1): 142-147.
ZHANG X F, CHEN H X. Research on micro-blog subject word extraction based on semantic concept and word co-occurrence[J]. Information science, 2021, 39(1): 142-147.
[16]MIHALCEA R, TARAU P. TextRank: bringing order into texts[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg : ACL, 2004: 404-411.
[17]LI J Z, FAN Q N, ZHANG K. Keyword extraction based on tf/idf for Chinese news document[J]. Wuhan University Journal of Natural Sciences, 2007, 12(5): 917-921.
[18]FAN H L, QIN Y B. Research on text classification based on improved TF-IDF algorithm[C]//2018 International Conferenceon Network, Communication, Computer Engineering(NCCE2018). Chongqing: Atlantis Press, 2018: 516-521.
[19]覃悅. 基于中心性的算法在復雜網絡分析中的應用及對比研究[D]. 天津: 天津財經大學, 2020. TAN Y. Application and comparative study of centrality based algorithms in complex network analysis[D]. Tianjin: Tianjin University of Finance and Economics, 2020.
(責任編輯 李 進)