周澍綺
摘要:文獻計量學中的突發(fā)詞監(jiān)測算法廣泛應(yīng)用于領(lǐng)域熱點的監(jiān)測分析。該文以先秦楚辭為主題,使用Kleinberg突發(fā)監(jiān)測算法對學術(shù)數(shù)據(jù)庫中2004年至2012年的楚辭文獻數(shù)據(jù)進行計算分析。在獲得楚辭研究領(lǐng)域中各主題的突發(fā)權(quán)重的基礎(chǔ)上,利用信息聚類技術(shù)得到楚辭研究熱點在不同階段的突發(fā)趨勢。這不僅是突發(fā)詞監(jiān)測算法在人文社科領(lǐng)域的一次嘗試,也為傳統(tǒng)楚辭研究提供一種新的研究思路。
關(guān)鍵詞:楚辭;突發(fā)詞監(jiān)測;Kleinberg算法
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2015)04-0086-05
隨著數(shù)字信息的廣泛應(yīng)用,以學術(shù)數(shù)據(jù)庫為基礎(chǔ)的文獻也逐年遞增。利用信息管理方法對已有文獻進行熱門主題分析已經(jīng)成為文獻管理和數(shù)據(jù)挖掘的重要研究分支之一。
文獻信息挖掘最重要的方式就是通過文獻元數(shù)據(jù)信息進行統(tǒng)計分析,而對關(guān)鍵詞的研究是文獻計量學[1]的一個重要切入點。利用關(guān)鍵詞進行統(tǒng)計和分類,是研究文獻主題以及知識挖掘的一個重要方法。突發(fā)詞監(jiān)測是指對短期內(nèi)單個詞在領(lǐng)域內(nèi)的增長勢頭研究,進而發(fā)現(xiàn)學術(shù)領(lǐng)域中局部熱點的變化。將關(guān)鍵詞的突發(fā)性作為主要指標,通過自動機分析調(diào)整突發(fā)權(quán)重在不同領(lǐng)域內(nèi)的同步率成為國內(nèi)外進行研究的主流方法,如Ketan對核糖核酸,Cell Line等關(guān)鍵詞的突發(fā)性分析[2],Chen.C利用Citesapce對突發(fā)詞的研究[3],崔雷利用共詞突發(fā)性研究醫(yī)學熱點[4]等。
突發(fā)詞監(jiān)測算法在自然科學領(lǐng)域,尤其是在醫(yī)學領(lǐng)域應(yīng)用廣泛,在社科領(lǐng)域特別在傳統(tǒng)文學領(lǐng)域的應(yīng)用仍處于起步階段。現(xiàn)以楚辭文獻為例,將突發(fā)詞監(jiān)測的研究方法,用來研究楚辭文獻中的關(guān)鍵詞及其突發(fā)性,為楚辭研究提供計量分析的依據(jù)。
1 Kleinberg監(jiān)測算法
突發(fā)詞監(jiān)測算法是研究增長勢頭不斷加強的詞,這些詞在揭示領(lǐng)域熱點發(fā)展趨勢方面更具有及時性?;趩蝹€詞的詞頻增長率變化更有可能涉及領(lǐng)域局部熱點的變化,這樣細微變化不一定會引起全域研究者的注意,但又是領(lǐng)域發(fā)展中不可缺少的部分。雖然它還未達到詞頻閾值的要求,但是未來的發(fā)展勢頭好,這些詞可能低頻,但卻具有情報意義。
Kleinberg突發(fā)詞算法[5]是Kleinberg于2002年提出的話題突發(fā)監(jiān)測(Burst Detection)算法。Kleinberg認為話題的文獻數(shù)量不是平滑增長,而是在不同水平之間躍遷。Kleinberg基于自動機對不同時間段上詞出現(xiàn)的頻次進行建模。詞突發(fā)時,自動機處于高頻狀態(tài)。給定文獻集合,確定狀態(tài)的個數(shù)、狀態(tài)差異的大小,以及狀態(tài)改變的成本,利用Viterbi動態(tài)建模法對狀態(tài)改變的概率模型求最優(yōu)解,便可得出自動機狀態(tài)變化的最優(yōu)時序序列。
權(quán)重即關(guān)鍵詞由非突發(fā)狀態(tài)躍遷到突發(fā)狀態(tài)的成本。就一般情況而言,突發(fā)詞權(quán)重數(shù)值越大,表明其在一個時期內(nèi)突發(fā)的可信度就越高,以此來顯示領(lǐng)域研究的熱點。
2 楚辭文獻的數(shù)據(jù)準備
2.1 主題詞選擇
突發(fā)主題詞的選擇以《漢語主題詞表》①為基礎(chǔ),結(jié)合楚辭領(lǐng)域權(quán)威著作的《楚辭字典》②。這樣不僅覆蓋了文學研究常用漢語主題詞,還也滿足在專業(yè)領(lǐng)域方面的要求。使文獻摘要中的關(guān)鍵詞都能得到相應(yīng)權(quán)重。在除去重復和不符合研究規(guī)范的無效詞后,最終確定473個基詞。
2.2楚辭文獻來源
為確保數(shù)據(jù)的權(quán)威和有效性,這里選取的數(shù)據(jù)庫有CNKI和萬方數(shù)據(jù)庫;檢索范圍主題(標題,摘要或者關(guān)鍵詞)中包含楚辭的所有文檔,根據(jù)突發(fā)詞算法的要求,挑選其2004-2012年的文獻作為主要研究對象,根據(jù)其提供摘要格式逐條下載,保存題錄信息,其中包括:文獻題目,作者,作者單位,關(guān)鍵詞,發(fā)表時間,刊名。突發(fā)監(jiān)測的默認研究文獻,目標限定在標題、關(guān)鍵詞、摘要中涉及的楚辭精神和楚文化的文獻,并確認文章題錄信息有效。
2.3 數(shù)據(jù)預(yù)處理方法
為確保突發(fā)詞權(quán)重的準確可信,在實際測試前,對數(shù)據(jù)進行整理清洗,主要包括:剔除不相關(guān)的論文,刪去重復的論文,優(yōu)化關(guān)鍵詞結(jié)構(gòu)等,具體如下:
1) 去重:一方面是篇目去重。由于很多論文在不同的刊物發(fā)表,即一稿多投,所以在搜索結(jié)果中同一篇文章會出現(xiàn)多次;有時,會出現(xiàn)部分不涉及楚辭領(lǐng)域研究的會議論文或講話稿,這些主題詞及其內(nèi)容的重復會干擾突發(fā)詞的權(quán)重,需要篩查清除無關(guān)論文;另一方面是主題去重,根據(jù)本文選用的《漢語主題詞表》與《楚辭詞典》為標準,對題要中的表達同義詞,異體字進行歸并。
3.3 突發(fā)詞監(jiān)測結(jié)果分析
根據(jù)對楚辭主題詞的突發(fā)權(quán)重計算,第一組詞在2004年權(quán)重最大,相關(guān)主題詞顯示這一時期楚辭的研究主要集中在楚辭中愛國主義思想的繼承與表達,同時突發(fā)的關(guān)鍵詞是審美和文獻。我們進行主題還原,2004年前后,相關(guān)學者連續(xù)發(fā)表關(guān)于文獻,楚辭中愛國主義主題的文章,其中以蔣俊的《宋代屈學研究》,董運庭的楚辭系列為代表,前者以南北宋之交對屈騷愛國的呼喚,后者以愛國主義為切入點探究楚文化對后世文學的影響。從聚類分析圖中,我們可以看到第二組中,思想與文體學聚為一簇,后與女性相聚,數(shù)據(jù)顯示2005年楚辭在文藝理論領(lǐng)域研究作品增多,同時伴隨女性主題詞,我們可以認為這一時期,楚辭中女性形象的文藝理論作品較為突出,代表作有《〈楚辭〉〈山海經(jīng)〉神話比較研究》,《論歌劇〈屈原〉》中的“山鬼”形象》;《楚辭“山鬼”形象探源》。第三組突發(fā)詞分析可見,先秦、神話一如意料的聚合,后與性、情、藝術(shù)分別相聚,成為一類突發(fā)關(guān)鍵詞。從數(shù)據(jù)上顯示,先秦散文類楚辭中大量運用到神話,學者由此對性、情等方向延展,以此使這一簇在2010年前后突發(fā),其中有代表的《論杜甫思想對屈原精神的傳承》《先秦言諫文學研究》等。
從上述研究結(jié)果可以發(fā)現(xiàn),Kleinberg突發(fā)詞監(jiān)測算法在楚辭文獻研究領(lǐng)域的成功應(yīng)用,找到以文學關(guān)鍵詞為基礎(chǔ)的突發(fā)文獻,找到不同時期楚辭領(lǐng)域中的研究熱點。突發(fā)詞監(jiān)測不僅僅可以發(fā)現(xiàn)隱性的小規(guī)模的熱點,也可以通過以權(quán)重作為衡量標準的聚類,尋找與突發(fā)詞相關(guān)的低頻熱點詞,為文學研究尋找新的切入點與研究方向。
4 結(jié)束語
通過上文對Kleinberg算法在楚辭文獻研究中的運用,可以知道,突發(fā)詞監(jiān)測在文學研究領(lǐng)域可以尋找到不少隱形信息,也可以為相關(guān)研究領(lǐng)域提供新的研究方向。但是在使用和研究過程中,也會遇到一些問題,現(xiàn)將遇到的問題進行總結(jié)和展望,具體如下:
1) 主題詞詞典的選擇。Kleinberg以主題作為突發(fā)標準,也就是主題詞權(quán)重的躍遷度,前期主題詞的選擇是最終結(jié)果的關(guān)鍵。突發(fā)詞監(jiān)測在社科領(lǐng)域范圍內(nèi)應(yīng)用,需要在今后一段時期內(nèi)完善主題詞字典的建設(shè);
2) 這里對突發(fā)詞小規(guī)模嘗試,驗證方式采用較為基礎(chǔ)聚類比例法;可預(yù)見在未來對大規(guī)模數(shù)據(jù)進行研究分析時,比例法就顯得較為被動,因此尋找一種行之高效的突發(fā)詞驗證是今后一個時期的工作重心;
3) 在選擇主題詞時沒有完全的論證詞與詞之間的關(guān)聯(lián),如先秦與神話,性與情等詞內(nèi)部邏輯關(guān)系,所以會使主題在聚類的過程中簇過于集中??深A(yù)見的在后期的工作中,要將有內(nèi)部邏輯關(guān)聯(lián)的類詞加以區(qū)分,不用做同一過程測試突發(fā)詞。
利用Kleinberg對楚辭主題詞突發(fā)權(quán)重進行分析研究僅僅是拋磚引玉,今后,相關(guān)算法在中國古代文學領(lǐng)域,乃至社科領(lǐng)域的研究具有一定的借鑒意義,利用相同的思路,例如突發(fā)詞結(jié)合語義挖掘技術(shù)對隱性知識的發(fā)現(xiàn)等方面的工作還可以開展更深層次的研究。
注釋:
①中國科學技術(shù)信息研究所與北京圖書館主編的大型綜合性中文敘詞表,分3卷10冊。
② 袁梅著,收列楚辭中的全部單字、單音詞及使用頻率較高的詞組。
參考文獻:
[1] 葉鷹.文獻計量法和內(nèi)容分析法的理論基礎(chǔ)及軟件工具比較[J].評價與管理,2005(03):1-3.
[2] Ketan, Mane. Mapping Topics and Topic Bursts in PNAS[R].Indiana University,SLIS 10 th Street and Jordan Avenue Bloomington, IN 47405 USA:Katy Berne,2002.
[3] Chen.C. CiteSpace II:科學文獻中新趨勢與新動態(tài)的識別與可視化[J].情報學報,2009.(28):401-421.
[4] 王孝寧,崔雷.突發(fā)監(jiān)測算法用于共詞聚類分析的嘗試[J].知識組織,2009,53(53):2-3.
[5] JON,KLEINBERG. Bursty and Hierarchical Structure in Streams[J].Data Mining and Knowledge Discovery,2003(7):7-15.
[6] 魏曉俊.基于科技文獻中詞語的科技發(fā)展監(jiān)測方法研究[J].情報雜志,2007(3):2-3.
[7] 榮泰生.SPSS與研究方法[M].大連:東北財經(jīng)大學出版社,2012:78-91.
[8] 謝龍漢,尚濤編.SPSS統(tǒng)計分析與數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2012:54-66.