田 麗
(韓城市司馬遷圖書館,陜西 韓城 715400)
主題內(nèi)容、主題詞與關(guān)鍵詞的收集和統(tǒng)計分析是情報分析的常規(guī)工作。某時間段大量出現(xiàn)的類似主題、主題詞或關(guān)鍵詞基本能夠反映相關(guān)事物的發(fā)展動態(tài)[1-3]。多個學(xué)科共同出現(xiàn)相關(guān)主題、主題詞或關(guān)鍵詞還能反映出熱點(diǎn)事物的動態(tài)[4-5]。隨著互聯(lián)網(wǎng)和各種互動平臺的出現(xiàn),有關(guān)主題內(nèi)容挖掘和分析的研究成為情報與信息領(lǐng)域共同關(guān)注的問題。例如,文獻(xiàn)[6-11]在不同架構(gòu)、不同模式下探討了網(wǎng)絡(luò)主題信息的采集方法,文獻(xiàn)[12-13]針對科技文獻(xiàn)和項目的主題演化進(jìn)行了研究。
一個主題往往由若干核心要素組成,這些要素通常成為該主題的關(guān)鍵詞或者與關(guān)鍵詞密切相關(guān),主題及其要素往往需要一定時間和一定數(shù)量的文獻(xiàn)經(jīng)充分論證、達(dá)成共識后凝集而成。鑒于論證者的分散獨(dú)立個體特性,單一文獻(xiàn)擬定的關(guān)鍵詞也具有個性特征,因此靠自然過程凝集出主題信息往往需要較長時間。情報分析的價值之一是對事件的預(yù)見性。從主題信息挖掘該主題涉及的核心要素,有利于解析主題信息的覆蓋和影響面,也是情報分析的一個非常重要的工作。
現(xiàn)有的有關(guān)主題信息挖掘的文獻(xiàn)報道,大多數(shù)都是采用網(wǎng)絡(luò)爬蟲技術(shù)從關(guān)鍵詞或主題詞綜合演繹出主題內(nèi)容,是“關(guān)鍵詞主題信息”的挖掘模式。這個結(jié)論可以從文獻(xiàn)[14]的綜述得到。這個挖掘模式不能“通過主題信息挖掘主題的核心要素”,即無法實現(xiàn)“主題信息關(guān)鍵詞”的挖掘。鑒于此,本文開展“主題信息關(guān)鍵詞”的挖掘模式研究,建立一個情報主題空間的模型,給出一種挖掘方法。本文的模型和方法可實現(xiàn)從主題信息中分析挖掘出相關(guān)的關(guān)鍵詞。
根據(jù)統(tǒng)計學(xué)原理,大量頻繁出現(xiàn)與某事物相關(guān)聯(lián)的個性數(shù)據(jù)能反映該事物的部分本質(zhì)。本章基于該原理,結(jié)合向量空間與隨機(jī)事件空間的構(gòu)造理論,建立情報主題空間的數(shù)學(xué)模型,并通過例子說明模型的意義。
將全體與情報主題有關(guān)的信息集合視作一個情報主題空間,簡稱主題空間。例如,若情報主題為科研選題,則全部有關(guān)科研選題的情報信息集合構(gòu)成科研選題主題空間,記為Σ。根據(jù)統(tǒng)計學(xué)原理,主題空間是一個隨機(jī)信息事件空間,空間的每個事件(每條信息,也稱元素)是由若干獨(dú)立的基本事件經(jīng)布爾運(yùn)算(交∩、并∪、差-)形成的。主題空間里獨(dú)立基本事件稱為空間的基?;侵黝}空間表示事件的基本單位。任意2個基之間的交集是空集。這是基的獨(dú)立性表現(xiàn)。基信息連同其同義與近義信息稱為基的擴(kuò)充。擴(kuò)充可以用程度詞關(guān)系進(jìn)行量化。例如,“新”擴(kuò)充為“很新”、“半新”、“9成新”和“高新”等等?!皠?chuàng)造”、“原創(chuàng)”、“創(chuàng)新”都是“創(chuàng)”的擴(kuò)充。也就是說,如果α是主題空間的一個基,則kα是其擴(kuò)充,這里k≥0。其中,k=0的情形稱為基的剔除,表明某個事件中不包含該基的關(guān)聯(lián)信息。如無特別說明,基α及其擴(kuò)充kα統(tǒng)稱為基,其中α稱為基核。基中核以外的部分kα-α稱為基裹,這里的減號是布爾差運(yùn)算。主題空間全體基的個數(shù)就是空間的維數(shù)。
如α1,α2,…,αN是主題空間Σ的N個基,則它們具有以下性質(zhì):
1)確定性,也稱作有效性。任意基與自身的交、并都是其自身,即αi∩αi=αi,αi∪αi=αi。基與自身的差是一個剔除,即αi-αi=?。
2)擴(kuò)充性。任意基的核都可擴(kuò)充,即kα運(yùn)算是有效的運(yùn)算。
同時結(jié)合集合運(yùn)算法則,引進(jìn)各種運(yùn)算律:
1)數(shù)乘律:(kα)∩β=k(α∩β),(kα)∪β=k(α∪β)。
2)交換律:α∩β=β∩α,α∪β=β∪α。
3)結(jié)合律:(α∩β)∩γ=α∩(β∩γ),(α∪β)∪γ=α∪(β∪γ)。
4)分配率:α∩(β∪γ)=(α∩β)∪(α∩γ),α∪(β∩γ)=(α∪β)∩(α∪γ)。
有了基的概念,就可以建立主題事件的概念。
主題空間的一個信息事件e是由空間的基通過布爾并聚合而成的元素:
(1)
在N維主題空間中,不足N個基聚合而成的事件稱為殘缺事件。殘缺事件是主題空間里面信息不全面的事件。由同一組基聚合的事件構(gòu)成空間中的子空間。殘缺事件也可構(gòu)成殘缺子空間。限于篇幅,這里不延伸相關(guān)內(nèi)容。
由基α1,α2,…,αN決定的主題空間Σ記為:
Σ=span{α1,α2,…,αN}
(2)
事件的模數(shù)是度量事件大小(影響程度)的一個數(shù)量。約定基核的模數(shù)是1,按照式(1)聚合的事件e的模數(shù)記為‖e‖,其計算方法為式(3):
‖e‖=k1+k2+…+kN
(3)
(4)
與同向量空間每個向量在基的方向上有分量一樣,e在基αi方面的分量定義為式(5):
ei=e∩αi
(5)
由此得到聚合事件e的分量表示法如式(6):
e=(e1,e2,…,eN)
(6)
第i個分量ei的模數(shù)‖ei‖為:
‖ei‖=kii=1,2,…,N
(7)
據(jù)此,每個分量對整個事件影響的權(quán)重(程度)P(ei)為式(8):
(8)
這正好是事件中某個要素出現(xiàn)的概率值或頻度。至此,完成了主題空間基本結(jié)構(gòu)的數(shù)學(xué)建模,并得到了通過事件挖掘關(guān)鍵詞的基本方法,即式(5)~式(8)。
為便于應(yīng)用,本節(jié)給出2個實例說明主題空間。
1.2.1 生產(chǎn)力主題的主題空間
根據(jù)生產(chǎn)力的三要素,勞動力、生產(chǎn)對象和生產(chǎn)資料是生產(chǎn)力主題空間的3個基;勞動力、生產(chǎn)對象和生產(chǎn)資料3個信息要素之間的任意2個沒有交集,但是它們的任意組合都會產(chǎn)生與生產(chǎn)力主題相關(guān)的信息元素。因此,以生產(chǎn)力為主題的主題空間是一個三維主題空間。這是最便于理解主題空間的例子。
1.2.2 金融主題的主題空間
金融對象、金融方式、金融機(jī)構(gòu)、金融場所和金融制度是金融的5大要素。其中,除第五要素金融制度以外,其他都具有擴(kuò)充性。例如金融對象可以是貨幣或者有價標(biāo)的物;金融方式有借貸、證券投資等;金融機(jī)構(gòu)有各種銀行、證券交易所和其他機(jī)構(gòu),金融場所則包括但不限于銀行和證券交易所的多個場合。
由此可見,金融主題衍生的主題空間是一個很復(fù)雜的高維空間。據(jù)此可知,目前比較受關(guān)注的“科技金融融合”主題將會衍生更加復(fù)雜的主題空間。這也是為什么國家非常重視這個主題的發(fā)掘的原因。
主題信息大致可以分為3類:第一類是經(jīng)歷史發(fā)展已成型形成共識、基本要素大致固定的主題信息,如前述例子所述生產(chǎn)力、金融等;第二類是雖未成型但大體有了共識、基本要素趨于固定;第三類是新產(chǎn)生、基本要素處于發(fā)散狀態(tài)的。第一類信息對人們工作和生活的影響已經(jīng)成為固定模式,第二類信息通常對人們近階段的工作和生活產(chǎn)生較大影響且具有引導(dǎo)性,而第三類則尚不能對人們的生活和工作產(chǎn)生引導(dǎo)性的影響。例如,金融、金融科技融合分屬第一、第二類信息。前者的模式已經(jīng)固定,而后者則產(chǎn)生了像“互聯(lián)網(wǎng)+金融”等模式的各種發(fā)展。鑒于此,本文重點(diǎn)關(guān)注第二類信息。
第二類信息的特點(diǎn)是:主題信息的要素集趨于收斂,需要通過挖掘和分析才能得到最大化反映主題核心思想的要素。這類似數(shù)學(xué)中求極限的過程:一個無窮序列的極限是存在的,請找到合適方法把它求出來。
為了達(dá)到所述目的,首先將主題空間拓展為無窮維空間。假定空間Σ有無窮個基,即:
Σ=span{α1,α2,…,αN,…}
那么根據(jù)式(5)可知,第i個基αi將對空間事件的第i個分量產(chǎn)生影響。根據(jù)式(8),這個影響將以該分量出現(xiàn)的概率或頻度表現(xiàn)。根據(jù)統(tǒng)計學(xué)原理,舍棄那些出現(xiàn)頻度較小的基,得到一個最大近似空間:
s.t P(αi)≥P(αi+1), i=1,…,m-1;P(αm)?P(αm+j), j=1,2,…
在文獻(xiàn)中,關(guān)鍵詞是反映主題信息的重要要素。一個作者撰寫文章公開其思想、方法或結(jié)果,都需要擬定最能反映其主題的關(guān)鍵詞。2.1節(jié)給出了通過主題信息提取構(gòu)成主題關(guān)鍵要素的基本思想——通過分析主題信息相關(guān)聯(lián)關(guān)鍵詞的頻度來獲取最大近似主題空間。本節(jié)介紹一種具體實現(xiàn)方法,筆者稱之為“種子培育法”。
種子培育法包含選種、育苗和收獲這3個環(huán)節(jié)。
1)選種階段。
第一步:隨機(jī)地從文獻(xiàn)庫中挑選出與主題信息相關(guān)的若干文獻(xiàn),形成備種文獻(xiàn)集合W0;
第二步:提取W0中的關(guān)鍵詞形成備種詞集K0;
第三步:在K0中挑選頻度高(>75%)的關(guān)鍵詞作為種子集S0。
2)育苗階段。
第一步:將S0關(guān)鍵詞分拆成單字得到集合K1;
第二步:將K1的單字組合成有效詞語集合K2;
第三步:分別將K1、K2的元素作為檢索條件,在文獻(xiàn)庫里檢索與主題信息相關(guān)的文獻(xiàn)得到S1與S2。檢索策略為:
主題信息*(k1,1OR k2,1OR … OR kN,1);
主題信息*(k1,2OR k2,2OR … OR kN,2);
這里,ki,1∈K1,ki,2∈K2。
3)收獲階段。
第一步:將S1和S2里的關(guān)鍵詞提取出來匯集成K3;
第二步:按照頻度高低對K3里面的關(guān)鍵詞進(jìn)行排序;
第三步:選取高頻度(>80%)的關(guān)鍵詞作為主題要素。
從種子培育法的3個階段及其具體做法可以看出,選種階段可獲取少量樣本中有代表性的關(guān)鍵詞。在育苗階段,將前階段的關(guān)鍵詞進(jìn)行單字分拆和再組合,實際上是擴(kuò)大了有關(guān)聯(lián)關(guān)鍵詞的范圍,從而增加了搜索樣本的數(shù)量,確保樣本的廣泛性。收獲階段在已經(jīng)擴(kuò)大廣泛性的樣本里面提取高頻度的關(guān)鍵詞,確保這些關(guān)鍵詞在廣泛基礎(chǔ)上的代表性。根據(jù)統(tǒng)計學(xué)原理,它們屬于“大量頻繁出現(xiàn)與主題信息關(guān)聯(lián)的個性數(shù)據(jù)”,能反映主題信息的本質(zhì)。整個提取過程好似“播下幾粒種子,培育一片樣本,收獲厚實的果實”。
從主題信息挖掘該主題涉及的核心要素,與從關(guān)鍵詞挖掘主題信息是逆向的操作,相關(guān)的應(yīng)用場合不盡相同。本章分析這種差異,并給出一個本文模型的應(yīng)用案例。
表1 2種不同挖掘模式的比較
科研選題是每個科技工作者面臨的問題。一個好的選題往往能使科研工作順利獲得立項、開展研究并產(chǎn)生預(yù)期效果。過去20多年來,如何開展科研選題也是眾多學(xué)者關(guān)注和研究的課題。從CNKI數(shù)據(jù)庫里可以檢索出10多萬篇涉及選題原則和要素的文章。但是這些文章都是基于作者個人的主觀論述,缺乏科學(xué)層面的數(shù)據(jù)支持。為此,筆者基于前述模型和策略,對科研選題這一主題的核心要素進(jìn)行挖掘。
利用關(guān)鍵詞挖掘分析工具“金花關(guān)鍵詞軟件”,從CNKI選取近20年有關(guān)科研選題的文獻(xiàn),發(fā)現(xiàn)有20多個相關(guān)的關(guān)鍵詞,其中“前瞻性”“超前性”“新穎性”“創(chuàng)新性”“科學(xué)性”“務(wù)實性”“必要性”“充分性”“可行性”“可靠性”“可能性”“實用性”“應(yīng)用性”等是出現(xiàn)頻率較高的詞語。
分別采用單字統(tǒng)計和合字統(tǒng)計的分析表明,單字“新”“學(xué)”這2個字出現(xiàn)的頻度超過95%,“要”“行”“用”這3個字的頻度超過90%,“靠”“能”這2個字的頻度大于75%,而“瞻”“前”的頻度低于65%。以頻度超過75%的單字來組合“創(chuàng)新”“新穎”“科學(xué)”“學(xué)術(shù)”“必要”“需要”“實用”“應(yīng)用”“可行”“可能”“可靠”“充分”的分析結(jié)果見表2。采用其他組合分析出頻度都低于70%,限于篇幅這里不列舉。
表2 關(guān)鍵詞雙字出現(xiàn)頻度
考慮到“必要”“需要”“實用”“應(yīng)用”都屬于務(wù)實性的范疇,“可行”“充分”“可靠”屬于同一范疇,由此總結(jié)出科研選題需要關(guān)注的5大要點(diǎn):創(chuàng)新性、科學(xué)性、務(wù)實性、必要性和可行性。在此基礎(chǔ)上,可建立選題評價模型。筆者對此也做過研究,相關(guān)研究結(jié)果即將在《人類工效學(xué)》見刊,限于篇幅,這里不贅述。
一個主題概念往往是在大量的分散論證后趨于集中和成型的。由于分散論證通常具有強(qiáng)烈的個性特征,任何一個個案的論述都不能形成主題概念的核心要素。只有大量出現(xiàn)、趨于統(tǒng)一、具有共性的關(guān)鍵要素才能形成公認(rèn)的權(quán)威的觀點(diǎn)?;谶@樣的考慮,筆者通過建立主題空間模型、踐行“種子培育法”,得出從主題信息挖掘其要素的基本策略。本文對于幫助情報分析人員從大量個案論述中挖掘權(quán)威共識要素的工作具有參考價值;對于科技人員確定研究突破點(diǎn)也有一定的幫助。筆者也希望本文能夠拋磚引玉,得到更多同行的關(guān)注并取得更多成果。
致謝:王興波教授對于本文主題空間建模給出了諸多指導(dǎo),筆者在此表示由衷的感謝。