摘 要:BBS作為一種信息服務(wù)系統(tǒng)常常是人們生活與工作的交流平臺,人們通常使用它來發(fā)表言論、傳播信息或文件等,這為人們的生活與工作帶來了極大的便利。但是,由于BBS管理系統(tǒng)的不完善,造成BBS信息的安全性存在極大隱患,為了提高BBS信息的管理質(zhì)量與效率,數(shù)據(jù)挖掘技術(shù)便逐漸應(yīng)用于BBS管理工作中。在此,本文將基于BBS管理系統(tǒng)為研究對象,進(jìn)而對數(shù)據(jù)挖掘技術(shù)進(jìn)行深入探究。
關(guān)鍵詞:BBS管理系統(tǒng);數(shù)據(jù)挖掘技術(shù);應(yīng)用
中圖分類號:TP311.13
在當(dāng)前的社會環(huán)境中網(wǎng)絡(luò)技術(shù)發(fā)揮著越來越重要的作用,網(wǎng)絡(luò)應(yīng)用服務(wù)也成為人們?nèi)粘I钆c工作中不可或缺的重要組成部分,網(wǎng)絡(luò)技術(shù)的出現(xiàn)為人們信息交流拓寬了渠道,但同時由于網(wǎng)絡(luò)應(yīng)用服務(wù)的增多以及涉及范圍的擴(kuò)大,進(jìn)而導(dǎo)致網(wǎng)絡(luò)的安全性能越來越難以保障。BBS作為一種信息服務(wù)系統(tǒng)常常是人們生活與工作的交流平臺,人們通常使用它來發(fā)表言論、傳播信息或文件等,然而由于網(wǎng)絡(luò)管理工作上的不完善讓某些不法分子或思想不健康的用戶有了可乘之機(jī),他們惡意通過BBS論壇發(fā)表一些負(fù)面言論,從而造成網(wǎng)絡(luò)與社會的不穩(wěn)定。為此,需要網(wǎng)絡(luò)管理工作者重視這一問題,研究出相關(guān)數(shù)據(jù)挖掘技術(shù)應(yīng)用于BBS管理系統(tǒng)中,從而提高BBS管理中信息處理的效率。
1 數(shù)據(jù)挖掘技術(shù)
1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘,其實(shí)質(zhì)上是一個動態(tài)的挖掘數(shù)據(jù)庫信息的系統(tǒng)過程,是管理者以存放在數(shù)據(jù)庫、信息庫中的大量數(shù)據(jù)為研究對象,管理者發(fā)揮不同功能模塊的作用來完成挖掘任務(wù),從中發(fā)現(xiàn)數(shù)據(jù)庫中有趣的、有價值的信息與知識。為了方便完成數(shù)據(jù)挖掘工作,具體劃分為三個數(shù)據(jù)挖掘步驟:一是數(shù)據(jù)準(zhǔn)備;二是規(guī)律尋找;三是規(guī)律表達(dá)。數(shù)據(jù)準(zhǔn)備,即數(shù)據(jù)挖掘工作開展的前提準(zhǔn)備工作,通過確定挖掘任務(wù)以計劃后期的工作安排;規(guī)律尋找,即根據(jù)數(shù)據(jù)庫與信息庫中的數(shù)據(jù)資源來進(jìn)行關(guān)聯(lián)規(guī)則與趨勢的分析,從中尋找出相關(guān)規(guī)律性,并運(yùn)用恰當(dāng)?shù)耐诰蛴嬎惴椒▉砬蠼獬鱿嚓P(guān)參數(shù);規(guī)律表達(dá),即對前兩個數(shù)據(jù)挖掘工作的總結(jié),以書面材料的形式整理出在數(shù)據(jù)挖掘工作中的發(fā)現(xiàn)。
1.2 文本挖掘
文本挖掘,顧名思義是網(wǎng)絡(luò)管理者對文本中的數(shù)據(jù)進(jìn)行挖掘,從中提取有價值的信息與知識,其屬于一種計算機(jī)處理技術(shù),不過需要依托數(shù)據(jù)挖掘技術(shù)的支持?,F(xiàn)今,文本挖掘已成為一門數(shù)據(jù)挖掘?qū)W科,盡管該學(xué)科具有很大的邊緣性,但其融合了多個學(xué)科的知識(如計算機(jī)、數(shù)理統(tǒng)計、自然語言處理、機(jī)器學(xué)習(xí)等),學(xué)科內(nèi)容的兼容性極大。在運(yùn)用文本挖掘技術(shù)的前提準(zhǔn)備工作有三步,第一步是要將文本進(jìn)行分類;第二步是提煉文本的特征;第三步是轉(zhuǎn)化文本,利用數(shù)據(jù)的形式對文本內(nèi)容進(jìn)行轉(zhuǎn)化,使之轉(zhuǎn)換成描述性、結(jié)構(gòu)性兼具的數(shù)據(jù)。之后,就可以順利進(jìn)行文本數(shù)據(jù)挖掘工作。
1.3 Web文本挖掘
近些年,新興的服務(wù)技術(shù)層出不窮,而Web服務(wù)技術(shù)是運(yùn)用最普遍的一種,其可以不通過任何載體而實(shí)現(xiàn)不同計算機(jī)之間數(shù)據(jù)的交換或集成,從而將自身功能或服務(wù)的調(diào)用說明向外界發(fā)布,并利用URL定位實(shí)現(xiàn)信息的自動反饋,以滿足特定客戶端的信息需求。于是乎,將Web服務(wù)技術(shù)應(yīng)用在數(shù)據(jù)挖掘中十分有必要,建立在數(shù)據(jù)挖掘技術(shù)之上的Web文本挖掘便應(yīng)運(yùn)而出,該技術(shù)能夠強(qiáng)化現(xiàn)有數(shù)據(jù)挖掘系統(tǒng)的擴(kuò)展性,并很好的滿足客戶需求的變動。Web文本挖掘技術(shù)具有廣泛的功能性,能夠通過計算機(jī)網(wǎng)絡(luò)技術(shù)、模式識別、智能語言、統(tǒng)計學(xué)等功能在結(jié)構(gòu)不合理或異常的Web文檔集合中進(jìn)行數(shù)據(jù)挖掘工作,利于提高知識挖掘效率。在Web文檔中,其信息復(fù)雜多樣,而文本信息又占據(jù)著主要成分,于是對Web文本進(jìn)行挖掘意義重大,而XML功能的日益完善方便了對Web文檔資源的數(shù)據(jù)描述,通過這些數(shù)據(jù)描述簡化了Web文檔抽取信息的特征,更利于采用不同模型來表示W(wǎng)eb文檔信息的描述特征。
2 數(shù)據(jù)挖掘技術(shù)在BBS管理系統(tǒng)中的應(yīng)用
2.1 BBS管理系統(tǒng)
BBS算是使用較長的一種電子信息服務(wù)系統(tǒng),由研究機(jī)構(gòu)與教育機(jī)構(gòu)對其進(jìn)行統(tǒng)一管理,其最初的功能是以公共電子白板的形式為用戶提供一個發(fā)布信息或意見的渠道,用戶可以在電子版面上暢所欲言?,F(xiàn)如今,BBS管理系統(tǒng)趨于完善,其功能也逐步擴(kuò)大,已轉(zhuǎn)變成信息交流與共享的平臺,一種快捷的通訊方式,其針對不同的服務(wù)對象劃分出不同類型的BBS,如校園BBS、情感BBS、商業(yè)BBS等。由于BBS使用群體的日益龐大,其需要一個完善的BBS管理系統(tǒng)來確保信息資源的安全性與使用性,而將數(shù)據(jù)挖掘技術(shù)應(yīng)用在BBS管理系統(tǒng)中能夠有效對BBS的信息進(jìn)行系統(tǒng)挖掘與管理,這不僅有利于BBS的系統(tǒng)管理,而且也有利于數(shù)據(jù)挖掘技術(shù)的進(jìn)一步發(fā)展。
2.2 嘗試性挖掘
用戶數(shù)據(jù)庫、版面數(shù)據(jù)庫、帖子數(shù)據(jù)庫,這三部分是構(gòu)成BBS系統(tǒng)的基本要素,用戶數(shù)據(jù)庫是用于存儲用戶私人信息(姓名、密碼、登錄ID號等)的載體,而記錄版主ID、版面名稱的載體則是版面數(shù)據(jù)庫。其中帖子數(shù)據(jù)庫的存儲信息更加多樣,包括作者、帖子內(nèi)容、帖子ID、鏈接地址等。在BBS管理系統(tǒng)中,常識性數(shù)據(jù)挖掘技術(shù)運(yùn)用得非常廣泛,如圖1所示,通過該圖能夠讓人們更加清楚嘗試性挖掘數(shù)據(jù)的具體模式。
圖1 嘗試性挖掘數(shù)據(jù)模式
以BBS管理系統(tǒng)為研究對象,本文將通過嘗試性挖掘技術(shù)來提高BBS數(shù)據(jù)挖掘的效率,而該項(xiàng)數(shù)據(jù)挖掘工作的第一步則是要進(jìn)行信息模式的轉(zhuǎn)化,即實(shí)現(xiàn)多維數(shù)據(jù)模型對星型模式的轉(zhuǎn)換。以事務(wù)T來表示BBS用戶的登錄次數(shù),1個T表示一次登錄,以數(shù)據(jù)庫D來表示事務(wù)集合,在數(shù)據(jù)庫中集合事務(wù),構(gòu)成多個二維數(shù)組(數(shù)組中記錄了BBS登錄樣本),使用特征集來定義這些數(shù)組的列集。之后,使用計算機(jī)智能決策來分析數(shù)據(jù)挖掘結(jié)果,通過直觀的星型模式來表示挖掘結(jié)果,從而便于用戶理解數(shù)據(jù)挖掘結(jié)果。
3 結(jié)束語
基于BBS管理系統(tǒng)的數(shù)據(jù)挖掘技術(shù)研究是網(wǎng)絡(luò)管理者與時俱進(jìn)的發(fā)展表現(xiàn),正是因?yàn)锽BS這一電子信息服務(wù)在人們生活與工作中運(yùn)用得越來越廣泛,因而人們也在實(shí)際應(yīng)用中對BBS管理員提出了更多的需求。統(tǒng)一信息的數(shù)據(jù)結(jié)構(gòu),便于BBS信息的管理與分析、信息的安全性就是人們所提出的實(shí)際需求,為了提高BBS信息的管理質(zhì)量與效率,數(shù)據(jù)挖掘技術(shù)便逐漸應(yīng)用于BBS管理工作中,而這一舉動不僅成功促進(jìn)了BBS的信息管理,凈化了BBS的網(wǎng)絡(luò)環(huán)境,而且還在一定程度上推動了數(shù)據(jù)挖掘技術(shù)的發(fā)展。
參考文獻(xiàn):
[1]No-Wook Park, Kwang-Hoon Chi and Byung-Doo Kwon.Accounting for spatial patterns of multiple geological data sets in geological thematic mapping using GIS-based spatial analysis[J].Environmental Geology,2007,51(7):1147-1155.
[2]吳昊,耿煥同,吳祥.一種基于聚類分析的BBS主題發(fā)現(xiàn)算法研究[J].安徽師范大學(xué)學(xué)報(自然科學(xué)版),2009(01).
[3]張欣欣,薛冰冰.基于數(shù)據(jù)挖掘技術(shù)的BBS的安全管理[J].洛陽工業(yè)高等??茖W(xué)校學(xué)報,2003(04).
作者簡介:湯敏麗(1982-),女,貴州凱里人,碩士,凱里學(xué)院講師,研究方向:數(shù)據(jù)挖掘。