基于微博信息數(shù)據(jù)分析研究進(jìn)行系統(tǒng)梳理,提出三大研究方法,即適于演化的微博信息的數(shù)據(jù)表達(dá)模型研究;基于譜聚類的適于微博信息的大規(guī)模數(shù)據(jù)集劃分方法研究;基于多特征演化聯(lián)合聚類的在線微博信息劃分方法研究。數(shù)據(jù)表達(dá)模型微博信息數(shù)據(jù)分析微博是基于用戶關(guān)系內(nèi)部成員的心情共享與話題傳輸?shù)拿浇椋嗣浇閾碛邪_萬象的內(nèi)容,其中最為典型的內(nèi)容是,微博會員對社會現(xiàn)象的觀點(diǎn)與立場,以及涵蓋科技軍事、娛樂八卦等討論話題。所以,關(guān)于興趣愛好的話題、焦點(diǎn)與熱點(diǎn)的話題、輿情預(yù)警等方面的微博信息數(shù)據(jù)分析擁有廣闊的研究前景。而對于研究前景實(shí)踐的前提是建立標(biāo)準(zhǔn)的數(shù)據(jù)表達(dá)與數(shù)據(jù)類型劃分的方法。一、適于演化的微博信息的數(shù)據(jù)表達(dá)模型研究在當(dāng)今信息大爆炸的時(shí)代,從海量的信息提取精煉的有效信息,并分析出信息間的關(guān)聯(lián)性是十分重要的。對于微博而言,一方面,從單純的架構(gòu)角度分析,微博是一種無結(jié)構(gòu)的文本;但從信息與信息傳輸角度分析,微博的實(shí)質(zhì)即為擁有廣泛內(nèi)容的結(jié)構(gòu)化網(wǎng)絡(luò)信息,信息的結(jié)構(gòu)聯(lián)系為分析信息間的關(guān)聯(lián)性起到輔助性作用。另一方面,每條微博信息為一個(gè)文本片段(一段話或一句話),攜帶的信息量比較小,多條微博信息觸及到多種話題且信息量小,這為信息的升華與分析增加了難度。通過以上兩點(diǎn)分析可以看出,在微博信息中提取精煉的有效信息,不能套用傳統(tǒng)的簡單文本信息提取的方法。為此,對于要分類的微博信息,首先要進(jìn)行預(yù)處理,從微博中收集短信息文本集,其中可以包含部分評論、觀點(diǎn)描述等內(nèi)容,去除標(biāo)簽后,進(jìn)行中文語義、詞性、詞語分類的標(biāo)注,并將禁用詞刪掉。經(jīng)過預(yù)處理之后的短信息文本集中的每一個(gè)詞需要用建構(gòu)的數(shù)學(xué)模型加以表示,過去傳統(tǒng)的文本類別劃分基本利用向量空間模型表示法,模型構(gòu)建的過程中多以關(guān)鍵詞為首要特征,該方法比較簡單、方便,但卻容易引起高維稀疏問題且通常沒有語義聯(lián)系。所以,我們采用基于語義概念的表示方法,把傳統(tǒng)的具體關(guān)鍵詞抽象的映射到概念范疇,然后對原始的關(guān)鍵詞的語義進(jìn)行拓展,從而解決短信息文本集中文本數(shù)據(jù)分類中存在的概念的層次、一義多詞、一詞多義的問題。二、基于譜聚類的適于微博信息的大規(guī)模數(shù)據(jù)集劃分方法研究層次方法是在眾多聚類方法中的一種極其重要的聚類方法。它的基本思想是對數(shù)據(jù)進(jìn)行遞歸分裂或合并,將數(shù)據(jù)集合劃分為嵌套式的類譜系圖類或?qū)哟谓Y(jié)構(gòu)。它具有下列優(yōu)勢:第一,建立在更合理的假設(shè)之上,考慮到了來自不同層次的變量信息和隨機(jī)誤差的多層線性模型,能提供更加有效的區(qū)間估計(jì)、更加精確的標(biāo)準(zhǔn)誤估計(jì)和假設(shè)檢驗(yàn)。第二,任何水平上測量的協(xié)方差運(yùn)用多層線性模型可計(jì)算。例如,可以通過計(jì)算在總變異中不同水平變異占的比率,來確定不同水平對因變量的影響及影響程度程度,例如研究者可以探討班級和學(xué)生的其他特征對因變量變異的作用到底有多大。還可以分析不同水平上變量之間的交互作用。第三,可以結(jié)合所得回歸方程形式及數(shù)值,得出截距和斜率之間的相關(guān)關(guān)系,從而更好地解釋自變量和因變量之間變化的規(guī)律。基于網(wǎng)格的方法是眾多的聚類算法中比較常用的方法,被廣泛用于空間數(shù)據(jù)離化等問題。它是以網(wǎng)格為單位學(xué)習(xí)聚簇,具有速度快、效率高、且能很好地處理高維數(shù)據(jù)的特點(diǎn)。該方法的缺點(diǎn)是過于依賴密度閾值的選擇,并且因?yàn)檎w構(gòu)造擁有的是呈現(xiàn)出鋸齒狀聚簇邊界,它不能精確地識別平滑邊界曲面?;诰W(wǎng)格的聚類算法,利用統(tǒng)一大小的網(wǎng)格劃分問題的空間,數(shù)據(jù)的統(tǒng)計(jì)信息皆保存在每個(gè)網(wǎng)格中,最終以在網(wǎng)格上進(jìn)行聚類操作達(dá)到目標(biāo)。網(wǎng)格的數(shù)量遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)點(diǎn)的數(shù)量,所以,在計(jì)算與分類過程中,運(yùn)行速度非???。網(wǎng)格的大小影響了整個(gè)指標(biāo)的多少,進(jìn)而決定了聚類的最終效果。網(wǎng)格聚類算法,運(yùn)行速度以及計(jì)算速度主要由網(wǎng)格分割的時(shí)間決定,不是由數(shù)據(jù)集的大小來決定,所以,網(wǎng)格聚類算法適用于有限空間范圍內(nèi)的大量數(shù)據(jù)活高密度數(shù)據(jù)集中的處理,這是該方法的最大優(yōu)點(diǎn)。三、基于多特征演化聯(lián)合聚類的適于在線微博信息數(shù)據(jù)劃分方法研究聚類是人類認(rèn)知過程中一項(xiàng)比較重要的活動。數(shù)據(jù)的聚類分析,即對物理或抽象的數(shù)據(jù)進(jìn)行匯總與分組,將測度指標(biāo)一致或者性質(zhì)相近的數(shù)據(jù)劃分并組合成多個(gè)類的分析過程。數(shù)據(jù)的聚類分析在模式識別、統(tǒng)計(jì)、生態(tài)模型以及網(wǎng)絡(luò)結(jié)構(gòu)的架構(gòu)建設(shè)等多個(gè)領(lǐng)域中都具有廣泛的應(yīng)用。在微博信息數(shù)據(jù)的劃分中,文本聚類技術(shù)按照一定的關(guān)聯(lián)性將微博信息的大量文本進(jìn)行自動化歸類。有助于微博會員能夠更快更好的瀏覽與查找相關(guān)的信息。但是與結(jié)構(gòu)化的數(shù)據(jù)信息不同的是,文本聚類技術(shù)是以半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本性數(shù)據(jù)為數(shù)據(jù)處理對象,文本性數(shù)據(jù)的突出特點(diǎn)即為其稀疏性?;谖⒉┬畔?shù)據(jù)的特殊性,文章嘗試從不同階段的聚類過程的入手,提取微博信息數(shù)據(jù)之間的關(guān)聯(lián)性以及關(guān)系,并將其作為微博信息數(shù)據(jù)聚類過程的指導(dǎo)。在微博信息數(shù)據(jù)預(yù)處理階段,Bag—of—words—Model模型是比較常用的一種表示方法。微博信息的每個(gè)詞句或符號均被用來表示微博信息文檔的內(nèi)容指標(biāo)。為避免標(biāo)準(zhǔn)的演化算法演化速度慢,易收斂到局部極值的缺點(diǎn),融合對梯度的隨機(jī)模擬,免疫算子,模擬退火算法的思想,提出多特征演化聯(lián)合聚類。多特征演化聯(lián)合聚類,第一步將在每個(gè)時(shí)間步確定聚簇?cái)?shù)k,利用SCAM算法算出當(dāng)前的聚類模型,第二步將時(shí)間步確定聚簇?cái)?shù)k與聚類模型進(jìn)行比較分析。如果在此過程中有異樣效果出現(xiàn),就說明整個(gè)過程發(fā)生了演化事件。GADEFCM算法利用完善后的掩碼方式動態(tài)來計(jì)算信息數(shù)據(jù)聚類中心數(shù)目,將數(shù)據(jù)信息的集合體劃分為兩個(gè)小群,然后分別用遺傳算法和差異演化算法對兩個(gè)小群進(jìn)行計(jì)算演化,小群中的個(gè)體執(zhí)行FCM操作并按規(guī)則進(jìn)一步將算法收斂速度加快。兩個(gè)小群在演化過程中處于相互協(xié)作的狀態(tài),并且基于不同的間隔遷移策略,充分利用差異演化算法的局部搜索能力與遺傳算法的全局探索能力,兩個(gè)小群之間進(jìn)行優(yōu)良個(gè)體引導(dǎo)搜索過程的交換。四、結(jié)束語綜上所述,微博信息數(shù)據(jù)分析的應(yīng)用表現(xiàn)出明顯的的時(shí)間異步、空間分散的異構(gòu)以及異質(zhì)數(shù)據(jù)流。信息數(shù)據(jù)間的演化聚類分析,將會是我們進(jìn)一步進(jìn)行研究的方向。我們繼續(xù)研究如何實(shí)現(xiàn)在給定一定的聚類數(shù)限制下,自動確定聚類數(shù)?;诙嗵卣餮莼?lián)合聚類的在線微博信息劃分方法研究使其更好更準(zhǔn)確地劃分動態(tài)的微博輿情。
參考文獻(xiàn):
[1]王永恒,賈焰,楊樹強(qiáng).大規(guī)模文本數(shù)據(jù)庫中的短文本分類方法[J].計(jì)算機(jī)工程與應(yīng)用,2006,(22).
[2]甄彤.基于層次與劃分方法的聚類算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(8).
[3]曹洪其,余嵐,孫志揮.基于網(wǎng)格聚類技術(shù)的離群點(diǎn)挖掘算法[J].計(jì)算機(jī)工程,2006,(6).
[4]孫玉芬.基于網(wǎng)格方法的聚類算法研究[J].華中科技大學(xué),2006.基金項(xiàng)目:黑龍江省2012年度科學(xué)技術(shù)研究(面上)項(xiàng)目“基于演化的微博輿情劃分方法研究(項(xiàng)目編號:12521578)”的研究成果之一。