劉立蘭
摘? 要:大數(shù)據(jù)中的內(nèi)容數(shù)據(jù)挖掘,通過內(nèi)容挖掘技術(shù)解決垃圾檢測、黃賭識別、標(biāo)簽提取、內(nèi)容提取、文章分類、情感分析這一系列業(yè)務(wù)領(lǐng)域的內(nèi)容數(shù)據(jù)分析。
關(guān)鍵詞:內(nèi)容數(shù)據(jù)挖掘;內(nèi)容挖掘與應(yīng)用
一、概述
1.內(nèi)容挖掘的定義
Web上的信息量隨著因特網(wǎng)的飛速發(fā)展以驚人的速度增長,面對Web上海量、分布、動態(tài)、異質(zhì)、復(fù)雜、非結(jié)構(gòu)化的豐富信息資源,用戶如何從中查找、抽取自己想要的數(shù)據(jù)和有用信息,由此產(chǎn)生了Web挖掘技術(shù)。
Web挖掘就是從大量的Web文檔和Web活動中發(fā)現(xiàn)、抽取感興趣的、潛在的有用模式和隱含的、事先未知的、潛在的信息。Web信息的多樣性決定了Web挖掘任務(wù)的多樣性。Web挖掘可分為三類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web應(yīng)用挖掘。
Web內(nèi)容挖掘分為文本挖掘與多媒體挖掘。而文本挖掘,則是從Web文檔的內(nèi)容信息中抽取知識。是從大量Web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取有用知識的過程。多媒體挖掘則是通過對多媒體的音頻、視頻、圖片等要素的比對、識別、抽取實現(xiàn)有用知識的挖掘分析。Web內(nèi)容挖掘是Web挖掘的一個重要方面,本文主要闡述的Web挖掘中的內(nèi)容數(shù)據(jù)挖掘與應(yīng)用。
2.國內(nèi)外研究現(xiàn)狀
Web內(nèi)容挖掘和信息檢索有較深的淵源,因此,許多技術(shù)都是源自信息檢索領(lǐng)域。從信息檢索角度研究這個問題,主要研究如何處理文本格式和超鏈接文檔,這些數(shù)據(jù)是非結(jié)構(gòu)化或者是半結(jié)構(gòu)化的。數(shù)據(jù)以詞組、短語、n-維詞元、詞包等形式表示,采用TFIDF(文檔特征權(quán)值表示常用方法)和變量、機器學(xué)習(xí)和詞組統(tǒng)計包括自然語言的統(tǒng)計等研究方法對文檔進行分類、聚類,研究抽取詞組在文檔中出現(xiàn)的規(guī)律。Craven等研究了用關(guān)系模型表示文檔內(nèi)容,采用修改了的貝葉斯算法,給超文本鏈接分類,尋求Web頁面關(guān)系,抽取規(guī)則。Crimmins研究了用短語、超級鏈接和信息元表示文檔內(nèi)容,采用自動和非自動學(xué)習(xí)的分類算法,對文檔進行聚類和分層分類。Furnkranz和Joachims用超級鏈接信息表示文檔內(nèi)容,采用規(guī)則學(xué)習(xí)算法PTFIDF,對超級鏈接文檔進行分類。
二是從數(shù)據(jù)庫角度研究,主要處理半結(jié)構(gòu)化的Web數(shù)據(jù)庫,也就是超級鏈接文檔。數(shù)據(jù)多采用帶權(quán)圖或者對象嵌入模型(Object Embedded? Model OEM),或者關(guān)系數(shù)據(jù)庫表示,應(yīng)用Proprietary算法或者經(jīng)過修改了的關(guān)聯(lián)規(guī)則挖掘算法,尋找出網(wǎng)站頁面之間的內(nèi)在聯(lián)系。Goldman、Nestorov等人用OEM表示文檔,采用Proprietary算法,分別在半結(jié)構(gòu)化數(shù)據(jù)中,尋找標(biāo)引字段和數(shù)據(jù)的層次結(jié)構(gòu)。Zaiane等用關(guān)系數(shù)據(jù)庫表示數(shù)據(jù),采用面向?qū)ο蟮耐评矸椒?,尋找多層次?shù)據(jù)庫的構(gòu)建策略,為文獻標(biāo)引提供決策依據(jù)。
無論是從IR角度還是從數(shù)據(jù)庫角度研究,都是為了研究如何實現(xiàn)文本分析(Text Analysis)、文本解釋(Text Interpretation)和文本分類(Text Classification)等工作的自動化。從而提高網(wǎng)上搜索引擎的查準(zhǔn)率和查全率。
二、內(nèi)容的數(shù)據(jù)挖掘與應(yīng)用
1.首先要了解用戶要解決的問題
內(nèi)容的數(shù)據(jù)挖掘在不同行業(yè)的應(yīng)用有其不同。在內(nèi)容數(shù)據(jù)挖掘之前首先要了解所在行業(yè)對于內(nèi)容數(shù)據(jù)挖掘的需求,用戶希望通過數(shù)據(jù)挖掘要解決的問題是什么?是否是想通過對內(nèi)容的分析與挖掘?qū)崿F(xiàn):
1)垃圾檢測:精準(zhǔn)識別垃圾郵件、垃圾內(nèi)容等低質(zhì)量文本內(nèi)容
2)黃賭識別:準(zhǔn)確定位文本中所含涉黃、涉賭等違規(guī)內(nèi)容
3)標(biāo)簽提?。焊咝崛∥谋竞诵脑~語以生成標(biāo)簽
4)內(nèi)容提取:對文本符合某種規(guī)則的特定內(nèi)容進行提取
5)文章分類:依據(jù)預(yù)設(shè)分類體系對文本進行自動歸類
6)情感分析:準(zhǔn)確分析用戶透過文本表達(dá)出的情感傾向
2.非結(jié)構(gòu)化文本數(shù)據(jù)的挖掘?qū)崿F(xiàn)
2.1基于關(guān)聯(lián)規(guī)則的文本挖掘
關(guān)聯(lián)規(guī)則中最常用的是Apriori,其核心是基于兩階段頻集思想的遞推算法,該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則,常用于事務(wù)性的挖掘規(guī)則中。
2.2序列模式挖掘
序列模式挖掘解釋的關(guān)系跟關(guān)聯(lián)模型相同,只不過把時間因素考慮在內(nèi),算法包括三類:
類Apriori算法:典型代表GSP算法,SPADE算法;
基于劃分模式的生長算法:典型代表是FreeSpan和PrefixSpan算法;
基于序列比較的算法:代表為Disc-all;
整體來看PrefixSpan和Disc-all在算法效率和性能表現(xiàn)上會更好,同時,考慮到業(yè)務(wù)對時間上的約束條件,比如我們分析發(fā)現(xiàn),用戶的存 留周期只有1年,那么我們只想對1年內(nèi)發(fā)生重復(fù)行為的用戶進行針對性動作,1年就是我們的約束條件。這也是在做基于時間序列也需要考慮的因素。
2.3文本聚類挖掘
聚類分析是業(yè)務(wù)進入數(shù)據(jù)挖掘場景最基本的需求,通常的需求如,描述某類用戶的基本特征,同時,這些特征可以作為進一步挖掘和分析的基本條件。聚類分析中最常用的算法是K-MEANS聚類和兩步聚類。
2.4文本規(guī)則提取
所謂的文本規(guī)則提取,指的是把文本作為用戶提取規(guī)則的一個變量,通常用決策樹、SVM、SLRM來提取業(yè)務(wù)規(guī)則,比如要找到購買家電類的用戶,他們對產(chǎn)品有哪些需求點,可以通過以下幾種方式提取規(guī)則。
2.5決策樹
決策樹挖掘模式通常使用C 5.0、C&RT、CHAID、QUEST等,決策樹模型的特點是以樹狀展現(xiàn)規(guī)則,并按照規(guī)則對目標(biāo)的影響程度分支,非常利于業(yè)務(wù)理解和規(guī)則提取。
在文本挖掘中,充另一個挑戰(zhàn)是文本的“語意”。由于文本在漢語中的豐富的色彩,對文本的感情屬性的判斷需要根據(jù)語境,挖掘融合了全套自然語言處理技術(shù)和機器學(xué)習(xí)技術(shù),基礎(chǔ)文字處理集成了文本分詞、詞性標(biāo)注、句法分析、命名實體識別、文本標(biāo)簽提取等功能模塊,基于此再結(jié)合機器學(xué)習(xí)算法,實現(xiàn)認(rèn)知層次上的文本自動分類、涉黃涉政分析、垃圾評論識別等功能。
3.非結(jié)構(gòu)化文本數(shù)據(jù)挖掘的應(yīng)用
用戶給出內(nèi)容分析與挖掘的規(guī)則及要求,系統(tǒng)根據(jù)規(guī)則及要求對文本內(nèi)容進行文本自動審核、垃圾評論檢測、文本標(biāo)簽提取、文本自動歸類、文本情感分析。
3.1規(guī)則制定
1)提供用戶自行制定分析規(guī)則,規(guī)則包括:標(biāo)簽組合、關(guān)鍵詞組合,標(biāo)簽組、關(guān)鍵詞組。組合規(guī)則包括與、或、非。
3.2文本自動審核
1)文本中涉黃、涉堵、涉政、反動等違規(guī)方面進行審核,給出當(dāng)前文本違規(guī)的嚴(yán)重系數(shù)。
2)假設(shè)將每類違規(guī)類型系數(shù)定為1,將文本內(nèi)容審核時給出文本內(nèi)容符合哪類違規(guī)類別,給出違規(guī)系數(shù)。
3)提供對文本的自動審查,用戶給出一段文本內(nèi)容后,自動對文本進行審核對。
3.3垃圾評論檢測
1)提供對文本的內(nèi)容是否為垃圾內(nèi)容或低質(zhì)量的文本內(nèi)容的檢測。
2)給出文本是垃圾內(nèi)容及低質(zhì)量內(nèi)容的評定系數(shù)。將評定系數(shù)高的數(shù)據(jù)進行剔除。
3.4文本標(biāo)簽提取
1)提供對文本內(nèi)容標(biāo)簽的自動提取功能,將文本中核心詞語進行提取生成文本重要標(biāo)簽。標(biāo)簽按重要性遞減排序
2)并將標(biāo)簽與規(guī)則進行比對,比對成功的進行標(biāo)識。
3.5特定規(guī)則內(nèi)容提取
用戶進行自定義的提取規(guī)則的設(shè)定,系統(tǒng)可以根據(jù)用戶的要求進行提取。符合某種規(guī)則的特定內(nèi)容提供取某類型的庫中。
1)提取規(guī)則一:key=value格式,可以支持多種KEY=value的樣式。
2)提取規(guī)則二:符合手機號、身份證、MAC、IMEI、IMSI、郵件帳號規(guī)則。
3)提取規(guī)則三:基于郵件正文、附件內(nèi)容的模版提取。提取郵件姓名、電話、公司地址、公司電話、傳真號、QQ號、公司網(wǎng)站、公司名稱。
4)提取規(guī)則四:符合自行設(shè)定規(guī)則的提取,如:APP名稱、盜號規(guī)則等。
3.6文本自動歸類
1)提供對文本內(nèi)容進行分析,依據(jù)預(yù)設(shè)的分類體系對海量文本進行自動歸類,并給出所屬類型的置信度(如:社會資訊、健康、科技)。
2)提供對文本內(nèi)容進行分析,分析后將文本自動歸類并給出所屬類型的置信度(如:社會資訊、健康、科技)。
3.7文本情感分析
1)在論壇、郵件及網(wǎng)站中產(chǎn)生了大量的用戶郵件、評論信息,如何在這些信息中提取出有價值的信息不是一件容易的事。
2)通過對一段文本內(nèi)容分析,發(fā)現(xiàn)其表達(dá)的是正面情緒還是負(fù)面情緒并顯示兩種情緒的占比。
3)通過情感傾向的正面與負(fù)面的權(quán)重(0.2/0.8)及標(biāo)簽,可快速定位負(fù)面內(nèi)容的發(fā)起者與傳播者。
參考文獻
[1]? 認(rèn)知計算與大數(shù)據(jù)分析【美:JudithS.Hurwitz MARCIA kaufman Adrian Bowles張鴻濤譯】