楊臻
摘 要:基于大數(shù)據(jù)時(shí)代人才培養(yǎng)新要求,設(shè)計(jì)基于文本標(biāo)引的數(shù)據(jù)挖掘?qū)嵺`教學(xué)系統(tǒng),創(chuàng)建模塊化的數(shù)據(jù)挖掘工作環(huán)境,使學(xué)習(xí)者能在平臺完成數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)引、數(shù)據(jù)可視化的數(shù)據(jù)挖掘全過程,得到基于數(shù)據(jù)標(biāo)簽的分析結(jié)論。系統(tǒng)提供的基于文本標(biāo)引的數(shù)據(jù)挖掘算法環(huán)境既降低了對學(xué)習(xí)者算法編程能力的要求,又培養(yǎng)了學(xué)習(xí)者的數(shù)據(jù)挖掘思維與數(shù)據(jù)挖掘?qū)嵺`能力,適用于各個(gè)專業(yè)領(lǐng)域的初學(xué)者及商業(yè)用戶應(yīng)用于營銷決策。
關(guān)鍵詞:文本標(biāo)引;數(shù)據(jù)挖掘;教學(xué)系統(tǒng)
1 系統(tǒng)開發(fā)背景
數(shù)據(jù)挖掘,從廣義來講泛指從大量的數(shù)據(jù)中提取有意義的新知識的過程,發(fā)現(xiàn)數(shù)據(jù)背后隱藏的可應(yīng)用于實(shí)際的有益信息,產(chǎn)生于應(yīng)用且面向應(yīng)用。數(shù)據(jù)挖掘的核心步驟主要包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、知識挖掘、模式評估,主要任務(wù)在于描述當(dāng)前數(shù)據(jù)的一致性屬性或基于當(dāng)前數(shù)據(jù)預(yù)測未來趨勢走向,融合了人工智能、模式識別、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化等多領(lǐng)域理論與技術(shù),是助推大數(shù)據(jù)時(shí)代發(fā)展的一項(xiàng)核心技術(shù),更是當(dāng)下國內(nèi)外信息技術(shù)研究領(lǐng)域的熱點(diǎn)。在大數(shù)據(jù)時(shí)代的今天,越來越多的商業(yè)領(lǐng)域運(yùn)用數(shù)據(jù)挖掘開展決策分析能力也愈加成熟,有專家指出,在可預(yù)見的將來,數(shù)據(jù)挖掘?qū)⒊蔀?1世紀(jì)人才必備的技能要求。教育部發(fā)布的《教育信息化2.0》行動計(jì)劃中明確提出人工智能、大數(shù)據(jù)等技術(shù)的迅猛發(fā)展“將深刻改變?nèi)瞬判枨蠛徒逃螒B(tài)”,培養(yǎng)能運(yùn)用數(shù)據(jù)思維分析問題、應(yīng)用數(shù)據(jù)挖掘手段解決問題的人才將是我們開展新時(shí)代人才培養(yǎng)的新目標(biāo)。
2 系統(tǒng)設(shè)計(jì)
本系統(tǒng)數(shù)據(jù)挖掘過程的實(shí)現(xiàn)基于文本標(biāo)引算法,基本思路為通過設(shè)計(jì)判定圖為采集的文本數(shù)據(jù)源打標(biāo)簽的方式將提取數(shù)據(jù)關(guān)鍵屬性深入挖掘內(nèi)在聯(lián)系,再通過數(shù)據(jù)可視化方式將挖掘結(jié)果呈現(xiàn),實(shí)現(xiàn)了數(shù)據(jù)從收集到挖掘的全過程。對于系統(tǒng)用戶而言,大大突破了對專業(yè)的局限和對算法能力的要求,在明確挖掘目標(biāo)的前提下,用戶可運(yùn)用本系統(tǒng)各模塊功能搭建面向主題的數(shù)據(jù)挖掘環(huán)境,完成自定義的數(shù)據(jù)挖掘項(xiàng)目,獲得深度分析報(bào)告。
基于文本標(biāo)引的數(shù)據(jù)挖掘?qū)嵺`教學(xué)系統(tǒng)由數(shù)據(jù)采集、數(shù)據(jù)標(biāo)引、數(shù)據(jù)存儲、數(shù)據(jù)可視化四個(gè)模塊構(gòu)成,各模塊實(shí)現(xiàn)的具體功能如下:
2.1 數(shù)據(jù)采集模塊
數(shù)據(jù)采集模塊完成數(shù)據(jù)的采集與清洗工作。首先進(jìn)行目標(biāo)人群的抽樣,可按興趣、年齡、關(guān)注產(chǎn)品、共同評價(jià)等方法根據(jù)需求進(jìn)行抽樣,數(shù)據(jù)來源于各類社交網(wǎng)站等在線平臺。例如可采集關(guān)注某品牌的人群、購買使用某產(chǎn)品的微博用戶,參與提問回答某問題的知乎用戶等。抽樣完成后,根據(jù)清洗規(guī)則進(jìn)行目標(biāo)數(shù)據(jù)清洗,比如限制發(fā)微博數(shù)>500條的用戶、排除藍(lán)V用戶等規(guī)則,獲得有效目標(biāo)人群,再據(jù)此采集該群體公開的基礎(chǔ)用戶信息及歷史微博,完成數(shù)據(jù)采集工作。本模塊采集的所有數(shù)據(jù)都將存儲至數(shù)據(jù)存儲模塊。
2.2 數(shù)據(jù)標(biāo)引模塊
數(shù)據(jù)標(biāo)引模塊主要通過繪制判定圖完成對已采集數(shù)據(jù)打標(biāo)簽的工作。收集數(shù)據(jù)后,通過打標(biāo)簽的方式為數(shù)據(jù)標(biāo)注關(guān)鍵屬性,從而進(jìn)行下一步用戶畫像的描繪。判定圖是打標(biāo)簽工作的核心內(nèi)容,是數(shù)據(jù)挖掘過程中的核心環(huán)節(jié)。在數(shù)據(jù)標(biāo)引模塊具體實(shí)現(xiàn)的功能如下:
(一)梳理知識和語料
采用知識樹模型構(gòu)建層級式知識框架實(shí)現(xiàn)目標(biāo)的所有相關(guān)組織知識間的因果關(guān)系或從屬關(guān)系。樹結(jié)構(gòu)作為知識內(nèi)容的表示形式,結(jié)構(gòu)要盡可能適應(yīng)所要承載內(nèi)容的要求。其中,根節(jié)點(diǎn)表示組織的目標(biāo)知識,條目表示知識樹節(jié)點(diǎn)上的詞或短語,葉子為層級結(jié)構(gòu)的末端節(jié)點(diǎn)。在這基礎(chǔ)上對知識進(jìn)行分門別類,快速、準(zhǔn)確地定義知識的分類并對每一個(gè)目標(biāo)知識進(jìn)行細(xì)分。借助于知識樹的構(gòu)建,知識可以在一棵樹上不斷的積累,分門別類的進(jìn)行保存,便于知識定位。
(二)確定數(shù)據(jù)的資源類型
在此部分需完成:(1)了解數(shù)據(jù)挖掘的業(yè)務(wù)目標(biāo),即利用數(shù)據(jù)達(dá)到的目的,是產(chǎn)品改進(jìn),還是輿情監(jiān)控、競爭對手分析等,明確判定圖的主題名稱;(2)針對業(yè)務(wù)需求,通過搜索引擎、微博、專業(yè)的論壇和網(wǎng)站等,搜索與主題相關(guān)的數(shù)據(jù),確定哪些空間(資源類型、網(wǎng)站)的數(shù)據(jù)符合需求;(3)確定用于標(biāo)引數(shù)據(jù)的判定圖的資源類型。
(三)構(gòu)建集合的文本標(biāo)引規(guī)則
基于以構(gòu)建知識樹細(xì)分標(biāo)簽維度,總結(jié)知識的邏輯關(guān)系,即能夠標(biāo)引該類數(shù)據(jù)的關(guān)鍵特征知識。如通過看提及明星的數(shù)據(jù),可以總結(jié)該類數(shù)據(jù)主要的明星名稱類特征詞+人物形象類修飾詞,兩類特征詞同時(shí)出現(xiàn)在一句話中?;诖?,針對目標(biāo)人群的特征詞知識樹梳理,可整理出形如“興趣偏好-娛樂-體育-乒乓球-乒乓球賽事-乒乓球運(yùn)動員”的多維度多層次知識條目。
(四)判定圖繪制
在獲得文本標(biāo)引規(guī)則后,判定圖提供了可視化的需求輸入交互界面,可將對數(shù)據(jù)的操作需求表示在判定圖中。系統(tǒng)支持判定圖的繪制及調(diào)優(yōu),工作邏輯見圖1。
(1)創(chuàng)建新任務(wù),開啟新的判定圖任務(wù)畫布。
(2)依據(jù)文本標(biāo)引規(guī)則,在判定圖畫布上添加節(jié)點(diǎn)。
創(chuàng)建判定圖時(shí)系統(tǒng)默認(rèn)提供根節(jié)點(diǎn),根節(jié)點(diǎn)名稱默認(rèn)和監(jiān)測任務(wù)名稱一致。根節(jié)點(diǎn)可以設(shè)置任務(wù)的基本屬性:節(jié)點(diǎn)名、資源類型、企業(yè)庫專有數(shù)據(jù)、數(shù)據(jù)輸出類型等。根節(jié)點(diǎn)不可以刪除,且名字不能為空。除根節(jié)點(diǎn)外,繪制判定圖的主要節(jié)點(diǎn)有邏輯節(jié)點(diǎn)與模式節(jié)點(diǎn)。
邏輯節(jié)點(diǎn)包括判定節(jié)點(diǎn)、聯(lián)合判定節(jié)點(diǎn)及排除節(jié)點(diǎn):
①判定節(jié)點(diǎn)
滿足什么條件,就能判定是什么,表示邏輯判斷“或”的關(guān)系,可用來分解分析維度,可以理解為分類。通常放置在根節(jié)點(diǎn)、聯(lián)合判定下,后邊可以連接其他模式節(jié)點(diǎn)和邏輯節(jié)點(diǎn)。
②聯(lián)合判定節(jié)點(diǎn)
同時(shí)滿足兩個(gè)以上條件,就能判定是什么,表示邏輯判斷“與”的關(guān)系,即同時(shí)滿足多個(gè)條件的時(shí)候才輸出一個(gè)結(jié)果。通常放在根節(jié)點(diǎn)下,后邊只能添加判定節(jié)點(diǎn)和非判定節(jié)點(diǎn)。判定表示必須滿足的條件,非判定表示必須不滿足的條件。
③非判定節(jié)點(diǎn)
滿足什么條件,就不能判定什么,表示邏輯判斷“非”的關(guān)系。只能添加在聯(lián)合判定節(jié)點(diǎn)下,和聯(lián)合判定下的其他判定節(jié)點(diǎn)同時(shí)使用,后邊可以添加模式節(jié)點(diǎn)和邏輯節(jié)點(diǎn)。
模式節(jié)點(diǎn)包括特征詞節(jié)點(diǎn)與漢堡包節(jié)點(diǎn):
①特征詞節(jié)點(diǎn)
特征詞節(jié)點(diǎn)是填寫關(guān)鍵詞的地方,只有此處填寫的詞/屬性才會參與到互聯(lián)網(wǎng)的搜索,匹配文本中出現(xiàn)的特征詞集合,并且排除出現(xiàn)在歧義詞串中的情況。特征詞可以是一個(gè)集合,匹配可以設(shè)置三種類型(分詞、變形、正則)和匹配位置(起始、結(jié)尾、等于)。匹配不僅可以直接掃描字符串匹配,也可以對文本串先進(jìn)行分詞,再匹配,還支持文本串的變形識別、間隔的模糊匹配。匹配不僅可以直接掃描字符串匹配,也支持正則表達(dá)式的匹配。
②漢堡包節(jié)點(diǎn)
漢堡包識別模式可以識別文本中同時(shí)出現(xiàn)兩個(gè)或多個(gè)子串的情況,如:“某某品牌***服務(wù)態(tài)度***不好”。漢堡包模式可以設(shè)置兩個(gè)子串之間的距離、兩個(gè)子串出現(xiàn)的順序,以及子串中不允許出現(xiàn)的子串。漢堡包節(jié)點(diǎn)不能直接跟在表達(dá)“與”關(guān)系的聯(lián)合判定節(jié)點(diǎn)下面,只能跟在判定節(jié)點(diǎn)或排除節(jié)點(diǎn)后。
(3)建立判定圖的邏輯結(jié)構(gòu)
構(gòu)建判定圖的邏輯為:根節(jié)點(diǎn)下—>聯(lián)合判定節(jié)點(diǎn)—>判定節(jié)點(diǎn)和非判定節(jié)點(diǎn)—>特征詞節(jié)點(diǎn)和漢堡包節(jié)點(diǎn),其中漢堡包節(jié)點(diǎn)下可以添加并集節(jié)點(diǎn)和特征詞節(jié)點(diǎn)。
(4)為數(shù)據(jù)打標(biāo)簽
分析輸出數(shù)據(jù),給節(jié)點(diǎn)打上標(biāo)簽,這樣在單條測試和看數(shù)據(jù)的時(shí)候就能知道具體是任務(wù)下的哪條分支的數(shù)據(jù)。
(五)判定圖調(diào)優(yōu)
調(diào)優(yōu)是判定圖構(gòu)建完成后,通過實(shí)時(shí)/回溯系統(tǒng)獲取數(shù)據(jù),按照標(biāo)簽、命中線索逐條或批量驗(yàn)證數(shù)據(jù)的標(biāo)簽是否準(zhǔn)確,補(bǔ)充及刪除特征詞、修正語義判定規(guī)則并修改判定圖的過程。處理方法包括:
(1)檢查判定圖標(biāo)引邏輯:檢查邏輯是否過嚴(yán):如漢堡邏輯距離過近;檢查特征詞是否夠全:是否收入了標(biāo)引所需的特征詞;修改后利用判定圖中集成的單條測試功能測試邏輯修改是否有效等。
(2)檢查采集配置是否全面:檢查是否部署了數(shù)據(jù)所在信源;檢查是否部署了相關(guān)采集詞。
2.3 數(shù)據(jù)存儲模塊
數(shù)據(jù)存儲模塊主要存儲數(shù)據(jù)標(biāo)引模塊生成的三類數(shù)據(jù):
(一)目標(biāo)用戶的基礎(chǔ)信息數(shù)據(jù)庫:目標(biāo)人群的年齡、地域、職業(yè)、性別等基礎(chǔ)信息。
(一)標(biāo)簽數(shù)據(jù)庫:針對目標(biāo)用戶標(biāo)引的數(shù)據(jù)源標(biāo)簽,由數(shù)據(jù)標(biāo)引模塊的文本標(biāo)引規(guī)則生成。
(三)動態(tài)數(shù)據(jù)庫:動態(tài)數(shù)據(jù)的存儲,如微博的點(diǎn)擊數(shù)、評論數(shù)、點(diǎn)贊數(shù)等動態(tài)數(shù)據(jù)。
2.4 數(shù)據(jù)可視化模塊
利用數(shù)據(jù)可視化工具進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)及可視化圖表展示,便于分析報(bào)告的生成。
3 系統(tǒng)應(yīng)用
以本系統(tǒng)為某美妝品牌用戶的興趣愛好維度畫像為例,
(一)采集微博數(shù)據(jù)源:選取提及該品牌用戶微博id,去除廣告數(shù)據(jù)、企業(yè)賬號,且限定發(fā)微博數(shù)大于100條,最終獲得品牌用戶id 2000個(gè);采集每位用戶微博數(shù)據(jù)100條,共計(jì)200000條數(shù)據(jù)。
(二)設(shè)計(jì)興趣愛好維度判定圖及調(diào)優(yōu),為數(shù)據(jù)源打標(biāo)簽。
(三)將標(biāo)簽數(shù)據(jù)導(dǎo)入可視化分析工具,獲得可視化數(shù)據(jù),由此可描繪出該品牌用戶畫像:
(1)用戶年齡與地域分布
該品牌用戶女性占絕大多數(shù),年齡集中分布于18-30歲區(qū)間,18-22歲年齡段用戶比例最大;地域分布與微博用戶分布一致,多集中于經(jīng)濟(jì)較發(fā)達(dá)地區(qū),而經(jīng)濟(jì)相對落后省市覆蓋率較差,說明該品牌推廣實(shí)現(xiàn)全覆蓋還需進(jìn)一步努力。
(2)用戶特征關(guān)鍵詞
用戶自我認(rèn)知標(biāo)簽很多,其中“美食”“旅游”“娛樂”“名人明星” 是最高頻的標(biāo)簽,可見該品牌用戶對于自我滿足感較為看重,物質(zhì)享受和精神享受都是他們不可或缺的訴求。
(3)用戶關(guān)注美妝品牌分類
用戶關(guān)注的美妝品牌多為歐美品牌,其中也有提及平價(jià)品牌(一般社交媒體的曬單多傾向于高級品牌),說明這個(gè)客群用戶注重美妝產(chǎn)品性價(jià)比,會根據(jù)產(chǎn)品功效甄選最優(yōu)產(chǎn)品。
(4)用戶妝容及穿衣風(fēng)格
用戶的妝容多為cos妝和裸妝,開發(fā)彩妝產(chǎn)品時(shí)可參考cosplay角色特點(diǎn)以及自然青春的妝容要求。服裝風(fēng)格多為正式裝和瑞麗風(fēng)格,勾畫出用戶外在形象應(yīng)為一群追求時(shí)尚和自然妝容且散發(fā)都市氣息的年輕人。
(5)用戶常用出行方式及養(yǎng)生行為
用戶多采用自行車、房車和電動車等便利交通工具出行,對保健、運(yùn)動等養(yǎng)生方式比較關(guān)注,說明該品牌用戶是一群愛自由、愛生活的年輕人。
(6)用戶業(yè)余愛好
用戶多活躍于攝影、歌詠比賽等文藝活動,且多關(guān)注小說、童話等文學(xué)類型,說明該品牌用戶內(nèi)心豐富,富有生活情趣,且有浪漫主義色彩。在做產(chǎn)品開發(fā)時(shí),建議無論在產(chǎn)品外觀或產(chǎn)品寓意方面都賦予產(chǎn)品豐富的內(nèi)涵來吸引用戶。
4 應(yīng)用效益
在商業(yè)應(yīng)用層面,本系統(tǒng)支持為企業(yè)用戶收集公開信息描繪消費(fèi)者畫像,進(jìn)而為客戶獲得、客戶保持、個(gè)性服務(wù)、交叉銷售等方面提供決策參考。
在教學(xué)應(yīng)用層面,本系統(tǒng)應(yīng)用于教學(xué)實(shí)踐中,為學(xué)習(xí)者創(chuàng)建了界面友好的數(shù)據(jù)挖掘工作環(huán)境,實(shí)現(xiàn)了數(shù)據(jù)從收集到預(yù)處理、到算法實(shí)施再到數(shù)據(jù)可視化的數(shù)據(jù)挖掘全過程。學(xué)生在掌握數(shù)據(jù)挖掘基本概念與意義、了解數(shù)據(jù)挖掘工作步驟及各項(xiàng)步驟具體意義的基礎(chǔ)上,在本系統(tǒng)工作環(huán)境下完成的數(shù)據(jù)挖掘任務(wù)可分為兩項(xiàng)子任務(wù):一是在實(shí)訓(xùn)指導(dǎo)書或系統(tǒng)手冊的指導(dǎo)下完成系統(tǒng)各模塊參數(shù)設(shè)置;二是面向數(shù)據(jù)挖掘主題梳理判定圖邏輯,為目標(biāo)數(shù)據(jù)打標(biāo)簽,再通過可視化方法生成最終挖掘結(jié)論??梢?,本系統(tǒng)創(chuàng)建的工作環(huán)境維護(hù)了數(shù)據(jù)挖掘的全過程,判定圖的設(shè)計(jì)環(huán)節(jié)弱化了算法編程要求,但同時(shí)依然需要用戶對挖掘需求與語義邏輯充分理解,合理弱化了學(xué)習(xí)難點(diǎn),為各專業(yè)領(lǐng)域?qū)W習(xí)者開展數(shù)據(jù)挖掘?qū)嵺`創(chuàng)造了更為平等的學(xué)習(xí)機(jī)會,適合各專業(yè)領(lǐng)域初學(xué)者培養(yǎng)數(shù)據(jù)思維解決問題的能力。
參考文獻(xiàn):
[1]王光宏, 蔣平. 數(shù)據(jù)挖掘綜述[J]. 同濟(jì)大學(xué)學(xué)報(bào), 2004, 32(2):246-252.
[2]教育部關(guān)于印發(fā)《教育信息化2.0行動計(jì)劃》的通知 http://www.ict.edu.cn/p/liaoning/tzgg/n2018050811145.html