陳國有, 程懷志, 蘇紅, 朱江, 劉金成, 呂鵬舉
(1.哈爾濱醫(yī)科大學(xué)大慶分校 藥學(xué)院, 黑龍江 大慶 163319; 2.哈爾濱醫(yī)科大學(xué)大慶分校 人事處,黑龍江 大慶 163319; 3.大慶醫(yī)學(xué)高等??茖W(xué)校 藥學(xué)系, 黑龍江 大慶 163319;4.哈爾濱醫(yī)科大學(xué)大慶分校 信息與技術(shù)學(xué)系, 黑龍江 大慶 163319;5.哈爾濱醫(yī)科大學(xué)大慶分校 教務(wù)處, 黑龍江 大慶 163319)
隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多的領(lǐng)域逐漸走向網(wǎng)絡(luò)化與線上資源開發(fā)的發(fā)展道路,應(yīng)用互聯(lián)網(wǎng)技術(shù)實(shí)現(xiàn)了資源共享與同步利用。隨著慕課類型的線上學(xué)習(xí)模式大規(guī)模增長,線上的學(xué)習(xí)資源儲備已經(jīng)成為未來互聯(lián)網(wǎng)技術(shù)發(fā)展的重要內(nèi)容,對外的數(shù)據(jù)挖掘資源輸出質(zhì)量總是良莠不齊,需要得到精確的控制才能對數(shù)據(jù)進(jìn)行應(yīng)用,尤其針對藥學(xué)教育資源的錄用,需要進(jìn)行相對精確地分析[1-2]。
本文將研究基于數(shù)據(jù)挖掘的藥學(xué)教育資源庫錄入信息量自動控制技術(shù),數(shù)據(jù)挖掘技術(shù)下的藥學(xué)資源開發(fā)能夠為教育資源的獲取帶來巨大的后備能源。但是數(shù)據(jù)挖掘量的過于突出會對整個資源庫造成一定的信息輸出負(fù)擔(dān),所以需要對資源庫錄入信息量進(jìn)行自動控制,更加優(yōu)質(zhì)地獲取藥學(xué)教育資源。
隨著數(shù)據(jù)庫類型的不斷更新,數(shù)據(jù)信息已經(jīng)呈井噴式增長,如何能夠獲取與利用數(shù)據(jù)信息成為了當(dāng)前研究的重要內(nèi)容,數(shù)據(jù)挖掘技術(shù)能夠從眾多的數(shù)據(jù)信息中智能總結(jié)數(shù)據(jù)規(guī)律并進(jìn)行提取,應(yīng)用在大容量的數(shù)據(jù)庫中完成數(shù)據(jù)庫的填充任務(wù),但是數(shù)據(jù)挖掘技術(shù)的核心為大數(shù)據(jù)量的保障功能與信息關(guān)聯(lián)功能,只有對已知知識深度分解和關(guān)聯(lián)才能更有效獲取隱性知識,為數(shù)據(jù)庫的管理者增加知識獲取鏈接,促進(jìn)更多信息的傳遞與發(fā)掘[3-4]?;跀?shù)據(jù)挖掘的藥學(xué)教育資源庫錄入信息量自動控制過程如圖1所示。
圖1 藥學(xué)教育資源庫錄入信息量自動控制過程
根據(jù)圖1可知,數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)首先需要將已知數(shù)據(jù)作為挖掘目標(biāo),建立數(shù)據(jù)挖掘集合并從不同的數(shù)據(jù)源中集中數(shù)據(jù)關(guān)聯(lián)內(nèi)容;再對關(guān)聯(lián)的已知數(shù)據(jù)進(jìn)行雜質(zhì)去除,自動篩選與挖掘主體無關(guān)的數(shù)據(jù);在沒有發(fā)現(xiàn)規(guī)律與內(nèi)容可應(yīng)用性的信息條件中將可挖掘信息轉(zhuǎn)換為與挖掘主題相關(guān)的數(shù)據(jù)鏈,具體的轉(zhuǎn)換技術(shù)需要參考該類型數(shù)據(jù)信息的邏輯原理;最終對數(shù)據(jù)進(jìn)行挖掘,選擇合適且具有針對性的數(shù)據(jù)設(shè)計挖掘模型,在模型中完成數(shù)據(jù)規(guī)律的尋找與錄用,還可以對數(shù)據(jù)信息的基礎(chǔ)知識進(jìn)行組建,經(jīng)過內(nèi)容的核心處理,選取挖掘符合用戶條件的數(shù)據(jù),保障用戶的基本數(shù)據(jù)挖掘任務(wù)完成[5-6]。
建立的數(shù)據(jù)挖掘模型如圖2所示。
圖2 數(shù)據(jù)挖掘模型
數(shù)據(jù)挖掘技術(shù)具有速度快、挖掘數(shù)據(jù)量龐大、數(shù)據(jù)挖掘精準(zhǔn)度高等優(yōu)勢。應(yīng)用此技術(shù)向相關(guān)數(shù)據(jù)庫中傳輸內(nèi)容的同時需要隨時控制數(shù)據(jù)庫的占用空間,以及數(shù)據(jù)挖掘質(zhì)量,及時控制信息錄入量保證數(shù)據(jù)庫的可用率。
在模型設(shè)計中需要對藥學(xué)教育資源錄入信息情況進(jìn)行閾值設(shè)定,檢測錄入信息是否存在網(wǎng)絡(luò)方面的隔閡或流量異常狀態(tài)的存在,還要及時采集網(wǎng)絡(luò)周圍環(huán)境對藥學(xué)教育資源錄入信息內(nèi)容的影響程度,避免外部流量對藥學(xué)教育資源的更改。資源庫對外的信息量引入基本參數(shù)需要依靠管理人員進(jìn)行初步設(shè)定,在基本流量傳輸?shù)幕A(chǔ)上保障數(shù)據(jù)挖掘信息的安全性,設(shè)定的參數(shù)范圍也可以根據(jù)藥學(xué)資源的結(jié)構(gòu)特征進(jìn)行縮小與擴(kuò)大[7]。閾值檢測過程如圖3所示。
圖3 閾值檢測過程
根據(jù)圖3可知,當(dāng)數(shù)據(jù)挖掘下的外部流量與模型內(nèi)部網(wǎng)絡(luò)接口的數(shù)據(jù)流量相統(tǒng)一時,此時的流量值為資源庫錄入的閾值,模型管理員能夠在不進(jìn)行數(shù)據(jù)過濾的情況下完成精準(zhǔn)可靠的信息數(shù)據(jù)挖掘,藥學(xué)教育資源還可以通過控制原始的資源數(shù)據(jù)與當(dāng)前數(shù)據(jù)挖掘下的閾值信息進(jìn)行對比控制,設(shè)定閾值以內(nèi)的數(shù)據(jù)為可入庫數(shù)據(jù),閾值以外數(shù)據(jù)為不可入庫數(shù)據(jù)[8]。
數(shù)據(jù)挖掘技術(shù)大多采用多種算法的聯(lián)合數(shù)據(jù)開發(fā)方式,發(fā)展多個藥學(xué)教育資源可開發(fā)點(diǎn)進(jìn)行信息變量的關(guān)聯(lián),通過原始數(shù)據(jù)代表數(shù)據(jù)庫中的隱性信息,優(yōu)化錄入信息的識別能力能夠有效控制算法的關(guān)聯(lián)計算條件與挖掘效率。
對藥學(xué)資源庫錄入信息量的識別需要首先確定藥學(xué)資源庫內(nèi)外數(shù)據(jù)條件的差異性,盡量減少不同屬性的數(shù)據(jù)關(guān)聯(lián),進(jìn)一步提升數(shù)據(jù)挖掘的方向精準(zhǔn)度,本文嘗試從算法的關(guān)聯(lián)技術(shù)方面入手,建立算法識別體系,根據(jù)資源庫內(nèi)外的數(shù)據(jù)挖掘特征識別數(shù)據(jù)類型特征。在分析錄入信息數(shù)據(jù)屬性特征時可以參考網(wǎng)絡(luò)數(shù)據(jù)中的基本參數(shù),如數(shù)據(jù)挖掘行為時間、數(shù)據(jù)挖掘行為名稱、數(shù)據(jù)挖掘行為主體等,對特征分析完成后的數(shù)據(jù)應(yīng)用布爾型算法關(guān)聯(lián)規(guī)則完成資源庫錄入識別程序,關(guān)聯(lián)規(guī)則主要圍繞行為主體能夠按照行為路徑進(jìn)行資源庫錄入、行為時間能否決定行為主體的基本程序、行為名稱能否更改行為時間內(nèi)容等[9-10]。
本文采用TCP/IP網(wǎng)絡(luò)數(shù)據(jù)傳輸協(xié)議作為資源庫錄入信息主要接口,此接口主要面對數(shù)據(jù)挖掘下的網(wǎng)絡(luò)層,當(dāng)數(shù)據(jù)挖掘后的數(shù)據(jù)從計算機(jī)中完成程序?qū)雍蟊阈枰?jīng)過更高層的運(yùn)輸協(xié)議實(shí)現(xiàn)從主機(jī)到資源庫的直接對接,負(fù)責(zé)處理接口端的網(wǎng)絡(luò)層會根據(jù)IP地址對制定的數(shù)據(jù)傳輸目標(biāo)進(jìn)行數(shù)據(jù)選擇錄用,依靠路由器的高兼容性融合不同存在格式的數(shù)據(jù)包,逐級通過數(shù)據(jù)接口向資源庫完成錄入[11]。控制接口如圖4所示。
圖4 控制接口
數(shù)據(jù)接口的端口能夠為信息量的控制提供自動分配服務(wù),對于不同結(jié)構(gòu)的數(shù)據(jù)和接口需要采用不同的數(shù)據(jù)端完成信息量的分化,在協(xié)議中開通不同級別的信息傳輸通道,不斷為數(shù)據(jù)挖掘下的藥學(xué)資源進(jìn)行待審核程序,直到數(shù)據(jù)進(jìn)入接口中完成物理層的傳送,經(jīng)過數(shù)據(jù)格式更改與資源類別分化進(jìn)入教育資源庫的引用層。
基于數(shù)據(jù)挖掘的藥學(xué)資源庫錄入信息量的提取需要在數(shù)據(jù)實(shí)現(xiàn)控制前完成,為藥學(xué)教育資源庫提供優(yōu)質(zhì)的錄入資源,首選確定藥學(xué)教育資源的網(wǎng)絡(luò)檢測范圍,根據(jù)網(wǎng)絡(luò)范圍內(nèi)的數(shù)據(jù)內(nèi)容設(shè)定異常流量的識別與測定,要求錄入的數(shù)據(jù)能夠達(dá)到網(wǎng)絡(luò)安全條件,在網(wǎng)絡(luò)安全地址中計算不同數(shù)據(jù)挖掘下的數(shù)據(jù)錄用前綴,規(guī)范由某個路由器納入其管理范圍,在路由器中安裝有網(wǎng)絡(luò)協(xié)議與通信協(xié)議,使藥學(xué)教育資源庫管理人員能夠隨時進(jìn)行信息識別,在教育資源庫徹底激活數(shù)據(jù)內(nèi)容前完成信息量的精準(zhǔn)提取。流量采集范圍圖如圖5所示。
圖5 流量采集范圍圖
藥學(xué)教育資源庫錄入信息量的提取還需要經(jīng)過網(wǎng)絡(luò)設(shè)備的流量采集,計算待提取數(shù)據(jù)的字節(jié)數(shù)、數(shù)據(jù)端口、IP地址等信息,利用網(wǎng)絡(luò)日志與信息行為進(jìn)行數(shù)據(jù)提取前的預(yù)處理,必須訪問教育資源庫內(nèi)的驅(qū)動程序并確定能否滿足待提取數(shù)據(jù)量內(nèi)容,若能滿足挖掘數(shù)據(jù)的傳輸則建立驅(qū)動程序完成信息的提取,若不能滿足挖掘數(shù)據(jù)的傳輸則終止信息提取的結(jié)構(gòu)組建[12]。
挖掘數(shù)據(jù)下的藥學(xué)教育資源庫錄入信息量樣式?jīng)Q定能否完成資源的正常運(yùn)用,由于數(shù)據(jù)挖掘技術(shù)自身沒有信息結(jié)構(gòu)樣式識別功能,所以需要完成數(shù)據(jù)挖掘后對信息樣式進(jìn)行安全性能的評估。一般的信息樣式分為具有漏洞風(fēng)險與無漏洞風(fēng)險,具有漏洞風(fēng)險的信息樣式又劃分為漏洞編號、漏洞名稱、嚴(yán)重程度等具體內(nèi)容的分析識別,對漏洞樣式的識別主要采用網(wǎng)絡(luò)遺傳免疫算法,在算法中引用已經(jīng)發(fā)生過的漏洞信息作為基本神經(jīng)元,在神經(jīng)元確定的情況下引用數(shù)據(jù)挖掘下的信息樣式,若神經(jīng)元與新錄用信息產(chǎn)生連接則證明此信息具有一定程度的漏洞,不能夠應(yīng)用在未來的藥學(xué)教育中,若神經(jīng)元不與信息產(chǎn)生連接則證明信息樣式不存在漏洞問題,可以以安全身份用于未來的藥學(xué)教育[13]。
數(shù)據(jù)挖掘下的藥學(xué)教育資源庫錄用信息量較為龐大,在進(jìn)行信息量儲存時需要對原本的文件擴(kuò)展,能夠適用于大數(shù)據(jù)的結(jié)合,每個文件均需要對資源內(nèi)的數(shù)據(jù)完成一次改寫任務(wù),應(yīng)用目錄生成的方式防止數(shù)據(jù)的重復(fù)性儲存,對上傳成功的數(shù)據(jù)及時進(jìn)行影像處理,再分別應(yīng)用高頻數(shù)據(jù)儲存方式、中頻數(shù)據(jù)儲存方式、低頻數(shù)據(jù)儲存方式保留挖掘數(shù)據(jù)中的副本,編輯儲存代碼節(jié)省數(shù)據(jù)讀取步驟,建立數(shù)據(jù)的智能通道使挖掘數(shù)據(jù)能夠通過中頻儲存通道中實(shí)現(xiàn)自主錄用[14]。存儲后的數(shù)據(jù)波形圖如圖6所示。
圖6 存儲后的數(shù)據(jù)波形圖
為了檢測本文提出的基于數(shù)據(jù)挖掘的藥學(xué)教育資源庫錄入信息量自動控制仿真方法的有效性,與傳統(tǒng)方法進(jìn)行對比,設(shè)定仿真實(shí)驗。
本文選用的仿真平臺為TOSSIM仿真平臺,生成的能量模型為TRACE文件,生成的信息為DEBUG信息。實(shí)驗參數(shù)如表1所示。
表1 實(shí)驗參數(shù)
根據(jù)上述參數(shù),選用本文提出的基于數(shù)據(jù)挖掘的藥學(xué)教育資源庫錄入信息量自動控制仿真方法與傳統(tǒng)的基于動態(tài)數(shù)據(jù)的藥學(xué)教育資源庫錄入信息量自動控制仿真方法,基于小波計算的藥學(xué)教育資源庫錄入信息量自動控制仿真方法進(jìn)行對比實(shí)驗,得到的錄入時間實(shí)驗結(jié)果如圖7所示。
圖7 錄入時間實(shí)驗結(jié)果
根據(jù)圖7可知,本文提出的基于數(shù)據(jù)挖掘的藥學(xué)教育資源庫錄入信息量自動控制仿真方法在10次實(shí)驗中,花費(fèi)的錄入時間始終小于傳統(tǒng)方法。本文提出的方法引入數(shù)據(jù)挖掘技術(shù),能夠在短時間內(nèi)確定數(shù)據(jù)特點(diǎn),篩選無用信息,提取有效信息。而傳統(tǒng)方法由于不具備深入挖掘能力,所以需要進(jìn)行多次分析,因此花費(fèi)的錄入時間過長。
錄入準(zhǔn)確率實(shí)驗結(jié)果如表2所示。
表2 錄入準(zhǔn)確率實(shí)驗結(jié)果
由表2可知,在10次實(shí)驗中,本文提出的仿真方法錄入準(zhǔn)確率高于傳統(tǒng)方法。本文提出的方法設(shè)定了數(shù)據(jù)庫,通過對比數(shù)據(jù)庫進(jìn)行藥學(xué)信息提取,因此準(zhǔn)確率更高,而傳統(tǒng)方法缺少比對工作,所以錄入結(jié)果的準(zhǔn)確率難以得到保障。
綜上所述,本文提出的基于數(shù)據(jù)挖掘的藥學(xué)教育資源庫錄入信息量自動控制仿真方法錄入能力要優(yōu)于傳統(tǒng)方法,更適合于實(shí)際應(yīng)用工作。
本文主要研究數(shù)據(jù)挖掘技術(shù)后的藥學(xué)教育資源庫錄入儲存控制部分,對數(shù)據(jù)傳輸過程中的相關(guān)技術(shù)進(jìn)行分析與設(shè)計,建立閾值體系規(guī)范教育資源庫的錄入標(biāo)準(zhǔn),以模型的方式設(shè)計挖掘數(shù)據(jù)進(jìn)入教育資源庫的流程與方法,再設(shè)計挖掘數(shù)據(jù)的控制實(shí)現(xiàn)步驟體現(xiàn)本文應(yīng)用方法的有效性。