• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設(shè)計

      2018-01-20 18:46:01趙逸智張云峰
      現(xiàn)代電子技術(shù) 2018年1期
      關(guān)鍵詞:質(zhì)數(shù)數(shù)據(jù)挖掘矩陣

      趙逸智+張云峰

      摘 要: 傳統(tǒng)文本信息挖掘技術(shù)系統(tǒng)能夠?qū)ξ谋拘畔⑦M(jìn)行系統(tǒng)的信息挖掘,但是在大數(shù)據(jù)環(huán)境下容易產(chǎn)生系統(tǒng)的數(shù)據(jù)識別亂碼以及數(shù)據(jù)干擾。針對上述問題,提出一種大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設(shè)計方案,在系統(tǒng)的硬件設(shè)備上增加數(shù)據(jù)簡化器,通過數(shù)據(jù)簡化器能夠?qū)?shù)據(jù)進(jìn)行一定的過濾篩選,保證數(shù)據(jù)進(jìn)入識別階段的準(zhǔn)確率,同時促進(jìn)了數(shù)據(jù)挖掘過程的效率,對文本信息挖掘的過程使用質(zhì)數(shù)矩陣模型,通過建立的質(zhì)數(shù)矩陣模型能夠有效地對文本信息進(jìn)行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法,保證了對文本信息的優(yōu)先識別度,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。為了驗證設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性,設(shè)計了對比仿真實驗,通過實驗數(shù)據(jù)的分析,有效地證明了設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。

      關(guān)鍵詞: 大數(shù)據(jù)環(huán)境; 文本信息; 關(guān)聯(lián)密度; Aprioirt計算方法; 挖掘系統(tǒng)

      中圖分類號: TN911.1?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2018)01?0125?04

      Abstract: The traditional text information mining technology system can carry out the systematic information mining for text information, but is easy to generate the data identification messy code of the system and data interference in the big data environment. Aiming at these problems, a design scheme of text information mining system in big data environment is put forward. The data reducer is added on the hardware device of the system, which can filter the data, ensure the accuracy of data entered into the recognition stage, and improve the efficiency of data mining. The prime number matrix model is used in the process of information mining to mine the text information deeply. The Aprioirt computing method is optimized to ensure the priority recognition of text information, avoid the data chaos and data interference of the traditional method. In order to verify the effectiveness of text information mining system in large data environment, the contrast simulation experiment was designed. The experimental data verifies that the text information mining system in large data environment is effective, and can avoid the data chaos and data interference of the traditional methods.

      Keywords: big data environment; text information; correlation density; Aprioirt computing method; mining system

      0 引 言

      伴隨互聯(lián)網(wǎng)時代的快速崛起,互聯(lián)網(wǎng)的數(shù)據(jù)信息已經(jīng)用海量來比擬[1?2]。隨著信息儲量的不斷增加,對信息進(jìn)行系統(tǒng)挖掘能夠發(fā)現(xiàn)數(shù)據(jù)信息中的隱藏數(shù)據(jù)和潛在有價值的數(shù)據(jù)[3?4]。這樣可以最大程度上的使用數(shù)據(jù)信息[5?6]?;ヂ?lián)網(wǎng)環(huán)境下的數(shù)據(jù)傳輸方式都是以壓縮的形式進(jìn)行傳遞,在大數(shù)據(jù)的環(huán)境下,文本信息是傳輸?shù)闹黧w,能夠占據(jù)大數(shù)據(jù)信息的[13]以上[7?8]。對文本信息的挖掘技術(shù)關(guān)系到文本數(shù)據(jù)的使用率和利用率[9]。傳統(tǒng)的文本信息挖掘技術(shù),對文本數(shù)據(jù)的挖掘面較窄,同時挖掘深度有限,無法挖掘出文本信息中潛在的有價值的信息內(nèi)容[10]。最主要的問題是在大數(shù)據(jù)的環(huán)境下進(jìn)行文本數(shù)據(jù)的挖掘,對數(shù)據(jù)信息的識別能力是一種嚴(yán)格的考驗,特別是在數(shù)據(jù)類型比較混亂、復(fù)雜的情況下,能夠有效的進(jìn)行數(shù)據(jù)識別是關(guān)鍵。

      針對上述問題,本文設(shè)計了一款大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)。在系統(tǒng)的硬件設(shè)備上增加了數(shù)據(jù)簡化器,保證了數(shù)據(jù)進(jìn)入識別階段的準(zhǔn)確率,同時促進(jìn)了數(shù)據(jù)挖掘過程的效率,對文本信息挖掘的過程使用的是質(zhì)數(shù)矩陣模型,通過建立的質(zhì)數(shù)矩陣模型能夠有效地對文本信息進(jìn)行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法,保證對文本信息的優(yōu)先識別度,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。

      本文設(shè)計了對比仿真實驗,把傳統(tǒng)的文本信息挖掘系統(tǒng)與本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)相比較,無論是在魯棒性還是在挖掘深度上都比傳統(tǒng)的文本挖掘系統(tǒng)強(qiáng)很多。因此,有效地證明了本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠進(jìn)行準(zhǔn)確的文本挖掘。endprint

      1 文本信息挖掘系統(tǒng)設(shè)計方案

      本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)在硬件上進(jìn)行了一定的優(yōu)化,增加了數(shù)據(jù)簡化器,能夠保證在大數(shù)據(jù)的環(huán)境下,本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠有效地對數(shù)據(jù)進(jìn)行系統(tǒng)識別,由于傳統(tǒng)的文本數(shù)據(jù)挖掘系統(tǒng)容易出現(xiàn)數(shù)據(jù)混亂以及數(shù)據(jù)干擾,因此,本文使用質(zhì)數(shù)矩陣數(shù)據(jù)模型對文本信息進(jìn)行深層的數(shù)據(jù)挖掘,同時還優(yōu)化了Aprioirt計算方法,避免出現(xiàn)數(shù)據(jù)混亂以及數(shù)據(jù)干擾的問題,有效地保證了文本信息挖掘過程的準(zhǔn)確性。文本信息挖掘的流程圖如圖1所示。

      2 硬件設(shè)計

      本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)是在大數(shù)據(jù)的環(huán)境下進(jìn)行使用的,因此本文給系統(tǒng)增加了數(shù)據(jù)簡化器,方便在大數(shù)據(jù)環(huán)境下進(jìn)行文本信息挖掘。本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)主要包括:數(shù)據(jù)引擎、數(shù)據(jù)簡化器、數(shù)據(jù)篩選器、內(nèi)核運(yùn)算器、顯示模塊、控制電路、預(yù)備電源等。本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)硬件結(jié)構(gòu)圖,如圖2所示。

      3 軟件設(shè)計

      3.1 挖掘模型的建立

      本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)使用質(zhì)數(shù)矩陣模型進(jìn)行文本信息有效挖掘,為了保證質(zhì)數(shù)矩陣模型能夠在數(shù)據(jù)關(guān)聯(lián)過程的準(zhǔn)確性,需要進(jìn)行關(guān)聯(lián)回歸關(guān)系檢測,可表示為:

      [STx=UminKTx+UminUminG2max+nΔt=UminUminG2max+ndG2max] (1)

      式中:[STx]表示文本信息的回歸關(guān)系熵值;[Umin]表示質(zhì)數(shù)關(guān)聯(lián)度的使用系數(shù);[KTx]表示回歸關(guān)聯(lián)方程的預(yù)設(shè)參數(shù),能夠反映模型所需的參數(shù)量;[G2max]表示最大數(shù)據(jù)環(huán)境下的關(guān)聯(lián)密度參數(shù);[Δt]表示變化預(yù)測數(shù)據(jù)的使用值。確定關(guān)聯(lián)性以后需要進(jìn)行聚類內(nèi)核的控制計算,公式為:

      [Hij=-O2iTij+LiLjBijcos?ij-Mijsin?ij] (2)

      式中:[Hij]表示文本內(nèi)核聚類比擬參數(shù);[-O2i]表示大數(shù)據(jù)的文本參照系數(shù);[Li,][Lj]分別表示內(nèi)置文本數(shù)據(jù)的標(biāo)注碼、內(nèi)置文本數(shù)據(jù)的識別參數(shù);[Bij]表示參照的質(zhì)數(shù)的分量比值;[?ij]表示大數(shù)據(jù)中文本數(shù)據(jù)的包含量;[Mij]表示文本數(shù)據(jù)的屬性辨別參數(shù)。這樣便可以進(jìn)行質(zhì)數(shù)矩陣模型的建立,公式如下:

      [E=cnabKTx-KTjd?ij+cnabQ±L2j-G2max2PdG2max] (3)

      質(zhì)數(shù)矩陣模型不能夠進(jìn)行直接的使用,需要進(jìn)行使用條件的限定。限定條件[fabcn]用公式表示為:

      [fabcn=L2ijG-LiLjBijcos?ij-G2maxsin?ij-P2ij] (4)

      經(jīng)過上述的條件限定完成了質(zhì)數(shù)矩陣模型的建立。

      3.2 優(yōu)化Aprioirt計算方法

      本文對Aprioirt計算方法進(jìn)行優(yōu)化,主要目的是在文本信息挖掘過程中避免數(shù)據(jù)的干擾以及數(shù)據(jù)的混亂,完成數(shù)據(jù)挖掘。本文優(yōu)化的Aprioirt計算方法能夠在大數(shù)據(jù)的環(huán)境下進(jìn)行數(shù)據(jù)信道分類,改變傳統(tǒng)運(yùn)算方式,這樣能夠更好地在大數(shù)據(jù)環(huán)境下進(jìn)行識別分類,根據(jù)優(yōu)化后的Aprioirt計算方法,首先需要進(jìn)行信道優(yōu)化,公式為:

      [minE1=a1+a2+a3=KG] (5)

      式中:[a1,][a2,][a3]分別表示分區(qū)信道過程中的有效屬性值、有效系統(tǒng)參量、挖掘模型的識別邊距;[KG]表示大數(shù)據(jù)環(huán)境下的信道編輯程度。由于本文設(shè)計的挖掘模型使用的是質(zhì)數(shù)排列,因此需要對數(shù)列編輯進(jìn)行重新組序,用公式表示為:

      [ZJ=?2N?u?v=i=1neScos2.75?ijeι2i2] (6)

      式中: [ZJ]表示質(zhì)數(shù)數(shù)列的邏輯有效值;[?ij]表示數(shù)列抗偶集的參量值;[?2N]表示預(yù)計能夠發(fā)生數(shù)列畸變的參數(shù)轉(zhuǎn)換系數(shù);[eι2i2]表示隨機(jī)本文數(shù)據(jù)的屬性有效值;[?u?v]表示設(shè)計的挖掘模型的閾代關(guān)聯(lián)系數(shù)。經(jīng)過上述計算便可以進(jìn)行Aprioirt計算,其計算過程為:

      [AE=m2aa+b+m2a?c2m2a+a+ba+b+m2a?aa+b] (7)

      式中:[AE]表示進(jìn)行Aprioirt計算過程中使用的參數(shù),一般是在[100,240]值域范圍內(nèi);[c2]表示文本信息數(shù)據(jù)的屬性穩(wěn)定性,不同類型的數(shù)據(jù)具有不同的穩(wěn)定性,針對屬性進(jìn)行篩選能夠提高對文本信息挖掘的能力; [m2a]表示文本信息數(shù)據(jù)蘊(yùn)含的信息量。

      4 仿真實驗分析

      4.1 參數(shù)設(shè)定

      為保證設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的有效性,對參數(shù)進(jìn)行設(shè)置,[STx]文本信息的回歸關(guān)系熵值在[78.65,85.2]值域范圍之內(nèi);設(shè)置回歸關(guān)聯(lián)方程的預(yù)設(shè)參數(shù)[KTx]為9.6;為了保證大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)能夠更準(zhǔn)確地對文本數(shù)據(jù)進(jìn)行挖掘,設(shè)置[E2ab,][?2N,][eι2i2,][a1]分別為90.25,550,50.69,100。

      設(shè)置實驗參數(shù)如表1所示。

      評價挖掘系統(tǒng)的指標(biāo)主要有系統(tǒng)穩(wěn)定性、結(jié)構(gòu)數(shù)據(jù)辨識量差兩種。

      系統(tǒng)穩(wěn)定性:

      [P=MNan,m?a1n,mMNfn,m2?MNa1n,mb2] (8)

      數(shù)據(jù)辨識量差:

      [?=H-Dm-V2>0] (9)

      根據(jù)上述仿真設(shè)定的參數(shù)進(jìn)行實驗,結(jié)果如下。

      4.2 結(jié)果分析

      在實驗過程中,對傳統(tǒng)挖掘系統(tǒng)與本文設(shè)計的挖掘系統(tǒng)的實驗結(jié)果進(jìn)行記錄,如表2,圖3,圖4所示。

      分析表2結(jié)果得知,本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng),其系統(tǒng)穩(wěn)定性比傳統(tǒng)的挖掘系統(tǒng)高出1.86,說明本文設(shè)計的挖掘系統(tǒng)穩(wěn)定性更好,數(shù)據(jù)辨識量差是衡量挖掘系統(tǒng)有效性的指標(biāo),本文設(shè)計的挖掘系統(tǒng)比傳統(tǒng)的挖掘系統(tǒng)高出5.5%,說明本文設(shè)計的挖掘系統(tǒng)更加有效。endprint

      分析圖3結(jié)果得知,本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)的挖掘準(zhǔn)確率明顯高于傳統(tǒng)的挖掘系統(tǒng),同時可以有效避免數(shù)據(jù)干擾以及數(shù)據(jù)擾亂現(xiàn)象。

      分析圖4結(jié)果得知,本文設(shè)計的大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)對文本信息進(jìn)行挖掘的時間明顯小于傳統(tǒng)的挖掘系統(tǒng)。

      5 結(jié) 語

      本文提出大數(shù)據(jù)環(huán)境下文本信息挖掘系統(tǒng)設(shè)計方案,在系統(tǒng)的硬件設(shè)備上增加了數(shù)據(jù)簡化器,通過數(shù)據(jù)簡化器能夠?qū)?shù)據(jù)進(jìn)行一定的過濾篩選,保證數(shù)據(jù)進(jìn)入識別階段的準(zhǔn)確率,同時促進(jìn)了數(shù)據(jù)挖掘過程的效率,對文本信息挖掘的過程使用質(zhì)數(shù)矩陣模型,通過建立的質(zhì)數(shù)矩陣模型能夠有效地對文本信息進(jìn)行深層次的挖掘。同時優(yōu)化了Aprioirt計算方法,保證了對文本信息的優(yōu)先識別度,避免了傳統(tǒng)方法中出現(xiàn)的數(shù)據(jù)混亂以及數(shù)據(jù)干擾問題。通過本文的研究希望能夠促進(jìn)文本信息挖掘系統(tǒng)的發(fā)展。

      參考文獻(xiàn)

      [1] 郜凱英,楊宜勇.中國互聯(lián)網(wǎng)+社會保障信息系統(tǒng)構(gòu)建:基于大數(shù)據(jù)挖掘視角[J].經(jīng)濟(jì)與管理研究,2016,37(5):83?89.

      GAO Kaiying, YANG Yiyong. Building of an Internet+social security informatization system in china?from perspective of big data mining [J]. Research on economics and management, 2016, 37(5): 83?89.

      [2] 李寧,羅文娟,莊福振,等.基于MapReduce的并行PLSA算法及在文本挖掘中的應(yīng)用[J].中文信息學(xué)報,2015,29(2):79?86.

      LI Ning, LUO Wenjuan, ZHUANG Fuzhen, et al. MapReduce based parallel probabilistic latent semantic analysis for text mining [J]. Journal of Chinese Information Processing, 2015, 29(2): 79?86.

      [3] 葛巖,趙海,秦裕林,等.國家、地區(qū)媒體形象的數(shù)據(jù)挖掘:基于認(rèn)知心理學(xué)與計算機(jī)自然語言處理技術(shù)的視角[J].學(xué)術(shù)月刊,2015(7):163?170.

      GE Yan, ZHAO Hai, QIN Yulin, et al. Data mining of national and regional media images: from the perspective of cognitive psychology and computer natural language processing technology [J]. Academic monthly, 2015(7): 163?170.

      [4] 周勇.大數(shù)據(jù)驅(qū)動下的視頻內(nèi)容生產(chǎn)模式探索:解析騰訊《事實說》節(jié)目的創(chuàng)新實踐[J].新聞與寫作,2015(5):14?17.

      ZHOU Yong. Exploration of video content production model driven by big data: analysis of the innovation practice of Tencent′s Fact program [J]. News and writing, 2015(5): 14?17.

      [5] 江波,王鄂生,孫巍.面向大數(shù)據(jù)知識服務(wù)的數(shù)字資源聚合與行業(yè)數(shù)字內(nèi)容運(yùn)營平臺建設(shè)路徑分析[J].科技與出版,2016(12):80?83.

      JIANG Bo, WANG Esheng, SUN Wei. Analysis of digital resource aggregation and industry digital content operation platform construction for big data knowledge service [J]. Science?technology & publication, 2016(12): 80?83.

      [6] 楊張博,高山行.基于文本挖掘和語義網(wǎng)絡(luò)方法的戰(zhàn)略導(dǎo)向交互現(xiàn)象研究:以生物技術(shù)企業(yè)為例[J].科學(xué)學(xué)與科學(xué)技術(shù)管理,2015,36(1):139?150.

      YANG Zhangbo, GAO Shanxing. Study on interactive pattern of strategic orientations based on text mining and semantic networks: case study of biotechnology firms [J]. Science of science and management of S. & T., 2015, 36(1): 139?150.

      [7] 王末,王卷樂,赫運(yùn)濤.地學(xué)數(shù)據(jù)共享網(wǎng)用戶Web行為預(yù)測及數(shù)據(jù)推薦方法[J].地球信息科學(xué)學(xué)報,2017,19(5):595?604.

      WANG Mo, WANG Juanle, HE Yuntao. An approach for prediction of Web user behavior and data recommendation for geoscience data sharing portals [J]. Journal of geo?information science, 2017, 19(5): 595?604.

      [8] 鄭祥江,殷明均.大數(shù)據(jù)視域下高校教學(xué)管理信息系統(tǒng)建設(shè)研究:以西南科技大學(xué)教學(xué)管理信息化建設(shè)為例[J].黑龍江高教研究,2015(1):50?52.

      ZHENG Xiangjiang, YIN Mingjun. The research on the tea?ching activities management system (TAMS) of higher education institutions under "big data": based on the TAM of Southwest University of Science and Technology [J]. Heilongjiang researches on higher education, 2015(1): 50?52.

      [9] 李慧娟.大數(shù)據(jù)食物鏈、信息聚類系統(tǒng)、定制解決方案:湯森路透商業(yè)模式比較分析[J].編輯之友,2015(2):79?84.

      LI Huijuan. Big data chain, information cluster system and customized solutions: a comparative analysis on the business model of Thomson Reuters [J]. Editors′ friend, 2015(2): 79?84.

      [10] 徐迭石,劉勝輝,馬超,等.大數(shù)據(jù)環(huán)境下MES作業(yè)計劃與調(diào)度能力云服務(wù)化研究[J].計算機(jī)工程與科學(xué),2016,38(4):624?633.

      XU Dieshi, LIU Shenghui, MA Chao, et al. A cloud servitization method for job shop scheduling capability of MES in big data environment [J]. Computer engineering and science, 2016, 38(4): 624?633.endprint

      猜你喜歡
      質(zhì)數(shù)數(shù)據(jù)挖掘矩陣
      生活中的質(zhì)數(shù)
      奇妙的質(zhì)數(shù)約定
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      初等行變換與初等列變換并用求逆矩陣
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      矩陣
      南都周刊(2015年4期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年3期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年1期)2015-09-10 07:22:44
      巧記質(zhì)數(shù)
      张家口市| 晋江市| 金阳县| 新兴县| 湖口县| 大邑县| 广丰县| 靖宇县| 三穗县| 怀仁县| 澄迈县| 瓦房店市| 米泉市| 闽侯县| 墨玉县| 清原| 皮山县| 靖边县| 屏东市| 高州市| 龙海市| 苗栗市| 塔城市| 永城市| 湘阴县| 阿鲁科尔沁旗| 白河县| 宁津县| 连云港市| 肥东县| 铁岭市| 青浦区| 罗江县| 太白县| 荆州市| 沾益县| 辉县市| 开江县| 江川县| 葵青区| 静乐县|