摘要:隨著科技的進步,信息時代的發(fā)展,數(shù)據(jù)庫在各行各業(yè)得到了廣泛的應(yīng)用。數(shù)據(jù)庫中存儲著大量的信息,提供給人們查閱、編輯、保存等功能。如何能使數(shù)據(jù)庫信息的利用率達到最大化,對其進行快速充分的利用,逐漸成為人們研究的重點。目前數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)分析中有著舉足輕重的地位,基于此,本文主要分析數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用,以其能夠產(chǎn)生借鑒作用。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)庫 軟件工程 應(yīng)用
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2016)10-0072-01
數(shù)據(jù)挖掘技術(shù)是保證數(shù)據(jù)可靠性和安全性的重要基礎(chǔ),是提升軟件工程應(yīng)用效用的重要基底,需要引起人們的重視和關(guān)注。因此,探究當(dāng)前數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用策略,提升數(shù)據(jù)挖掘技術(shù)的應(yīng)用效能,對于軟件工程的優(yōu)化和管理來說具有深遠意義。
1 數(shù)據(jù)挖掘所涵蓋的內(nèi)容
數(shù)據(jù)挖掘的研究所涵蓋的內(nèi)容多種多樣,但是究其根本主要包括以下幾個方面:首先,開發(fā)專用數(shù)據(jù)挖掘系統(tǒng)。針對不同的處理信息任務(wù)開發(fā)出不同的數(shù)據(jù)挖掘系統(tǒng),一個完善的數(shù)據(jù)挖掘系統(tǒng)可以在不同數(shù)據(jù)庫下工作,所以開發(fā)出一個完善的數(shù)據(jù)挖掘系統(tǒng)顯得尤為重要。其次,挖掘系統(tǒng)運行算法能夠高效率運行。數(shù)據(jù)挖掘的功能是為了能夠節(jié)省時間,提高工作效率,其最主要功能的實現(xiàn)都需要建立在極快運行速度之上,這就要求數(shù)據(jù)挖掘系統(tǒng)所使用的算法必須高效率,從而使得工作時間可以被接受。第三,確保數(shù)據(jù)挖掘結(jié)果準確性、有效性。數(shù)據(jù)挖掘的結(jié)果必須達到用戶所需要的目的,相關(guān)數(shù)據(jù)按規(guī)則現(xiàn)實,不相關(guān)數(shù)據(jù)抑制顯示,相近數(shù)據(jù)提示顯示。第四,可視化的挖掘結(jié)果。所得到的數(shù)據(jù)必須清晰易懂,不需要在用任何解碼方式對其進行處理,數(shù)據(jù)挖掘的結(jié)果通過可視化的過程予以展現(xiàn)。第五,多層次數(shù)據(jù)挖掘。在數(shù)據(jù)庫中許多數(shù)據(jù)都屬于動態(tài)變化,或者是以交互的形式存在的,這就要求數(shù)據(jù)挖掘系統(tǒng)具有多層次性,動態(tài)搜索的特點才能對數(shù)據(jù)庫進行不同角度的挖掘。第六,多數(shù)據(jù)庫挖掘。許多數(shù)據(jù)庫通過Internet技術(shù)相連接起來,開發(fā)出通過Internet技術(shù)的數(shù)據(jù)挖掘方法可以在不同數(shù)據(jù)庫中挖掘出所需數(shù)據(jù)。第七,數(shù)據(jù)挖掘的安全性。網(wǎng)絡(luò)和黑客的存在,讓數(shù)據(jù)挖掘面臨著極大的風(fēng)險,所以要提高數(shù)據(jù)挖掘過程中的安全性,防止泄露個人信息,保證數(shù)據(jù)的可靠有效。
2 數(shù)據(jù)挖掘在軟件工程中的應(yīng)用
2.1 建立數(shù)據(jù)信息軟件
2.1.1 數(shù)據(jù)倉庫系統(tǒng)
數(shù)據(jù)倉庫是面向主體的、集成的、穩(wěn)定的數(shù)據(jù)集合,通過“倉庫構(gòu)建”來支持經(jīng)營管理中的決策制定過程。這一過程主要包括以下幾個階段:一是源數(shù)據(jù)階段:此階段主要是對歷史數(shù)據(jù)、當(dāng)前數(shù)據(jù)和綜合數(shù)據(jù)進行收集。二是源數(shù)據(jù)預(yù)處理階段:其主要包括關(guān)系數(shù)據(jù)庫、軟件數(shù)據(jù)文檔和其他。三是進入倉庫管理階段:主要包括數(shù)據(jù)倉庫管理工具、抽取、轉(zhuǎn)換、裝載、元數(shù)據(jù)庫和數(shù)據(jù)建模工具。四是知識基DM分析工具:分類分析工具、聚類分析工具、關(guān)聯(lián)分析工具和序列分析工具。五是可視化的軟件領(lǐng)域知識:揭示影響軟件質(zhì)量的必然因素。五個方面構(gòu)成整個數(shù)據(jù)倉庫管理系統(tǒng)。
2.1.2 數(shù)據(jù)倉庫建模
數(shù)據(jù)倉庫建模主要將已有的數(shù)據(jù)歸納一起,建立一個合理的數(shù)據(jù)資源庫。這些信息包括客戶需求信息、客戶評估信息、軟件系統(tǒng)信息、可行性研究報告。首先,需要將客戶所需要的信息進行匯總整理,從而做好系統(tǒng)功能、界面、數(shù)據(jù)等方面的確定。其次,客戶評估信息主要是應(yīng)用軟件測試,(其中包括動態(tài)測試,也包括靜態(tài)測試,形式化測試)獲得相應(yīng)的評估信息,將其與客戶所需要的信息進行匯總,權(quán)衡軟件在應(yīng)用中的質(zhì)量,從中尋找可能存在的錯誤,并對其進行修改。第三,軟件系統(tǒng)信息是軟件應(yīng)用的基礎(chǔ),其主要包括系統(tǒng)的規(guī)模、范圍、總體要求,以及所需要的支撐環(huán)境。第四,可行性報告主要指的是其是否具有運行的可行性,技術(shù)、經(jīng)濟、法律、使用是否能夠達到需要的目的。
2.2 對集成軟件信息數(shù)據(jù)倉庫進行信息挖掘
2.2.1 聚類分析發(fā)現(xiàn)
通過某些相似的需求將某一些客戶分成一組成為聚類,使客戶的信息更容易被開發(fā)人員了解,以便于提供更高服務(wù)水平,和滿意的服務(wù)。將某些客戶聚類為一組,可以專門為其要求開發(fā)出具有特別功能的軟件,通過聚類分析,可以對客戶的軟件應(yīng)用情況進行有甄別性的觀察,從而讓軟件達到一種很好的使用效果。
2.2.2 分類分析的發(fā)現(xiàn)
與聚類完全不同,分類分析是通過已經(jīng)標記的特點進行數(shù)據(jù)分類。分類就是為了通過記錄表現(xiàn)來方便的描述這一類數(shù)據(jù)所具有的特點。分類分析主要應(yīng)用于決策樹、神經(jīng)網(wǎng)絡(luò)和徑向基礎(chǔ)函數(shù)等軟件中。分類分析的結(jié)果可讓我們在數(shù)據(jù)庫的設(shè)計過程中更有針對性,可以通過軟件對所應(yīng)對的客戶進行屬性劃分,針對不同的客戶提供不同的服務(wù)或者保護。
2.2.3 序列分析的發(fā)現(xiàn)
序列分析是完全獨立的一種分析算法,其區(qū)別于以上兩種算法。這類算法主要是根據(jù)數(shù)據(jù)的序列或者事件進行檢測。由于不同的客戶要求同一軟件為其提供的功能一般不同,因此,軟件分析人員就可將客戶按其所傾向需求的功能模式進行分類。例如當(dāng)客戶使用到某一軟件的特定功能時,檢索功能就會根據(jù)計算機用戶的需求進行提示,詢問是否按照計算機算法分析出的需求來進行下一步的搜索操作。
3 結(jié)語
數(shù)據(jù)挖掘技術(shù)在軟件開發(fā)過程中有著廣泛的應(yīng)用前景,但是國內(nèi)對此技術(shù)的研究僅僅在理論研究階段,需要通過對其深化讓其發(fā)揮更大的價值。只有不斷探索研究,才能夠讓數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用變得更加成熟可靠,并在更加廣泛的其他領(lǐng)域中得到更加優(yōu)異的表現(xiàn)。
參考文獻
[1]馬保平.關(guān)于對軟件工程中的數(shù)據(jù)挖掘技術(shù)的探討[J].電子技術(shù)與軟件工程,2015,19:196-197.
[2]徐賜發(fā).數(shù)據(jù)挖掘在軟件工程領(lǐng)域中的應(yīng)用淺析[J].電子技術(shù)與軟件工程,2014,19:206.
收稿日期:2016-08-12
作者簡介:孫曉迎(1987—),女,漢,山東龍口人,大學(xué)本科,中級,研究方向:工程類。