李 濤,曾春秋,周武柏,周綺鳳,鄭 理
1. 南京郵電大學(xué)計(jì)算機(jī)學(xué)院 南京 210023;2. 美國(guó)佛羅里達(dá)國(guó)際大學(xué) 邁阿密 33199;3. 廈門大學(xué)自動(dòng)化系 廈門 361005
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘
——從應(yīng)用的角度看大數(shù)據(jù)挖掘
李 濤1,2,曾春秋1,2,周武柏1,2,周綺鳳3,鄭 理1,2
1. 南京郵電大學(xué)計(jì)算機(jī)學(xué)院 南京 210023;2. 美國(guó)佛羅里達(dá)國(guó)際大學(xué) 邁阿密 33199;3. 廈門大學(xué)自動(dòng)化系 廈門 361005
介紹了大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘的特點(diǎn)、任務(wù)及難點(diǎn),分析了大數(shù)據(jù)挖掘的核心架構(gòu),提出大數(shù)據(jù)的核心和本質(zhì),即應(yīng)用、算法、數(shù)據(jù)和平臺(tái)4個(gè)要素的有機(jī)結(jié)合。在此基礎(chǔ)上介紹了本團(tuán)隊(duì)研究設(shè)計(jì)的大數(shù)據(jù)挖掘系統(tǒng)FIU-Miner。該系統(tǒng)是一個(gè)用戶友好并支持在分布式環(huán)境中進(jìn)行高效率計(jì)算和算法快速集成的數(shù)據(jù)挖掘系統(tǒng)平臺(tái),使得數(shù)據(jù)分析人員能夠快速有效地進(jìn)行各類數(shù)據(jù)挖掘任務(wù)。最后,介紹了基于FIU-Miner的3個(gè)典型的成功應(yīng)用案例:高端制造業(yè)數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和商務(wù)智能數(shù)據(jù)挖掘。
大數(shù)據(jù);數(shù)據(jù)挖掘;FIU-Miner;高端制造業(yè);空間數(shù)據(jù)挖掘;商務(wù)智能
大數(shù)據(jù)(big data)一詞經(jīng)常被用以描述和指代信息爆炸時(shí)代產(chǎn)生的海量信息。研究大數(shù)據(jù)的意義在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的聯(lián)系。研究大數(shù)據(jù)首先要理清和了解大數(shù)據(jù)的特點(diǎn)及基本概念,進(jìn)而理解和認(rèn)識(shí)大數(shù)據(jù)。
1.1 大數(shù)據(jù)的特點(diǎn)“4V+4V”
從數(shù)據(jù)的表現(xiàn)形式看,業(yè)界普遍認(rèn)為大數(shù)據(jù)具有如下的“4V”特點(diǎn)[1]。
· volume(大量):數(shù)據(jù)體量巨大,從TB級(jí)別躍升到PB級(jí)別。
· variety(多樣):數(shù)據(jù)類型繁多,如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。
· velocity(高速):處理速度快,實(shí)時(shí)分析,這也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)的本質(zhì)上的不同。
· value(價(jià)值):價(jià)值密度低,蘊(yùn)含有效價(jià)值高,合理利用低密度價(jià)值的數(shù)據(jù)并對(duì)其進(jìn)行正確、準(zhǔn)確的分析,將會(huì)帶來巨大的商業(yè)和社會(huì)價(jià)值。
上述“4V”特點(diǎn)描述了大數(shù)據(jù)與以往部分抽樣的“小數(shù)據(jù)”的主要區(qū)別。然而,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)的唯一途徑。從實(shí)際應(yīng)用和大數(shù)據(jù)處理的復(fù)雜性看,大數(shù)據(jù)還具有如下新的“4V”特點(diǎn)。
· variable(變化性):在不同的場(chǎng)景、不同的研究目標(biāo)下數(shù)據(jù)的結(jié)構(gòu)和意義可能會(huì)發(fā)生變化,因此,在實(shí)際研究中要考慮具體的上下文場(chǎng)景。
· veracity(真實(shí)性):獲取真實(shí)、可靠的數(shù)據(jù)是保證分析結(jié)果準(zhǔn)確、有效的前提。只有真實(shí)而準(zhǔn)確的數(shù)據(jù)才能獲取真正有意義的結(jié)果。
· volatility(波動(dòng)性):由于數(shù)據(jù)本身含有噪音及分析流程的不規(guī)范性,導(dǎo)致采用不同的算法或不同分析過程與手段會(huì)得到不穩(wěn)定的分析結(jié)果。
· visualization(可視化):在大數(shù)據(jù)環(huán)境下,通過數(shù)據(jù)可視化可以更加直觀地闡釋數(shù)據(jù)的意義,幫助理解數(shù)據(jù),解釋結(jié)果。
1.2 對(duì)大數(shù)據(jù)的理解
國(guó)內(nèi)外不同的專家和學(xué)者對(duì)大數(shù)據(jù)有不同的理解,中國(guó)科學(xué)院計(jì)算技術(shù)研究所李國(guó)杰院士認(rèn)為:大數(shù)據(jù)就是“海量數(shù)據(jù)”加“復(fù)雜數(shù)據(jù)類型”[2]。維基百科對(duì)大數(shù)據(jù)的定義是:“大數(shù)據(jù)是由于規(guī)模、復(fù)雜性、實(shí)時(shí)性而導(dǎo)致的使之無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其進(jìn)行獲取、存貯、搜索、分享、分析、可視化的數(shù)據(jù)集合”1https:// en.wikipedia.org/ wiki/Big_data。Gartner咨詢公司給出的定義是:“大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)”2http://www. gartner.com/itglossary/bigdata。而互聯(lián)網(wǎng)數(shù)據(jù)中心將大數(shù)據(jù)定義為:“為更經(jīng)濟(jì)地從高頻率、大容量、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值而設(shè)計(jì)的新一代架構(gòu)和技術(shù)”3https://www. idc.com/ prodserv/ 4Pillars/ bigdata。
結(jié)合上述大數(shù)據(jù)的“8V”特征,筆者認(rèn)為大數(shù)據(jù)的核心和本質(zhì)是應(yīng)用、算法、數(shù)據(jù)和平臺(tái)4個(gè)要素的有機(jī)結(jié)合,如圖1所示。大數(shù)據(jù)是應(yīng)用驅(qū)動(dòng)的,大數(shù)據(jù)來源于實(shí)踐,海量數(shù)據(jù)產(chǎn)生于實(shí)際應(yīng)用中。
圖1 大數(shù)據(jù)架構(gòu)
數(shù)據(jù)挖掘源于實(shí)踐中的實(shí)際應(yīng)用需求,用具體的應(yīng)用數(shù)據(jù)作為驅(qū)動(dòng),以算法、工具和平臺(tái)作為支撐,最終將發(fā)現(xiàn)的知識(shí)和信息用到實(shí)踐中去,從而提供量化、合理、可行、能夠產(chǎn)生巨大價(jià)值的信息。另外,挖掘大數(shù)據(jù)所蘊(yùn)含的有用信息,需要設(shè)計(jì)和開發(fā)相應(yīng)的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法。算法的設(shè)計(jì)和開發(fā)要以具體的應(yīng)用數(shù)據(jù)為驅(qū)動(dòng),同時(shí)也要在實(shí)際問題中得到應(yīng)用和驗(yàn)證,而算法的實(shí)現(xiàn)與應(yīng)用需要高效的處理平臺(tái)。高效的處理平臺(tái)需要有效地分析海量的數(shù)據(jù)及對(duì)多源數(shù)據(jù)進(jìn)行集成,同時(shí)有力支持?jǐn)?shù)據(jù)挖掘算法以及數(shù)據(jù)可視化的執(zhí)行,并對(duì)數(shù)據(jù)分析的流程進(jìn)行規(guī)范??偠灾?,這個(gè)應(yīng)用、算法、數(shù)據(jù)和平臺(tái)相結(jié)合的思想是對(duì)上述大數(shù)據(jù)的理解和認(rèn)識(shí)的一個(gè)綜合與凝練,體現(xiàn)了大數(shù)據(jù)的本質(zhì)和核心。建立在此架構(gòu)上的大數(shù)據(jù)挖掘,能夠有效處理大數(shù)據(jù)的復(fù)雜特征,挖掘大數(shù)據(jù)的價(jià)值。
本文在此框架下,從應(yīng)用的角度探討了大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘的機(jī)遇與挑戰(zhàn),介紹了研究團(tuán)隊(duì)開發(fā)的大數(shù)據(jù)挖掘平臺(tái)FIU-Miner以及成功應(yīng)用該平臺(tái)實(shí)現(xiàn)的高端制造業(yè)數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和商務(wù)智能3個(gè)大型、復(fù)雜數(shù)據(jù)挖掘案例。
2.1 數(shù)據(jù)挖掘
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的產(chǎn)生和收集是基礎(chǔ),數(shù)據(jù)挖掘是關(guān)鍵。數(shù)據(jù)挖掘是大數(shù)據(jù)中最關(guān)鍵也最有價(jià)值的工作。通常,數(shù)據(jù)挖掘或知識(shí)發(fā)現(xiàn)泛指從大量數(shù)據(jù)中挖掘出隱含的、先前未知但潛在的有用信息和模式的一個(gè)工程化和系統(tǒng)化的過程。數(shù)據(jù)挖據(jù)可以用以下4個(gè)特性概括[3]。
(1)應(yīng)用性:數(shù)據(jù)挖掘是理論算法和應(yīng)用實(shí)踐的完美結(jié)合。數(shù)據(jù)挖掘源于實(shí)際生產(chǎn)生活中應(yīng)用的需求,挖掘的數(shù)據(jù)來自于具體應(yīng)用,同時(shí)通過數(shù)據(jù)挖掘發(fā)現(xiàn)的知識(shí)又要運(yùn)用到實(shí)踐中去,輔助實(shí)際決策。所以,數(shù)據(jù)挖掘來自于應(yīng)用實(shí)踐,同時(shí)也服務(wù)于應(yīng)用實(shí)踐。
(2)工程性:數(shù)據(jù)挖掘是一個(gè)由多個(gè)步驟組成的工程化過程。數(shù)據(jù)挖掘的應(yīng)用特性決定了數(shù)據(jù)挖掘不僅僅是算法分析和應(yīng)用,而是一個(gè)包含數(shù)據(jù)準(zhǔn)備和管理、數(shù)據(jù)預(yù)處理和轉(zhuǎn)換、挖掘算法開發(fā)和應(yīng)用、結(jié)果展示和驗(yàn)證以及知識(shí)積累和使用的完整過程。而且在實(shí)際應(yīng)用中,典型的數(shù)據(jù)挖掘過程還是一個(gè)交互和循環(huán)的過程。
(3)集合性:數(shù)據(jù)挖掘是多種功能的集合。常用的數(shù)據(jù)挖掘功能包括數(shù)據(jù)探索分析、關(guān)聯(lián)規(guī)則挖掘、時(shí)間序列模式挖掘、分類預(yù)測(cè)、聚類分析、異常檢測(cè)、數(shù)據(jù)可視化和鏈接分析等。一個(gè)具體的應(yīng)用案例往往涉及多個(gè)不同的功能。不同的功能通常有不同的理論和技術(shù)基礎(chǔ),而且每一個(gè)功能都有不同的算法支撐。
(4)交叉性:數(shù)據(jù)挖掘是一個(gè)交叉學(xué)科,它利用了來自統(tǒng)計(jì)分析、模式識(shí)別、機(jī)器學(xué)習(xí)、人工智能、信息檢索、數(shù)據(jù)庫等諸多不同領(lǐng)域的研究成果和學(xué)術(shù)思想。同時(shí),一些其他領(lǐng)域如隨機(jī)算法、信息論、可視化、分布式計(jì)算和最優(yōu)化也對(duì)數(shù)據(jù)挖掘的發(fā)展起到重要的作用。數(shù)據(jù)挖掘與這些相關(guān)領(lǐng)域的區(qū)別可以由前面提到的數(shù)據(jù)挖掘的3個(gè)特性來總結(jié),最重要的是它更側(cè)重于應(yīng)用。
具體而言,實(shí)際應(yīng)用的需求是數(shù)據(jù)挖掘領(lǐng)域很多方法提出和發(fā)展的根源。從最開始的顧客交易數(shù)據(jù)分析(market basket analysis)、多媒體數(shù)據(jù)挖掘(multimedia data mining)、隱私保護(hù)數(shù)據(jù)挖掘(privacy-preserving data mining)到文本數(shù)據(jù)挖掘(text mining)和 Web 挖掘(Web mining),再到社交媒體挖掘(social media mining)都是由應(yīng)用推動(dòng)的。工程性和集合性決定了數(shù)據(jù)挖掘研究?jī)?nèi)容和方向的廣泛性。其中,工程性使得整個(gè)研究過程里的不同步驟都屬于數(shù)據(jù)挖掘的研究范疇。而集合性使得數(shù)據(jù)挖掘有多種不同的功能,而如何將多種功能聯(lián)系和結(jié)合起來,從一定程度上影響了數(shù)據(jù)挖掘研究方法的發(fā)展。比如,20世紀(jì)90年代中期,數(shù)據(jù)挖掘的研究主要集中在關(guān)聯(lián)規(guī)則和時(shí)間序列模式的挖掘。到20世紀(jì)90年代末,研究人員開始研究基于關(guān)聯(lián)規(guī)則和時(shí)間序列模式的分類算法(如classification based on association),將兩種不同的數(shù)據(jù)挖掘功能有機(jī)地結(jié)合起來。21世紀(jì)初,一個(gè)研究的熱點(diǎn)是半監(jiān)督學(xué)習(xí)(semisupervised learning)和半監(jiān)督聚類(semi-supervised clustering),也是將分類和聚類這兩種功能有機(jī)結(jié)合起來。近年來的一些其他研究方向如子空間聚類(subspace clustering)(特征抽取和聚類的結(jié)合)和圖分類(graph classification)(圖挖掘和分類的結(jié)合)也是將多種功能聯(lián)系和結(jié)合在一起。最后,交叉性導(dǎo)致了研究思路和方法設(shè)計(jì)的多樣化。
2.2 從數(shù)據(jù)挖掘應(yīng)用的角度看大數(shù)據(jù)
大數(shù)據(jù)是現(xiàn)象,核心是要挖掘數(shù)據(jù)的價(jià)值。結(jié)合數(shù)據(jù)挖掘的各種特性,尤其是其應(yīng)用性,從應(yīng)用業(yè)務(wù)的角度對(duì)大數(shù)據(jù)提出如下兩點(diǎn)的認(rèn)識(shí)[3]。
首先,大數(shù)據(jù)是“一把手工程”。在一個(gè)企業(yè)里,大數(shù)據(jù)通常涉及多個(gè)業(yè)務(wù)部門,業(yè)務(wù)邏輯復(fù)雜。一方面,要對(duì)大數(shù)據(jù)進(jìn)行收集和整合,需要業(yè)務(wù)部門的配合和溝通以及業(yè)務(wù)人員的大力參與,這些需要企業(yè)決策人員的重視和認(rèn)可,提供必要的資源調(diào)配和支持。另一方面,要對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行驗(yàn)證和運(yùn)用,更離不開相關(guān)人員的決策。數(shù)據(jù)挖掘的結(jié)果大多是相關(guān)關(guān)系,而不是因果關(guān)系,這些結(jié)果還可能有不確定性。另外,有時(shí)候數(shù)據(jù)挖掘的結(jié)果與企業(yè)運(yùn)作的常識(shí)不一致,甚至相悖。所以,如何看待這些可能的不確定性和反常識(shí)的分析結(jié)論,充分利用好數(shù)據(jù)挖掘結(jié)果,必然離不開決策者的遠(yuǎn)見卓識(shí)。
其次,大數(shù)據(jù)需要數(shù)據(jù)導(dǎo)入、整合和預(yù)處理。當(dāng)面對(duì)來自不同數(shù)據(jù)源的大量復(fù)雜數(shù)據(jù)時(shí),具體業(yè)務(wù)邏輯復(fù)雜與數(shù)據(jù)之間的關(guān)系瑣碎直接導(dǎo)致企業(yè)的業(yè)務(wù)流程和數(shù)據(jù)流程很難理解。因此,企業(yè)在實(shí)施大數(shù)據(jù)時(shí)可能并不清楚要挖掘和發(fā)現(xiàn)什么,對(duì)數(shù)據(jù)挖掘到底能幫助企業(yè)做什么并沒有直觀和清楚的認(rèn)識(shí)。所以,很多時(shí)候都不可能先把數(shù)據(jù)事先規(guī)劃好和準(zhǔn)備好,這樣在具體的數(shù)據(jù)挖掘中,就需要在數(shù)據(jù)的導(dǎo)入、整合和預(yù)處理上有很大的靈活性,只有通過業(yè)務(wù)人員和數(shù)據(jù)挖掘工程師的配合,不斷嘗試,才能有效地將企業(yè)的業(yè)務(wù)需求與數(shù)據(jù)挖掘的功能聯(lián)系起來。
2.3 大數(shù)據(jù)時(shí)代應(yīng)用數(shù)據(jù)挖掘的挑戰(zhàn)
大數(shù)據(jù)時(shí)代的來臨使得數(shù)據(jù)的規(guī)模和復(fù)雜性都出現(xiàn)爆炸式的增長(zhǎng),促使不同應(yīng)用領(lǐng)域的數(shù)據(jù)分析人員利用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析。在應(yīng)用領(lǐng)域中,如醫(yī)療保健、高端制造、金融等,一個(gè)典型的數(shù)據(jù)挖掘任務(wù)往往需要復(fù)雜的子任務(wù)配置,整合多種不同類型的挖掘算法以及在分布式計(jì)算環(huán)境中高效運(yùn)行。因此,在大數(shù)據(jù)時(shí)代進(jìn)行數(shù)據(jù)挖掘應(yīng)用的一個(gè)當(dāng)務(wù)之急是要開發(fā)和建立計(jì)算平臺(tái)和工具,支持應(yīng)用領(lǐng)域的數(shù)據(jù)分析人員能夠有效地執(zhí)行數(shù)據(jù)分析任務(wù)。
現(xiàn)有的數(shù)據(jù)挖掘工具(如Weka[4]、SPSS和SQL Server等)提供了友好的界面,方便用戶進(jìn)行分析。然而,這些工具并不適合進(jìn)行大規(guī)模的數(shù)據(jù)分析。同時(shí)使用這些工具時(shí),用戶很難添加新的算法程序。流行的數(shù)據(jù)挖掘算法庫(如Mahout[5]、MLC++4http://www.sgi. com/tech/mlc和MILK5http:// pythonhosted. org/milk)提供了大量的數(shù)據(jù)挖掘算法。但是,這些算法庫需要有高級(jí)編程技能才能在一個(gè)具體的數(shù)據(jù)挖掘任務(wù)中進(jìn)行任務(wù)配置和算法集成。最近出現(xiàn)的一些集成的數(shù)據(jù)挖掘產(chǎn)品(如Radoop[6]和BC-PDM[7])通過提供友好的用戶界面來快速配置數(shù)據(jù)挖掘任務(wù)。然而,這些產(chǎn)品是基于Hadoop框架的,對(duì)非Hadoop算法程序的支持非常有限。此外,這些產(chǎn)品并沒有明確地解決在多用戶和多任務(wù)情況下的資源分配問題。
為了解決現(xiàn)有工具和產(chǎn)品在大數(shù)據(jù)挖掘中的局限性,開發(fā)了一個(gè)新的平臺(tái)——FIUMiner(a fast, integrated, and user-friendly system for data mining in distributed environment[8]),是一個(gè)用戶友好并支持在分布式環(huán)境中進(jìn)行高效率計(jì)算和快速集成的數(shù)據(jù)挖掘系統(tǒng),該平臺(tái)支持?jǐn)?shù)據(jù)分析人員快速、有效地進(jìn)行數(shù)據(jù)挖掘任務(wù)。
3.1 FIU-Miner平臺(tái)介紹
與現(xiàn)有數(shù)據(jù)挖掘平臺(tái)相比,F(xiàn)IUMiner提供了一組新的功能,能夠幫助數(shù)據(jù)分析人員方便并有效地開展各項(xiàng)復(fù)雜的數(shù)據(jù)挖掘任務(wù)。
具體而言,F(xiàn)IU-Miner 具有以下突出的優(yōu)點(diǎn)。
(1)用戶友好、人性化、快速的數(shù)據(jù)挖掘任務(wù)配置:基于“軟件即服務(wù)”這一模式,F(xiàn)IU-Miner隱藏了與數(shù)據(jù)分析任務(wù)無關(guān)的低端細(xì)節(jié)。通過FIU-Miner提供的人性化用戶界面,用戶可以通過將現(xiàn)有算法直接組裝成工作流,輕松完成一個(gè)復(fù)雜數(shù)據(jù)挖掘問題的任務(wù)配置,而不需要編寫任何代碼。
(2)靈活的多語言程序集成:FIUMiner允許用戶將目前最先進(jìn)的數(shù)據(jù)挖掘算法直接導(dǎo)入系統(tǒng)算法庫中,以此對(duì)分析工具集合進(jìn)行擴(kuò)充和管理。同時(shí),由于FIU-Miner 能夠正確地將任務(wù)分配到有合適運(yùn)行環(huán)境的計(jì)算節(jié)點(diǎn)上,所以對(duì)這些導(dǎo)入的算法沒有實(shí)現(xiàn)語言的限制。
(3)異構(gòu)環(huán)境中有效的資源管理:FIU-Miner支持在異構(gòu)的計(jì)算環(huán)境中(包括圖形工作站、單個(gè)計(jì)算機(jī)、和服務(wù)器等)運(yùn)行數(shù)據(jù)挖掘任務(wù)。FIU-Miner綜合考慮各種因素(包括算法實(shí)現(xiàn)、服務(wù)器負(fù)載平衡和數(shù)據(jù)位置)來優(yōu)化計(jì)算資源的利用率。
3.2 FIU-Miner系統(tǒng)架構(gòu)
圖2 FIU-Miner系統(tǒng)架構(gòu)
FIU-Miner的系統(tǒng)架構(gòu)如圖2所示。該系統(tǒng)分為4層:user interface(用戶接口層)、task and system management(任務(wù)與系統(tǒng)管理層)、abstracted resources(抽象資源層)和heterogeneous physical resource(異構(gòu)物理資源層)。這種分層架構(gòu)充分考慮了海量數(shù)據(jù)的分布式存儲(chǔ)、不同數(shù)據(jù)挖掘算法的集成、多種分析任務(wù)的配置以及系統(tǒng)和用戶的交互功能6http:// dataminingnode08.cs.fiu. edu/FIU-Miner。
3.2.1 用戶接口層
為了最大限度地提高系統(tǒng)的兼容性,用戶接口層是完全用HTML5開發(fā)的Web應(yīng)用程序。如圖3所示,用戶接口層有如下3個(gè)功能模塊。
(1)任務(wù)配置和執(zhí)行(task configuration and execution)
該模塊支持面向工作流的數(shù)據(jù)挖掘任務(wù)配置。一個(gè)數(shù)據(jù)挖掘任務(wù)的工作流可以被表示為一個(gè)有向圖,其中圖的節(jié)點(diǎn)表示特定的算法,圖的邊表示算法中的數(shù)據(jù)相關(guān)性。在FIU-Miner 中,一個(gè)工作流程可通過圖形用戶界面來快速配置,而不需要編程。此外,用戶可以設(shè)置數(shù)據(jù)挖掘任務(wù)的執(zhí)行計(jì)劃,包括程序的定時(shí)、循環(huán)、順序等執(zhí)行方式。
(2)程序注冊(cè)(program registration)
圖3 用戶接口層功能模塊
該模塊可以讓用戶輕松地導(dǎo)入外部數(shù)據(jù)挖掘算法,充實(shí)FIU-Miner的算法庫。如果要導(dǎo)入外部程序,用戶需要上傳可執(zhí)行文件,提供詳細(xì)的描述信息,包括程序的功能描述、需要的運(yùn)行環(huán)境、程序和相關(guān)數(shù)據(jù)以及參數(shù)規(guī)范。導(dǎo)入的程序可以使用任何語言編寫,只要后端服務(wù)器能支持它需要的運(yùn)行環(huán)境。FIUMiner目前支持Java(包括Hadoop的環(huán)境)、Shell、Python和C/C++等語言編寫的程序,因此幾乎所有實(shí)現(xiàn)的主流數(shù)據(jù)挖掘算法,如基于Weka、Mahout、MILK等數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法庫的程序,都可以很容易地導(dǎo)入FIUMiner。用戶還可以將自己實(shí)現(xiàn)的算法導(dǎo)入系統(tǒng)中。
(3)系統(tǒng)監(jiān)控(system monitoring)
該模塊實(shí)時(shí)監(jiān)測(cè)FIU-Miner 的資源利用率,并且動(dòng)態(tài)跟蹤系統(tǒng)中提交任務(wù)的運(yùn)行狀態(tài)。注意該模塊只顯示了抽象的資源(邏輯存儲(chǔ)和計(jì)算資源包括數(shù)據(jù)庫、文件系統(tǒng)、計(jì)算單元等),使底層物理資源對(duì)用戶透明。
3.2.2 任務(wù)及系統(tǒng)管理層
任務(wù)及系統(tǒng)管理層包含了兩個(gè)主要功能模塊:任務(wù)管理和系統(tǒng)管理。
(1)任務(wù)管理
FIU-Miner允許用戶動(dòng)態(tài)配置數(shù)據(jù)挖掘任務(wù),以滿足他們的分析需求。用戶可以選擇在算法庫(algorithm library)中注冊(cè)的算法作為基本模塊來構(gòu)造工作流。工作流集成器(workflow integrator)負(fù)責(zé)工作流的任務(wù)集成和驗(yàn)證,同時(shí)發(fā)現(xiàn)和報(bào)告無效的流程。一旦新的數(shù)據(jù)挖掘任務(wù)集成和配置完成后,它將被自動(dòng)添加到任務(wù)庫(task library),可以隨時(shí)被調(diào)度運(yùn)行。作業(yè)調(diào)度器(job scheduler)負(fù)責(zé)分配計(jì)算資源及優(yōu)化運(yùn)行時(shí)間。FIU-Miner里的調(diào)度比較復(fù)雜。一方面,F(xiàn)IU-Miner支持不同編程語言實(shí)現(xiàn)的程序在異構(gòu)的計(jì)算環(huán)境中運(yùn)行。一個(gè)任務(wù)里的不同程序可能會(huì)有不同的運(yùn)行環(huán)境要求。所以,簡(jiǎn)單地把任務(wù)分配到空閑的計(jì)算單元不一定可行。另一方面,將一個(gè)作業(yè)分成不同的步驟,讓每個(gè)步驟在不同的計(jì)算單元上運(yùn)行,可能會(huì)增加I/O成本。如果再考慮多用戶、多任務(wù)的情況,F(xiàn)IU-Miner里的調(diào)度就會(huì)變得更加困難和復(fù)雜。為了解決上面的難題,在實(shí)現(xiàn)FIU-Miner的調(diào)度時(shí),綜合考慮了如下因素:給定任務(wù)每一步的運(yùn)行環(huán)境要求;每個(gè)計(jì)算單元支持的運(yùn)行環(huán)境;每個(gè)計(jì)算結(jié)點(diǎn)的當(dāng)前運(yùn)行狀態(tài);輸入數(shù)據(jù)的大小。
(2)系統(tǒng)管理
作業(yè)管理器(job manager)跟蹤執(zhí)行作業(yè)的運(yùn)行狀態(tài)。用戶會(huì)收到作業(yè)的實(shí)時(shí)狀態(tài)。除了作業(yè)監(jiān)視,F(xiàn)IU-Miner還會(huì)跟蹤計(jì)算單元以及相關(guān)計(jì)算資源的狀態(tài)。資源監(jiān)視器(resource monitor)監(jiān)視計(jì)算單元并提供作業(yè)調(diào)度程序的運(yùn)行狀態(tài),以幫助調(diào)度決策。資源管理器(resource manager)管理所有可用的計(jì)算單元。FIU-Miner的一個(gè)獨(dú)特的優(yōu)點(diǎn)是,它不需要人工登記可用物理資源。一旦計(jì)算單元部署在物理服務(wù)器上,它會(huì)將服務(wù)器的信息發(fā)送給資源管理器,自動(dòng)將服務(wù)器在FIU-Miner里注冊(cè)。
3.2.3 抽象資源層
抽象資源層包括存儲(chǔ)和計(jì)算資源。存儲(chǔ)資源建立在物理設(shè)備的基礎(chǔ)上,包括傳統(tǒng)數(shù)據(jù)庫、本地文件系統(tǒng)、分布式文件系統(tǒng)(比如HDFS)等。計(jì)算單元是邏輯上的計(jì)算資源。平臺(tái)的計(jì)算能力依賴計(jì)算單元的數(shù)量。通過擴(kuò)展配置計(jì)算單元的數(shù)量,能有效地支撐上層的數(shù)據(jù)挖掘任務(wù)。
在FIU-Miner中,物理服務(wù)器的計(jì)算能力是由計(jì)算單元的數(shù)量和安排的數(shù)據(jù)挖掘任務(wù)來量化的。這種機(jī)制是一個(gè)系統(tǒng)虛擬化的簡(jiǎn)化版本,能夠最大限度地提高計(jì)算資源的利用率。為了有效地管理計(jì)算資源,每個(gè)計(jì)算單元都包含詳細(xì)規(guī)范的配置文件(信息包括計(jì)算能力、支持的運(yùn)行環(huán)境、運(yùn)行狀態(tài)等)。一臺(tái)物理服務(wù)器的存儲(chǔ)(包括可用的數(shù)據(jù)庫、HDFS和本地文件系統(tǒng))由該服務(wù)器上布置的計(jì)算單元共享。
3.2.4 異構(gòu)物理資源層
異構(gòu)物理資源層亦稱物理資源層,主要包括底層的物理設(shè)備。這些物理設(shè)備能有效地支撐數(shù)據(jù)存儲(chǔ)和擴(kuò)展。
3.3 FIU-Miner系統(tǒng)亮點(diǎn)評(píng)述
FIU-Miner 建立于分布式異構(gòu)環(huán)境之上,大大減少了不同物理環(huán)境給構(gòu)建數(shù)據(jù)分析任務(wù)帶來的復(fù)雜度,充分利用分布式計(jì)算的能力提升數(shù)據(jù)分析的效率。另外,F(xiàn)IU-Miner的計(jì)算資源是可動(dòng)態(tài)增減的,使其具備根據(jù)具體分析任務(wù)數(shù)量進(jìn)行在線調(diào)整計(jì)算物理資源的能力。最后,友好的用戶接口為基于FIU-Miner構(gòu)建不同的大數(shù)據(jù)挖掘應(yīng)用提供了極大的便捷。
4.1 高端制造業(yè)大數(shù)據(jù)挖掘任務(wù)
制造業(yè)是指大規(guī)模地把原材料加工成成品的工業(yè)生產(chǎn)過程。高端制造業(yè)是指制造業(yè)中新出現(xiàn)的具有高技術(shù)含量、高附加值、強(qiáng)競(jìng)爭(zhēng)力的產(chǎn)業(yè)。典型的高端制造業(yè)[9]包括電子半導(dǎo)體生產(chǎn)、精密儀器制造、生物制藥等。這些制造領(lǐng)域往往涉及嚴(yán)密的工程設(shè)計(jì)、復(fù)雜的裝配生產(chǎn)線、大量的控制加工設(shè)備與工藝參數(shù)、精確的過程控制和材料的嚴(yán)格規(guī)范。產(chǎn)量和品質(zhì)極大地依賴流程管控和優(yōu)化決策。因此,制造企業(yè)不遺余力地采用各種措施優(yōu)化生產(chǎn)流程,調(diào)優(yōu)控制參數(shù),提高產(chǎn)品品質(zhì)和產(chǎn)量,從而提高企業(yè)的競(jìng)爭(zhēng)力。
隨著工藝、裝備和信息技術(shù)的不斷發(fā)展,現(xiàn)代制造業(yè)(特別是高端制造業(yè))產(chǎn)生和積累了大量生產(chǎn)過程的歷史數(shù)據(jù)。這些數(shù)據(jù)中蘊(yùn)含對(duì)生產(chǎn)和管理有很高價(jià)值的知識(shí)和信息。高端制造企業(yè)利用這些技術(shù)能夠更好地收集和管理生產(chǎn)流程數(shù)據(jù),也使得企業(yè)累積的相關(guān)數(shù)據(jù)在日益增多的同時(shí),也變得更加豐富、完備、準(zhǔn)確。
這些采集的數(shù)據(jù)來源于實(shí)際生產(chǎn),并與生產(chǎn)設(shè)計(jì)、機(jī)器設(shè)備、原材料、環(huán)境條件、生產(chǎn)流程等生產(chǎn)要素信息高度相關(guān)。通常情況下,工程人員通過人工分析很難察覺到參數(shù)間的關(guān)聯(lián)模式和影響品質(zhì)的重要生產(chǎn)要素等信息。然而,如何有效地利用這些數(shù)據(jù)優(yōu)化生產(chǎn)過程,提升生產(chǎn)效率,成為了企業(yè)關(guān)注的焦點(diǎn)。因此,制造企業(yè)需要一種高效、可靠的分析方法及工具,把隱藏在海量數(shù)據(jù)中有用的、深層次的知識(shí)和信息挖掘出來,以提升高端制造業(yè)在控制、優(yōu)化、調(diào)度、管理等各個(gè)層面分析和解決問題的能力。幸運(yùn)的是,利用數(shù)據(jù)挖掘可以對(duì)這些數(shù)據(jù)進(jìn)行有效的分析并轉(zhuǎn)換成有價(jià)值的生產(chǎn)知識(shí),從而能夠在實(shí)際應(yīng)用中改進(jìn)產(chǎn)品品質(zhì),提升產(chǎn)品性能和生產(chǎn)效率,最終達(dá)到提高企業(yè)行業(yè)競(jìng)爭(zhēng)力的目的。因此,數(shù)據(jù)挖掘技術(shù)是解決制造業(yè)海量信息數(shù)據(jù)處理的關(guān)鍵技術(shù)之一。
4.2 高端制造業(yè)大數(shù)據(jù)挖掘挑戰(zhàn)
高端制造業(yè)中的數(shù)據(jù)挖掘面臨很多挑戰(zhàn),比如:如何有效分析大規(guī)模數(shù)據(jù)、如何保證數(shù)據(jù)分析效率和分析結(jié)果的準(zhǔn)確性?在實(shí)際應(yīng)用中,從海量數(shù)據(jù)中依靠傳統(tǒng)信息系統(tǒng)進(jìn)行查詢和報(bào)警或單純利用專家經(jīng)驗(yàn)來分析和發(fā)現(xiàn)潛在有價(jià)值的信息已經(jīng)變得不太現(xiàn)實(shí)。因此,企業(yè)需要利用數(shù)據(jù)分析技術(shù)、工具或平臺(tái),智能地從大量復(fù)雜的生產(chǎn)原始數(shù)據(jù)中發(fā)現(xiàn)新的模式和知識(shí)作為改善生產(chǎn)過程的決策依據(jù),系統(tǒng)性地提高生產(chǎn)效率。
4.3 具體案例
FIU-Miner已經(jīng)被成功地應(yīng)用在四川虹歐顯示器件有限公司,作為等離子屏制造過程的數(shù)據(jù)分析平臺(tái)[3,10]。
4.3.1 等離子顯示器制造
等離子顯示器(plasma display panel,PDP)是一種利用氣體等離子效應(yīng)放出紫外線,從而激發(fā)三原色發(fā)光體獨(dú)立發(fā)光,達(dá)到顯示不同顏色和控制亮度的高端圖像顯示器。它具有亮度高、色彩多、面積大、視角廣、圖像清晰等眾多優(yōu)勢(shì),是大面積顯示需求(如家庭影院、電子廣告墻)的首選顯示器。
四川虹歐顯示器件有限公司是國(guó)內(nèi)最大的等離子生產(chǎn)公司,每天生產(chǎn)超過1萬張等離子顯示面板,其生產(chǎn)線的一些指標(biāo)包括[10]:20個(gè)大工序、151個(gè)小工序;1 000多臺(tái)設(shè)備串聯(lián);工藝設(shè)備共計(jì)279臺(tái),設(shè)備種類達(dá)83種;2 225個(gè)物流單元,全長(zhǎng)6 000 m;產(chǎn)品制造時(shí)間約76 h;單臺(tái)產(chǎn)品涉及的過程設(shè)備參數(shù)超過1.17萬個(gè)。
具體而言,在生產(chǎn)實(shí)踐中,技術(shù)人員關(guān)注如何提高產(chǎn)品的良品率。實(shí)現(xiàn)這個(gè)目標(biāo),需要回答下面的一些問題:哪些是關(guān)鍵的工藝參數(shù)(它們對(duì)產(chǎn)品的良品率有顯著的影響)、參數(shù)值的變動(dòng)會(huì)怎樣影響產(chǎn)品的良品率、哪些是有效的可以確保高良品率的工藝參數(shù)配方等。從PDP的數(shù)據(jù)特點(diǎn)來說,每天生產(chǎn)的數(shù)據(jù)存儲(chǔ)量是10 GB以上,每月有3~5億筆制造過程記錄,在數(shù)量、維度和數(shù)據(jù)產(chǎn)生速度上具有海量大數(shù)據(jù)特征。在生產(chǎn)工序復(fù)雜、設(shè)備參數(shù)眾多、數(shù)據(jù)量大的背景下,人為分析PDP生產(chǎn)過程,以期達(dá)到提高生產(chǎn)質(zhì)量的效果幾乎是無法實(shí)現(xiàn)的。因此,迫切需要研究基于等離子顯示屏制造過程的自動(dòng)化流程和產(chǎn)品優(yōu)化工具,從而提升制造過程參數(shù)管控能力和產(chǎn)品品質(zhì)。
4.3.2 基于FIU-Miner 的解決方案
在過去的幾年里,筆者的研究團(tuán)隊(duì)一直與四川虹歐顯示器件有限公司的技術(shù)人員和工程師緊密合作,利用數(shù)據(jù)挖掘來提高等離子屏的生產(chǎn)良品率。在這個(gè)合作過程中,確定了如下兩個(gè)主要的分析難點(diǎn),并提出了相應(yīng)的基于FIU-Miner 的解決方案。
· 7×24 h的自動(dòng)化生產(chǎn)方式和新數(shù)據(jù)采集工具的使用,使得數(shù)據(jù)量急劇增長(zhǎng),需要強(qiáng)大的數(shù)據(jù)分析能力來支撐。
· 大量過程控制參數(shù)造成的數(shù)據(jù)高維特性對(duì)數(shù)據(jù)分析效率和分析結(jié)果的準(zhǔn)確性提出了更高要求。生產(chǎn)數(shù)據(jù)分析是對(duì)生產(chǎn)工作流程的一個(gè)認(rèn)知過程。這個(gè)過程本身就是對(duì)數(shù)據(jù)進(jìn)行探索、分析和理解的一個(gè)循序漸進(jìn)的迭代過程。因此,一個(gè)實(shí)用的系統(tǒng)應(yīng)該提供一個(gè)集成的、高效率的分析平臺(tái)來支持這個(gè)過程。
筆者的研究團(tuán)隊(duì)在FIU-Miner 的基礎(chǔ)上,開發(fā)了離子屏制造過程數(shù)據(jù)挖掘系統(tǒng)(PDP-Miner)[10]來解決PDP數(shù)據(jù)分析的難題。PDP-Miner的架構(gòu)如圖4所示。具體而言,在FIU-Miner的基礎(chǔ)上增加了數(shù)據(jù)分析層。
數(shù)據(jù)分析層提供具體分析任務(wù)的用戶執(zhí)行接口。以等離子屏數(shù)據(jù)挖掘系統(tǒng)為例,數(shù)據(jù)分析任務(wù)主要包括數(shù)據(jù)立方、對(duì)比分析、回歸分析、參數(shù)選擇、參數(shù)配方、操作平臺(tái)、結(jié)果展示和報(bào)告管理。
圖4 PDP-Miner的系統(tǒng)架構(gòu)
其中,數(shù)據(jù)立方使分析人員能夠?qū)?shù)據(jù)進(jìn)行宏觀理解和快速預(yù)覽。數(shù)據(jù)立方子系統(tǒng)可以通過OLAP技術(shù)建立數(shù)據(jù)立方來幫助分析人員大致掌握數(shù)據(jù)特性。通過選擇維度和建立測(cè)度來對(duì)數(shù)據(jù)集進(jìn)行分析。通過數(shù)據(jù)立方操作(下鉆、上卷等)實(shí)現(xiàn)對(duì)數(shù)據(jù)的多粒度、多角度的理解。
對(duì)比分析子系統(tǒng),能快速發(fā)現(xiàn)敏感參數(shù)和驗(yàn)證重要參數(shù),因此,在PDP生產(chǎn)系統(tǒng)中顯得特別重要。通過比較參數(shù)在不同時(shí)期取值的統(tǒng)計(jì)特性,有效發(fā)現(xiàn)異常參數(shù)值,從而定位敏感設(shè)備或數(shù)據(jù)集。
數(shù)據(jù)分析子系統(tǒng)主要負(fù)責(zé)集成數(shù)據(jù)挖掘算法,提供業(yè)務(wù)操作接口。由于該系統(tǒng)面向非專業(yè)領(lǐng)域的操作人員,并聚焦到具體的分析業(yè)務(wù),因此數(shù)據(jù)挖掘算法被合理封裝到各個(gè)業(yè)務(wù)中,對(duì)操作人員透明。現(xiàn)在的挖掘算法主要支持回歸分析、參數(shù)選擇、參數(shù)配方等任務(wù)。
分析報(bào)告系統(tǒng)基于業(yè)務(wù)分析結(jié)果產(chǎn)生分析報(bào)告。這些分析報(bào)告可以直接給決策者提供決策依據(jù)。同時(shí)報(bào)告系統(tǒng)也為領(lǐng)域?qū)<姨峁┦占答伒慕涌?。領(lǐng)域?qū)<抑R(shí)的引入對(duì)優(yōu)化模型、改進(jìn)算法具有很大的指導(dǎo)意義。
圖5給出了兩個(gè)具體PDP挖掘的工作流。其中第一個(gè)工作流(workflow 1)先集成多種特征選擇的方法來選出影響PDP生產(chǎn)的重要工藝參數(shù),然后利用回歸分析來建立這些參數(shù)與產(chǎn)品質(zhì)量的關(guān)系。第二個(gè)工作流(workflow 2)是利用頻繁模式分析來挖掘重要工藝參數(shù)的關(guān)聯(lián)關(guān)系,從而產(chǎn)生可能的參數(shù)配方。圖6給出了工作流的配置界面。
使用等離子屏制造過程數(shù)據(jù)挖掘系統(tǒng)大大降低了對(duì)前臺(tái)使用人員的要求,可以使得操作人員能夠?qū)⒕劢沟娇焖侔l(fā)現(xiàn)問題和解決問題上。
圖5 PDP-Miner工作流程
圖6 PDP-Miner工作流配置界面
表1 PDP-Miner數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)比較
通過技術(shù)人員將數(shù)據(jù)挖掘研究的結(jié)果和平臺(tái)進(jìn)行有效應(yīng)用,提高了對(duì)制造過程中所出現(xiàn)問題的分析和解決的效率(見表1),使PDP屏生產(chǎn)線的綜合良品率及生產(chǎn)效率得到了快速提升。一方面,在顯示器件制造業(yè)首次采用大數(shù)據(jù)挖據(jù)技術(shù),實(shí)現(xiàn)了由傳統(tǒng)離散型的試驗(yàn)設(shè)計(jì)方法到數(shù)據(jù)挖掘模型來進(jìn)行制造過程參數(shù)管控的動(dòng)態(tài)在線分析處理方法,降低了制造過程品質(zhì)管控的試驗(yàn)成本。另一方面,通過數(shù)據(jù)挖掘平臺(tái),建立了等離子屏制造過程單工序/全工序的參數(shù)管控的主要數(shù)據(jù)挖掘分析模型,通過挖據(jù)結(jié)果的有效應(yīng)用,促進(jìn)了等離子顯示屏的制造良品率和生產(chǎn)效率的提升。最后,利用平臺(tái)挖掘方便快捷地指導(dǎo)技術(shù)人員進(jìn)行參數(shù)管控的常態(tài)化螺旋式提升。在成果應(yīng)用的這些年里,促進(jìn)了PDP良品率和產(chǎn)能的快速提升,給公司帶來了巨大的生產(chǎn)經(jīng)濟(jì)效益。圖7給出了PDP-Miner的實(shí)際應(yīng)用的主界面,該系統(tǒng)的功能模塊包括數(shù)據(jù)探索(對(duì)比分析、數(shù)據(jù)立方)、數(shù)據(jù)分析(操作平臺(tái)、參數(shù)選擇、回歸分析、判別分析)、結(jié)果管理(可視化、結(jié)果列表和反饋收集)。需要特別指出的是,等離子顯示屏制造挖掘平臺(tái)可方便地移植于液晶面板、OLED面板等其他平板顯示領(lǐng)域,具備向整個(gè)平板行業(yè)推廣的基礎(chǔ)。
圖7 PDP-Miner實(shí)際應(yīng)用的主界面
4.4 應(yīng)用亮點(diǎn)評(píng)述
將FIU-Miner應(yīng)用于高端制造業(yè)的實(shí)際案例,在國(guó)際上率先將數(shù)據(jù)挖掘技術(shù)應(yīng)用于顯示器件制造業(yè),為四川虹歐顯示器件有限公司構(gòu)建了制造過程單工序/全工序數(shù)據(jù)挖掘分析模型,開發(fā)了基于數(shù)據(jù)挖掘的PDP-Miner平臺(tái),有效提升了生產(chǎn)效率和產(chǎn)品質(zhì)量。該公司應(yīng)用PDP-Miner平臺(tái)后,產(chǎn)品綜合良品率得到了很大提高,同時(shí),生產(chǎn)效率的提升也帶來了很大的經(jīng)濟(jì)效益。該研究獲得2013年“中國(guó)制造業(yè)IT新興技術(shù)應(yīng)用最佳實(shí)踐獎(jiǎng)”7http://news. e-works.net.cn/ category146/ news55123.htm。
FIU-Miner 已被成功應(yīng)用于TerraFlyGeocloud[11],支持多種在線空間數(shù)據(jù)分析的平臺(tái)。
5.1 空間數(shù)據(jù)挖掘
隨著衛(wèi)星科技的發(fā)展及移動(dòng)設(shè)備的普及,獲取一個(gè)對(duì)象實(shí)時(shí)完整的空間信息變得越來越容易。為了能夠從中實(shí)時(shí)性地獲取有用信息,需要有效的方法進(jìn)行空間數(shù)據(jù)挖掘??臻g數(shù)據(jù)挖掘是從大型空間數(shù)據(jù)庫里發(fā)現(xiàn)有趣的、不知道的但非常有價(jià)值的模式的一個(gè)過程。但由于空間數(shù)據(jù)類型和空間關(guān)系的復(fù)雜性,從空間數(shù)據(jù)庫里挖掘有趣和有價(jià)值的模式比從傳統(tǒng)數(shù)據(jù)庫里挖掘難度更大。
5.2 TerraFlyGeocloud介紹
空間數(shù)據(jù)挖掘可以應(yīng)用在很多領(lǐng)域,包括水資源管理、交通管理、災(zāi)難管理、犯罪分析、疾病分析和房地產(chǎn)等。一個(gè)典型的空間挖掘系統(tǒng)應(yīng)支持以下功能:在線的空間數(shù)據(jù)分析、空間數(shù)據(jù)可視化和空間數(shù)據(jù)查詢。這里,介紹一個(gè)具體的空間數(shù)據(jù)挖掘系統(tǒng):美國(guó)佛羅里達(dá)國(guó)際大學(xué)(FIU)計(jì)算機(jī)學(xué)院的高性能數(shù)據(jù)研究中心實(shí)驗(yàn)室開發(fā)的TerraFlyGeoCloud 系統(tǒng)。TerraFlyGeoCloud是建立在TerraFly系統(tǒng)之上的、支持多種在線空間數(shù)據(jù)分析的一個(gè)平臺(tái)。圖8和圖9分別給出了TerraFlyGeoCloud的系統(tǒng)界面和工作流程。
為了方便使用,TerraFlyGeoCloud還提供了一種支持類SQL語句的空間數(shù)據(jù)查詢語言MapQL。它不但支持類SQL語句,更重要的是可根據(jù)用戶的不同要求,渲染和畫圖查詢得到空間數(shù)據(jù),比如學(xué)校周邊一定距離內(nèi)所有的開放住宅、離某條公路一定距離內(nèi)所有的賓館、特定地區(qū)的交通情況及不同郵政區(qū)域的平均收入情況等。MapQL的實(shí)現(xiàn)如圖10(a)所示,其中MapQL語句是整個(gè)過程的輸入,如圖10(b)所示,輸出則是通過MapQL引擎渲染得到的可視化地圖,如圖10(c)所示。
下面簡(jiǎn)要講述一下使用MapQL的具體過程。如圖10(a)所示,第一步語法檢查,保證語法符合語法規(guī)則,不出現(xiàn)關(guān)鍵字拼寫錯(cuò)誤;第二步語義檢查,確保MapQL將要訪問的數(shù)據(jù)是正確并存在的。接下來,系統(tǒng)會(huì)進(jìn)行語句解析并把包含樣式信息的解析結(jié)果存入空間數(shù)據(jù)庫中。樣式信息包括“渲染什么”及“在哪渲染”。當(dāng)所有的樣式信息保存入庫時(shí),系統(tǒng)就會(huì)為接下來的渲染創(chuàng)建樣式配置對(duì)象。最后,從空間數(shù)據(jù)庫里加載樣式信息,并根據(jù)樣式信息為每個(gè)對(duì)象進(jìn)行渲染。比如想查詢佛羅里達(dá)國(guó)際大學(xué)周圍的房?jī)r(jià),可通過如圖10(b)的MapQL語句查詢,結(jié)果如圖10(c)。
圖8 TerraFlyGeoCloud系統(tǒng)界面
圖9 分析工作流程
MapQL提供了一個(gè)比地理信息系統(tǒng)應(yīng)用程序編程接口(API)更友好的界面,使得開發(fā)人員和終端用戶能夠便捷自如地使用TerraFly地圖,同時(shí)能夠靈活地創(chuàng)建自己的地圖。
圖10 MapQL的實(shí)現(xiàn)、語句查詢及可視化地圖
除了支持地理信息系統(tǒng)的各種應(yīng)用外,TerraFly平臺(tái)還有豐富的GIS數(shù)據(jù)集,包括美國(guó)和加拿大的道路數(shù)據(jù)、美國(guó)人口普查和社會(huì)經(jīng)濟(jì)數(shù)據(jù)、1 500萬企業(yè)的統(tǒng)計(jì)和管理記錄、200萬專業(yè)醫(yī)生的數(shù)據(jù)、各種公共場(chǎng)所的數(shù)據(jù)集和全球環(huán)境數(shù)據(jù)等,用戶可以通過TerraFlyGeoCloud瀏覽、使用和挖掘這些數(shù)據(jù)集。
5.3 TerraFlyGeocloud使用難點(diǎn)
通過對(duì)TerraFlyGeoCloud的進(jìn)一步使用和研究,發(fā)現(xiàn)了如下幾個(gè)問題。這些問題非常典型,普遍存在于這類空間數(shù)據(jù)挖掘系統(tǒng)中。
(1)寫MapQL查詢語句的難度。雖然大多數(shù)開發(fā)人員熟悉SQL語句,可以很快地寫MapQL查詢。但對(duì)不熟悉SQL的用戶而言,學(xué)習(xí)MapQL還是比較困難的。所以,對(duì)絕大多數(shù)用戶而言,利用MapQL來完成空間分析任務(wù)仍然比較困難。
(2)空間分析任務(wù)的復(fù)雜性。一個(gè)典型的空間分析任務(wù)往往涉及幾個(gè)子任務(wù)。此外,這些子任務(wù)之間并不是完全獨(dú)立的。其中一些子任務(wù)的輸出往往是其他子任務(wù)的輸入。根據(jù)這種依賴關(guān)系,一個(gè)空間數(shù)據(jù)分析任務(wù)可以自然地表示為一個(gè)工作流。但構(gòu)造和管理這樣一個(gè)復(fù)雜的工作流程是空間數(shù)據(jù)分析的一個(gè)難點(diǎn)。
(3)順序執(zhí)行空間數(shù)據(jù)分析的工作流的效率往往很低。盡管一個(gè)工作流中的子任務(wù)并不是互相依賴,但這些子任務(wù)只能由最終用戶來順序執(zhí)行。這種順序執(zhí)行的方式?jīng)]有充分利用分布式計(jì)算環(huán)境來并行執(zhí)行獨(dú)立的子任務(wù)和優(yōu)化系統(tǒng)性能。
這3個(gè)問題給空間數(shù)據(jù)挖掘系統(tǒng)帶來了很大的局限,限制了用戶對(duì)系統(tǒng)的有效使用。將FIU-Miner 與TerraFlyGeocloud結(jié)合來解決這些問題。首先,根據(jù)序列模式挖掘算法從TerraFlyGeoCloud的MapQL查詢?nèi)罩局邪l(fā)現(xiàn)順序查詢模式[11]。然后利用這些順序查詢模式,在FIU-Miner里面構(gòu)建空間數(shù)據(jù)分析任務(wù)的工作流。最后使用FIU-Miner來最大化子任務(wù)的并行執(zhí)行,優(yōu)化工作流的執(zhí)行效率。
TerraFlyGeocloud+FIU-Miner系統(tǒng)架構(gòu)如圖11所示。主要有4層:用戶界面層、地理空間服務(wù)層、計(jì)算服務(wù)層和空間數(shù)據(jù)存儲(chǔ)和管理層。其中,從MapQL的查詢?nèi)罩局型诰虿樵兡J绞且粋€(gè)關(guān)鍵的步驟,這個(gè)步驟發(fā)生在地理空間服務(wù)層。挖掘出的順序查詢模式可以用來產(chǎn)生查詢模板和構(gòu)造空間分析的工作流。序列模式里面的每個(gè)查詢對(duì)應(yīng)于工作流里面的一個(gè)子任務(wù)。FIU-Miner在計(jì)算服務(wù)層,主要負(fù)責(zé)工作流的構(gòu)建、管理、調(diào)度和執(zhí)行。
5.4 應(yīng)用實(shí)例
利用FIU-Miner,系統(tǒng)可以通過構(gòu)建空間數(shù)據(jù)分析的工作流來優(yōu)化分析流程,提高分析效率。下面通過一個(gè)詳細(xì)的房產(chǎn)投資案例來展示[12]。
房產(chǎn)投資案例的目的是要尋找具有良好升值潛力的房產(chǎn)。如果一棟房產(chǎn)本身價(jià)值很低,但它周圍的房產(chǎn)卻相對(duì)來說比其高,那么對(duì)此房產(chǎn)進(jìn)行投資將是一個(gè)非常不錯(cuò)的選擇。根據(jù)歷史查詢數(shù)據(jù),通過序列模式挖掘,發(fā)現(xiàn)這個(gè)任務(wù)一般有下面幾個(gè)步驟:
· 計(jì)算不同地區(qū)的平均價(jià)格,比較鄰近地區(qū)的價(jià)格,確定感興趣的地區(qū);
· 對(duì)感興趣的地區(qū)進(jìn)行空間自相關(guān)分析,確定候選地區(qū);
圖11 TerraFlyGeocloud+FIU-Miner系統(tǒng)架構(gòu)
· 驗(yàn)證候選地區(qū)罪案率和平均收入,確定選擇結(jié)果;
· 在地圖上對(duì)結(jié)果進(jìn)行可視化。
這個(gè)任務(wù)的工作流如圖12所示。工作流里面所有的子任務(wù)都是由FIU-Miner來調(diào)度并在分布式環(huán)境中執(zhí)行的。
5.5 應(yīng)用亮點(diǎn)評(píng)述
上述實(shí)際案例中,將FIU-Miner應(yīng)用于空間數(shù)據(jù)挖掘,解決了空間數(shù)據(jù)挖掘中寫MapQL查詢語句困難、空間分析任務(wù)復(fù)雜性高及順序執(zhí)行空間數(shù)據(jù)分析工作流效率低這3個(gè)主要的難題。用戶可以輕松地從TerraFlyGeoCloud的MapQL查詢?nèi)罩局邪l(fā)現(xiàn)順序查詢模式,并利用這些順序查詢模式,在FIU-Miner里面構(gòu)建空間數(shù)據(jù)分析任務(wù)的工作流。最后使用FIU-Miner強(qiáng)大的分布式處理能力,提高工作流的執(zhí)行效率。
基于 FIU-Miner的TerraFlyGeoCloud在線空間數(shù)據(jù)挖掘系統(tǒng),已成功應(yīng)用于地理(如國(guó)土邊界、水位圖等)、自然(颶風(fēng)數(shù)據(jù)分析)、經(jīng)濟(jì)(如房產(chǎn)價(jià)格分析、人均收入等數(shù)據(jù)分析)、醫(yī)療(肝癌、關(guān)節(jié)炎等疾病數(shù)據(jù)分析)、社會(huì)(犯罪數(shù)據(jù)聚類等分析)等眾多領(lǐng)域,受到政府、企業(yè)、研究機(jī)構(gòu)及個(gè)人的極大重視。
FIU-Miner作為庫存管理數(shù)據(jù)挖掘平臺(tái)已被成功應(yīng)用于企業(yè),成為商務(wù)智能數(shù)據(jù)挖掘應(yīng)用中一個(gè)典范[13]。
6.1 庫存管理數(shù)據(jù)挖掘任務(wù)
圖12 房產(chǎn)投資案例的工作流程
庫存管理是指對(duì)制造業(yè)或服務(wù)業(yè)生產(chǎn)、經(jīng)營(yíng)全過程的各種物品、產(chǎn)品以及其他資源進(jìn)行管理和控制,使其儲(chǔ)備保持在經(jīng)濟(jì)合理的水平上。高效、可靠的庫存管理可以為制定合理的貨物安全庫存量和訂貨量提供可靠的依據(jù),提高企業(yè)管理人員的決策質(zhì)量,從而減小資金的占用和缺貨損失,提高企業(yè)的經(jīng)濟(jì)效益。當(dāng)今的零售業(yè),供應(yīng)商往往需要給不同的地區(qū)存儲(chǔ)大量的貨物,且交易活動(dòng)復(fù)雜頻繁,必須提前合理規(guī)劃好庫存方案?,F(xiàn)有的庫存管理系統(tǒng)(如InFlow和Inventoria)僅僅應(yīng)用傳統(tǒng)的統(tǒng)計(jì)分析方法分析現(xiàn)存的庫存數(shù)據(jù),對(duì)當(dāng)前的庫存信息分布進(jìn)行跟蹤監(jiān)控。進(jìn)行庫存決策時(shí)僅考慮單一算法模型,而無法根據(jù)綜合分析歷史數(shù)據(jù)和市場(chǎng)的實(shí)際狀況快速做出正確決策方案。因此,如何利用大數(shù)據(jù)挖掘技術(shù)開發(fā)智能庫存管理平臺(tái),實(shí)現(xiàn)高效可靠的庫存預(yù)測(cè)、庫存異常檢測(cè)及庫齡分析等任務(wù),成為當(dāng)前大型零售企業(yè)亟需解決的問題。
6.2 庫存管理數(shù)據(jù)挖掘挑戰(zhàn)
隨著庫存管理數(shù)據(jù)日益龐大,庫存管理系統(tǒng)處理問題的難度也在不斷攀升。以國(guó)內(nèi)某大型電子消費(fèi)產(chǎn)品制造企業(yè)的兩大類電視產(chǎn)品(液晶和等離子)交易為例,其庫存管理數(shù)據(jù)挖掘面臨的主要挑戰(zhàn)如下。
(1)交易記錄繁多:現(xiàn)代大型零售企業(yè)業(yè)務(wù)規(guī)模龐大,產(chǎn)生的交易記錄繁多,從2011年1月到2013年12月有將近6 000萬條,約50 GB數(shù)據(jù)。
(2)屬性關(guān)系復(fù)雜:庫存數(shù)據(jù)屬性繁多,記錄中包含種類眾多的屬性,有將近200個(gè);數(shù)據(jù)層次繁多,在不同數(shù)據(jù)維度上,記錄可屬于不同的層次;庫存數(shù)據(jù)和屬性相關(guān)性復(fù)雜等。
(3)處理速度緩慢:現(xiàn)有數(shù)據(jù)分析工具大多基于內(nèi)存,無法加載龐大數(shù)據(jù)集,對(duì)數(shù)據(jù)輸入格式要求嚴(yán)格,適用性不強(qiáng),運(yùn)行速度慢,無法響應(yīng)大數(shù)據(jù)的要求。
因此,現(xiàn)代庫存管理需要采用大數(shù)據(jù)挖掘技術(shù)開發(fā)高效、可靠、能處理大規(guī)模數(shù)據(jù)的智能庫存管理系統(tǒng)。
6.3 具體例子
筆者的研究團(tuán)隊(duì)開發(fā)了基于FIU-Miner的智能庫存管理系統(tǒng)iMiner[13],該系統(tǒng)為智能庫存管理定制了專門的數(shù)據(jù)挖掘算法,實(shí)現(xiàn)了多個(gè)功能模塊,開發(fā)了大規(guī)模的數(shù)據(jù)分析平臺(tái)系統(tǒng)。
6.3.1 系統(tǒng)概況
圖13展示了iMiner系統(tǒng)整體框架、各功能層次和模塊。系統(tǒng)自底向上分為物理資源層、任務(wù)和系統(tǒng)管理層、數(shù)據(jù)分析層、用戶界面層。該系統(tǒng)分析平臺(tái)建立在支持高效數(shù)據(jù)分析的分布式系統(tǒng)——FIUMiner中。這一分析平臺(tái)可提供高效率的數(shù)據(jù)分析處理工作流,并且可以有效地集成多種數(shù)據(jù)分析工具和語言,如R、Weka、Python、Hadoop等。數(shù)據(jù)分析層包括了數(shù)據(jù)預(yù)處理和各類數(shù)據(jù)挖掘算法,其中關(guān)鍵因素提取算法有助于提取對(duì)入庫/出庫量產(chǎn)生較大影響的因素或者對(duì)物料異常情況有決定性影響的因素;分布式K近鄰算法有助于查找入庫/出庫行為相似的物料;分布式回歸分析有助于對(duì)大盤及具體物料的入庫/出庫量進(jìn)行有效預(yù)測(cè)。
系統(tǒng)主要聚焦于庫存預(yù)測(cè)、庫存異常檢測(cè)、庫齡挖掘三大核心功能,通過綜合評(píng)價(jià)和集成各種算法的輸出使得分析結(jié)果更加穩(wěn)定和準(zhǔn)確。用戶界面層囊括了多種庫存分析結(jié)果的展示,用戶可以通過屬性選擇來查看不同的分析結(jié)果,也可以通過對(duì)個(gè)別參數(shù)的修改來更新分析結(jié)果,實(shí)現(xiàn)實(shí)時(shí)的人機(jī)互動(dòng)。展示結(jié)果不僅有列表顯示,還提供了各種直觀的圖表顯示,更有利于用戶接收到數(shù)據(jù)整體分布、趨勢(shì)和關(guān)鍵信息點(diǎn)。
圖13 iMiner系統(tǒng)架構(gòu)
6.3.2 系統(tǒng)功能模塊
iMiner主要包含庫存預(yù)測(cè)(inventory forecasting)、庫存異常檢測(cè)(inventory anomaly detection)及庫齡分析(inventory aging analysis)三大功能模塊,如圖14所示。
(1)庫存預(yù)測(cè)
庫存管理中,精確和可信的庫存預(yù)測(cè)是關(guān)鍵。高效、可靠的預(yù)測(cè)可以大大減少庫存負(fù)荷,降低額外的貨物維護(hù)和損耗。庫存數(shù)據(jù)為標(biāo)準(zhǔn)的時(shí)序數(shù)據(jù),數(shù)據(jù)量大、時(shí)間跨度長(zhǎng)、涵蓋面廣、規(guī)律性差。iMiner采用一種動(dòng)態(tài)預(yù)測(cè)模型,首先根據(jù)歷史數(shù)據(jù)對(duì)出庫的基數(shù)進(jìn)行預(yù)測(cè),而后結(jié)合出庫數(shù)據(jù)的長(zhǎng)期趨勢(shì)、周期性因素及事件性因素對(duì)基數(shù)進(jìn)行動(dòng)態(tài)調(diào)整,從而得到最終的預(yù)測(cè)結(jié)果。
(2)庫存異常檢測(cè)
對(duì)庫存指標(biāo)進(jìn)行監(jiān)控而達(dá)到異常檢測(cè)的目的,是庫存管理中不可或缺的部分。iMiner提供了多種庫存指標(biāo)的實(shí)時(shí)監(jiān)控(如庫存周轉(zhuǎn)率、庫存周轉(zhuǎn)天數(shù)、存銷比、周轉(zhuǎn)提升率、庫存資金周轉(zhuǎn)率)和不同粒度下的指標(biāo)查詢(如按時(shí)間周期包括按周和按月、按指定公司和物料、按指定物料類別和公司、按指定物料類別等)。同時(shí),系統(tǒng)從庫存數(shù)據(jù)多個(gè)角度入手,及時(shí)、準(zhǔn)確地發(fā)現(xiàn)庫存的波動(dòng);采用相關(guān)物料的協(xié)同異常判定,使得對(duì)于異常結(jié)果的判定更有意義,系統(tǒng)還能夠同時(shí)準(zhǔn)確判定整體性指標(biāo)變化和個(gè)別指標(biāo)異常。
圖14 iMiner主要功能模塊
(3)庫齡分析
庫齡挖掘是為了防止貨物積壓,提前發(fā)現(xiàn)潛在積壓貨物,減小貨物積壓投資。iMiner系統(tǒng)利用統(tǒng)計(jì)回歸模型實(shí)現(xiàn)庫齡分析,并提供了庫齡分析的基本工具和高級(jí)工具?;竟ぞ咴试S用戶可視化分析給定貨物的庫齡分布,比較不同貨物中當(dāng)前的和歷史的庫齡變化,高級(jí)工具能夠幫助用戶找到與積壓相關(guān)的貨物屬性。iMiner系統(tǒng)中,庫齡挖掘主要包含了庫齡相關(guān)分類和標(biāo)準(zhǔn)、庫齡計(jì)算、庫齡金額計(jì)算以及安全庫存的計(jì)算等功能模塊。
6.4 應(yīng)用亮點(diǎn)評(píng)述
iMiner是一種新的智能庫存管理系統(tǒng),該系統(tǒng)能夠幫助大型供應(yīng)商實(shí)現(xiàn)高效的庫存管理,著力解決大數(shù)據(jù)時(shí)代現(xiàn)有庫存管理面臨的兩大關(guān)鍵問題。
(1)大規(guī)模庫存數(shù)據(jù)分析
iMiner系統(tǒng)分析平臺(tái)建立在支持高效數(shù)據(jù)分析的分布式系統(tǒng)——FIUMiner中。這一分析平臺(tái)是在分布式環(huán)境中管理所有的交易數(shù)據(jù),因此,iMiner能夠自動(dòng)配置和執(zhí)行大規(guī)模庫存數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析任務(wù)。
(2)復(fù)雜庫存任務(wù)管理
iMiner結(jié)合多種先進(jìn)的數(shù)據(jù)挖掘算法來分析庫存數(shù)據(jù)。在實(shí)踐中,系統(tǒng)采用多種回歸模型,結(jié)合時(shí)間序列分析方法來實(shí)現(xiàn)庫存預(yù)測(cè);運(yùn)用情境感知異常檢測(cè)算法來識(shí)別異常貨物;利用統(tǒng)計(jì)回歸模型來進(jìn)行庫齡分析。從而實(shí)現(xiàn)高效、準(zhǔn)確的復(fù)雜庫存任務(wù)管理。
基于FIU-Miner的iMiner商務(wù)智能庫存管理平臺(tái)已經(jīng)應(yīng)用于企業(yè),成功解決了產(chǎn)品出庫預(yù)測(cè)、指標(biāo)異常檢查、庫齡挖掘等對(duì)企業(yè)產(chǎn)品生產(chǎn)和經(jīng)濟(jì)效益有重要影響的實(shí)際問題。
大數(shù)據(jù)的復(fù)雜特征對(duì)數(shù)據(jù)挖掘在理論和算法研究方面提出了新的要求和挑戰(zhàn)。大數(shù)據(jù)是現(xiàn)象,核心是挖掘數(shù)據(jù)中蘊(yùn)含的潛在信息,并使它們發(fā)揮價(jià)值。數(shù)據(jù)挖掘是理論技術(shù)和實(shí)際應(yīng)用的完美結(jié)合。
本文通過目前業(yè)界對(duì)大數(shù)據(jù)的理解和認(rèn)識(shí),結(jié)合筆者及其研究團(tuán)隊(duì)多年來對(duì)大數(shù)據(jù)挖掘的深入理論研究及廣泛的應(yīng)用研究,綜合凝練出大數(shù)據(jù)的核心架構(gòu),即大數(shù)據(jù)挖掘的本質(zhì)是應(yīng)用、算法、數(shù)據(jù)和平臺(tái)4個(gè)要素的有機(jī)結(jié)合。在此架構(gòu)下,從應(yīng)用的角度重點(diǎn)介紹了研究團(tuán)隊(duì)開發(fā)的能夠快速、有效地進(jìn)行各類數(shù)據(jù)挖掘任務(wù)的數(shù)據(jù)挖掘系統(tǒng)FIU-Miner,并具體介紹了基于FIU-Miner的高端制造業(yè)數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和商務(wù)智能數(shù)據(jù)挖掘3個(gè)典型的應(yīng)用案例。FIU-Miner在這些領(lǐng)域的成功應(yīng)用也說明了提出的數(shù)據(jù)挖掘核心架構(gòu)的效用。
致謝
本文總結(jié)介紹了筆者研究團(tuán)隊(duì)近幾年開展的與大數(shù)據(jù)相關(guān)的部分研究和成果?;谶@些研究,給出了對(duì)大數(shù)據(jù)的理解和看法,希望能起到拋磚引玉的目的。在這些相關(guān)研究中,筆者研究團(tuán)隊(duì)得到了許多人的幫助和機(jī)構(gòu)的資助,在此表示衷心感謝。
首先,要大力感謝長(zhǎng)虹集團(tuán)以及其相關(guān)科研人員Bing Duan、Ming Lei、Pengnian Wang、Jun Tang、 Dong Liu。他們不僅為筆者研究團(tuán)隊(duì)的科研提供了資助,而且其相關(guān)研究人員為筆者研究團(tuán)隊(duì)提供了非常多寶貴的專業(yè)領(lǐng)域知識(shí)指導(dǎo)。
其次,要深深感謝美國(guó)佛羅里達(dá)國(guó)際大學(xué)的Knowledge Discovery and Research Group(KDRG)研究組的成員:Dr Lei Li、Dr Yexi Jiang、Mr Wei Xue、Dr Jingxuan Li、Dr Chao Shen、Mr Hongtai Li、Dr Liang Tang、Mr Long Wang和Mr Longhui Zhang。他們?cè)谙嚓P(guān)的研究及項(xiàng)目中付出了辛勤的勞動(dòng),提供了許多寶貴的反饋。
最后,要感謝美國(guó)佛羅里達(dá)國(guó)際大學(xué)的Naphtali Rishe教授以及其帶領(lǐng)的High Performance Database Research Center(HPDRC)研究組里的成員: Mr Mingjin Zhang、Ms Huibo Wang、Dr Yun Lu、Mr Yudong Guang、Mr Chang Liu和Mr Erik Edrosa。他們?cè)赥errayFlyGeocloud項(xiàng)目上與筆者研究團(tuán)隊(duì)開展了非常有成效的合作。
[1] 嚴(yán)霄鳳, 張德馨. 大數(shù)據(jù)研究. 計(jì)算機(jī)技術(shù)與發(fā)展, 2013, 23(4): 168~172 Yan X F, Zhang D X. Big data research. Computer Technology and Development, 2013, 23(4): 168~172
[2] 李國(guó)杰. 對(duì)大數(shù)據(jù)的再認(rèn)識(shí). 大數(shù)據(jù), 2015001 Li G J. Further understanding of big data. Big Data Research, 2015001
[3] 李濤. 數(shù)據(jù)挖掘的應(yīng)用與實(shí)踐: 大數(shù)據(jù)時(shí)代的案例分析. 廈門: 廈門大學(xué)出版社, 2013 Li T. Data Mining Where Theory Meets Practice. Xiamen: Xiamen Press, 2013
[4] Hall M, Frank E, Holmes G,et al. The Weka data mining software: an update. SIGKDD Explorations, 2009, 11(1): 10~18
[5] Owen S, Anil R, Dunning T,et al. Mahout in Action. Shelter Island: Manning Publications, 2011
[6] Prekopcsak Z, Makrai G, Henk T,et al. Radoop: analyzing big data with rapid miner and hadoop. Proceedings of RapidMiner Community Meeting and Conference, Dublin, Ireland, 2011
[7] Yu L, Zheng J, Wu B,et al. Bc-pdm: data mining, social network analysis and text mining system based on cloud computing. Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’12), Beijing, China, 2012
[8] Zeng C Q, Jiang Y X, Zheng L,et al. Fiu-Miner: a fast, integrated, and user-friendly system for data mining in distributed environment. Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’13), Chicago, Illinois, USA, 2013: 1506~1509
[9] Lei D, Hitt M A, Goldhar J D. Advanced manufacturing technology: organizational design and strategic flexibility. Organization Studies, 1996, 17(3): 501~523
[10] Zheng L, Zeng C Q, Li L,et al. Applying data mining techniques to address critical process optimization needs in advanced manufacturing. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’14), New York, USA, 2014: 1739~1748
[11] Zhang M J, Wang H B, Lu Y,et al. TerraFly GeoCloud: an online spatial data analysis and visualization system. ACM Transactions on Intelligent Systems and Technology (TIST), 2015, 6(3)
[12] Zeng C Q, Li H T, Wang H B,et al. Optimizing online spatial data analysis with sequential query patterns. Proceedings of the 15th IEEE International Conference on Information Reuse and Integration, San Francisco, CA, USA, 2014
[13] Li L, Shen C, Wang L,et al. iMiner: mining inventory data for intelligent management. Proceedings of the 23rd ACM International Conference on Information and Knowledge Management, Shanghai, China, 2014
作者簡(jiǎn)介
李濤,男,南京郵電大學(xué)計(jì)算機(jī)學(xué)院、軟件學(xué)院院長(zhǎng),南京郵電大學(xué)大數(shù)據(jù)研究院院長(zhǎng)。2004年7月獲美國(guó)羅徹斯特大學(xué)(University of Rochester)計(jì)算機(jī)科學(xué)博士學(xué)位,2004-2014年先后任美國(guó)佛羅里達(dá)國(guó)際大學(xué)(Florida International University)計(jì)算機(jī)學(xué)院助理教授、副教授(終身教授)、教授(full professor)、研究生主管(graduate program director)。由于在數(shù)據(jù)挖掘及應(yīng)用領(lǐng)域成效顯著的研究工作,曾多次獲得各種榮譽(yù)和獎(jiǎng)勵(lì),其中包括2006年美國(guó)國(guó)家自然科學(xué)基金委頒發(fā)的杰出青年教授獎(jiǎng),2010年IBM大規(guī)模數(shù)據(jù)分析創(chuàng)新獎(jiǎng),并于2009年獲得佛羅里達(dá)國(guó)際大學(xué)最高學(xué)術(shù)研究獎(jiǎng)。
曾春秋,男,美國(guó)佛羅里達(dá)國(guó)際大學(xué)計(jì)算機(jī)科學(xué)博士生,南京郵電大學(xué)計(jì)算機(jī)學(xué)院大數(shù)據(jù)項(xiàng)目組成員。2009年7月-2012年1月為阿里巴巴(中國(guó))網(wǎng)絡(luò)技術(shù)有限公司高級(jí)數(shù)據(jù)工程師。主要研究興趣包括大規(guī)模分布式數(shù)據(jù)挖掘和系統(tǒng)管理,發(fā)表多篇頂級(jí)數(shù)據(jù)挖掘國(guó)際期刊和會(huì)議論文,參與多本數(shù)據(jù)挖掘相關(guān)應(yīng)用領(lǐng)域書籍的編寫工作。
周武柏,男,美國(guó)佛羅里達(dá)國(guó)際大學(xué)計(jì)算機(jī)科學(xué)博士生,南京郵電大學(xué)計(jì)算機(jī)學(xué)院大數(shù)據(jù)項(xiàng)目組成員。主要研究興趣包括數(shù)據(jù)挖掘和計(jì)算機(jī)系統(tǒng)管理,發(fā)表多篇頂級(jí)數(shù)據(jù)挖掘國(guó)際期刊和會(huì)議論文,參與多本數(shù)據(jù)挖掘相關(guān)應(yīng)用領(lǐng)域書籍的編寫工作。
周綺鳳,女,博士,廈門大學(xué)自動(dòng)化系副教授。2002年起從事數(shù)據(jù)挖掘及智能系統(tǒng)方面的研究工作,2014-2015年在美國(guó)佛羅里達(dá)國(guó)際大學(xué)訪學(xué),主要研究興趣包括機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘及其在可持續(xù)發(fā)展等領(lǐng)域的應(yīng)用。
鄭理,男,2014年在美國(guó)佛羅里達(dá)國(guó)際大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位,南京郵電大學(xué)計(jì)算機(jī)學(xué)院項(xiàng)目研究員。主要研究興趣包括信息檢索、推薦系統(tǒng)及災(zāi)難信息管理,發(fā)表多篇頂級(jí)數(shù)據(jù)挖掘國(guó)際期刊和會(huì)議論文,參與多本數(shù)據(jù)挖掘相關(guān)應(yīng)用領(lǐng)域書籍編寫。
Li T, Zeng C Q, Zhou W B,et al. Data mining in the era of big data: from the application perspective. Big Data Research, 2015041
Data Mining in the Era of Big Data: From the Application Perspective
Li Tao1,2, Zeng Chunqiu1,2, Zhou Wubai1,2, Zhou Qifeng3, Zheng Li1,2
1. School of Computer Science & Technology, Nanjing University of Posts and Telecommunications, Nanjing 210023, China;
2. School of Computer Science, Florida International University, Miami 33199, USA;
3. Department of Automation, Xiamen University, Xiamen 361005, China
The technical characteristics, tasks, and difficulties of data mining in big data era were introduced. The system architecture of large-scale data mining was analyzed. Then, the developed FIU-Miner which is a fast, integrated, and user-friendly system for data mining, was introduced. FIU-Miner supports user-friendly rapid data mining task configuration, flexible cross-language program integration, and effective resource management in heterogeneous environments. Finally three successful real-world applications of FIU-Miner: advanced manufacturing data mining, spatial data mining, and business intelligence data mining, were presented to demonstrate its efficacy and effectiveness.
big data, data mining, FIU-Miner, advanced manufacturing, spatial data mining, business intelligence
10.11959/j.issn.2096-0271.2015041
2015-09-30
李濤,曾春秋,周武柏等. 大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘——從應(yīng)用的角度看大數(shù)據(jù)挖掘. 大數(shù)據(jù), 2015041