• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于云模型及粗糙集的民航主數(shù)據(jù)識別方法

    2020-09-04 10:46:48王懷超
    關(guān)鍵詞:正態(tài)粗糙集定性

    李 國,張 亞,王懷超

    (中國民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)

    0 引 言

    隨著民航業(yè)的蓬勃發(fā)展,民航數(shù)據(jù)呈現(xiàn)出指數(shù)式的爆炸增長。這些數(shù)據(jù)中很多是基礎(chǔ)的、共享的數(shù)據(jù),即某些數(shù)據(jù)會在多個(gè)部門、系統(tǒng)或業(yè)務(wù)中重復(fù)使用。若出現(xiàn)各個(gè)部門編碼方式不一樣或者某個(gè)數(shù)據(jù)在某一個(gè)部門更新了,其它部門還未更新等情況,則會造成信息不對稱,從而影響最終的決策。因此如何從這些海量的數(shù)據(jù)中識別出這種具有高價(jià)值的、基礎(chǔ)的、被多個(gè)部門共享的數(shù)據(jù),即主數(shù)據(jù)[1,2],變得緊迫且重要。

    然而,主數(shù)據(jù)的識別工作一直未受到重視,也未提出比較有效的識別方法,目前的研究有:王學(xué)建等[3]提出了基于層次分析法的主數(shù)據(jù)識別方法,該方法的優(yōu)點(diǎn)為它是一個(gè)系統(tǒng)性的分析方法,簡單實(shí)用且所需定量數(shù)據(jù)較少,缺點(diǎn)為定性成份較多,不易令人信服;當(dāng)指標(biāo)過多時(shí),數(shù)據(jù)統(tǒng)計(jì)量大,權(quán)重難以計(jì)算;權(quán)重確定為專家打分法,當(dāng)某個(gè)專家更改時(shí),結(jié)果可能會波動很大。劉濤等[4]提出了基于綜合加權(quán)法的主數(shù)據(jù)識別方法,綜合加權(quán)法即德爾菲法與主成分分析法的結(jié)合,主成分分析法主要思想就是降維,將多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo),這幾個(gè)綜合指標(biāo)代表了原始變量的大部分信息,德爾菲法即專家打分法,該方法的優(yōu)點(diǎn)為當(dāng)數(shù)據(jù)量過大時(shí),通過降維減少數(shù)據(jù)量,易于計(jì)算,缺點(diǎn)是專家打分具有主觀性,當(dāng)替換某個(gè)專家時(shí),結(jié)果可能波動很大。上述理論和方法在權(quán)重確定方面都是由專家打分得到的。這就意味著人為主觀因素影響較大。因此,識別主數(shù)據(jù)仍是一個(gè)重大挑戰(zhàn),有必要探索新的有效的理論和方法。

    為消除主數(shù)據(jù)識別指標(biāo)中的隨機(jī)性和模糊性,識別過程的關(guān)鍵兩點(diǎn):①用于主數(shù)據(jù)識別的定性指標(biāo)的定量化描述。正向云模型方法是一種基于概率論和模糊數(shù)學(xué)理論的定性概念到定量表示的轉(zhuǎn)化模型,它可以將概念內(nèi)涵(主觀世界中的抽象概念)轉(zhuǎn)化為概念外延(客觀世界中的樣本集合)。故本文基于此模型,實(shí)現(xiàn)主數(shù)據(jù)識別指標(biāo)的定量化。②指標(biāo)權(quán)重的確定問題。傳統(tǒng)的權(quán)重確定幾乎都需要專家打分,存在某種程度的主觀性。粗糙集理論可以根據(jù)客觀存在的樣本數(shù)據(jù)來計(jì)算各個(gè)指標(biāo)的權(quán)重,可以得到相對客觀的結(jié)果。故本文采用粗糙集的方法來確定指標(biāo)之間的權(quán)重?;谝陨蟽牲c(diǎn)分析,本文提出了一種基于云模型及粗糙集的民航主數(shù)據(jù)識別方法。

    本文基于云模型及粗糙集的對民航主數(shù)據(jù)進(jìn)行識別??紤]到識別指標(biāo)的模糊性和不確定性,選取7個(gè)具有代表性的典型指標(biāo)建立識別指標(biāo)體系,通過客觀方法得到識別指標(biāo)的客觀權(quán)重。然后,基于客觀權(quán)重建立了RS-CM(粗糙集-云模型),為民航主數(shù)據(jù)識別提供了一種方法。

    1 相關(guān)工作

    1.1 主數(shù)據(jù)的識別指標(biāo)

    民航新一代旅客服務(wù)系統(tǒng)由21個(gè)子系統(tǒng)組成,根據(jù)中國民航的業(yè)務(wù)特點(diǎn)、主數(shù)據(jù)的定義及主數(shù)據(jù)具有的特征一致性、識別唯一性、長期有效性、業(yè)務(wù)穩(wěn)定性的特點(diǎn),在確定主數(shù)據(jù)的識別指標(biāo)時(shí),需重點(diǎn)考慮以下因素:

    (1)基礎(chǔ)性

    并不是所有的數(shù)據(jù)都是主數(shù)據(jù),主數(shù)據(jù)是原子數(shù)據(jù),不是衍生數(shù)據(jù)。如旅客訂票后,旅客和機(jī)票皆是原子數(shù)據(jù),它具有不可拆分性。

    (2)共享性

    共享性是主數(shù)據(jù)非常重要的一個(gè)特性,是其它特性的前提。主數(shù)據(jù)一定會被多個(gè)系統(tǒng)訪問,某個(gè)數(shù)據(jù)被訪問的系統(tǒng)越多,則它越可能是主數(shù)據(jù)。如國家代碼會被運(yùn)價(jià)發(fā)布和計(jì)算系統(tǒng)、電子票系統(tǒng)、貨運(yùn)系統(tǒng)、離港系統(tǒng)、GDS分銷系統(tǒng)等共同使用,則國家代碼極有可能是主數(shù)據(jù)。

    (3)存在時(shí)間

    主數(shù)據(jù)一般存在時(shí)間比較長,被多個(gè)系統(tǒng)共享的臨時(shí)數(shù)據(jù)不是主數(shù)據(jù),如機(jī)場代碼需長期存在,不能缺少,則機(jī)場代碼可能是主數(shù)據(jù)。

    (4)訪問次數(shù)

    主數(shù)據(jù)一般比較活躍,被各個(gè)系統(tǒng)訪問頻繁,即需要經(jīng)常使用到的數(shù)據(jù)。如城市代碼會被離港系統(tǒng)、GDS分銷系統(tǒng)、電子票系統(tǒng)等頻繁訪問,則城市代碼極有可能是主數(shù)據(jù)。

    (5)變更頻率

    主數(shù)據(jù)一般比較穩(wěn)定,變動頻率較低。如省代碼。

    充分考慮以上因素,最終確定主數(shù)據(jù)識別的7個(gè)指標(biāo),見表1。

    表1 主數(shù)據(jù)識別指標(biāo)

    1.2 云模型

    云模型[6-8]是Li和Du[9]在1995年首次提出的一種數(shù)學(xué)模型。它考慮了定性概念與定量數(shù)值表示之間轉(zhuǎn)換的不確定性。充分考慮了主數(shù)據(jù)的模糊性和隨機(jī)性。

    設(shè)Z是一個(gè)定量集合Z={x}。C在Z中是定性的概念,確定的參數(shù)x∈Z,在C中是隨機(jī)發(fā)生的,對于Z中的任何元素x,C中x的確定性程度為μ(x)∈[0,1],μ(x)是一個(gè)穩(wěn)定的隨機(jī)數(shù)。x在Z中的分布稱為云,每個(gè)x稱為云滴。由大量的云滴組成的云可以代表領(lǐng)域空間中的定性概念[10,11]。

    引入了3個(gè)數(shù)值特征(Ex、En和He)來表示云模型中的定性概念。期望Ex是區(qū)域空間中云滴空間分布的期望和集合的均值,Ex也是最能代表定性概念的點(diǎn)。熵En是由定性概念的隨機(jī)性和模糊性決定的。具體來說,En是定性的隨機(jī)性和模糊性的度量的概念。超熵是熵不確定性的一種度量,反映了不確定性在域空間中各點(diǎn)的內(nèi)聚性。超熵值He間接反映了云滴的厚度[12]。

    本文采用正向云發(fā)生器和x條件云發(fā)生器。正向云發(fā)生器具有將定性概念轉(zhuǎn)換為定量值的能力,這些發(fā)生器根據(jù)云的3個(gè)數(shù)值特性來生成云滴。x條件云發(fā)生器是一種基于云的3個(gè)數(shù)值特征與x的指定值的組合,能夠產(chǎn)生云滴(x,μ(x))的正向云發(fā)生器。通過兩個(gè)發(fā)生器的結(jié)合,可以得到各種類型的云,在定性知識和定量值之間進(jìn)行轉(zhuǎn)換[13]。

    2 基于云模型-粗糙集的民航主數(shù)據(jù)識別方法

    2.1 基于云模型-粗糙集的民航主數(shù)據(jù)識別思路

    由于主數(shù)據(jù)具有隨機(jī)性與模糊性等不確定性特征,故若對主數(shù)據(jù)進(jìn)行分等級識別,則得到的結(jié)果會更加精確與合理。所以本文借助于云模型理論,根據(jù)主數(shù)據(jù)的特點(diǎn),選出最能定性概括民航主數(shù)據(jù)的幾個(gè)指標(biāo),通過這些指標(biāo)來對主數(shù)據(jù)進(jìn)行分級識別。識別過程中,權(quán)重的確定尤為重要,本文采用粗糙集理論來確定各指標(biāo)的權(quán)重,這樣處理使結(jié)果更加客觀。具體過程如下:

    步驟1 根據(jù)主數(shù)據(jù)特點(diǎn),選出最具代表性的識別指標(biāo),對主數(shù)據(jù)進(jìn)行等級劃分;

    步驟2 對各指標(biāo)不同等級計(jì)算相應(yīng)云模型的3個(gè)參數(shù),生成相應(yīng)的云模型圖;

    步驟3 根據(jù)民航采集的數(shù)據(jù),計(jì)算出各等級對應(yīng)各指標(biāo)的隸屬度u(x);

    步驟4 根據(jù)粗糙集理論確定各指標(biāo)的權(quán)重wi;

    步驟5 用如下公式計(jì)算綜合確定性程度

    (1)

    步驟6 根據(jù)最大確定度原理確定主數(shù)據(jù)的等級。

    識別過程流程,如圖1所示。

    圖1 識別過程流程

    2.2 分布函數(shù)的選擇

    云模型的具體實(shí)現(xiàn)方法有多種形式,依據(jù)不同的概率分布可以形成不同的云,比如基于正態(tài)分布的正態(tài)云、基于高斯分布的高斯云、基于線性分布的線性云等。其中,正態(tài)分布廣泛存在于社會活動、自然活動、及生產(chǎn)技術(shù)中。實(shí)際生活中遇到的大部分隨機(jī)事件都呈現(xiàn)正態(tài)分布或者近似呈現(xiàn)正態(tài)分布。由中心極限定理可知,正態(tài)云模型具有普適性,所以本文選擇正態(tài)云。

    2.3 云模型中參數(shù)的計(jì)算方法

    云模型中3個(gè)參數(shù)的計(jì)算方法[14]如下

    (2)

    式中:Zmax和Zmin分別為各等級對應(yīng)的最大值和最小值。r是一個(gè)固定值,可以根據(jù)變量的模糊度進(jìn)行調(diào)整,在本研究中固定為0.01。

    識別過程步驟3中數(shù)據(jù)x對應(yīng)的隸屬度函數(shù)[15]如式(3)所示,因?yàn)榻?jīng)過對各類隸屬函數(shù)進(jìn)行對比,發(fā)現(xiàn)其它隸屬函數(shù)多數(shù)與正態(tài)隸屬函數(shù)一致。它們大部分是正態(tài)隸屬函數(shù)泰勒展開式的低次項(xiàng)之和,是正態(tài)隸屬函數(shù)的近似表達(dá)。所以正態(tài)隸屬函數(shù)具有普適性,則本文選擇正態(tài)隸屬函數(shù)來確定樣本的隸屬度

    (3)

    2.4 權(quán)重確定方法

    粗糙集理論[16-18]是波蘭數(shù)學(xué)家Pawlak提出的一種數(shù)據(jù)挖掘方法,這種方法挖掘不完整的數(shù)據(jù),發(fā)現(xiàn)隱藏的信息,它在確定指標(biāo)權(quán)重方面具有獨(dú)特的優(yōu)勢,可以消除人為因素的影響且它最大的優(yōu)勢是克服了模糊集合論中隸屬函數(shù)的主觀性,屬性重要度、條件信息熵等是從原始數(shù)據(jù)中計(jì)算得到的,人不會參與進(jìn)來,所以用它來確定指標(biāo)的權(quán)重是比較客觀的[19-21]。

    定義1 在決策表S=(U,A,V,f)中,其中U是非空有限集合,稱為論域,記為U={x1,x2,…,xn};A=C∪D,C是條件屬性集,D為決策屬性集,C∩D=φ;f:U×A→V是一個(gè)信息函數(shù),V=∪Va,a∈A,Va表示屬性a的值域。

    定義3 在決策表S=(U,A,V,f)中,A=C∪D,指標(biāo)屬性C,U/C={C1,C2,…,Cm},決策屬性D,U/D={D1,D2,…,Dn},則決策屬性相對于指標(biāo)屬性的條件信息熵為

    (4)

    定義4 在決策表S=(U,A,V,f)中,A=C∪D,?c∈C,a∈A,x∈U,則條件屬性c的重要度為

    (5)

    其中,a(x)=U/{a}。

    定義5 在決策表S={U,A,V,f)中,A=C∪D,?c∈C,則條件屬性c的權(quán)重為

    (6)

    3 仿真實(shí)驗(yàn)與分析

    本節(jié)仿真實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境是:Intel(R) Core(TM)i5-4590CPU,8 GB內(nèi)存,操作系統(tǒng)為Windows7 旗艦版,在Matlab環(huán)境下進(jìn)行仿真實(shí)驗(yàn)。

    本節(jié)模擬實(shí)際場景進(jìn)行仿真實(shí)驗(yàn),來驗(yàn)證本文研究的基于粗糙集-云模型的民航主數(shù)據(jù)識別方法的可行性。

    本節(jié)仿真實(shí)驗(yàn)數(shù)據(jù)皆來自航空公司。

    3.1 數(shù)據(jù)預(yù)處理

    將主數(shù)據(jù)劃分為5個(gè)等級,每個(gè)等級代表成為主數(shù)據(jù)的可能性,具體含義為I(極高),II(高),III(中),IV(弱),Ⅴ(極弱)。由7個(gè)指標(biāo)共同決定,見表2。

    表2中,統(tǒng)計(jì)了民航信息系統(tǒng)20個(gè)月來的數(shù)據(jù),每個(gè)指標(biāo)值的含義如下:按照民航信息系統(tǒng)的優(yōu)先級規(guī)則將業(yè)務(wù)優(yōu)先級設(shè)置為10級;統(tǒng)計(jì)數(shù)據(jù)在系統(tǒng)中的生命周期,以月為單位,比如說國家代碼在系統(tǒng)中的生命周期是20個(gè)月,則國家代碼的生命周期這一識別指標(biāo)為第一等級;統(tǒng)計(jì)數(shù)據(jù)的標(biāo)識作用,以百分比為單位;查詢該數(shù)據(jù)被訪問的系統(tǒng)個(gè)數(shù),最多為17個(gè)子系統(tǒng);統(tǒng)計(jì)數(shù)據(jù)的變更頻率,以月為單位;查詢一天中數(shù)據(jù)在系統(tǒng)中的被訪問的次數(shù);判斷數(shù)據(jù)的基礎(chǔ)性。根據(jù)以上分析,生成如表2所示的主數(shù)據(jù)等級標(biāo)準(zhǔn)。

    表2 主數(shù)據(jù)等級標(biāo)準(zhǔn)

    3.2 仿真實(shí)驗(yàn)過程

    由于正態(tài)云具有普適性,故本文使用正態(tài)分布函數(shù)的正向云發(fā)生器。將定性描述的識別指標(biāo)轉(zhuǎn)化為用3個(gè)數(shù)字特征表示的定量映射。映射過程由式(2)計(jì)算,得到主數(shù)據(jù)各個(gè)指標(biāo)的云模型參數(shù)(Ex,En,He),分別為:

    業(yè)務(wù)優(yōu)先級:I(9.5,0.42,0.01), II(8,0.85,0.01), III(5.5,1.27,0.01), IV(3,0.85,0.01), Ⅴ(1.5,0.42,0.01);

    生命周期:I(17.5,2.12,0.01), II(13.5,1.27,0.01), III(9,2.55,0.01), IV(4.5,1.3,0.01), Ⅴ(1.5,1.27,0.01);

    唯一性:I(95,4.25,0.01), II(77.5,10.62,0.01), III(50,12.7,0.01), IV(22.5,10.6,0.01), Ⅴ(5,4.25,0.01);

    跨系統(tǒng)使用:I(12,4.25,0.01), II(6,0.85,0.01), III(4,0.85,0.01), IV(2.5,0.42,0.01), Ⅴ(1,0.85,0.01);

    變更頻率:I(1,0.85,0.01), II(3,0.85,0.01), III(5.5,1.27,0.01), IV(8,0.85,0.01), Ⅴ(10.5,1.27,0.01);

    使用頻率:I(150,16.96,0.01), II(115,12.74,0.01), III(75,21.23,0.01), IV(35,12.7,0.01), Ⅴ(10,8.49,0.01);

    基礎(chǔ)性:I(8.5,0.42,0.01), II(7.5,1.27,0.01), III(4.5,1.27,0.01), IV(2,0.85,0.01), Ⅴ(0.5,0.42,0.01)。然后生成各指標(biāo)的標(biāo)準(zhǔn)云,如圖2所示。

    圖2為7個(gè)識別指標(biāo)的標(biāo)準(zhǔn)云,每個(gè)指標(biāo)中有5個(gè)等級。橫坐標(biāo)為各指標(biāo)的取值,縱坐標(biāo)為隸屬度。以生命周期為例,當(dāng)生命周期取16時(shí),則第I、II、III、IV、Ⅴ等級的隸屬度分別為0.6、0.3、0.05、0、0。

    對于隸屬度函數(shù)的選擇,有線性隸屬函數(shù)、柯西隸屬函數(shù)、正態(tài)隸屬函數(shù)等,但由文獻(xiàn)[22]可知,正態(tài)隸屬函數(shù)在很多領(lǐng)域與其它隸屬函數(shù)具有一致性,并且廣泛應(yīng)用在各個(gè)領(lǐng)域。故本文選用正態(tài)隸屬函數(shù),由x條件發(fā)生器,根據(jù)式(3)將采樣數(shù)據(jù)代入圖2中各識別指標(biāo)標(biāo)準(zhǔn)云,得到每個(gè)數(shù)據(jù)各個(gè)識別指標(biāo)的隸屬度,這個(gè)隸屬度具有隨機(jī)性,但是是一個(gè)具有穩(wěn)定傾向的隨機(jī)數(shù),故本文對其進(jìn)行了100次計(jì)算并對這100次結(jié)果求其平均數(shù),得到其中的業(yè)務(wù)優(yōu)先級隸屬度見表3。在該表中,展示了各個(gè)樣本在每個(gè)等級下的隸屬度。

    根據(jù)式(4)、式(5)和式(6)計(jì)算各指標(biāo)的權(quán)重,得到各指標(biāo)權(quán)重為業(yè)務(wù)優(yōu)先級(0.0084),生命周期(0.0084),唯一性(0.0105),跨系統(tǒng)使用(0.0105),變更頻率(0.0105),使用頻率(0.0105),基礎(chǔ)性(0.0105)。

    根據(jù)式(1)計(jì)算每條數(shù)據(jù)的綜合確定度,以最大確定度作為最終主數(shù)據(jù)的識別等級。結(jié)果見表4。

    圖2 各識別指標(biāo)標(biāo)準(zhǔn)云

    表3 業(yè)務(wù)優(yōu)先級隸屬度

    表4 識別結(jié)果

    3.3 實(shí)驗(yàn)結(jié)果分析

    將表4的識別結(jié)果與民航領(lǐng)域已有主數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行對比,國家代碼,城市代碼,機(jī)場代碼與州或省代碼這4項(xiàng)已經(jīng)確定一定為主數(shù)據(jù),本文識別結(jié)果均為Ⅰ等級,故結(jié)果合理有效。樣本一到樣本四與預(yù)期結(jié)果相同,驗(yàn)證本文研究的主數(shù)據(jù)識別方法是可行的。

    4 結(jié)束語

    隨著社會的高速發(fā)展,數(shù)據(jù)已變成信息時(shí)代的重要戰(zhàn)略資源,它如同一座有待開采、礦藏豐富的礦山,對它進(jìn)行有效的挖掘已經(jīng)成為各個(gè)行業(yè)的核心競爭力。而對主數(shù)據(jù)識別則是其中的關(guān)鍵一環(huán)。本文依據(jù)主數(shù)據(jù)的隨機(jī)性與模糊性,提出運(yùn)用云模型方法對其進(jìn)行識別,首先選取7個(gè)關(guān)鍵識別指標(biāo),然后建立標(biāo)準(zhǔn)云模型,再將采集的樣本代入標(biāo)準(zhǔn)云模型,求出各個(gè)數(shù)據(jù)隸屬于各等級的隸屬度。由于每個(gè)指標(biāo)對主數(shù)據(jù)的影響是不一樣的,不能平均對待,故本文采取粗糙集方法來確定各指標(biāo)的權(quán)重。此方法對先驗(yàn)知識要求不高,使權(quán)重確定更客觀。最后將各隸屬度與相應(yīng)權(quán)重結(jié)合,求出綜合確定度,以最大確定度確定主數(shù)據(jù)等級。

    本文第一次將主數(shù)據(jù)劃分等級,使識別結(jié)果更為精確。并且在權(quán)重確定這部分與已有方法有很大不同,已有方法人工干預(yù)過多,即大多為專家打分,導(dǎo)致結(jié)果主觀性比較強(qiáng)。本文引入粗糙集方法,根據(jù)原始數(shù)據(jù)計(jì)算權(quán)重,結(jié)果更為客觀。將本文所提方法應(yīng)用在民航領(lǐng)域,最終結(jié)果與中航信提供結(jié)果一致,驗(yàn)證了本文所提方法的可行性。

    但是對主數(shù)據(jù)識別方法的研究仍然是任重而道遠(yuǎn)的,還需要進(jìn)一步的研究。

    猜你喜歡
    正態(tài)粗糙集定性
    分裂平衡問題的Levitin-Polyak適定性
    基于Pawlak粗糙集模型的集合運(yùn)算關(guān)系
    當(dāng)歸和歐當(dāng)歸的定性與定量鑒別
    中成藥(2018年12期)2018-12-29 12:25:44
    雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗(yàn)
    多?;植诩再|(zhì)的幾個(gè)充分條件
    雙論域粗糙集在故障診斷中的應(yīng)用
    基于泛正態(tài)阻抗云的諧波發(fā)射水平估計(jì)
    半?yún)?shù)EV模型二階段估計(jì)的漸近正態(tài)性
    兩個(gè)域上的覆蓋變精度粗糙集模型
    共同認(rèn)識不明確的“碰瓷”行為的定性
    长葛市| 凤阳县| 兴宁市| 芜湖县| 兴安县| 无为县| 齐河县| 唐河县| 三都| 措美县| 中宁县| 九龙城区| 迁西县| 田东县| 奎屯市| 丰宁| 若羌县| 屏边| 安国市| 太保市| 石泉县| 资中县| 那坡县| 阿拉善右旗| 正镶白旗| 容城县| 刚察县| 寿光市| 土默特左旗| 镇宁| 泗阳县| 庄浪县| 古丈县| 民权县| 浮梁县| 承德市| 成都市| 海林市| 崇州市| 北海市| 凌源市|