趙 蕓 唐旭清,2
(1.江南大學(xué)理學(xué)院,無(wú)錫,214122;2.無(wú)錫市生物計(jì)算工程技術(shù)研究中心,無(wú)錫,214122)
線性回歸(Linear regression,LR)分析或多元線性回歸(Multiple linear regression,MLR)分析[1-3]主要用于研究變量間的相關(guān)關(guān)系及基于數(shù)據(jù)變量間客觀規(guī)律的獲取。作為一種常用的統(tǒng)計(jì)分析方法,MLR在實(shí)際問(wèn)題研究中得到了廣泛應(yīng)用[4-7],同時(shí)理論也得到不斷豐富和發(fā)展[3-8]。
近年來(lái),隨著計(jì)算機(jī)科學(xué)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,大批量數(shù)據(jù)不斷涌現(xiàn),大數(shù)據(jù)已經(jīng)成為許多部門(mén)與行業(yè)一個(gè)重要的特點(diǎn)[9-11]。受實(shí)際需求影響,在大數(shù)據(jù)存儲(chǔ)、計(jì)算過(guò)程中數(shù)據(jù)量龐大,一般多采用拓?fù)浣Y(jié)構(gòu)形式進(jìn)行存儲(chǔ),其中較為常見(jiàn)的就是層次結(jié)構(gòu)[12-13]。層次結(jié)構(gòu)作為一種常用的數(shù)據(jù)結(jié)構(gòu),具有典型的樹(shù)狀特點(diǎn),有利于存儲(chǔ)數(shù)據(jù)的管理與檢索。如銀行、保險(xiǎn)、醫(yī)療等行業(yè)的數(shù)據(jù)按行政區(qū)劃就具有層次結(jié)構(gòu)的特點(diǎn),并且這些行業(yè)需要利用大數(shù)據(jù)處理技術(shù)進(jìn)行不同地區(qū)間或者不同行業(yè)間的數(shù)據(jù)整合與分析。因此,基于層次結(jié)構(gòu)的數(shù)據(jù)處理與計(jì)算技術(shù)研究就顯得尤其重要和緊迫[13-14]。
隨著大數(shù)據(jù)研究的不斷深入,基于大數(shù)據(jù)的MLR模型被廣泛應(yīng)用于數(shù)據(jù)處理中。王慧文等[15]提出了MLR模型的增量算法,該算法可在已知全部數(shù)據(jù)信息的前提下,節(jié)約數(shù)據(jù)讀取時(shí)間,減小了數(shù)據(jù)存儲(chǔ)傳輸?shù)膲毫?。此外?duì)于不同的回歸分析模型,如Logistic回歸也漸漸被引入大數(shù)據(jù)處理,并產(chǎn)生了相應(yīng)的算法,Jiang等[16]提出了基于網(wǎng)絡(luò)分布式數(shù)據(jù)的Logistic回歸分析算法,用于數(shù)據(jù)間的規(guī)律獲取。這些基于大數(shù)據(jù)處理與計(jì)算方法的探索與研究有利于提高計(jì)算的效率,同時(shí)對(duì)于具有層次結(jié)構(gòu)的數(shù)據(jù)進(jìn)行處理與計(jì)算時(shí),除考慮現(xiàn)有問(wèn)題外,更需要解決各層之間的聯(lián)系以及數(shù)據(jù)綜合的問(wèn)題,如各分層部分的MLR系數(shù)與總的MLR系數(shù)的數(shù)量計(jì)算關(guān)系。除此之外,在一些特殊行業(yè)中,例如金融服務(wù)、醫(yī)療衛(wèi)生等領(lǐng)域還面臨著數(shù)據(jù)安全和隱私保護(hù)的問(wèn)題,并已經(jīng)成為大數(shù)據(jù)研究的重要問(wèn)題之一。馮登國(guó)等[17]從宏觀方面提出了大數(shù)據(jù)安全與隱私保護(hù)的一些構(gòu)想。羅永龍等[18]提出了一種基于安全協(xié)議的隱私保護(hù)方法,并應(yīng)用MLR分析方法進(jìn)行研究。美國(guó)加州大學(xué)圣地亞哥分校的Jiang教授團(tuán)隊(duì)就分布式數(shù)據(jù)提出了隱私保護(hù)協(xié)議的支持向量機(jī)算法[19-20]。
在以上研究的基礎(chǔ)上,本文提出了層次結(jié)構(gòu)數(shù)據(jù)的MLR分析方法的研究,其主要目的是通過(guò)下層數(shù)據(jù)的部分偏回歸系數(shù)以及層次結(jié)構(gòu)矩陣來(lái)求解上層模型的偏回歸系數(shù),以此來(lái)實(shí)現(xiàn)由部分偏回歸系數(shù)來(lái)構(gòu)建全體MLR模型的目標(biāo)。針對(duì)下層每個(gè)部分的偏回歸系數(shù),數(shù)據(jù)用戶(hù)只需要提供原數(shù)據(jù)總和、平方和以及交叉項(xiàng)乘積和即可求解該部分的MLR模型的偏回歸系數(shù)。與直接利用原始數(shù)據(jù)求解偏回歸系數(shù)的相比,通過(guò)原數(shù)據(jù)總和、平均值以及交叉項(xiàng)乘積和的輸入進(jìn)行偏回歸系數(shù)的求解,既可以保證原始數(shù)據(jù)的私密性,又可達(dá)到與原始數(shù)據(jù)直接輸入相同的結(jié)果。同時(shí)模型可實(shí)現(xiàn)整個(gè)計(jì)算的并行處理,提高大數(shù)據(jù)處理能力。
在大數(shù)據(jù)分析處理中,為方便數(shù)據(jù)的存儲(chǔ)、讀取、計(jì)算等操作,大部分?jǐn)?shù)據(jù)都按照一定拓?fù)浣Y(jié)構(gòu)進(jìn)行存儲(chǔ),如鏈?zhǔn)浇Y(jié)構(gòu)、網(wǎng)狀結(jié)構(gòu)、環(huán)形結(jié)構(gòu)等,其中較為常用的一種數(shù)據(jù)管理結(jié)構(gòu)為層次結(jié)構(gòu)。
通過(guò)層次結(jié)構(gòu)所組成的數(shù)據(jù)即為層次結(jié)構(gòu)數(shù)據(jù)[21],層次結(jié)構(gòu)數(shù)據(jù)具體關(guān)系見(jiàn)圖1。在層次結(jié)構(gòu)數(shù)據(jù)中,所有數(shù)據(jù)點(diǎn)組成一個(gè)層次化的垂直樹(shù)形網(wǎng)絡(luò),每一上層數(shù)據(jù)集擁有下層分支的全部數(shù)據(jù)成員。在實(shí)際操作過(guò)程中,對(duì)一個(gè)共含有P層的層次結(jié)構(gòu)數(shù)據(jù)集合,第P層的各數(shù)據(jù)集將全部數(shù)據(jù)傳輸?shù)皆摴?jié)點(diǎn)對(duì)應(yīng)的上層數(shù)據(jù)節(jié)點(diǎn),然后對(duì)第P-1層的各數(shù)據(jù)集匯總,并傳輸?shù)狡鋵?duì)應(yīng)的第P-2層數(shù)據(jù)節(jié)點(diǎn)上,每次往上一層匯總時(shí),會(huì)對(duì)匯總層進(jìn)行置空,以此類(lèi)推,直到傳輸匯總到第1層數(shù)據(jù)節(jié)點(diǎn)。
通過(guò)層次結(jié)構(gòu)化的垂直樹(shù)形網(wǎng)絡(luò),數(shù)據(jù)被逐層傳遞匯總,在實(shí)際的計(jì)算分析中數(shù)據(jù)既可以在當(dāng)前數(shù)據(jù)層進(jìn)行處理,也可以在上層進(jìn)行匯總處理。這樣既可以保持統(tǒng)計(jì)規(guī)律不改變,又實(shí)現(xiàn)了并行處理,增加了數(shù)據(jù)的靈活性和可用性。基于此特點(diǎn),層次結(jié)構(gòu)數(shù)據(jù)在銀行、金融、醫(yī)療衛(wèi)生[22]等行業(yè)領(lǐng)域有著廣泛的適用性。
同時(shí)在銀行、金融、醫(yī)療衛(wèi)生等行業(yè)領(lǐng)域中,數(shù)據(jù)集中往往包含著用戶(hù)的隱私信息,因此多采用加密數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)、傳輸。在加密數(shù)據(jù)庫(kù)中,每個(gè)數(shù)據(jù)庫(kù)僅保留少量外部接口或?qū)?shù)據(jù)進(jìn)行加密處理,兩者加密方法都對(duì)基于全體數(shù)據(jù)的回歸分析模型在構(gòu)建上造成一定困難。為了對(duì)基于隱私數(shù)據(jù)的層次結(jié)構(gòu)數(shù)據(jù)集進(jìn)行回歸分析,本文在傳統(tǒng)回歸分析的基礎(chǔ)上,提出基于少量接口數(shù)據(jù)的回歸數(shù)據(jù)計(jì)算方法,算法如下:
步驟1開(kāi)始;
步驟2參數(shù)初始化p、P,令p=P;
步驟3由第p層接口數(shù)據(jù)求解部分偏回歸系數(shù)Bp、層次結(jié)構(gòu)矩陣Qp,令p=p-1;
步驟4由部分偏回歸系數(shù)Bp、層次結(jié)構(gòu)矩陣Qp,求解總體偏回歸系數(shù)B;
步驟5判斷p值,如果p>1轉(zhuǎn)步驟2,如果p=1轉(zhuǎn)步驟6;
步驟6結(jié)束。
圖1 層次結(jié)構(gòu)拓?fù)鋱DFig.1 Hierarchy topology
在該算法中,參數(shù)p為計(jì)數(shù)器,計(jì)算當(dāng)前所在的層數(shù),參數(shù)P是層次結(jié)構(gòu)數(shù)據(jù)的總層數(shù)。算法中步驟2負(fù)責(zé)計(jì)算包含少量接口數(shù)據(jù)的下層部分偏回歸系數(shù),在充分保護(hù)數(shù)據(jù)隱私的前提下構(gòu)建結(jié)構(gòu)下層數(shù)據(jù)中小部分?jǐn)?shù)據(jù)的MLR模型。步驟3負(fù)責(zé)利用下層部分偏回歸系數(shù)以及數(shù)據(jù)傳遞時(shí)的層次結(jié)構(gòu)矩陣計(jì)算上層總體偏回歸系數(shù)。在步驟2,3的計(jì)算過(guò)程中,所有偏回歸系數(shù)以及層次結(jié)構(gòu)矩陣的計(jì)算僅需少量接口數(shù)據(jù),因此本文算法能在構(gòu)建層次結(jié)構(gòu)數(shù)據(jù)MLR模型的同時(shí),充分保障數(shù)據(jù)的私密性。步驟3,4的具體計(jì)算方法如下。
考慮一組已知的層次結(jié)構(gòu)數(shù)據(jù),采用MLR分析對(duì)其結(jié)構(gòu)內(nèi)數(shù)據(jù)進(jìn)行建模計(jì)算,由層次結(jié)構(gòu)的特點(diǎn),本文考慮對(duì)其中任意上下兩層數(shù)據(jù)子集進(jìn)行分析。該數(shù)據(jù)子集中上層有一個(gè)部分,下層由K個(gè)部分組成,數(shù)據(jù)上下層之間滿(mǎn)足層次結(jié)構(gòu),且下層之間數(shù)據(jù)相互獨(dú)立。在此數(shù)據(jù)集的基礎(chǔ)上本文考慮構(gòu)建上層總體偏回歸系數(shù)與下層部分偏回歸系數(shù)之間的關(guān)系模型。
1.2.1 部分偏回歸系數(shù)計(jì)算
以下將具體闡述下層部分偏回歸系數(shù)的求解方法。為達(dá)到保護(hù)隱私的目的,本文方法只需少量接口數(shù)據(jù)便可進(jìn)行下層每個(gè)部分偏回歸系數(shù)的求解,其中接口數(shù)據(jù)包括原數(shù)據(jù)總和、平均值及交叉項(xiàng)乘積和。
在傳統(tǒng)MLR分析中,利用最小二乘求解方法[23]求解偏回歸系數(shù)僅需計(jì)算
式中N表示回歸模型中自變量X的維數(shù)。
對(duì)式(1)中回歸系數(shù)方程組系數(shù)矩陣L與L0=(L10,L20,…,LN0)T的計(jì)算方法通常如下
式中:N表示回歸模型中自變量X的維數(shù);n表示每一維自變量的樣本數(shù)。
在式(2)算法中需要已知全體自變量X和應(yīng)變量Y的原始數(shù)值才可以進(jìn)行計(jì)算求解。但在一些特定場(chǎng)合中,原始數(shù)據(jù)是嚴(yán)格保密的,因此本文考慮通過(guò)原數(shù)據(jù)總和、平均值、交叉項(xiàng)乘積這類(lèi)不涉及隱私信息、可用于傳輸?shù)慕涌跀?shù)據(jù)來(lái)構(gòu)造部分偏回歸系數(shù)方程組系數(shù)矩陣L和常數(shù)向量L0。
本文考慮對(duì)式(2)中的Lij進(jìn)行展開(kāi)計(jì)算,以此來(lái)設(shè)計(jì)新的方程組系數(shù)構(gòu)造方法。展開(kāi)后結(jié)果如下
其次本文考慮對(duì)Lj0進(jìn)行展開(kāi)計(jì)算,可得到
式中:第i維自變量數(shù)據(jù)的平均值為;第i維自變量數(shù)據(jù)的總和為T(mén)(xi);與第j維自變量數(shù)據(jù)的交叉乘積和為T(mén)(xi,xj);應(yīng)變量數(shù)據(jù)的平均值為-y;因變量與第i維自變量數(shù)據(jù)的交叉乘積和為T(mén)(xi,y)。
這樣即可得到下層部分偏回歸系數(shù)的兩部分系數(shù),非常數(shù)項(xiàng)偏回歸系數(shù)
以及常數(shù)項(xiàng)偏回歸系數(shù)
式中N為自變量維數(shù);在式(5)中的矩陣A是由原數(shù)據(jù)總和、平均值、交叉項(xiàng)乘積所構(gòu)造的系數(shù)逆矩陣,具體表達(dá)式為A=L-1。L0的具體表達(dá)式為L(zhǎng)0=(L10,L20,…,LN0)T;在(6)式中為因變量的平均值,i為第i維自變量的平均值。
通過(guò)上述求解推導(dǎo),本文旨在對(duì)于原有回歸分析的求解方法做進(jìn)一步展開(kāi)合并計(jì)算,并通過(guò)原數(shù)據(jù)總和、平均值、交叉項(xiàng)乘積來(lái)構(gòu)造式(1)方程組中的系數(shù)L,以此來(lái)求解部分偏回歸系數(shù)B=[b1,b2,b3, …,bN]。同時(shí)在方程組求解過(guò)程中又引入系數(shù)逆矩陣A來(lái)替代原有的L,進(jìn)一步化簡(jiǎn)的偏回歸系數(shù)求解方法。
1.2.2 總體偏回歸系數(shù)計(jì)算
本節(jié)將構(gòu)建上層總體偏回歸系數(shù)與下層部分偏回歸系數(shù)之間的關(guān)系模型。
考慮MLR分析中最小二乘的矩陣求解方法
在本文模型對(duì)應(yīng)的層次結(jié)構(gòu)數(shù)據(jù)中,式(7)中的X、Y包含了K個(gè)數(shù)據(jù)部分,第k部分的數(shù)據(jù)為X(k)和Y(k)(k=1,2,…,K),由模型的線性可加性可知,式(7)中的XTX、XTY可表示為
由最小二乘法的矩陣表示形式可知,式(8)中的XTY可表示成
將式(8,9)代入式(7),可得第k部分結(jié)構(gòu)數(shù)據(jù)的偏回歸系數(shù)Bk與總體偏回歸系數(shù)B之間的關(guān)系為
將X(k)TX(k)表示為層次結(jié)構(gòu)矩陣Qk,進(jìn)行展開(kāi)計(jì)算后可得到
式中:X(k)為第k部分?jǐn)?shù)據(jù)矩陣的擴(kuò)展矩陣,即第1列數(shù)據(jù)全為1,第2列到最后一列為原始數(shù)據(jù);第k部分?jǐn)?shù)據(jù)的第i個(gè)分量的總和為T(mén)(X(k)i),平方和為T(mén)(X(k)i,X(k)i);與第j個(gè)分量的平方和為T(mén)(X(k)i,X(k)j)。
通過(guò)式(11)的計(jì)算方法,直接輸入數(shù)據(jù)可得到Qk,結(jié)合計(jì)算Bk可以得到總體偏回歸系數(shù)
式中:Bk為下層第k部分?jǐn)?shù)據(jù)的偏回歸系數(shù);B為上層全體數(shù)據(jù)的總體偏回歸系數(shù)。
基于式(12),可通過(guò)部分偏回歸系數(shù)以及層次結(jié)構(gòu)間的矩陣來(lái)計(jì)算任意p層與p-1層之間滿(mǎn)足層次結(jié)構(gòu)數(shù)據(jù)關(guān)系的偏回歸系數(shù)。當(dāng)層次結(jié)構(gòu)數(shù)據(jù)由下往上按圖1方式傳輸時(shí),任意2層之間滿(mǎn)足關(guān)系的數(shù)據(jù)就可構(gòu)建上下層之間的偏回歸系數(shù)模型,由此就可構(gòu)建整個(gè)層次結(jié)構(gòu)數(shù)據(jù)的偏回歸系數(shù)關(guān)系模型。這種新的數(shù)據(jù)處理模式,對(duì)于具有層次結(jié)構(gòu)的大數(shù)據(jù)處理具有重要意義。在不影響規(guī)律提取的前提下,一方面數(shù)據(jù)的分塊處理能有效保護(hù)數(shù)據(jù)的隱私性;另一方面數(shù)據(jù)能分塊處理可實(shí)現(xiàn)計(jì)算機(jī)的并行運(yùn)算,提高大數(shù)據(jù)處理的能力。此外,通過(guò)理論推導(dǎo)可知本文的模型計(jì)算均為精確值。但在實(shí)際計(jì)算中,計(jì)算工具會(huì)導(dǎo)致截?cái)嗾`差的存在,不影響模型結(jié)果。
在經(jīng)濟(jì)學(xué)研究中,多元性回歸分析是一種常用的方法。本文參考韓琴等[24]在2017年提出的財(cái)政收入MLR模型,建立起2015年我國(guó)財(cái)政收入Y與人口數(shù)X1、最終消費(fèi)支出X2、農(nóng)業(yè)總產(chǎn)值X3、工業(yè)總產(chǎn)值X4、建筑業(yè)增加值X5、災(zāi)害直接經(jīng)濟(jì)損失X6之間的MLR方程,通過(guò)財(cái)政收入的MLR方程來(lái)驗(yàn)證本文所提方法模型的準(zhǔn)確性。
同時(shí)為使數(shù)據(jù)呈現(xiàn)層次結(jié)構(gòu),本文將全國(guó)31個(gè)省市地區(qū)按照孫紅玲等[25]提出的中國(guó)經(jīng)濟(jì)區(qū)的橫向劃分方法將全國(guó)31個(gè)省市地區(qū)劃分為泛珠三角經(jīng)濟(jì)區(qū)、泛長(zhǎng)三角經(jīng)濟(jì)區(qū)、大環(huán)渤海經(jīng)濟(jì)區(qū),同時(shí)每個(gè)經(jīng)濟(jì)區(qū)分別包含12、10和9個(gè)省市地區(qū),本文通過(guò)此經(jīng)濟(jì)區(qū)域劃分來(lái)構(gòu)建層次結(jié)構(gòu)數(shù)據(jù)。具體結(jié)構(gòu)如圖2所示。
圖2 基于橫向劃分的全國(guó)經(jīng)濟(jì)區(qū)域?qū)哟谓Y(jié)構(gòu)圖Fig.2 The Horizontal Structure of National Economy Based on Horizontal Division
根據(jù)圖2結(jié)構(gòu),參照回歸模型中所需的自變量和因變量,從2016年統(tǒng)計(jì)年鑒[26]中可知表1列出的數(shù)據(jù)。
通過(guò)表1數(shù)據(jù)及相應(yīng)的層次結(jié)構(gòu),進(jìn)行回歸系數(shù)模型的驗(yàn)證。在驗(yàn)證過(guò)程中,將本文模型所求結(jié)果與Matlab自帶工具箱求解結(jié)果進(jìn)行比較,以此作對(duì)比驗(yàn)證。
對(duì)于3個(gè)經(jīng)濟(jì)區(qū)的數(shù)據(jù),采用少量接口數(shù)據(jù)求解每部分的偏回歸系數(shù),再通過(guò)文中基于接口數(shù)據(jù)求得的部分偏回歸系數(shù)以及層次結(jié)構(gòu)矩陣,求解總體偏回歸系數(shù)。
在求解部分偏回歸系數(shù)時(shí),本文假設(shè)表1數(shù)據(jù)集中的3個(gè)經(jīng)濟(jì)區(qū)的具體數(shù)值是未知,僅知道3個(gè)經(jīng)濟(jì)區(qū)數(shù)據(jù)總和、平方和以及交叉項(xiàng)乘積和,具體數(shù)值如表2—4所示。
表12015年全國(guó)31個(gè)省市地區(qū)統(tǒng)計(jì)數(shù)據(jù)Tab.1 Statistics of 31 provinces and cities in the country in 2015
在表2—4中,總和與均值可以通過(guò)表1數(shù)據(jù)簡(jiǎn)單計(jì)算得出。而交叉項(xiàng)乘積和是需要進(jìn)行計(jì)算的。通過(guò)表2—4中的數(shù)據(jù),利用部分偏回歸系數(shù)的求解方法可以將3個(gè)經(jīng)濟(jì)區(qū)每部分的偏回歸系數(shù)計(jì)算出來(lái)。進(jìn)而利用層次結(jié)構(gòu)矩陣Qk構(gòu)建的總體偏回歸系數(shù)的求解方法去求解全國(guó)31個(gè)省市地區(qū)的總體偏回歸系數(shù),結(jié)果如表5所示。
表2 泛珠三角經(jīng)濟(jì)區(qū)接口數(shù)據(jù)表Tab.2 Interface data of the Pan-Pearl River Delta
表3 泛長(zhǎng)三角經(jīng)濟(jì)區(qū)接口數(shù)據(jù)表Tab.3 Interface data of the Pan-Yangtze River Delta
表4 大環(huán)渤海經(jīng)濟(jì)區(qū)接口數(shù)據(jù)表Tab.4 Interface data of Circum-Bohai-Sea region
表5中的bi表示每一維自變量的偏回歸系數(shù)。本文模型求解的全體偏回歸系數(shù)與Matlab工具箱結(jié)果相比,兩者結(jié)果之間的計(jì)算誤差數(shù)量級(jí)為10-11到10-13之間,屬于Matlab工具本身導(dǎo)致的截?cái)嗾`差,不影響模型及方法本身,因此兩者方法本身并無(wú)差距,由此可說(shuō)明本文的總體偏回歸系數(shù)模型有效可靠。
表5 部分偏回歸系數(shù)、全體偏回歸系數(shù)以及Matlab工具箱計(jì)算結(jié)果Tab.5 Partial regression coefficients,total partial regression coefficients,and Matlab toolbox calculations
上述基于中國(guó)經(jīng)濟(jì)區(qū)的橫向劃分方法的31個(gè)省份財(cái)政收入的回歸模型研究中,充分說(shuō)明了本文提出的部分偏回歸系數(shù)模型,以及基于層次結(jié)構(gòu)矩陣的全體偏回歸系數(shù)模型在實(shí)際應(yīng)用中是可行、有效的。本文模型方法可在只提供原數(shù)據(jù)總和、平均值、交叉項(xiàng)乘積和等接口數(shù)據(jù)的前提下實(shí)現(xiàn)部分偏回歸系數(shù)以及全體偏回歸系數(shù)的求解,可適用于銀行、醫(yī)療等領(lǐng)域在保護(hù)數(shù)據(jù)隱私前提下構(gòu)建不同層次的回歸分析模型。
本文針對(duì)大數(shù)據(jù)環(huán)境下海量的數(shù)據(jù)集以及數(shù)據(jù)處理的隱私保護(hù)問(wèn)題,提出了基于層次結(jié)構(gòu)矩陣來(lái)構(gòu)建下層部分偏回歸系數(shù)與上層總體偏回歸系數(shù)之間關(guān)系的模型。理論推理表明模型可以利用原數(shù)據(jù)總和、平均值、交叉項(xiàng)乘積和這些帶隱私保護(hù)功能的接口數(shù)據(jù)來(lái)求解部分偏回歸系數(shù)。同時(shí)利用帶隱私保護(hù)的接口數(shù)據(jù)求解層次結(jié)構(gòu)矩陣,使層次結(jié)構(gòu)矩陣也帶有隱私保護(hù)功能,再通過(guò)部分偏回歸系數(shù)以及層次結(jié)構(gòu)矩陣求解總體偏回歸系數(shù),實(shí)現(xiàn)了全局模型的數(shù)據(jù)隱私保護(hù)。
同時(shí)以經(jīng)濟(jì)統(tǒng)計(jì)試驗(yàn)數(shù)據(jù)為例,驗(yàn)證了新模型的準(zhǔn)確性。本文模型是對(duì)MLR模型及偏回歸系數(shù)估計(jì)做出的有益的嘗試,為大數(shù)據(jù)處理提供了更為快捷的方法,適用于不同行業(yè)的數(shù)據(jù)。同時(shí),對(duì)于一些特殊行業(yè)的數(shù)據(jù)保密和隱私保護(hù)具有重要意義。