關(guān)鍵詞:收益分配;聯(lián)邦計(jì)算;Shapley值法;數(shù)據(jù)交易;模型改進(jìn)
DOI:10.3969/j.issn.1008-0821.2024.11.011
〔中圖分類號〕F49;F224.32;G203 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2024)11-0108-10
近年來,我國數(shù)據(jù)要素市場化建設(shè)進(jìn)程穩(wěn)步推進(jìn)。貴陽數(shù)據(jù)交易所、上海數(shù)據(jù)交易中心等一批數(shù)據(jù)交易平臺相繼成立,數(shù)據(jù)要素市場規(guī)模不斷擴(kuò)大,但仍然處于發(fā)展的起步階段,面臨數(shù)據(jù)要素流通困難、市場生態(tài)發(fā)育不良、場內(nèi)數(shù)據(jù)交易量不足等一系列困難與挑戰(zhàn)[1]。由于合作價(jià)值和分配規(guī)則的不清晰等種種原因,數(shù)據(jù)供應(yīng)方入場意愿低下,數(shù)據(jù)合作開發(fā)和交易難以開展。探究合理的預(yù)期收益分配機(jī)制,為數(shù)據(jù)供應(yīng)方提供穩(wěn)定預(yù)期的決策支撐,對促進(jìn)數(shù)據(jù)流通、加快數(shù)據(jù)要素市場化進(jìn)程,具有重要的研究意義。
多方數(shù)據(jù)協(xié)作是指多個數(shù)據(jù)供應(yīng)方開展數(shù)據(jù)合作開發(fā),提供數(shù)據(jù)產(chǎn)品,并依據(jù)一定的規(guī)則對最終的數(shù)據(jù)產(chǎn)品的收益進(jìn)行分配。數(shù)據(jù)供應(yīng)方的橫向聯(lián)合或縱向聯(lián)合使得數(shù)據(jù)資源有效匯聚,促進(jìn)數(shù)據(jù)的價(jià)值挖掘和數(shù)據(jù)產(chǎn)品的收益提升。橫向聯(lián)合指數(shù)據(jù)供應(yīng)方提供數(shù)據(jù)所具有的屬性相同或相似,多方聯(lián)合使得數(shù)據(jù)所覆蓋的樣本量增加;縱向聯(lián)合指數(shù)據(jù)供應(yīng)方提供數(shù)據(jù)所具有的屬性不同,多方聯(lián)合主要增加了數(shù)據(jù)維度??紤]到隱私保護(hù)和數(shù)據(jù)安全,各數(shù)據(jù)供應(yīng)方不會直接將數(shù)據(jù)進(jìn)行共享匯聚,而聯(lián)邦計(jì)算為更好地提升多方數(shù)據(jù)協(xié)作水平、釋放數(shù)據(jù)要素價(jià)值提供了重要支撐。在數(shù)據(jù)交易的撮合環(huán)節(jié),依賴聯(lián)邦計(jì)算等技術(shù),多個數(shù)據(jù)供應(yīng)方可以提供部分樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)結(jié)果和具體的定價(jià)策略對未來數(shù)據(jù)交易中的數(shù)據(jù)產(chǎn)品進(jìn)行估價(jià),進(jìn)而形成合作與收益分配的意向。
Shapley值法能夠根據(jù)各參與者對合作聯(lián)盟總目標(biāo)的貢獻(xiàn)程度進(jìn)行價(jià)值分配。但是,直接將Sha?pley值法用于聯(lián)邦計(jì)算得到的數(shù)據(jù)產(chǎn)品預(yù)期收益分配也存在若干問題。首先,Shapley值法所考量的通常是模型表現(xiàn)、構(gòu)建成本等因素,這種單一的因素往往不能全面地衡量各方的貢獻(xiàn)。收益分配不僅要考慮各方對數(shù)據(jù)產(chǎn)品價(jià)值的直接貢獻(xiàn),也要考慮各方對數(shù)據(jù)產(chǎn)品開發(fā)的間接影響。其次,在交易撮合期間,由于信息不完全,數(shù)據(jù)供應(yīng)方?jīng)Q策理性有限,且各方博弈水平存在差異等原因,預(yù)期收益分配結(jié)果難以準(zhǔn)確衡量。因此,對Shapley值法進(jìn)行改進(jìn),才能夠形成有效的聯(lián)邦計(jì)算的預(yù)期收益分配,更有力地支撐多方數(shù)據(jù)協(xié)作的合作意向達(dá)成。
本文提出改進(jìn)的Shapley值法進(jìn)行聯(lián)邦計(jì)算的預(yù)期收益分配,包括引入影響合作和交易的各類因素,以及使用模糊數(shù)對預(yù)期收益進(jìn)行表達(dá)。進(jìn)一步地,通過仿真實(shí)驗(yàn)探究各因素對數(shù)據(jù)供應(yīng)方合作與收益分配的影響,為促進(jìn)數(shù)據(jù)合作開發(fā)提供參考建議。
1相關(guān)研究
1.1數(shù)據(jù)產(chǎn)品交易
數(shù)據(jù)產(chǎn)品是數(shù)據(jù)市場的交易對象,包括原始數(shù)據(jù)集、脫敏數(shù)據(jù)集、模型化數(shù)據(jù)和AI化數(shù)據(jù)[2],既包括某個數(shù)據(jù)供應(yīng)方提供的數(shù)據(jù),也包括數(shù)據(jù)合作開發(fā)的成果。數(shù)據(jù)產(chǎn)品應(yīng)用于具體的業(yè)務(wù)或生產(chǎn)場景,數(shù)據(jù)產(chǎn)品價(jià)值判斷同樣基于場景。一方面,應(yīng)用場景產(chǎn)生收益后,數(shù)據(jù)產(chǎn)品的價(jià)值才具體體現(xiàn),數(shù)據(jù)產(chǎn)品的供應(yīng)方應(yīng)獲得數(shù)據(jù)產(chǎn)品應(yīng)用后的部分收益;另一方面,數(shù)據(jù)產(chǎn)品風(fēng)險(xiǎn)管理責(zé)任主要由數(shù)據(jù)供需雙方承擔(dān),數(shù)據(jù)產(chǎn)品供應(yīng)方應(yīng)盡可能保證數(shù)據(jù)產(chǎn)品的質(zhì)量,避免交易風(fēng)險(xiǎn),提高數(shù)據(jù)產(chǎn)品的可用性增加收益。
多方數(shù)據(jù)協(xié)作的數(shù)據(jù)產(chǎn)品收益分配需要評估數(shù)據(jù)產(chǎn)品質(zhì)量以及各數(shù)據(jù)供應(yīng)方數(shù)據(jù)產(chǎn)品(即各方因參與數(shù)據(jù)合作開發(fā)提供的數(shù)據(jù))質(zhì)量貢獻(xiàn)。數(shù)據(jù)產(chǎn)品的質(zhì)量評估有多個維度。《國家數(shù)據(jù)質(zhì)量評價(jià)標(biāo)準(zhǔn)》提出了規(guī)范性、完整性、準(zhǔn)確性、一致性、時(shí)效性、可訪問性六大指標(biāo)。數(shù)據(jù)產(chǎn)品的價(jià)值還可從成本、數(shù)據(jù)質(zhì)量、應(yīng)用價(jià)值和品牌價(jià)值4個維度綜合評估[3]。此外,由指標(biāo)所搭建的質(zhì)量評估模型的應(yīng)用應(yīng)該考慮數(shù)據(jù)交易的不同階段,數(shù)據(jù)產(chǎn)品的質(zhì)量評估也應(yīng)該貫穿數(shù)據(jù)交易全過程。交易前、交易中、交易后3個階段都應(yīng)該對即將或已發(fā)生交易的數(shù)據(jù)產(chǎn)品進(jìn)行評估與審核,并在交易時(shí)針對具體場景和需求提升數(shù)據(jù)產(chǎn)品質(zhì)量[2]。
數(shù)據(jù)交易平臺是數(shù)據(jù)產(chǎn)品交易的場所,也是連接數(shù)據(jù)供應(yīng)方、模型訓(xùn)練方和數(shù)據(jù)需求方的紐帶,具有監(jiān)督和服務(wù)支撐功能,提供數(shù)據(jù)信用綜合評估、數(shù)據(jù)合規(guī)審核認(rèn)證、數(shù)據(jù)要素綜合評估[4]、數(shù)據(jù)溯源研究[5]等服務(wù)。數(shù)據(jù)產(chǎn)品交易模式采用撮合交易模式,即平臺進(jìn)行數(shù)據(jù)供需關(guān)系撮合,不久前成立的上海數(shù)據(jù)交易中心就是采用此種模式[6]。數(shù)據(jù)交易平臺應(yīng)構(gòu)建“撮合實(shí)驗(yàn)環(huán)境”和“生產(chǎn)計(jì)算環(huán)境”兩個分離的環(huán)境,而交易未達(dá)成的交易撮合階段應(yīng)在撮合實(shí)驗(yàn)環(huán)境中進(jìn)行。撮合實(shí)驗(yàn)環(huán)境一定程度上保障了數(shù)據(jù)安全,數(shù)據(jù)供應(yīng)方和其他相關(guān)方可以在應(yīng)用平臺所提供的數(shù)據(jù)處理工具,預(yù)測合作前景,選擇合作策略[7]。數(shù)據(jù)合作開發(fā)需要在撮合實(shí)驗(yàn)環(huán)境下進(jìn)行模擬,以方便數(shù)據(jù)供應(yīng)方達(dá)成合作意向并制定收益分配方案。
1.2收益分配
數(shù)據(jù)合作開發(fā)成果數(shù)據(jù)產(chǎn)品的收益分配模型需要評估數(shù)據(jù)供應(yīng)方的數(shù)據(jù)價(jià)值,由于各方無法統(tǒng)一數(shù)據(jù)產(chǎn)品的價(jià)格以及數(shù)據(jù)資產(chǎn)的價(jià)值,第三方評估成為數(shù)據(jù)價(jià)值評估的重要方法,即委托專業(yè)的第三方人士對數(shù)據(jù)產(chǎn)品、數(shù)據(jù)資產(chǎn)進(jìn)行評估[8]。第三方考慮數(shù)據(jù)資產(chǎn)成本、排他性水平、年齡、風(fēng)險(xiǎn)等因素,根據(jù)數(shù)據(jù)質(zhì)量評價(jià)指標(biāo)給出評價(jià)結(jié)果[9],直接或者間接對比近期市場上相似數(shù)據(jù)資產(chǎn)的交易價(jià)格,分析并排除其中差異的影響,給出價(jià)格區(qū)間以服務(wù)于數(shù)據(jù)供應(yīng)方達(dá)成交易[10]。
數(shù)據(jù)合作開發(fā)的收益分配屬于合作博弈,即各參與方自主決策,簽訂協(xié)議達(dá)成合作。其中,合作博弈的討價(jià)還價(jià)模型需要所有參與者就如何價(jià)值分配進(jìn)行談判以達(dá)成協(xié)議,當(dāng)各方對價(jià)值分配方式達(dá)成一致時(shí),合作或者交易才會發(fā)生。研究者進(jìn)一步改進(jìn)討價(jià)還價(jià)模型以更好地在收益分配中應(yīng)用,包括在討價(jià)還價(jià)模型中考慮社會福利等因素來防止不公平交易[11];用重置成本法、收益現(xiàn)值法給出大數(shù)據(jù)資產(chǎn)的理論價(jià)格區(qū)間,構(gòu)建基于價(jià)格區(qū)間的三階段討價(jià)還價(jià)模型[12]。討價(jià)還價(jià)模型適用于復(fù)雜談判條件下的談判,但問題在于耗時(shí)且達(dá)成合作的協(xié)商成本較大[13]。
合作博弈中的Shapley值法為研究者打開了新的思路。Shapley值法根據(jù)各參與者對合作聯(lián)盟總目標(biāo)的貢獻(xiàn)程度進(jìn)行價(jià)值分配,符合按勞分配為主的分配原則,并且Shapley值法與隱私計(jì)算技術(shù)有較好的適配性?,F(xiàn)有研究將隱私計(jì)算和Shapley值法相結(jié)合,在此基礎(chǔ)上提出算法的改進(jìn),包括考慮數(shù)據(jù)異質(zhì)性對Shapley模型的影響[14],改進(jìn)Shap?ley模型中貢獻(xiàn)指數(shù)計(jì)算方法以提升計(jì)算效率[15],或結(jié)合交叉熵理論和模糊測度構(gòu)建最優(yōu)模糊測度Shapley模型[16]。
2基于改進(jìn)的Shapley值法的聯(lián)邦計(jì)算預(yù)期收益分配模型
2.1收益分配的影響因素
模型構(gòu)建應(yīng)充分考慮數(shù)據(jù)供應(yīng)方合作和利益分配的各類影響因素與各方博弈水平。合作開發(fā)得到的數(shù)據(jù)產(chǎn)品其價(jià)值一方面由模型直接體現(xiàn),模型訓(xùn)練的數(shù)值結(jié)果可作為相關(guān)價(jià)值的衡量指標(biāo);另一方面數(shù)據(jù)產(chǎn)品的價(jià)值間接體現(xiàn)在業(yè)務(wù)和場景中,不能通過模型訓(xùn)練直接得到相關(guān)價(jià)值的衡量指標(biāo)。相對應(yīng)在進(jìn)行利益分配時(shí),一方面,考慮各方對于模型訓(xùn)練的貢獻(xiàn),通過模型訓(xùn)練的數(shù)值結(jié)果直接表現(xiàn)各方貢獻(xiàn);另一方面,數(shù)據(jù)供應(yīng)方各方帶來的交易風(fēng)險(xiǎn)、減少的交易成本以及創(chuàng)造的隱性價(jià)值等因素也應(yīng)當(dāng)考慮到利益分配中去。因此,將數(shù)據(jù)供應(yīng)方合作的影響因素分為模型因素以及非模型因素,模型因素包括模型的預(yù)測準(zhǔn)確率、預(yù)測穩(wěn)健性;非模型因素包括應(yīng)用場景、市場環(huán)境、數(shù)據(jù)信用度、數(shù)據(jù)投入成本。
1)預(yù)測準(zhǔn)確率:一般情況下,數(shù)據(jù)產(chǎn)品服務(wù)于預(yù)測任務(wù),模型使用歷史數(shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí),以預(yù)測未來的風(fēng)險(xiǎn)情況和發(fā)展趨勢。因此,模型的預(yù)測準(zhǔn)確率是數(shù)據(jù)產(chǎn)品對模型學(xué)習(xí)結(jié)果貢獻(xiàn)的最直接體現(xiàn),各個數(shù)據(jù)供應(yīng)方提供的數(shù)據(jù)對模型預(yù)測準(zhǔn)確率的提高應(yīng)當(dāng)被考慮到數(shù)據(jù)產(chǎn)品利益分配中去,這恰恰符合以按貢獻(xiàn)分配為主的分配原則。然而,數(shù)據(jù)對模型預(yù)測準(zhǔn)確率的貢獻(xiàn)并不能完全體現(xiàn)數(shù)據(jù)對數(shù)據(jù)產(chǎn)品價(jià)值的貢獻(xiàn)。其一在于模型本身帶來的不穩(wěn)定性可能會導(dǎo)致對貢獻(xiàn)衡量的偏差,例如改變模型參數(shù)或增加模塊,同樣的數(shù)據(jù)集得到的準(zhǔn)確率貢獻(xiàn)就會改變。其二在于數(shù)據(jù)集對業(yè)務(wù)場景、交易風(fēng)險(xiǎn)等方面的影響無法體現(xiàn)在單一的預(yù)測準(zhǔn)確率評價(jià)指標(biāo)中,因此,應(yīng)當(dāng)考慮更多衡量因素。
2)預(yù)測穩(wěn)健性:穩(wěn)定預(yù)期是開展合作的重要前提,模型訓(xùn)練方如果無法在撮合實(shí)驗(yàn)中對未來收益有穩(wěn)定預(yù)期,則可能為避免勞動力和資金投入的浪費(fèi)而選擇放棄合作;數(shù)據(jù)供應(yīng)方如果無法在撮合實(shí)驗(yàn)中明確預(yù)期收益,則可能為避免他人的“搭便車”行為而導(dǎo)致的不公平利益分配而選擇放棄合作。因此,各方希望數(shù)據(jù)產(chǎn)品在模型訓(xùn)練中的表現(xiàn)具有一定的穩(wěn)健性,也要求數(shù)據(jù)供應(yīng)方各方為預(yù)測的穩(wěn)健性提供支撐,預(yù)測穩(wěn)健性應(yīng)成為參與利益分配的因素之一。
3)應(yīng)用場景:數(shù)據(jù)產(chǎn)品價(jià)值的實(shí)現(xiàn)依托具體的業(yè)務(wù)生產(chǎn)場景。數(shù)據(jù)產(chǎn)品價(jià)格,即數(shù)據(jù)供應(yīng)方獲得的總體收益是場景中獲得收益的一部分,當(dāng)合作中只存在橫向聯(lián)合時(shí),各數(shù)據(jù)供應(yīng)方所提供的數(shù)據(jù)產(chǎn)品對應(yīng)用場景的貢獻(xiàn)一致,無需作為單獨(dú)的因素納入分配模型。但特殊情況在于,如果數(shù)據(jù)供應(yīng)方的合作中存在縱向聯(lián)合,數(shù)據(jù)產(chǎn)品的屬性維度將會增加,適用的業(yè)務(wù)與生產(chǎn)場景有增加的可能性,最終使得數(shù)據(jù)產(chǎn)品的獲利增加。所以應(yīng)當(dāng)考慮各數(shù)據(jù)供應(yīng)方對應(yīng)用場景數(shù)量擴(kuò)展的貢獻(xiàn)。
4)市場環(huán)境:市場環(huán)境對數(shù)據(jù)要素市場具有系統(tǒng)性的影響。相同的數(shù)據(jù)產(chǎn)品由于市場大環(huán)境的變化,其價(jià)值也將發(fā)生變化。例如,隨著隱私保護(hù)規(guī)則的收緊,數(shù)據(jù)產(chǎn)品可應(yīng)用的業(yè)務(wù)與生產(chǎn)場景可能受到約束,但隨著隱私保護(hù)機(jī)制的完善和技術(shù)進(jìn)步,數(shù)據(jù)產(chǎn)品可應(yīng)用的業(yè)務(wù)與生產(chǎn)場景也會增加;當(dāng)市場對數(shù)據(jù)交易呈消極的態(tài)度時(shí),數(shù)據(jù)產(chǎn)品的開發(fā)成本和交易成本可能增加,其價(jià)值可能被低估,而收益反而會減少,反之,當(dāng)市場對數(shù)據(jù)交易保持積極態(tài)度時(shí),同樣的數(shù)據(jù)產(chǎn)品開發(fā)成本和交易成本都將會下降,其價(jià)值也可能獲得較高的認(rèn)可度,數(shù)據(jù)供應(yīng)方可獲得更多收益。
5)數(shù)據(jù)信用度:數(shù)據(jù)信用度指數(shù)據(jù)與數(shù)據(jù)供應(yīng)方可被信任的程度,和合作風(fēng)險(xiǎn)息息相關(guān)。一方面,數(shù)據(jù)存在造假敷衍的可能性,數(shù)據(jù)的信用度低將會嚴(yán)重影響數(shù)據(jù)產(chǎn)品的質(zhì)量;另一方面,數(shù)據(jù)供應(yīng)方本身的信用水平也影響著合作成功的可能性,數(shù)據(jù)供應(yīng)方信用水平低,其他參與合作的數(shù)據(jù)供應(yīng)方的信息安全可能受到威脅,這將會影響合作進(jìn)程。數(shù)據(jù)信用度可依賴數(shù)據(jù)交易平臺給出評價(jià),平臺可通過整合法人基礎(chǔ)情況、行政許可、行政處罰、守信激勵名單、失信懲戒名單等信息,利用機(jī)器學(xué)習(xí)、專家評級等模型輸出量化的數(shù)據(jù)供應(yīng)方信用評級[17],而數(shù)據(jù)信用度也可作為影響因素嵌入數(shù)據(jù)供應(yīng)方合作的收益分配模型。
6)數(shù)據(jù)投入:數(shù)據(jù)投入指數(shù)據(jù)供應(yīng)方對自身數(shù)據(jù)的開發(fā)投入,例如資金、人力等成本,代表數(shù)據(jù)供應(yīng)方對數(shù)據(jù)合作開發(fā)的推動作用以及努力程度。數(shù)據(jù)投入提高,意味著數(shù)據(jù)供應(yīng)方越注重提升自身的數(shù)據(jù)質(zhì)量,對合作更加積極主動,越有利于數(shù)據(jù)產(chǎn)品提升價(jià)值。值得注意的是,隨著數(shù)據(jù)投入增加,數(shù)據(jù)產(chǎn)品價(jià)值與數(shù)據(jù)供應(yīng)方收益的增加是邊際遞減的,數(shù)據(jù)投入不會也不應(yīng)當(dāng)覆蓋數(shù)據(jù)對數(shù)據(jù)產(chǎn)品價(jià)值本身的直接貢獻(xiàn)。
根據(jù)以上分析發(fā)現(xiàn),各因素對數(shù)據(jù)產(chǎn)品價(jià)值的影響程度并不相同,可根據(jù)對數(shù)據(jù)產(chǎn)品價(jià)值的影響直接與否將其區(qū)分為直接影響因素和間接影響因素,如表1所示。直接影響因素的變化可以直接體現(xiàn)在數(shù)據(jù)產(chǎn)品的價(jià)值變化中,包括模型因素中的預(yù)測準(zhǔn)確性,非模型因素中的應(yīng)用場景以及市場環(huán)境。間接影響因素的變化對數(shù)據(jù)產(chǎn)品收益的影響具有隱蔽性,通常不會直接體現(xiàn)在數(shù)據(jù)產(chǎn)品的價(jià)值中,包括模型因素中的預(yù)測穩(wěn)健性,非模型因素中的數(shù)據(jù)信用度以及數(shù)據(jù)投入。這些因素為數(shù)據(jù)產(chǎn)品利益分配提供評價(jià)標(biāo)準(zhǔn)和參考依據(jù)的同時(shí),也激勵數(shù)據(jù)供應(yīng)方提升自身的數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)和組織的信用水平,積極參與數(shù)據(jù)合作開發(fā)和數(shù)據(jù)交易。
2.2基于多因素的修正Shapley值法
假設(shè)n個數(shù)據(jù)供應(yīng)方組成了合作聯(lián)盟S,以合作形式進(jìn)行數(shù)據(jù)合作開發(fā),其中任意若干供應(yīng)方進(jìn)行合作都會獲得一定收益v,且增加供應(yīng)方參與合作不會引起收益降低,則全部n個數(shù)據(jù)供應(yīng)方合作將帶來最大收益。對于合作聯(lián)盟中的個體i,Si代表合作聯(lián)盟S中所有包含i的參與者組合,即包含i的S的子集,計(jì)算在組合中i的邊際貢獻(xiàn),并通過權(quán)重因子w消除計(jì)算順序的影響,加和得到個體i的分配值φi,合作聯(lián)盟S中的每個個體的分配值組成了一個Shapley值分配方案。
3仿真實(shí)驗(yàn)
3.1數(shù)據(jù)描述
利用實(shí)驗(yàn)?zāi)M數(shù)據(jù)供應(yīng)方的數(shù)據(jù)合作開發(fā),進(jìn)一步驗(yàn)證數(shù)據(jù)供應(yīng)方合作的收益分配模型的適用性和有效性。為盡可能模擬數(shù)據(jù)供應(yīng)方的合作,探究收益分配影響因素作用機(jī)制,利用公開數(shù)據(jù)集模擬數(shù)據(jù)合作開發(fā)。本研究選擇計(jì)算機(jī)視覺的經(jīng)典數(shù)據(jù)集MNIST數(shù)據(jù)集及其識別模型模擬數(shù)據(jù)的合作開發(fā),MNIST數(shù)據(jù)集分類任務(wù)簡單明確,易于操作,數(shù)據(jù)量較大,便于數(shù)據(jù)集分割處理。
假設(shè)有3個數(shù)據(jù)供應(yīng)方A、B和C參與數(shù)據(jù)合作開發(fā)。分割MNIST訓(xùn)練數(shù)據(jù)集為3份,每份20000個訓(xùn)練樣本,數(shù)據(jù)供應(yīng)方A、B和C數(shù)據(jù)集構(gòu)成如表2所示。
在模擬數(shù)據(jù)合作開發(fā)過程時(shí),考慮數(shù)據(jù)“可用不可見”的應(yīng)用環(huán)境,參考聯(lián)邦學(xué)習(xí)傳遞模型參數(shù)而不傳遞數(shù)據(jù)的模式,使構(gòu)建的模型以某種順序在A、B、C三方的數(shù)據(jù)集上依次訓(xùn)練,并在每次訓(xùn)練后在同一個測試集上測試。改變迭代次數(shù)和學(xué)習(xí)率,得到不同情況下的預(yù)測準(zhǔn)確率。最后,改變3個數(shù)據(jù)供應(yīng)方數(shù)據(jù)集的訓(xùn)練順序,使所有順序的數(shù)據(jù)供應(yīng)方組合都進(jìn)行上述操作。
3.2實(shí)驗(yàn)設(shè)計(jì)
1)影響因素參數(shù)設(shè)置。由于MNIST數(shù)據(jù)是同一類型,且有相似數(shù)據(jù)結(jié)構(gòu)的,則實(shí)驗(yàn)不涉及數(shù)據(jù)供應(yīng)方增加使得應(yīng)用場景拓展的情況,設(shè)置任意數(shù)據(jù)供應(yīng)方合作得到的數(shù)據(jù)產(chǎn)品應(yīng)用場景參數(shù)的初始值均為1。市場環(huán)境對數(shù)據(jù)產(chǎn)品價(jià)值具有系統(tǒng)性影響,實(shí)驗(yàn)中視為外部影響因素,設(shè)置市場環(huán)境參數(shù)的初始值為1。數(shù)據(jù)信用度與數(shù)據(jù)投入修正因子系數(shù)初始值設(shè)置如表3所示。設(shè)間接影響因素修正因子權(quán)重(βp,βE,βK)為(1/3,1/3,1/3)。
2)收益模擬函數(shù)。在實(shí)驗(yàn)中設(shè)計(jì)符合實(shí)際且合理的收益函數(shù)是極其困難的,另外,實(shí)驗(yàn)的目的主要在于發(fā)現(xiàn)Shapley值法改進(jìn)后的有效性和合理性,并分析影響因素。因此,本次實(shí)驗(yàn)擬設(shè)計(jì)收益模擬函數(shù)代替收益函數(shù)在Shapley值法中的應(yīng)用,將因素對收益的影響放大呈現(xiàn)在收益分配結(jié)果當(dāng)中。
首先,考慮收益與預(yù)測準(zhǔn)確性的關(guān)系。當(dāng)預(yù)測準(zhǔn)確性極低時(shí),少許增加不會對模型的有效性有本質(zhì)的提升,都不能夠應(yīng)用于實(shí)際生產(chǎn)服務(wù);當(dāng)預(yù)測準(zhǔn)確性較低時(shí),少許增加可能會使模型有效性有較大改善,使其價(jià)值大幅提升;當(dāng)預(yù)測準(zhǔn)確性較高時(shí),原本的準(zhǔn)確率已經(jīng)達(dá)到使用預(yù)期,模型價(jià)值的提升反而隨著準(zhǔn)確率增加而邊際遞減。據(jù)此引入Sigmoid函數(shù),以c為收益調(diào)整,設(shè)計(jì)收益模擬函數(shù)與預(yù)測準(zhǔn)確率的關(guān)系見式(18):
其次,設(shè)計(jì)應(yīng)用場景因子系數(shù)為D,則應(yīng)用場景每擴(kuò)展1個單位,收益增加1×D×v0。設(shè)置D初始值為1。最后加入外部影響因素市場環(huán)境,則得到收益函數(shù)見式(19):
3.3結(jié)果及分析
A、B、C三方數(shù)據(jù)集模擬數(shù)據(jù)合作開發(fā)的預(yù)測準(zhǔn)確率結(jié)果如表4所示。
從表4中可以看出,模型預(yù)測準(zhǔn)確率結(jié)果有較大的波動性,與實(shí)際場景中的模型訓(xùn)練情況相似,這有利于模擬數(shù)據(jù)合作開發(fā)的實(shí)際情況。根據(jù)表4直接得到各數(shù)據(jù)集組合預(yù)測準(zhǔn)確性的上下限,進(jìn)一步得到預(yù)測穩(wěn)定性修正因子,如表5所示。
用預(yù)測準(zhǔn)確率下限數(shù)據(jù)和上限數(shù)據(jù)分別進(jìn)行基本Shapley值法、修正Shapley值法的計(jì)算,再引入三角模糊數(shù)得到模糊Shapley值法以及模糊修正Shapley值法的計(jì)算結(jié)果。收益分配值計(jì)算結(jié)果如表6所示。
分析實(shí)驗(yàn)結(jié)果,本文認(rèn)為模糊修正的Shapley值法博弈模型具有其優(yōu)越性。Shapley值法使得分配首先避免了單純按照數(shù)據(jù)量進(jìn)行收益分配,凸顯了數(shù)據(jù)供應(yīng)方的數(shù)據(jù)集對于最終數(shù)據(jù)產(chǎn)品的貢獻(xiàn),使分配結(jié)果反映數(shù)據(jù)質(zhì)量,數(shù)據(jù)供應(yīng)方得到更加合理的分配額;其次,修正Shapley值法加入預(yù)測穩(wěn)健性、數(shù)據(jù)信用度以及數(shù)據(jù)投入因素,考慮了數(shù)據(jù)供應(yīng)方對數(shù)據(jù)產(chǎn)品合作開發(fā)的間接貢獻(xiàn),進(jìn)一步改變了數(shù)據(jù)供應(yīng)方得到的分配值,減少了在風(fēng)險(xiǎn)控制、合作投入等方面表現(xiàn)最弱的數(shù)據(jù)供應(yīng)方C的分配值。此外,采用模型準(zhǔn)確率上下限作為精確值的Shap?ley值法缺少對供應(yīng)方各自博弈水平的考慮,單次計(jì)算結(jié)果差別大,確定的分配值其實(shí)無法給予數(shù)據(jù)供應(yīng)方確定的收益預(yù)期,而模糊Shapley值法為數(shù)據(jù)供應(yīng)方提供了更具穩(wěn)定性的預(yù)期分配結(jié)果作為參考。因此,認(rèn)為模糊修正的Shapley值法較仿真實(shí)驗(yàn)中的其他模型更適用于數(shù)據(jù)產(chǎn)品的收益分配。
3.4拓展分析
為具體分析影響因素在數(shù)據(jù)供應(yīng)方合作預(yù)期收益分配模型中的作用機(jī)理,分別改變預(yù)期收益精確度、應(yīng)用市場、市場環(huán)境、間接影響因素,觀察預(yù)期收益分配結(jié)果的變化并得出結(jié)論。
1)預(yù)期收益精確度的影響分析。預(yù)期收益精確度提高,三角模糊數(shù)預(yù)測準(zhǔn)確性的擴(kuò)散半徑減小。假設(shè)所有數(shù)據(jù)集預(yù)測準(zhǔn)確性下限提高20個百分點(diǎn),則分配結(jié)果如表7所示,預(yù)期收益分配結(jié)果下限提高,上限下降,預(yù)期收益區(qū)間收緊,3個數(shù)據(jù)供應(yīng)方的預(yù)期都更趨向穩(wěn)定。因此,使用模糊修正后的博弈模型,數(shù)據(jù)交易平臺以及模型訓(xùn)練方在撮合時(shí)努力提高預(yù)期收益的精確度,能夠形成更穩(wěn)定的收益預(yù)期,促成數(shù)據(jù)產(chǎn)品的合作開發(fā)。
2)應(yīng)用場景和市場環(huán)境的影響分析??紤]應(yīng)用場景的變化。假設(shè)數(shù)據(jù)供應(yīng)方B、C的數(shù)據(jù)應(yīng)用場景因子d為1,A的數(shù)據(jù)單獨(dú)使用應(yīng)用場景因子d也為1,而在兩個及以上的數(shù)據(jù)供應(yīng)方合作聯(lián)盟中,若組聯(lián)盟中有A的數(shù)據(jù)時(shí),得到的數(shù)據(jù)產(chǎn)品應(yīng)用場景擴(kuò)大1個單位,即d為2,那么收益分配結(jié)果如表8所示,數(shù)據(jù)產(chǎn)品總體的預(yù)期收益提高;A的預(yù)期收益增加量比B、C預(yù)期收益增加量略大,即對場景擴(kuò)展有更多貢獻(xiàn)的數(shù)據(jù)供應(yīng)商可獲得更多的收益增加。因此,在數(shù)據(jù)供應(yīng)方博弈模型中考慮應(yīng)用場景影響因素,有利于促使不同行業(yè)、不同領(lǐng)域的數(shù)據(jù)供應(yīng)方跨領(lǐng)域開展合作。
考慮市場環(huán)境的變化,假設(shè)外部環(huán)境鼓勵數(shù)據(jù)交易,則設(shè)置市場環(huán)境參數(shù)值增加10%,那么Shap?ley值法分配結(jié)果如表9所示。數(shù)據(jù)產(chǎn)品總體的預(yù)期收益增加;同時(shí),原本收益分配較多的數(shù)據(jù)供應(yīng)方獲得更多的收益增加量。外部市場環(huán)境鼓勵下,在數(shù)據(jù)產(chǎn)品收益系統(tǒng)性增加時(shí),使用本研究構(gòu)建的模型進(jìn)行收益分配,也會放大原本在數(shù)據(jù)合作開發(fā)中表現(xiàn)突出的數(shù)據(jù)供應(yīng)方可獲得的收益,鼓勵數(shù)據(jù)供應(yīng)方進(jìn)行高質(zhì)量數(shù)據(jù)產(chǎn)品開發(fā)合作。
3)間接影響因素的影響分析。如表10所示,提高數(shù)據(jù)供應(yīng)方C的數(shù)據(jù)信用度的修正因子系數(shù),相應(yīng)地,A、B的數(shù)據(jù)信用度的修正因子系數(shù)減小。得到預(yù)期分配結(jié)果如表11所示。
對比表9可知,數(shù)據(jù)產(chǎn)品的總收益不變,使用修正后的Shapley值法,數(shù)據(jù)供應(yīng)方C在提高了自身的數(shù)據(jù)信用度之后,分配額得到了顯著的提升。改變預(yù)期穩(wěn)健性和數(shù)據(jù)投入修正因子系數(shù),得到的分配結(jié)果是類似的。因此,使用修正后的Shapley值法,有利于鼓勵數(shù)據(jù)供應(yīng)方進(jìn)行場內(nèi)交易,加大數(shù)據(jù)投入,提供更穩(wěn)健、更具有信用度的數(shù)據(jù)。
4結(jié)論
本文闡述了基于聯(lián)邦計(jì)算、數(shù)據(jù)產(chǎn)品合作開發(fā)的多方數(shù)據(jù)協(xié)作模式,分析數(shù)據(jù)供應(yīng)方合作的主要影響因素,并構(gòu)建模糊修正的數(shù)據(jù)供應(yīng)合作的收益分配模型,并進(jìn)行模擬數(shù)值仿真分析,觀察各因素對數(shù)據(jù)產(chǎn)品收益分配結(jié)果的影響。研究發(fā)現(xiàn),模糊修正的Shapley值法考慮了數(shù)據(jù)供應(yīng)方對數(shù)據(jù)產(chǎn)品價(jià)值的直接貢獻(xiàn)和間接影響,以及各方博弈水平的差異,具有合理性和有效性。模型通過加入預(yù)測準(zhǔn)確性、應(yīng)用場景以及市場環(huán)境因素,反映數(shù)據(jù)供應(yīng)方對于數(shù)據(jù)產(chǎn)品價(jià)值的直接貢獻(xiàn)以及外部環(huán)境對數(shù)據(jù)產(chǎn)品收益的系統(tǒng)性影響;加入預(yù)測穩(wěn)健性、數(shù)據(jù)信用度、數(shù)據(jù)投入因素,反映數(shù)據(jù)供應(yīng)方合作投入和信用水平對數(shù)據(jù)合作開發(fā)的間接推動力;并且,模型使用模糊數(shù)進(jìn)行預(yù)期收益的模糊表達(dá),為數(shù)據(jù)供應(yīng)方提供更穩(wěn)定的預(yù)期收益分配結(jié)果。
據(jù)此,針對數(shù)據(jù)交易平臺建設(shè)和管理機(jī)制提出以下建議。首先,數(shù)據(jù)交易平臺應(yīng)充分考慮影響數(shù)據(jù)交易與數(shù)據(jù)合作開發(fā)的各類因素,促進(jìn)收益分配的公平性。數(shù)據(jù)開發(fā)順利與否以及數(shù)據(jù)產(chǎn)品的最終價(jià)值不僅與預(yù)測準(zhǔn)確率、模型效用相關(guān),還與多種因素密切關(guān)聯(lián),例如穩(wěn)健性、信任程度等。數(shù)據(jù)交易平臺在評估數(shù)據(jù)產(chǎn)品價(jià)值時(shí)考慮多種影響因素,這樣有利于將數(shù)據(jù)供應(yīng)方所承擔(dān)的成本納入考量,使分配結(jié)果更加公正,也有利于促進(jìn)數(shù)據(jù)供應(yīng)方提升自身的數(shù)據(jù)質(zhì)量,形成數(shù)據(jù)開發(fā)良性循環(huán)。其次,數(shù)據(jù)交易平臺應(yīng)加強(qiáng)對數(shù)據(jù)交易市場數(shù)據(jù)的管理與掌控,支撐數(shù)據(jù)供應(yīng)方和需求方形成穩(wěn)定預(yù)期。在進(jìn)行數(shù)據(jù)產(chǎn)品價(jià)值評估以及收益分配時(shí),單一的撮合實(shí)驗(yàn)數(shù)據(jù)結(jié)果不足以支撐數(shù)據(jù)供應(yīng)方?jīng)Q策,數(shù)據(jù)產(chǎn)品市場的總體情況、歷史交易數(shù)據(jù)等則會對數(shù)據(jù)供應(yīng)方形成預(yù)期收益頗有助益。然而,這些信息是雜亂的、多源的、動態(tài)變化的,數(shù)據(jù)供應(yīng)方難以僅僅憑借自身的努力得到有效信息。為此,數(shù)據(jù)交易平臺應(yīng)該對數(shù)據(jù)交易市場的數(shù)據(jù)進(jìn)行全方位的管理,提升對數(shù)據(jù)供應(yīng)方的支撐服務(wù)。