“數(shù)據(jù)孤島”橫向連片成網(wǎng)
同盾科技 《知識聯(lián)邦(KF):面向隱私保護(hù)的層次化統(tǒng)一的人工智能框架》的論文被2020年第十一屆IEEE知識圖譜國際會議收錄,“知識聯(lián)邦”一詞吸睛無數(shù)。保護(hù)數(shù)據(jù)隱私和安全日益嚴(yán)格,這給數(shù)據(jù)中心化相對應(yīng)的人工智能(AI)技術(shù),放大難度系數(shù)。直接的局面是,在金融、政務(wù)和醫(yī)療等數(shù)據(jù)敏感場景,人工智能變得非智能。這是因?yàn)?,海量?shù)據(jù)分散在諸多行業(yè)、機(jī)構(gòu)的系統(tǒng)里,形成了“數(shù)據(jù)孤島”,造成了“只見樹木、不見森林”。沿襲AI技術(shù)路徑,也只是在各自的“孤島”上,縱向深挖。行業(yè)在思考,如何打破“數(shù)據(jù)孤島”,需要橫向連接,讓“孤島”之間連片成網(wǎng)。
從數(shù)據(jù)到知識四級驅(qū)動(dòng)進(jìn)階
新的技術(shù)理念應(yīng)運(yùn)而生,應(yīng)時(shí)而來。同盾科技提出了知識聯(lián)邦(KF)框架及其參考實(shí)現(xiàn)的智邦平臺(iBond)。知識聯(lián)邦融合了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等AI技術(shù)。這里的知識聯(lián)邦則包括了四個(gè)層級:信息層,支持底層的數(shù)據(jù)統(tǒng)計(jì)和計(jì)算,滿足簡單查詢、搜索和簡化操作等要求;模型層,支持訓(xùn)練、學(xué)習(xí)和推理;認(rèn)知層,能夠在不同層次的抽象和語境中,表現(xiàn)出來抽象特征;知識層,融合了知識發(fā)現(xiàn)、表示和推理。為此,知識聯(lián)邦實(shí)現(xiàn)了從數(shù)據(jù)驅(qū)動(dòng)到知識驅(qū)動(dòng)的進(jìn)階,智邦平臺已經(jīng)部署在生產(chǎn)環(huán)境中,涵蓋金融、醫(yī)療、保險(xiǎn)、市場營銷和政府工作等涉及敏感數(shù)據(jù)的應(yīng)用場景。
應(yīng)用元知識聯(lián)邦技術(shù)分析用戶行為
當(dāng)用戶在手機(jī)端登錄銀行App的時(shí)候,先輸入密碼;但是,銀行無法確認(rèn)是否是你本人操作。如果加上行為認(rèn)證,可以檢驗(yàn)成功,增加了安全性;但是,在傳統(tǒng)技術(shù)邏輯下,銀行無法針對特定用戶行為特征,收集到對應(yīng)樣本。否則,會觸碰到用戶隱私的敏感神經(jīng)??萍枷蛏?,造福社會。同盾科技獲得國家專利授權(quán)的“面向行為分析的元知識聯(lián)邦技術(shù)”,在不觸碰用戶隱私前提下,更好實(shí)現(xiàn)了用戶行為分析。通過元學(xué)習(xí),讓模型學(xué)到元知識,解決了數(shù)據(jù)量小的問題。同時(shí),通過知識聯(lián)邦,解決了數(shù)據(jù)安全的問題,此外,在服務(wù)器端的知識匯聚以及反饋,解決了認(rèn)證模型效果提升問題。
讓數(shù)據(jù)“不可見”
在字里行間,數(shù)據(jù)的“可用不可見”透露著硬幣的兩個(gè)面:數(shù)據(jù)的可用性;數(shù)據(jù)的不可見性。只在這樣,基于充分保護(hù)數(shù)據(jù)和隱私安全的前提,才能實(shí)現(xiàn)大數(shù)據(jù)的價(jià)值轉(zhuǎn)化。至于數(shù)據(jù)的“不可見” ,還是以智能風(fēng)控與分析決策服務(wù)商同盾科技為例,管窺行業(yè)的探索成果。其已經(jīng)做到以下三點(diǎn):一是全面脫敏,實(shí)現(xiàn)云端API、云端SaaS服務(wù)系統(tǒng)、數(shù)據(jù)中臺敏感數(shù)據(jù)去標(biāo)識化;二是全方位支持國密和國際標(biāo)準(zhǔn)算法;三是必須用到明文的數(shù)據(jù)處理中間環(huán)節(jié),通過調(diào)用位于DMZ區(qū)(非軍事化隔離區(qū))的受嚴(yán)格權(quán)限管控的解密服務(wù),對操作行為進(jìn)行安全審計(jì)。
讓數(shù)據(jù)“可用”
解決數(shù)據(jù)安全和隱私保護(hù)僅僅是第一步,行業(yè)普遍認(rèn)為,可用性才是大數(shù)據(jù)價(jià)值的終極體現(xiàn)。那么,基于聯(lián)邦學(xué)習(xí)的技術(shù)加持,讓不流通的數(shù)據(jù)也能“可用”起來。在“不可見”的難題下,如何“隔山打?!?,實(shí)現(xiàn)數(shù)據(jù)“可用”的目標(biāo)呢?這就是基于聯(lián)邦學(xué)習(xí)的知識聯(lián)邦理論框架體系。作為知識聯(lián)邦的子集,聯(lián)邦學(xué)習(xí)采用分布式的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù),參與各方在加密的基礎(chǔ)上,共同建立一個(gè)公共虛擬模型,在訓(xùn)練和交互全過程中,各方數(shù)據(jù)始終留在本地,不參與交換和合并。參與各方里面,沒有一方能擁有所有的數(shù)據(jù),也沒有一方擁有所有的模型,共用開放數(shù)據(jù),而不享有數(shù)據(jù),從而保護(hù)數(shù)據(jù)安全和隱私最大化。
安全與效率達(dá)成平衡
常態(tài)下,安全等級越高,整體效率便降低。于是,同盾科技的智邦平臺依據(jù)信息類型、敏感程度、處理方式等,基于敏感等級的隱私數(shù)據(jù)進(jìn)行不同層級的保護(hù),以此平衡安全與效率的問題。說的再直白點(diǎn),對不同敏感等級的數(shù)據(jù)采用部分屏蔽、泛化、哈希加密等脫敏方法。當(dāng)然,要保證脫敏后的各方數(shù)據(jù)具有一致性。對客觀事物的數(shù)量、屬性、位置及相互關(guān)系的抽象表示,謂之?dāng)?shù)據(jù);加工處理具有邏輯關(guān)系的數(shù)據(jù),謂之信息;歸納、演繹、沉淀下來的有價(jià)值的信息,謂之知識。從定義可見,知識聯(lián)邦朝著擔(dān)綱數(shù)據(jù)安全和隱私保護(hù)重任的方向走去。