Maria Korolov 陳琳華
企業(yè)在部署新技術時往往會忽視安全性。在企業(yè)眼里,如何盡快以盡可能低的成本為客戶和內部用戶提供新產品和服務更為重要,而出色的安全性可能意味著速度慢且費用高。
和所有的早期技術優(yōu)勢一樣,人工智能(AI)和機器學習(ML)也為漏洞和錯誤配置提供了機會。此外,人工智能和機器學習也有著自己獨特的風險,而這些風險可能會隨著企業(yè)實施由人工智能驅動的重大數(shù)字化轉型而變得更加危險。對此,Booz Allen Hamilton的首席科學家Edward Raff說:“目前人工智能和機器學習領域并不是一個值得馬上進入的領域?!?p>
與其他技術相比,人工智能和機器學習需要更多和更復雜的數(shù)據(jù)。目前由數(shù)學家和數(shù)據(jù)科學家開發(fā)的算法早已經不再是研究性項目了,但是Raff指出:“直到最近,科學界才開始意識到人工智能存在安全問題?!?/p>
數(shù)據(jù)量和處理要求意味著可能只有云平臺才能夠處理這些工作負載,這導致復雜性和漏洞會進一步增加。因此,部署了人工智能的企業(yè)最為但心的是網絡安全問題就不足為奇了。德勤最新發(fā)布的調查報告稱,盡管有62%的部署企業(yè)將網絡安全風險視為主要或極為重要的問題,但是只有39%的部署企業(yè)表示他們正準備著手解決這些風險。
由于網絡安全是人工智能應用的一個主要功能,因此這導致問題被進一步復雜化。負責德勤旗下的技術、媒體與電信中心的執(zhí)行董事Jeff Loucks指出,企業(yè)對人工智能的使用經驗越豐富,他們對網絡安全風險的關注程度就越高。
此外,即便是經驗豐富的企業(yè)也不會遵循基本的安全實踐,例如保留所有人工智能和機器學習項目的完整清單、進行審核和測試等等。Loucks一針見血地指出:“許多公司目前在這些方面做得并不好。”
人工智能和機器學習系統(tǒng)需要以下三種數(shù)據(jù)集:
·用于建立預測模型的訓練數(shù)據(jù)。
·用于評估模型效果的測試數(shù)據(jù)。
·模型上線后的實時交易或運營數(shù)據(jù)。
盡管實時交易或運營數(shù)據(jù)屬于企業(yè)的重要資產,但是包含敏感信息的訓練與測試數(shù)據(jù)池很容易被忽略。
匿名化、令牌化和加密等許多用于保護其他系統(tǒng)的策略對于人工智能和機器學習項目同樣適用。第一步是詢問是否需要數(shù)據(jù)。盡可能地收集數(shù)據(jù),然后看看能用這些數(shù)據(jù)做什么,對于處于人工智能和機器學習項目準備階段的企業(yè)來說非常具有吸引力。
將重心放在業(yè)務成果上可限制企業(yè)對數(shù)據(jù)的收集范圍。為教育機構分析學生數(shù)據(jù)的Othot公司的首席技術官John Abbatico說:“雖然我們的數(shù)據(jù)科學團隊非常需要數(shù)據(jù),但是在處理學生數(shù)據(jù)時,我們明確向其告知,我們不需要高度敏感的個人身份信息,并且這些信息也不應包含在向我們提供的數(shù)據(jù)中?!?/p>
發(fā)生錯誤肯定是無法避免的。例如,客戶有時會提供例如社會保險號這樣的敏感個人信息。這些信息無益于提高模型的性能,反而會帶來額外的風險。Abbatico說,他的團隊為此設置了一個能夠識別個人身份信息的程序,可以從所有系統(tǒng)中清除個人身份信息,并將錯誤告知客戶。“雖然我們不認為這是安全事件,但是我們仍然會以處理安全事件的方式處理它們?!?/p>
人工智能系統(tǒng)還希望獲取相互關聯(lián)的數(shù)據(jù),但是這樣會加大企業(yè)面臨的風險。如果保險公司想更好地了解客戶的駕駛習慣,他們可能會收集客戶的購物、駕乘、位置等其他數(shù)據(jù)集。這些數(shù)據(jù)集可以很容易地與客戶的賬戶進行關聯(lián)和匹配。對于黑客來說,這種新的指數(shù)級的豐富數(shù)據(jù)集極具吸引力。一旦被泄露出去,公司的聲譽將會受到毀滅性打擊。
在線文件共享平臺Box有大量需要保護的數(shù)據(jù)。為此,Box開始嘗試利用人工智能提取元數(shù)據(jù),以改善搜索和分類等功能。Box的首席信息安全官Lakshmi Hanspal說:“盡管我們可以從合同中提取條款、續(xù)訂和價格等信息,但是我們的大多數(shù)客戶都非常的傳統(tǒng),他們要么是通過用戶定義的分類方式對內容進行分類,要么就完全忽視分類工作。這些客戶可以說是坐在了數(shù)字化轉型極為需要的數(shù)據(jù)金山上,但是前提是這些內容要能夠自動進行分類,具有自我意識?!?/p>
保護數(shù)據(jù)是Box的關鍵業(yè)務,包括訓練數(shù)據(jù)在內的人工智能系統(tǒng)也會得到相同的保護,同時數(shù)據(jù)保護標準不會因此而下降。Hanspal說:“我們Box公司會建立、銷售和維護這種信任。我們認為,我們的產品要與合作伙伴和客戶的產品深度融合在一起,而不是簡單的關聯(lián)。”
這意味著,新的基于人工智能的項目等所有系統(tǒng)都要圍繞核心數(shù)據(jù)安全原則構建,包括加密、日志記錄、監(jiān)視、身份驗證和訪問控制。Hanspal 說:“數(shù)字信任是我們平臺的天然優(yōu)勢,我們可以對其進行運維?!?/p>
Box的安全開發(fā)流程既適用于傳統(tǒng)代碼,也適用于基于人工智能和機器學習的新系統(tǒng)。Hanspal 說:“我們開發(fā)的安全產品符合ISO行業(yè)標準,除了內置安全性外,在適當?shù)牡胤竭€設置了滲透測試和紅隊等檢測與平衡機制。這是一個標準流程,人工智能和機器學習項目也不例外。”
數(shù)學家和數(shù)據(jù)科學家在編寫人工智能和機器學習算法代碼時通常不會考慮到潛在的漏洞。因此,企業(yè)構建人工智能系統(tǒng)時,他們往往會選擇開源算法、商用“黑盒” 人工智能系統(tǒng)或者是從零開始構建自己的人工智能系統(tǒng)。
如果使用開源代碼,那么攻擊者有可能偷偷放置惡意代碼,或者該代碼本身就存在漏洞或易受攻擊的依賴項。盡管商業(yè)系統(tǒng)也會使用開源代碼,但是為了解決這一個問題,開發(fā)者會在這些開源代碼中加入企業(yè)客戶無法查閱的新代碼。
人工智能和機器學習系統(tǒng)中通常都包含了開源庫和由非安全工程人員編寫的全新代碼。編寫安全人工智能算法現(xiàn)在尚不存在標準的最佳實踐。當前人才市場上缺乏安全專家和數(shù)據(jù)科學家,既精通安全又精通數(shù)據(jù)科學的人員更為短缺。
人工智能和機器學習算法有可能會將訓練數(shù)據(jù)泄露給攻擊者,這可能是人工智能和機器學習算法的最大潛在風險和長期威脅。Booz Allen Hamilton的Raff稱說:“通過逆向攻擊,黑客可以竊取人工智能模型,進而分析出人工智能模型信息以及其受到過哪些訓練。如果人工智能模型使用了個人身份信息數(shù)據(jù)進行訓練,那么人工智能模型將會泄漏這些信息,從而導致個人身份信息出現(xiàn)泄漏?!?p>
Box 首席信息安全官Lakshmi Hanspal
這是一個非常熱門的研究領域,并且有可能成為一個巨大痛點。目前市場上已經出現(xiàn)了可以保護訓練數(shù)據(jù)免受逆向攻擊的工具,但是它們的價格不菲。Raff說:“雖然我們知道如何防止這種情況的發(fā)生,但是如果真正做起來,那么訓練模型的成本將會暴增100倍。這并不夸張。一旦訓練模型的成本增長100倍,那么所有人都會選擇放棄。”
另一個熱門的研究領域是可解釋性。包括網絡安全供應商提供的人工智能和機器學習支持的工具在內,許多人工智能和機器學習系統(tǒng)都是“黑盒”系統(tǒng)。YL Ventures的首席信息安全官Sounil Yu說:“在安全領域,發(fā)生的事情能夠被解釋的通是最基本的要求,但是供應商根本沒有提供這種可解釋性。如果無法解釋為什么會發(fā)生,那么解決它們又從何談起呢?”
在出現(xiàn)了問題時,對于自己創(chuàng)建人工智能或機器學習系統(tǒng)的公司,他們可以返回訓練數(shù)據(jù)或者是算法來解決問題。但是如果人工智能或機器學習系統(tǒng)是從別的地方購買的,用戶可能甚至都無法知道哪些是訓練數(shù)據(jù)。
人工智能系統(tǒng)不只是自然語言處理引擎,也不僅僅是分類算法或神經網絡。系統(tǒng)需要與用戶和后端平臺進行交互,即便其自身是完全安全的,使用當中仍然存在著安全風險。
系統(tǒng)是否使用了強身份驗證和最小特權原則?與后端數(shù)據(jù)庫的連接是否安全?與第三方數(shù)據(jù)源的連接是否安全?用戶界面可以抵抗注入攻擊嗎?
人工智能和機器學習項目特有的不安全因素是數(shù)據(jù)科學家。Othot的Abbatico說:“優(yōu)秀的數(shù)據(jù)科學家會利用數(shù)據(jù)進行實驗,從而得出具有洞察力的模型。但是在數(shù)據(jù)安全領域,這可能會導致危險的行為。在用完數(shù)據(jù)后,他們可能會想將數(shù)據(jù)轉移到不安全的位置或刪除樣本數(shù)據(jù)集?!睘榇?,Othot選擇盡早獲得SOC II認證,這些控制措施可為整個公司提供強有力的數(shù)據(jù)保護,包括在移動或刪除數(shù)據(jù)時。
事實上,人工智能模型的最大風險并不在人工智能方面,而在人員方面。Urvin人工智能的產品經理兼非營利組織ISECOM的聯(lián)合創(chuàng)始人Peter Herzog說:“問題出在人身上。人決定了如何訓練人工智能模型,決定了要包含哪些數(shù)據(jù),決定了要預測的內容,以及決定了要公開多少信息。這導致沒有哪個人工智能模型是絕對安全的。”
人工智能和機器學習系統(tǒng)另一個特有的安全風險是數(shù)據(jù)中毒,即攻擊者向系統(tǒng)反饋惡意信息,迫使其做出不準確的預測。例如,攻擊者可以將合法軟件的反饋信息篡改為與惡意軟件相似,從而誘使系統(tǒng)認為惡意軟件也是安全的。
安全性是大多數(shù)組織機構都高度關注的問題。Raff說:“盡管目前還沒有聽說有人工智能系統(tǒng)在實際生活當中受到了攻擊,但是這的的確確是一個威脅。只是攻擊者用來規(guī)避防病毒軟件的經典工具仍然有效,他們目前還不需要變得更狡猾。”
當被應用在用戶行為分析、監(jiān)視網絡流量或檢查數(shù)據(jù)泄露等企業(yè)安全領域時,人工智能和機器學習系統(tǒng)的偏差和模型漂移會產生潛在的風險。如果訓練數(shù)據(jù)集無法充分代表特定的攻擊或是過時的,那么企業(yè)將變得很容易受到攻擊。 Raff說:“用戶需要不斷更新模型,并且讓更新成為了一項長期性工作。”
訓練在一些情況下可以實現(xiàn)自動化。例如,通過適應不斷變化的天氣模式或供應鏈交付時間表,隨著時間的推移,模型將變得更加可靠。如果信息源有惡意行為者,那么用戶則需要管理訓練數(shù)據(jù)集,以防止系統(tǒng)中毒和被操縱。
如果面部識別或招聘平臺歧視婦女或少數(shù)民族,那么算法可能會帶來一些道德問題。歧視與偏見逐漸蔓延到算法中還會造成合規(guī)性問題。如果蔓延到自動駕駛汽車和醫(yī)療應用中,那么就可以可能導致人員死亡。
算法可以將偏見帶入預測結果,同樣它們也可以用于控制偏見。Othot的Abbatico說:“模型的創(chuàng)建如果沒有適當約束,那么就很容易產生偏見。解決偏見需要花精力。加入與多樣性相關的數(shù)據(jù)可幫助模型更好地理解目標,防止出現(xiàn)偏見。如果不將多樣性作為約束條件,那么模型很容易出現(xiàn)偏見?!?h3>人工智能的前途并不明朗
人工智能和機器學習系統(tǒng)需要大量數(shù)據(jù)、復雜的算法以及功能強大的處理器。主要的云服務供應商都在致力于開發(fā)出功能齊全且使用便捷的數(shù)據(jù)科學平臺,以方便數(shù)據(jù)科學家隨時使用服務器。
德勤的人工智能調查報告顯示,93%的企業(yè)都在使用基于云計算的人工智能。這些項目未來有可能會變身為操作系統(tǒng),但是隨著規(guī)模的擴大,配置問題將會成倍增加。集中式自動化配置和安全管理儀表板在最新的服務中可能無法使用,公司為此可能需要自己編寫代碼或是求助于服務供應商,以解決這些問題。
如果使用系統(tǒng)的數(shù)據(jù)科學家或理論研究人員沒有專業(yè)的安全知識,只是普通的愛好者,那么安全性將會成為一個嚴重的問題。此外,供應商首先注重的是新功能,其次才是安全性。當系統(tǒng)被快速、倉促部署并被迅速擴展時,安全問題將成為一個突出的問題。目前IoT設備、云存儲和容器已經出現(xiàn)這些問題。
人工智能平臺供應商目前已經意識到這些問題,并開始反思經驗教訓?!鞍踩辽稀钡睦砟钣蓙硪跃茫鞣N項目中都應積極主動地考慮安全性。得益于機器學習社區(qū)的關注,安全性滯后的情況可能會大幅改觀。
德勤《企業(yè)人工智能狀態(tài)》(第三版)中所列清單可幫助確保人工智能項目的安全:
保留所有人工智能部署的詳細目錄。
讓人工智能風險管理與其他的風險管理工作保持一致。
指定一名高管負責與人工智能有關的風險。
開展內部審計與測試。
由外部供應商進行獨立的審核和測試。
就如何識別和解決有關人工智能的道德問題對人員展開培訓。
在健康良好的人工智能道德實踐方面與外部各方展開合作。
確保人工智能供應商提供的系統(tǒng)不存在偏見。
針對人工智能道德問題制定專門的政策或成立專門的指導小組。
本文作者Maria Korolov在過去20年里一直關注新興技術和新興市場。
原文網址
https://www.csoonline.com/article/3434610/how-secure-are-your-ai-and-machine-learning-projects.html?nsdr=true