劉林涵 王新冬
摘 要:量子計算作為一種與傳統(tǒng)計算基本原理完全不同的方式,可以適用于信息量極大的個性化推薦場景。本文從個性化推薦的算法入手,分析了基于量子聚類分析的推薦算法。通過對該算法的聚類中心分析,量子計算能夠有效地提高個性化推薦的效率和安全,具有十分廣闊的前景。
關鍵詞: 量子計算;個性化推薦;聚類分析
文章編號: 2095-2163(2019)03-0285-04 中圖分類號: TP3-05 文獻標志碼: A
0 引 言
量子計算是基于物理理論的數(shù)據(jù)操作,個性化推薦基于用戶的歷史數(shù)據(jù)向其推薦感興趣事物的方法。初看這兩者之間似乎是毫不相干,但經(jīng)過仔細研究后,便會發(fā)現(xiàn)若以數(shù)據(jù)和信息作為兩者間的橋梁,就可以發(fā)掘找到兩者間的微妙聯(lián)系。對此,本文將展開探討分析詳見如下。
1 量子計算的基本原理
1.1 不確定原理
在量子力學中,對于微觀粒子,研究不能同時用確定的位置和確定的動量來描述微觀粒子,這種不確定關系可以表示如下:
其中,△x為粒子沿某一方向的位置的不確定范圍;△px為粒子沿該方向動量分量的不確定范圍,h為普朗克常量。
微觀粒子的不確定原理即如圖1所示。這個關系明確指出,對微觀粒子來說,試圖同時確定其位置和動量是辦不到的[1]。
1.2 薛定諤方程
設有一沿x軸運動的質量為m、動量為p、能量為E的自由粒子,其能量和動量不變,因而其德布羅意波的波長和頻率也是不變的。可以將其視作為一平面單色波,其波函數(shù)可表示為:
在有些情況下,微觀粒子的勢能EP僅是坐標的函數(shù),而與時間無關。因此可把波函數(shù)分成坐標函數(shù)ψ(x)與時間函數(shù)(t)的乘積,即:
若粒子在三維勢場中運動,則經(jīng)過一系列推導,可得到一般的定態(tài)薛定諤方程。該方程的數(shù)學表述如下:
1.3 態(tài)疊加原理
若某一物理量A的算符A'作用于某一狀態(tài)函數(shù)ψ,等于某一常數(shù)a乘以ψ,即:
那么,對ψ所描述的這個微觀體系的狀態(tài),物理量A具有確定的數(shù)值a,a稱為物理量算符A'的本征值,ψ稱為A'的本征態(tài)或本征函數(shù)。
如果ψ1是體系的一個本征態(tài),對應的本征值為a1,ψ2也是體系的一個本征態(tài),對應的本征值為a2。因為薛定諤方程是二階線性偏微分方程,所以如果ψ1和ψ2都是式(4)的解,那么,ψ1和ψ2的線性疊加為:
也是式(4)的解,其中с1、с2是復數(shù)。這個結果的物理意義是:如果ψ1和ψ2描述了粒子的可能狀態(tài),則與其相關的線性疊加式(6)也描述了系統(tǒng)的可能存在狀態(tài)。a值既有一定概率為a1,也有一定概率為a2。
有一個著名的例子可以幫助人們直觀理解態(tài)疊加原理。此例中,假設一只貓被封在一個密室里,密室的盒子里有毒氣,毒氣開關由放射性原子控制。如果原子核衰變,則放出α粒子,觸動開關,放出毒氣。那么,過了一段時間后,貓是死還是活呢?由量子力學可推演得知:未打開密室時,貓的死和活是其自身的2個本征態(tài),貓?zhí)幱谝环N生死的疊加態(tài)。因而只有用宏觀干擾(如打開密室觀察)才能確切地知道貓是死是活。
1.4 量子糾纏
量子糾纏是指2個或2個以上的粒子互相糾纏,即使相隔距離遙遠,一個粒子的行為將會影響另一個的狀態(tài)。當其中一個粒子的狀態(tài)發(fā)生變化,另一個粒子也會立即發(fā)生相應的狀態(tài)變化。
量子糾纏說明在2個或2個以上的穩(wěn)定粒子間,會有較強的量子關聯(lián)。
2 個性化推薦
2.1 信息量與信息熵
人們借鑒統(tǒng)計物理處理大量的研究對象的思路,把對信息的拾取與從許多彼此不相關的事物中選出某種東西的概率聯(lián)系起來。人們約定,以在2種并列的、互不相關的可能性之間做出一個選擇所需的信息多少,作為信息量的單位,并以1比特(bit)表示。因此在2N種可能性中確定一個就需要N bit的信息。
因為采集的數(shù)據(jù)中既包含了有效的信息,也有些不確定的信息,因此還需在判別后把這2部分信息區(qū)分開來。人們類比熱力學熵(描述分子運動的混亂程度),把信息熵作為信息不確定程度的量度。
對于N種可能性中每種出現(xiàn)的概率各不相同的情形,設第i種可能性出現(xiàn)的概率為Pi,則信息熵的定義可寫為:
求出了信息熵,就可以得到有效的信息量N'與信息量N和信息熵S之間的關系,其數(shù)學公式可表示為:
2.2 個性化推薦的作用
由式(7)和式(9)知,當信息量一定時,若要使有效的信息量增大,可以采用使信息熵S減小的策略。S減小,則P越大,可能性N越小,信息的不確定程度就減小了。
綜合考察后可知,個性化推薦就是一種使有效的信息量增大的方法之一。該方法根據(jù)用戶興趣和行為特點,向用戶推薦所需的信息或商品,幫助用戶在海量信息中快速發(fā)現(xiàn)真正所需的商品,提高用戶黏性,促進信息點擊和商品銷售。而由此研發(fā)的推薦系統(tǒng)是基于大數(shù)據(jù)挖掘分析的商業(yè)智能平臺[2]。整體設計流程如圖3所示。
文中,擬以一個普通大學生甲一天的生活為例,來形象地闡釋個性化推薦:甲在食堂吃飯的時候,留下了飲食信息;甲在超市購物或逛淘寶的時候,留下了購物信息;甲登錄QQ、微信等App時,留下了賬號信息;甲在學習的時候,發(fā)現(xiàn)了自己薄弱的知識點,留下了學習信息;甲在社團、部門、班級活動時,留下了社交信息;甲在上體育課時,留下了身體素質信息;甲在放假前預定火車票或機票,留下了出行信息;甲在業(yè)余時間的活動留下了個人愛好信息……
僅有上述信息中的一項,對甲的理解是片面的,但如果在上述信息中篩選出有效的信息量,用一定的算法操作,便可以使關于甲的有效的信息量增大,從而在某一方面向其提供個性化的產(chǎn)品和服務。這么一來,當甲下一次使用淘寶購物時,就可根據(jù)有關歷史交易記錄向其推薦商品;當甲下一次學習時,可以根據(jù)其薄弱的知識點向其推薦學習資料;甲的身體素質信息可以讓人們知道甲是否健康,健康的程度如何……。個性化推薦的整體流程如圖3所示。
2.3 個性化推薦的算法
2.3.1 基于物品的協(xié)同過濾推薦算法
基于物品的推薦算法是基于用戶對物品的偏好找到相似的物品,并根據(jù)用戶的歷史偏好,給用戶推薦相似的物品。從計算的角度看,就是計算物品之間的相似度,得到物品的相似物品后,則根據(jù)用戶歷史的偏好預測當前用戶沒未顯示出偏好的物品,計算得到一個排序的物品列表作為推薦[3]。
這里,再給出一個實例來佐證該方面研究,內容詳情見表1。對于物品A,根據(jù)所有用戶的歷史偏好,喜歡物品A的用戶都喜歡物品C,得出物品A和物品C比較相似,而用戶C喜歡物品A,那么可以推斷出用戶C可能也喜歡物品C。
2.3.2 基于量子理論的推薦算法
Horn等人曾提出一種非常新穎的量子聚類分析算法。聚類分析是指將物理或抽象對象的集合分組為由相似的對象組成的多個類的分析過程。通過分組聚類出具有相似瀏覽行為的用戶,并分析用戶的共同特征,可以使用戶得到更合適的服務[4]。
在傳統(tǒng)的尺度空間算法中,研究提出可以使用核密度估計估算量的極大值來確定聚類中心。核密度估計估算量定義為d維歐幾里得空間中的一個高斯函數(shù),其對應公式如下:
所謂歐幾里得空間,指的是其上定義著正定對稱性雙線型內積的實數(shù)域上的線性空間。而核密度估計指的是在概率論中用來估計未知的密度函數(shù),屬于非參數(shù)檢驗方法之一。
本次研究中,將Ψ視為式(4)的本征態(tài),即有:
將式(11)作數(shù)學變換,運算得到:
顯然,式(12)中只有一個自由變量。因此通過對不同種類的數(shù)據(jù)集進行聚類分析后可以發(fā)現(xiàn),相對于Ψx,通過找尋V(x)的極小值點,研究能夠找到更多的聚類中心。同時,通過調節(jié)參數(shù),還能夠進一步發(fā)掘數(shù)據(jù)中的聚類信息。因此量子聚類分析方法在個性化推薦上具有更大的優(yōu)勢。
3 量子計算在個性化推薦中的優(yōu)勢
3.1 傳統(tǒng)計算的劣勢
傳統(tǒng)計算機的計算能力并不能無限提升。隨著計算機集成度的提高,芯片的熱耗散及量子效應增大,基于馮·諾依曼式設計結構的傳統(tǒng)計算機的性能會受到嚴重影響,其芯片尺寸難以進一步縮小,計算速度的更大幅度提升也勢必受到限制。
3.2 量子計算的優(yōu)勢
3.2.1 量子計算的高效
量子計算的高效在于其自身是真正的并行處理機制,而態(tài)疊加原理是并行處理機制的原理,這貫穿于所有的量子算法中。
量子位是量子計算的理論基石。在傳統(tǒng)計算機中,信息單元用二進制來表示,也就是:或者處于“0”態(tài)、或者處于“1”態(tài)。在量子計算機中,信息單元稱為量子位,除了處于“0”態(tài)或“1”態(tài)外,還可處于疊加態(tài),即“0”態(tài)和“1”態(tài)的任意線性疊加,而且也既可以是“0”態(tài)、又可以是“1”態(tài),“0”態(tài)和“1”態(tài)各以一定的概率同時存在。一個量子位的疊加態(tài)示意如圖4所示。
因為一個量子位同時表示0和1兩個狀態(tài),2個這樣的量子位就可以同時表示4個狀態(tài)(00、01、10、11)。N個量子位可同時存儲2N個數(shù)據(jù),數(shù)據(jù)量隨N呈指數(shù)增長?;诖?,量子計算機操作一次可同時對2N數(shù)據(jù)實現(xiàn)變換,這種并行處理數(shù)據(jù)的能力等效于傳統(tǒng)計算機要進行2N次操作的效果,而且也相當于一次演化就完成了2N個數(shù)據(jù)的并行處理,量子計算機如果有500個量子位,就能在每一步作2500次運算。
基于量子位的個性化推薦算法核心是通過以經(jīng)典數(shù)據(jù)編碼的微觀量子態(tài)和輔助量子位的糾纏,快速提取出不同向量間的內積、歐幾里得距離等信息,計算相似度,從而進行匹配。
3.2.2 量子計算的安全
值得一提的是,用量子計算進行個性化推薦,是一種更安全的處理過程,不容易發(fā)生用戶數(shù)據(jù)泄露等問題。
量子計算安全性是立足于量子糾纏和不確定原理基礎上的??偟卣f來,量子糾纏描述了2個粒子互相糾纏的現(xiàn)象,不確定原理揭示了微觀粒子的位置和動量不能同時確定。由此分析后可知:一是量子加密的密鑰是隨機的,即使被竊取者截獲,也無法得到正確的密鑰,因此無法破解信息;二是分別在通信雙方手中具有糾纏態(tài)的2個粒子,其中一個粒子的量子態(tài)發(fā)生變化,另外一方的量子態(tài)就會隨之立刻變化,并且根據(jù)量子理論,任何宏觀的觀察和干擾,都會立刻改變量子態(tài),因此竊取者由于干擾而得到的信息已然遭到破壞,就并非再是原有信息[5]。
4 結束語
本文討論了量子計算在個性化推薦中的場景應用。量子計算的基本原理包括不確定原理、薛定諤方程、疊加態(tài)原理和量子糾纏。基于量子理論的推薦算法更著重于聚類中心的分析,相比于傳統(tǒng)的協(xié)同過濾算法有著更多的優(yōu)點。隨著人們對量子計算研究上的不斷深入,其在效率和安全上的優(yōu)勢即使其應用前景日漸趨于廣闊。后續(xù)研究則旨在繼續(xù)拓寬量子計算應用的領域,同時加大研究力度以求解決當前個性化推薦高效性和安全性欠佳的問題。
參考文獻
[1]馬文蔚,周雨青,解希順. 物理學(下冊)[M]. 6版. 北京:高等教育出版社,2014.
[2] 王書浩, 龍桂魯. 大數(shù)據(jù)與量子計算[J]. 科學通報, 2015, 60(5-6):499-508.
[3] 曾志浩,張瓊林,姚貝,等. 基于 Mahout 分布式協(xié)同過濾推薦算法分析與實現(xiàn)[J]. 計算技術與自動化, 2015,34(3):67-72.
[4] HORN D, GOTTLIEB A. The method of quantum clustering[EB/OL]. [2002-04]. https://www.researchgate.net/publication/2538697.
[5] 王潮, 王云江, 胡風. 量子計算機的商業(yè)化進展及對信息安全的挑戰(zhàn)[J]. 網(wǎng)絡與信息安全學報, 2016, 2(3):00026(1)-00026(11).
[6] 范桁. 量子計算與量子模擬[J]. 物理學報,2018,67(12):120301(1)-120301(10).
[7] 章巖扉. 量子計算機的原理、發(fā)展及應用[J]. 內燃機與配件,2018(7):224-225.
[8] 許鐵山. 通用量子計算機的組成及實現(xiàn)[J]. 電子技術與軟件工程,2018(7):150.
[9] 張弛. 淺談通用量子計算機:理論、組成與實現(xiàn)[J]. 中國戰(zhàn)略新興產(chǎn)業(yè),2018(12):101.
[10]佚名. 量子計算機[J]. 山東交通科技,2018(1):122.
[11]黃麗,石松芳. 基于用戶關注度的個性化推薦系統(tǒng)研究[J]. 軟件導刊,2018,17(5):90-92.
[12]陳曉璇,劉洪偉,曹寧. 基于用戶在線行為的個性化推薦研究[J]. 合作經(jīng)濟與科技,2018(7):86-87.
[13]蘇一丹,房驍,覃華,等. 量子近鄰傳播聚類算法的研究[J]. 廣西大學學報(自然科學版),2018,43(2):561-568.
[14]張雪松. 文本聚類及其在電子病歷分析中的應用研究[D]. 北京:北京交通大學,2018.
[15]孟志浩,劉建偉,韓靜. 基于結構特征的時序聚類方法研究[J]. 中興通訊技術,2018,24(3):61-66.
[16]黃敏行. 量子計算機原理及研究成果[J]. 數(shù)字通信世界,2017(11):234,242.
[17]李育實. 計算機原理及其應用[J]. 電腦知識與技術,2017,13(29):241-242.