高 琿 張 鵬 張 靜
智能化場景的多樣性進一步提高語言理解的難度,自然語言處理任務也要求模型捕獲更復雜的語義交互信息,分析由于語義間相互影響而產(chǎn)生的內(nèi)在演化邏輯[1-2].在文本匹配任務中,模型通常使用注意力機制計算單詞之間的相關性得分,以此建模單詞級別的全局語義交互信息[3].然而,上述語義交互方法局限于捕獲單詞級別的交互信息,忽略維度級別的特征交互對語義理解帶來的影響.事實上,維度級別的語義交互現(xiàn)象廣泛存在于語義組合中,不同維度間的語義相互影響,導致單詞語義演化的多樣性.
在人類理解語言的過程中,單詞通常暗含多種不同含義,稱為語義[4].在由詞到句的組合過程中,句子語義并非單詞語義的機械性疊加,語義間的相互影響會引發(fā)單詞中某些語義的增強(或減弱)效應,導致語義演化.分析預訓練的單詞表示及其近義詞在二維坐標系下的分布,可以反映單詞在不同詞組場景下語義的變化.以“蘋果公司”詞組為例,通過相似度分析已有的詞向量表示后發(fā)現(xiàn):“蘋果”與表示食物的詞(“可樂”、“冰淇淋”等)相似度較高,同時與少量的電子產(chǎn)品(“eBay”、“小米”)也有語義相似性;“公司”一詞與各種表示企業(yè)組織形式的詞(“控股公司”、“合資企業(yè)”等)相關;“蘋果公司”與各類科技公司的位置更相近.這說明,在組成詞組“蘋果公司”的過程中,“蘋果”一詞中表示電子產(chǎn)品的語義得到加強,而表示食物的語義減弱,語義由“食物或電子產(chǎn)品”演化為較單一的“電子產(chǎn)品”.
近年來,研究人員開始基于量子理論的微觀視角研究語義理解、信息檢索等與人類緊密相關場景,相關研究成果在語言建模、文檔檢索等以語義理解為核心的任務中表現(xiàn)優(yōu)異[5-6].Sordoni等[7]率先提出QLM(Quantum Language Model),用于建模文本中存在的詞項依賴信息.該工作第一次從量子理論的角度建模文本間的詞項依賴,提出基于量子理論的詞項表示以及模型訓練的技術,并應用于信息檢索任務中.相比傳統(tǒng)的詞項依賴關系建模方法,QLM不需要擴展表示空間的維度,也不需要耗費額外的計算資源,就可有效表示依賴關系.首先,在QLM中,使用密度矩陣表示包含若干量子事件的文檔;然后,定義將獨立單詞和詞項依賴映射到量子基本事件的一般方法;最后,采用極大似然估計法更新密度矩陣的參數(shù),使用VN(Von Neumann)熵進行文檔相關性函數(shù)計算.
Zhang等[8]進一步將量子語言模型擴展到神經(jīng)網(wǎng)絡的范疇,提出NNQLM(Neural Network Based Quantum-Like Language Model),將QLM拓展到神經(jīng)網(wǎng)絡領域,并在問答任務中獲得良好性能.首先,選取具有全局語義信息的預訓練詞向量表示單詞,并使用密度矩陣表示單詞以及問答句子的概率分布(表示單詞的密度矩陣為純態(tài),表示句子的密度矩陣為混合態(tài)).然后,基于問句、答句的密度矩陣表示,建立兩個密度矩陣之間相互作用的聯(lián)合表示.最后,基于上述架構提出兩個不同的問答模型:NNQLM-I和NNQLM-II.NNQLM-I采用跡內(nèi)積計算問題與答案之間的語義重疊,而NNQLM-II使用二維卷積網(wǎng)絡學習問答的相似性表示,特征提取之后通過全連接層獲得最后的預測得分.
此后,量子語言建模工作開始興起[9-11].值得注意的是,Jiang等[12]受量子干涉的啟發(fā),提出QINM(Quantum Interference Inspired Neural Matching Mo-del),并應用于檢索任務.上述研究表明,量子理論與神經(jīng)網(wǎng)絡結合的工作以人類認知機制為出發(fā)點,分析語言的內(nèi)在邏輯,有助于模型捕獲傳統(tǒng)語言模型忽略的細粒度語義交互信息[11].
近年來,量子語言模型不斷發(fā)展.一方面,量子復值神經(jīng)網(wǎng)絡[13]、量子測量[14]等數(shù)學框架為語言編碼與語義理解提供更新的視角;另一方面,基于量子張量網(wǎng)絡的模型壓縮技術[15]也為大型預訓練語言模型的發(fā)展和應用帶來新的可行性方案,在模型參數(shù)、訓練時間、計算復雜度等方面均有顯著優(yōu)化.關于更多量子語言模型的發(fā)展可參考文獻[16]~文獻[18].量子語言建模領域盡管取得一些進展,但忽視語義演化在復雜語義建模過程中的重要性.在處理跨領域語義、時序文本時,動態(tài)語義信息的建模確實可能會導致模型在處理多義詞、歧義詞和隱含語義等方面表現(xiàn)不佳.
本文基于量子理論,推導語義組合過程中產(chǎn)生的類量子干涉項,提出融合量子干涉信息的雙重特征文本表示模型(Quantum Interference Based Duet-Feature Text Representation Model,QDTM).首先,將詞組視為量子復合系統(tǒng),單詞視為量子子系統(tǒng),使用N階約化密度矩陣(Reduced Density Matrix,RDM)表示復合詞組系統(tǒng)中某一單詞子系統(tǒng)的文本特征,該文本表示模塊在維度層面上有效構建語義組合帶來的干涉項語義匹配信息.然后,構造雙重特征匹配模塊,其中,局部匹配特征來自N階RDM的主對角元素,全局匹配特征來自經(jīng)過卷積神經(jīng)網(wǎng)絡(Convo-lutional Neural Network,CNN)提取后的文本特征.最后,通過全連接層得到最終的預測結果.相比神經(jīng)網(wǎng)絡匹配模型和量子啟發(fā)的語言模型,QDTM在問答數(shù)據(jù)集和文本分類數(shù)據(jù)集上均取得較優(yōu)性能.
在量子理論中,每個系統(tǒng)可表示為希爾伯特空間中的單位列向量,在本文中稱為狀態(tài)空間中的狀態(tài)向量.在不引入觀測的前提下,一個系統(tǒng)可能同時處于多個狀態(tài),由狀態(tài)空間中多個單位正交的基態(tài)向量疊加表示:
其中:ei表示基態(tài)向量,第i個位置為1,其它位置為0;αi表示第i個基態(tài)向量的概率振幅,滿足
系統(tǒng)的外積運算表示為uuT,內(nèi)積運算表示為uTu,符合向量的運算規(guī)則.給定
u=[1 2]T,v=[3 4]T,
張量乘積表示為
密度矩陣是描述量子系統(tǒng)的另一種方式,非對角元素可表示基態(tài)向量之間的相互作用.如果當前量子系統(tǒng)處在第i個系統(tǒng)φi中的概率為pi,密度矩陣定義為
則密度矩陣是跡為1的正半定算子.當tr(ρ2)=1時,密度矩陣表示純態(tài),當tr(ρ2)<1時,密度矩陣表示混合態(tài).
量子復合系統(tǒng)是指由兩個及以上子系統(tǒng)組成的孤立系統(tǒng),復合系統(tǒng)的狀態(tài)向量和狀態(tài)空間分別表示為子系統(tǒng)的狀態(tài)向量和狀態(tài)空間的張量積形式.對于由n個子系統(tǒng)組成的復合系統(tǒng)Ψ,通過狀態(tài)空間Hi中的狀態(tài)向量ψi表示第i個子系統(tǒng),則復合系統(tǒng)Ψ的狀態(tài)向量為:
Ψ=ψ1?ψ2?…?ψn.
為了減少計算量,通常采用RDM描述某一子系統(tǒng)的狀態(tài),這一過程與復合系統(tǒng)的張量積過程相反,通過偏跡運算獲得.對于由子系統(tǒng)A和子系統(tǒng)B構成的復合系統(tǒng)ρAB,子系統(tǒng)A的RDM為:
其中,trB(·)表示子系統(tǒng)B的偏跡操作,a1、a2表示子系統(tǒng)A的基態(tài)向量,b1、b2表示子系統(tǒng)B的基態(tài)向量.
本節(jié)采用量子測量分析文本匹配的一般過程,推導語義組合帶來的類量子干涉項[15].首先,神經(jīng)網(wǎng)絡模型中文本匹配的本質(zhì)是求解匹配概率.對于匹配文本q和查詢文本s,過程可形式化為條件概率P(q|s).
其次,將文本匹配形式化為二維實數(shù)希爾伯特空間中對系統(tǒng)的觀測過程.如圖1(a)所示,向量q表示匹配文本的狀態(tài)向量,向量s表示查詢文本的狀態(tài)向量,由兩個基態(tài)語義向量w1和w2的疊加態(tài)表示:
s=αw1+βw2,
其中α和β分別表示w1和w2的概率幅度.概率幅度的平方對應單詞疊加態(tài)塌縮在某一語義基態(tài)向量的概率.
若將匹配文本看作測量算子,可通過觀測匹配文本對查詢文本的測量結果,即條件概率值P(q|s)獲得塌縮的過程.通過投影測量形式化這一過程,推導語義組合過程中的量子干涉項信息.
由匹配文本q構成的投影算子通過密度矩陣
Mq=qqT
進行表示.組成查詢文本s的單詞w1和w2塌縮在匹配文本q上的概率可通過投影測量獲得,即
如果按照經(jīng)典概率的方式將詞組語義看作單詞語義進行機械疊加,不考慮單詞組合過程中的語義組合變化(即單詞之間相互獨立),文本匹配過程可表示為
(1)
其中α2和β2對應于經(jīng)典概率中發(fā)生s的前提下發(fā)生w1和w2的事件概率.這一條件概率在圖1(a)中可表示為將兩部分投影結果直接相加.
這種機械性的組合方式忽視由于單詞組合帶來的語義干涉信息.在測量過程中,需將詞組看作一個整體,并直接將查詢文本s投影到待匹配文本q上(參考圖1(b)的投影過程),則式(1)優(yōu)化為
相比式(1),上式中推導出類量子干涉項,表達從單詞到詞組的過程中由于不同維度語義交互帶來的額外類量子干涉信息.這一信息會對文本匹配過程中的語義匹配產(chǎn)生影響,需要在模型設計中充分考慮這類語義信息.
在量子概率空間下進行語義建模具有一些獨特的優(yōu)勢和必要性.首先,量子概率空間是經(jīng)典概率的推廣,希爾伯特空間下常通過量子疊加和量子糾纏等操作基本遠離詞語和文本之間的復雜語義關系,可更全面表達詞語之間的相互關聯(lián),提高模型對語義信息的理解能力.其次,量子干涉理論提供一種新的方式以處理特征之間的相互作用,有助于提高模型的泛化能力和魯棒性,可解決隨著任務語義復雜性增強,建??臻g指數(shù)級增大的問題.此外,量子概率空間還具有并行計算的能力,可加速模型的訓練和推理過程.上述特性有望為自然語言處理領域帶來新的突破和進展.
本節(jié)提出融合量子干涉信息的雙重特征文本表示模型(QDTM).QDTM主要包括3部分:基于RDM的局部表示、聯(lián)合文本對的全局表示、雙重特征提取與融合.最后,提出適用于問答任務和文本任務的模型結構QDTM_QA(QDTM for Question &Answer Task)和QDTM_TC(QDTM for Text Classification Task).
模型輸入文本匹配對,由預先訓練的標準化詞嵌入進行歸一化處理,然后進行表示.查詢文本表示為向量序列S={s1,s2,…,sm},si表示S的第i項詞向量;匹配文本表示為向量序列Q={q1,q2,…,qn},qj表示Q的第j項詞向量.
在文本匹配中,將詞組作為復合系統(tǒng),并將復合系統(tǒng)分成兩組量子子系統(tǒng)A和B,狀態(tài)向量表示為ψa和ψb,則復合系統(tǒng)可表示為
ψ=ψa?ψb,
其中,?表示張量積運算,用于建模單詞嵌入不同維度間的相互作用,并捕獲所有的語義組合特征.
從詞組出發(fā)對單詞的概率分布進行建模,技術上通過偏跡操作獲得RDM.首先,以查詢文本S為例,討論基于兩個詞形成量子復合系統(tǒng)的情況,在此基礎上可獲得1階RDM(1-Order RDM,1-RDM).為了求解子系統(tǒng)A的RDM,需要在復合系統(tǒng)中進行偏跡操作:
其次,討論由三個詞組成的量子復合系統(tǒng).前兩個單詞視為量子子系統(tǒng)A,第三個單詞視為量子子系統(tǒng)B.在這種情況下,sa1、sa2表示子系統(tǒng)A的基態(tài)向量,sb表示子系統(tǒng)B的基態(tài)向量,2階RDM(2-Order RDM,2-RDM)表示為
sa1={ω1,ω2,…,ωd},
sa2={τ1,τ2,…,τd},
其中,主對角元素ωiτj(i=j)表示經(jīng)典概率中的語義相似度匹配特征(余弦相似度),非主對角元素ωiτj(i≠j)表示不同單詞語義基態(tài)向量中的干涉項信息.
計算1-RDM和2-RDM的和作為最終的RDM:
(2)
通過式(2),可獲得查詢文本和匹配文本的RDM表示ρS和ρQ.
將ρS和ρQ相乘,得到一個二維聯(lián)合概率表示,用于構造全局特征文本對之間的信息.計算過程如下:
其中·表示矩陣的乘法運算.ESQ表示當前主流匹配模型中使用的經(jīng)典理論的相似度計算評分:
IS表示查詢文本s內(nèi)部的語義干涉信息與匹配單詞經(jīng)典特征信息的交互:
IQ表示匹配文本q內(nèi)部的語義干涉信息與查詢單詞經(jīng)典特征信息的交互:
ISQ表示查詢文本s和匹配文本q之間語義干涉信息的交互特征:
提取問答匹配對的聯(lián)合概率分布特征會失去原始問句和答句的局部匹配特征,因此本文提出雙重特征表示融合全局特征和局部特征信息.
首先,基于RDM提取局部特征表示.對于ρS和ρQ,提取對角元素信息并和原始特征拼接,得到查詢文本和匹配文本的局部特征表示FLS和FLQ:
FLS=[stS;DS;ρS],FLQ=[stQ;DQ;ρQ],
(3)
其中,st(·)表示計算密度矩陣的對角線元素的總和,D(·)表示主對角線元素組成的向量,[;]表示拼接操作.
其次,利用二維CNN提取全局特征信息GSQ,通過池化層得到最終的全局特征向量FG.最后,結合全局特征向量和局部特征向量,得到雙重特征向量:
F=[FG;FLS;FLQ].
在上式中,由于局部特征提取的主對角線維度與CNN處理后的特征維度并不相同,因此選擇拼接操作融合局部特征與全局特征.
本文提出分別應用于問答任務和文本任務的模型架構(QDTM_QA和QDTM_TC),核心均為RDM表示,模型架構如圖2所示.
(a)QDTM_QA
QDTM_QA在相關性預測模塊中,由式(3)得到的雙重特征表示通過全連接層獲得二進制標簽(0或1)的最終預測匹配得分:
Pi=Softmax(Wi×Fi+bi),
其中Wi和bi表示全連接層對應的可學習權值和偏差.在模型訓練過程中,使用交叉熵損失函數(shù)訓練模型.
文本任務由于只包含單文本,因此QDTM_TC只包含兩個部分:基于RDM的局部特征表示模塊,雙重特征提取和融合模塊 (如圖2(b)所示).由于聯(lián)合表示模塊的缺失,模型的局部匹配信息來自文本RDM的主對角線之和stS與對角線元素組成的向量DS.全局語義信息來自于原始的RDM.最后,得到的特征為:
F=[stS;DS;ρS].
QDTM_TC的相關性預測與QDTM_QA相同.
對于文本任務,本文選擇MR[19]、CR[20]、SUBJ(https://huggingface.co/datasets/SetFit/subj)、MP-QA[21]、SST[22]、TREC[23]這6個文本分類數(shù)據(jù)集,涉及主題分類、問題分類和電影評述等任務.
對于問答任務,選擇WikiQA[24]、TrecQA[25]數(shù)據(jù)集.WikiQA數(shù)據(jù)集是一個開放域的問答數(shù)據(jù)集,數(shù)據(jù)全部來自微軟的查詢?nèi)罩竞途S基百科.TrecQA數(shù)據(jù)集上數(shù)據(jù)均來自TREC-8至TREC-13中的問答數(shù)據(jù)集.
對于文本任務,選擇如下對比模型.
1)神經(jīng)網(wǎng)絡文本匹配模型:Transformer[3]、FastText[25]、文獻[26]模型.
2)量子啟發(fā)的語言模型:NNQLM-I[8]、NNQLM-II[8]、C-NNQLM-I(Complex-Valued Neural Network Based QLM-I)[13]、C-NNQLM-II(Complex-Valued Neu-ral Network Based QLM-II)[13]、QLM-EE(QLM with Entanglement Embedding)[27].
對于問答任務,選擇如下對比模型.
1)神經(jīng)網(wǎng)絡問答模型:文獻[28]模型、BLSTM(Bidirectional Long-Short Term Memory)[29].
2)量子啟發(fā)語言模型:QLM[7]、QLM_T(QLM_Trace)[7]、NNQLM-I[8]、NNQLM-II[8]、QINM[12]、QLM-EE[27].
本文的模型均基于Python語言、Tensorflow 2.4.0框架構建,部署于NVIDIA Tesla P40.實驗中所有模型都使用50維全局向量詞嵌入初始化輸入部分,在訓練過程中單詞嵌入保持不變,以保證模型性能的穩(wěn)定性.
在模型的全局特征提取層,均使用一層二維卷積層與一層池化層的模型結構.在卷積層,設置3個不同的卷積尺寸與個數(shù);在池化層,選取最大池化方法.將3個卷積核的結果通過最大池化層后,拼接并輸入最后的全連接層.全連接層通過softmax獲得最后的預測得分,并通過argmax獲得最后的文本分類結果.
在具體實驗中,設置L2正則化參數(shù)為0.000 1,其余實驗參數(shù)設置詳見表1.
表1 實驗參數(shù)設置
各模型在文本任務上的準確率對比如表2所示,表中黑體數(shù)字表示最優(yōu)值.除了QLM-EE以外,其它實驗結果均采用原論文數(shù)據(jù),所有結果均在30維詞向量的基礎上獲得.由表可見,QDTM_TC的性能在MR、CR、SUBJ、MPQA數(shù)據(jù)集上均超越Fast-Text、文獻[26]模型和Transformer等神經(jīng)網(wǎng)絡文本匹配模型,這表明RDM可有效建模文本中的類量子語義干涉信息,在局部特征提取方面的性能高于注意力機制、CNN等神經(jīng)網(wǎng)絡提取模塊.相比量子語言模型NNQLM-I和NNQLM-II,QDTM_TC性能更優(yōu),這表明本文提出的RDM模塊可提取不同語義維度的量子干涉信息,這種交互而非疊加的語義特征捕獲方式優(yōu)于基于密度矩陣特征提取模塊.
表2 面向文本任務的QDTM在文本分類數(shù)據(jù)集上的準確率對比
各模型在問答任務上的平均精度均值(Mean Average Precision,MAP)和平均倒數(shù)排名(Mean Reciprocal Rank,MRR)對比如表3所示,表中黑體數(shù)字表示最優(yōu)值.由表可見,QDTM_QA的性能在WikiQA、TrecQA數(shù)據(jù)集上都優(yōu)于經(jīng)典的神經(jīng)網(wǎng)絡匹配模型(文獻[28]模型和BLSTM),這表明量子啟發(fā)文本表示和聯(lián)合概率表示對于問答任務是有效的.在WikiQA數(shù)據(jù)集上,QDTM_QA性能也優(yōu)于量子啟發(fā)語言模型QLM、QLM_T、NNQLM-I、NNQLM-II,這表明本文提出的雙重特征提取模塊可改進模型對于局部特征提取不足的問題,比基于密度矩陣的文本表示更有效.其次,在TrecQA數(shù)據(jù)集上,QDTM_QA未達到最佳性能,劣于NNQLM-II,這表明由于數(shù)據(jù)集的差異,基于RDM的文本表示可能存在冗余信息,導致實驗結果不佳,有待后續(xù)優(yōu)化.
表3 面向問答任務的QDTM在問答數(shù)據(jù)集上的性能對比
為了驗證模型中RDM文本表示和雙重特征架構的有效性,基于問答任務進行QDTM_QA的消融實驗.定義QDTM_QA_D(QDTM_QA with Density Matrix)表示QDTM_QA使用密度矩陣的文本表示方法,QDTM_QA_G(QDTM_QA with Global Fea-ture)表示QDTM_QA只使用全局特征表示,忽略局部特征表示.
在問答任務上的消融實驗結果如表4所示,表中黑體數(shù)字表示最優(yōu)值.從結果可以看出,QDTM_QA性能高于QDTM_QA_G,表明在問答任務中應同時考慮全局特征和局部特征,確保模型性能.同時,QDTM_QA性能也高于QDTM_QA_D,RDM的文本表示方法可全面捕獲問答任務中語義交互信息,有效建模類量子干涉項.QDTM_QA_G和QDTM_QA_D在WikiQA數(shù)據(jù)集上的性能下降快于在TrecQA數(shù)據(jù)集上,說明在小規(guī)模數(shù)據(jù)集上更依賴有效、多層次的語義特征捕獲方式.
表4 各模型在問答數(shù)據(jù)集上的消融實驗結果
本文系統(tǒng)分析詞組中單詞語義干涉在預訓練詞向量中的表現(xiàn),同時基于量子測量理論分析這一現(xiàn)象,推導文本匹配過程中的量子干涉項.該干涉項是語義干涉形成的額外信息,而該信息無法在經(jīng)典概率中進行建模.因此,本文提出融合量子干涉信息的雙重特征文本表示模型(QDTM),基于量子復合系統(tǒng)的理論,使用約化密度矩陣建模單詞間的語義干涉信息,在理論上基于這一結構捕捉類似于N-gram的語義非線性組合信息.進一步,根據(jù)任務的不同屬性,提出面向問答任務的QDTM_QA和基于文本任務的QDTM_TC,并進行實驗驗證,證實模型的有效性.同時,消融實驗以及模型評價過程也表明QDTM中各組件及模型架構在性能提升方面的優(yōu)越性.
今后一方面將深入研究基于RDM建模的優(yōu)化技術,降低信息冗余.一種可行的方法是基于施密特分解技術,結合量子糾纏理論篩選更重要的特征信息建模.另一方面,探索神經(jīng)網(wǎng)絡下的輕量化量子建模技術,設計適用于神經(jīng)網(wǎng)絡的量子模型,以便在計算和存儲資源有限的情況下實現(xiàn)高效的量子建模.這些模型具有較低的參數(shù)量和計算復雜度,同時保持較高的模型性能和泛化能力.