• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于知識圖譜推理的風險車輛識別方法研究 *

      2022-02-10 01:44:36俞山川謝耀華
      關(guān)鍵詞:三元組圖譜實體

      俞山川,謝耀華,陳 晨,周 健

      (招商局重慶交通科研設計院有限公司 自動駕駛技術(shù)交通運輸行業(yè)研發(fā)中心,重慶 400067)

      0 引 言

      隨著高速公路數(shù)字化、智能化建設的加速,高速公路運營者基于海量運營數(shù)據(jù)為每輛車建立電子檔案,通過運維管控系統(tǒng)對潛在風險車輛進行識別、監(jiān)控和預警。高速公路運營者可從2個方面進行數(shù)據(jù)收集:①從具有車輛屬性識別、事件檢測模塊的高速公路路側(cè)信息采集設施(如:攝像頭)獲取車輛顏色、車型、車牌號、異常駕駛行為類型(如:超速、倒車、停車)等信息,并在運維管控系統(tǒng)中存儲為結(jié)構(gòu)化數(shù)據(jù);②從外部相關(guān)網(wǎng)站(如:各省市交通運輸局官方網(wǎng)站)抓取公開文本資料(如:交通違法判決書)等半結(jié)構(gòu)化數(shù)據(jù),獲得車輛顏色、車型、車牌號、所屬公司、歷史違法行為(如:擅自改裝運輸危化品、危險貨物運輸專用車輛未懸掛或噴涂危險貨物運輸標識、未采取必要措施防止貨物脫落揚撒)等信息。目前,如何將這些多源異構(gòu)的信息進行融合,找到車輛和風險之間的潛在聯(lián)系,形成知識體系,從而讓風險車輛被快速“捕捉”,這是一個亟需解決的問題。

      知識圖譜是一種用圖模型來描述知識和建立世界萬物之間關(guān)聯(lián)關(guān)系的技術(shù)方法,旨在從多源數(shù)據(jù)中識別、發(fā)現(xiàn)和推斷事物與概念之間的復雜關(guān)系[1],將孤立的數(shù)據(jù)信息整合在一起。因此,知識圖譜可以有效地從多源異構(gòu)數(shù)據(jù)中挖掘出車輛與風險相關(guān)聯(lián)的問題。知識圖譜的自動構(gòu)建主要通過傳統(tǒng)關(guān)系型數(shù)據(jù)庫轉(zhuǎn)化和互聯(lián)網(wǎng)開放數(shù)據(jù)抽取[2]。前者依賴關(guān)系型數(shù)據(jù)庫到本體模型的映射,通過映射表將關(guān)系型數(shù)據(jù)庫的表結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)化為圖數(shù)據(jù)庫中的三元組數(shù)據(jù)[3],適用于運維管控系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù);后者則需要知識抽取和推理算法支撐,從半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù)抽取本體模型中定義的本體、屬性和關(guān)系,并通過推理對潛在關(guān)系進行完善[4],適用于從外部相關(guān)網(wǎng)站抓取公開文本資料,該部分是知識圖譜構(gòu)建的重點和難點。

      近幾年,研究者針對純文本中自動構(gòu)建或填充知識庫,在知識圖譜表示學習或知識圖譜嵌入方面做了很多工作,目的是將實體和實體間的關(guān)系映射到連續(xù)低維度的向量空間,簡化知識圖譜的計算,捕獲知識圖譜中數(shù)據(jù)固有的復雜性和語義[5]。典型的嵌入技術(shù)包含3個步驟:①表示實體和關(guān)系;②定義得分函數(shù);③學習實體和關(guān)系的表示。表示模型分為轉(zhuǎn)移距離模型和語義匹配模型2類。前者使用基于距離的得分函數(shù),主要包括TransE系列模型[5]、考慮實體和關(guān)系不確定性的高斯嵌入模型[6-7];后者使用基于相似度的得分函數(shù),主要包括RESCAL系列模型[8]、神經(jīng)網(wǎng)絡匹配模型[9-10]。TransE系列模型參數(shù)較少、簡單高效、可解釋性強,其中的TransH[11]、TransD[12]和TransR[13]能很好地建立一對多、多對一和多對多的復雜關(guān)系,適用于高速公路運維管控系統(tǒng)中海量風險車輛數(shù)據(jù)知識圖譜的建立。實體和關(guān)系的表示學習普遍采用開放和封閉世界2種假設[14]。其中,開放世界假設更適合于不完整知識圖譜,而且在訓練微調(diào)中的效果更好。盡管運維管控系統(tǒng)中存儲有海量車輛數(shù)據(jù),但從結(jié)構(gòu)上講,相關(guān)數(shù)據(jù)仍屬于不完整知識圖譜。因此,開放世界假設更適合筆者的研究內(nèi)容。

      知識推理旨在從已有關(guān)系數(shù)據(jù)中推斷出新的關(guān)系,從而豐富知識圖譜,支撐更進一步的應用。知識推理可以分為對實體屬性的推理和對實體關(guān)系的推理。前者主要包括對會發(fā)生變化實體的屬性值進行及時的發(fā)現(xiàn)、更新,或者為實體創(chuàng)建新的屬性;后者則是對實體間潛在的關(guān)系進行推斷和補充,適用于車輛和風險潛在關(guān)系的建立?;谶壿嬕?guī)則的知識推理是關(guān)系推理中應用最廣泛的一類方法,主要包括謂語邏輯推理、本體推理和隨機游走推理等。其中,隨機游走推理模型由于其高準確度和高計算效率,適合大型知識圖譜的構(gòu)建[15]。

      綜上,筆者選擇考慮一對多、多對一和多對多關(guān)系的表示模型,基于開放世界假設進行知識學習,從半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù)中進行車輛信息的關(guān)系提取,采用隨機游走推理模型進行基于邏輯規(guī)則的知識推理,從而完成基于表示學習的高速公路風險車輛知識推理和圖譜構(gòu)建,以達到識別潛在風險、將知識圖譜技術(shù)應用于高速公路運行風險預警管控場景的目的。

      1 問題描述

      1)引入三元組的概念:假設有一個包含n個實體,m個關(guān)系的知識圖譜,其中事實被存儲為三元組D+={(h,r,t)|hE,rR,tE}。每個三元組由一個頭實體hE、一個尾實體tE和兩者之間的關(guān)系rR組成。其中E表示實體集,R表示關(guān)系集。例如:(渝A***08,隸屬于,重慶**運輸有限公司)、(渝A***08,違法類型為,危險貨物運輸專用車輛未懸掛、未噴涂危險貨物運輸標識)、(李**,駕駛,渝A***08)等。

      2)從各省市交通運輸局官方判決書文本中,通過三元組抽取技術(shù)[16]篩選所有可能的三元組。三元組抽取技術(shù)包括基于網(wǎng)絡爬蟲的文檔正文提取和基于CoreNLP句法解析的實體關(guān)系抽取[17]。根據(jù)各省市交通運輸局官方判決書文本數(shù)據(jù),確定高速公路風險車輛類型:①未采取必要措施防止貨物脫落揚撒;②擅自改裝已取得《道路運輸證》的車輛;③危險貨物運輸車未隨車攜帶《道路運輸證》;④運輸車輛為報廢、擅自改裝、拼裝、檢測不合格或其他不符合國家規(guī)定的車輛;⑤運輸車輛未按照規(guī)定的周期和頻次進行車輛綜合性能檢測和技術(shù)等級評定;⑥違法超限運輸;⑦未在罐式車輛罐體的適裝介質(zhì)列表范圍內(nèi)或者移動式壓力容器使用登記證上限定的介質(zhì)范圍內(nèi)承運危險貨物;⑧危險貨物運輸專用車輛未懸掛、未噴涂危險貨物運輸標識;⑨危險貨物承運人未按照規(guī)定制作危險貨物運單或者保存期限不符合要求;⑩客運班車不按規(guī)定的線路、班次行駛;未按規(guī)定取得道路貨物運輸經(jīng)營許可證,擅自從事道路貨物運輸經(jīng)營;未取得道路危險貨物運輸許可,擅自從事道路危險貨物運輸;未取得相應從業(yè)資格證件,從事道路危險貨物運輸活動;未按照規(guī)定使用衛(wèi)星定位汽車行駛記錄儀進行實時傳送。

      2 模型建立

      2.1 建模步驟

      2.1.1 實體和關(guān)系的表示及得分函數(shù)的定義

      將實體和關(guān)系映射在一個連續(xù)的向量空間中,表現(xiàn)成向量;在每個事實(h,r,t)上定義得分函數(shù)fr(h,t)以量化似然性,觀測到的事實比未觀測到的事實有更高的得分。

      2.1.2 學習實體和關(guān)系的表示

      隨機生成負樣本,學習這些實體和關(guān)系的表示,解決所有觀測事實(即D+中的事實)的最大似然優(yōu)化問題。

      2.1.3 推理實體間潛在關(guān)系

      基于所有三元組推斷不同三元組實體之間的潛在關(guān)系。

      2.2 TransH、TransR和TransD關(guān)系表示模型

      盡管TransE簡單高效,但在處理一對多、多對一和多對多關(guān)系時仍有缺陷。以1對N關(guān)系為例,給定一個關(guān)系r,即?i=1,…,m,TransE使得h+r≈ti對所有i=1,…,m成立,并且t1≈t2≈…≈ti。這表明,給定一個1對N關(guān)系,TransE對t1、t2、…、ti可能會學習出十分相似的向量表達。事實上,這些實體是完全不同的。為克服此缺陷,可采用一種有效的策略即允許實體在不同的關(guān)系中有明顯不同的表現(xiàn)形式。TransH通過引入特定關(guān)系的超平面,實現(xiàn)了這個理念。

      2.2.1 TransH模型

      如圖1(a),TransH將實體表示成向量,將每個關(guān)系r表示成在以wr為法向量的超平面上的向量r。給定一個事實(h,r,t),實體向量h、t首先被投影在超平面上,即

      (1)

      如果(h,r,t)成立,假設兩個投影通過超平面上的r以較小的誤差連接,即h⊥+r≈t⊥,則,得分函數(shù)定義為

      (2)

      各向量的約束條件為

      (3)

      圖1 TransH、TransR和TransD模型原理Fig. 1 Principles for TransH, TransR and TransD model

      2.2.2 TransR模型

      (4)

      式中:Mr為從實體空間到關(guān)系空間r的投影向量,Mrk×d。

      TransR的得分函數(shù)定義為

      (5)

      各向量的約束條件為

      (6)

      (7)

      2.2.3 TransD模型

      TransD通過進一步將投影向量分解成兩個向量的積進行簡化,即用投影向量來獲取頭、尾實體關(guān)于關(guān)系的向量表示,如圖1(c)。TransD引入額外的映射向量wh,wtd和wrk,其中實體向量和關(guān)系向量h,td和rk。投影向量和被定義為

      (8)

      (9)

      式中:I為單位向量。

      將這2個投影向量分別施加在頭實體向量h和尾實體向量t上,得到投影

      (10)

      (11)

      得分函數(shù)用式(12)計算:

      (12)

      各向量滿足約束條件(13)、(14):

      (13)

      (14)

      2.3 基于開放世界假設的模型訓練

      開放世界假設表述如下:知識圖譜只包含真實的事實,而未被觀測到的事實只會是錯誤的或者丟失了。在此情形下,D+只存儲正樣本,負樣本通過啟發(fā)式生成。(h,r,t)的負樣本用D-表示,D-={(h′,r,t)∪(h,r,t′)}。在訓練過程中,負樣本通過隨機替換頭實體h或尾實體t得到,即

      D-={(h′,r,t)|h′E∧h′≠h∧(h,r,t)D+}∪{(h,r,t′)|t′E∧t′≠t∧(h,r,t)D+}

      (15)

      給定正樣本集D+和相應建立的負樣本集D-,可以通過最小化對數(shù)損失值[14]來學習實體和關(guān)系表示Θ,即

      (16)

      式中:τ=(h,r,t)為D+∪D-中的訓練樣本。

      如果(h,r,t)D+,yhrt=1;(h,r,t)D-,則yhrt=-1,從而保證正樣本的得分高于負樣本。

      此外,此最小化問題還需要滿足向量的約束條件,對于TransH模型,為約束條件(3);對于TransR模型,為約束條件(6)、(7);對于TransD模型,為約束條件(13)、(14)。

      模型訓練還需要對于實體和關(guān)系進行初始化嵌入,通常通過均勻分布或高斯分布隨機初始化,或使用TransE的結(jié)果來初始化嵌入。以TransD模型為例,基于開放世界假設的訓練算法步驟如下:

      Step 1給定觀測到的事實D+={(h,r,t)},初始化實體和關(guān)系嵌入。

      Step 2從D+中取一個正事實的小集合Z,生成2個空集合B+=?、B-=?。

      Step 3對Z中的每一個正樣本τ+=(h+,r+,t+),根據(jù)式(15)生成一個負樣本τ-=(h-,r-,t-),并更新集合B+=B+∪{τ+},B-=B-∪{τ-}。

      Step 5若梯度近似于0,返回Step 2;否則,輸出實體和關(guān)系嵌入。

      2.4 基于隨機游走的知識推理模型

      推理的目的是使用機器學習的方法推斷出實體對之間的潛在關(guān)系,從而完善知識圖譜。例如,如果風險車輛知識圖譜包含關(guān)系(李**,駕駛,渝A***08),(渝A***08,隸屬于,重慶**運輸有限公司),然后可以獲得丟失的關(guān)系(李**,工作于,重慶**運輸有限公司)。

      筆者基于隨機游走模型[19],推斷出不同三元組實體之間的潛在關(guān)系。計算每條路徑的特征值函數(shù)sh,Q(t),從而建立一系列路徑。一個路徑Q由一系列的關(guān)系向量r1,…,rl,…,rn組成,即

      式中:Tn-1為關(guān)系向量rn的作用域及關(guān)系向量rn-1的值域,即Tn-1=ran(rn)=dom(rn-1)。

      關(guān)系的作用域和值域指的是實體的類型,T0={h},Tn={t}。特征值函數(shù)sh,Q(t)為沿著路徑Q從頭實體向量h開始能夠到達尾實體向量t的概率。路徑走到任意中間實體向量e時,sh,Q(e)的更新方法為

      (17)

      在隨機游走的初始階段,如果eQ,sh,Q(e)=1;否則,sh,Q(e)=0。I(rl(e′,e))是指示函數(shù),如果rl(e′,e)存在,I(rl(e′,e))=1;否則,I(rl(e′,e))=0。

      通過隨機游走算法得到一系列路徑特征Qr={Q1,…,Qn},然后對關(guān)系向量r下的每個訓練樣本(即一個頭實體和尾實體的組合)建立得分函數(shù)

      fQ(hk,tk)=θ1shk,Q1(e)+θ2shk,Q2(e)+…+θnshk,Qn(e)

      (18)

      每個樣本的概率為

      (19)

      損失函數(shù)最小化的表達式為

      minwk[yklnPk+(1-yk)ln(1-Pk)]

      (20)

      式中:yk為訓練樣本向量(hk,tk)是否具有關(guān)系向量r的標記。

      如果三元組向量(hk,r,tk)存在,則yk=1;否則yk=0。

      訓練算法流程與TransD模型訓練算法類似,不做詳述。

      3 算例分析

      3.1 數(shù)據(jù)集

      對廣東省下屬市交通運輸局2020年1—8月公開的交通違法判決書文本(圖2)抽取三元組數(shù)據(jù),對TransH、TransR和TransD模型進行性能比選和知識圖譜結(jié)果展示。

      采集廣東省肇慶、東莞、云浮、佛山、茂名、中山、惠州、韶關(guān)、汕頭、揭陽、江門、梅州、河源、陽江、潮州、深圳、汕尾、清遠等18市的數(shù)據(jù),共計15 541條,其中肇慶、東莞、佛山、茂名等4市超過2 000條。實體包括駕駛員姓名、車牌、掛車車牌、時間、車型、所屬公司、違法類型等。

      圖2 交通違法判決書文本示例Fig. 2 Text example of traffic violation judgment

      由于Dbpedia、Wikidata和YAGO等代表性知識圖譜公開測試數(shù)據(jù)集不包含中文數(shù)據(jù),算例中知識圖譜訓練數(shù)據(jù)集來自重慶市及廣東省部分高速公路運維管控平臺數(shù)據(jù)庫處理得到的三元組數(shù)據(jù),以及清華大學自然語言處理實驗室公開的數(shù)據(jù)集。

      3.2 表示學習模型比選

      算例TransH、TransR和TransD均使用高斯分布生成實體和關(guān)系的初始嵌入向量。設定實體和關(guān)系的向量維度為100,訓練輪次為1 000次。訓練時使用隨機梯度下降法更新嵌入向量,學習率設為1.0%。綜合比較效率和性能之后,在基礎實驗中選擇關(guān)系負樣本的采樣數(shù)量為5[20],評價指標連續(xù)兩次下降則終止程序,取最后一次評價指標結(jié)果進行比較。

      使用Hits@K、MR、MRR、準確率和訓練時間來評估各模型的性能。Hits@K表示測試集中排名在頂部前K個實體所占的百分比,筆者選擇K=1、3、10;MR為排名的平均值;MRR為排名倒數(shù)的平均值。Hits@K值和MRR值越高、MR值越低,模型的實體對齊效果越好[20]。TransH、TransR和TransD的性能對比如表1。

      表1 風險車輛知識圖譜中TransH、TransR和TransD性能對比Table 1 Performance comparison among TransH, TransR and TransD in risky vehicle knowledge graph

      從表1可以看出,TransR和TransD在對齊效果和準確率方面不相上下,并均優(yōu)于TransH;而TransD比TransR有近2倍的計算效率。因此,TransD模型適合于文中風險車輛知識圖譜的構(gòu)建。

      3.3 風險車輛知識圖譜展示及應用

      基于TransD模型,通過隨機游走的知識推理模型完善三元組實體之間的潛在關(guān)系,形成廣東省高速公路風險車輛知識圖譜,并將風險類型按照出現(xiàn)頻率排序(僅展示前5類型),如圖3。

      圖3 廣東省高速公路風險車輛知識圖譜Fig. 3 Knowledge graph for risky vehicles on freeways of Guangdong province, China

      從圖3可以看出,普通貨車超限運輸和?;奋囕v不規(guī)范運輸為高速公路主要的交通違法行為。這些車輛一旦發(fā)生交通事故,無論事故本身是大或是小,其潛在的二次事故都將會對高速公路的安全運行產(chǎn)生極大的影響。

      將圖3的知識圖譜作為高速公路運維管控系統(tǒng)的智能分析模塊,按照每月1次的頻率從交通運輸局官方數(shù)據(jù)中定期更新風險車輛數(shù)據(jù)。只要高速公路運維管控系統(tǒng)通過監(jiān)控攝像頭檢測到車輛的車牌,就能自動識別其歷史違法信息,并判定是否為潛在風險車輛以及風險等級,從而為高速公路運行風險預警和管控提供科學依據(jù)。

      4 結(jié) 語

      根據(jù)外部網(wǎng)站抓取公開文本資料等半結(jié)構(gòu)化數(shù)據(jù),抽取高速公路風險車輛三元組;建立考慮一對多、多對一和多對多關(guān)系的表示學習模型,以最小化對數(shù)損失為目標,基于開放世界假設進行訓練,提煉風險車輛三元組;采用隨機游走推理模型進行基于邏輯規(guī)則的知識推理,從而完成高速公路風險車輛知識推理和圖譜構(gòu)建。研究發(fā)現(xiàn),TransD模型對齊效果好、準確率高、計算效率高,適合于高速公路風險車輛知識圖譜的構(gòu)建。所提出的模型能達到對高速公路運行潛在風險進行識別的目的,可為高速公路運行風險預警和管控提供依據(jù),完成語義關(guān)系識別領域的知識圖譜技術(shù)在高速公路運行風險預警管控場景的應用。

      猜你喜歡
      三元組圖譜實體
      基于語義增強雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
      繪一張成長圖譜
      前海自貿(mào)區(qū):金融服務實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      關(guān)于余撓三元組的periodic-模
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      哲學評論(2017年1期)2017-07-31 18:04:00
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      主動對接你思維的知識圖譜
      陵水| 项城市| 贡山| 习水县| 游戏| 乌苏市| 塔河县| 甘南县| 安丘市| 达州市| 宜兰县| 大安市| 湘潭县| 泾川县| 互助| 天气| 莫力| 华坪县| 万山特区| 尖扎县| 汉中市| 洛南县| 印江| 北京市| 奇台县| 花莲市| 石阡县| 资中县| 陆良县| 敖汉旗| 神木县| 平阳县| 布尔津县| 广州市| 乾安县| 灵宝市| 宽城| 榆树市| 怀化市| 尚义县| 云阳县|