楊金慶,葉光輝
用戶移動(dòng)軌跡數(shù)據(jù)是移動(dòng)用戶行為研究最基本的數(shù)據(jù)支撐,有助于深入分析用戶行為規(guī)律,構(gòu)建更加精細(xì)的用戶畫像,挖掘用戶行為偏好。用戶移動(dòng)軌跡數(shù)據(jù)不僅是具象的地理坐標(biāo)數(shù)據(jù)集合,還蘊(yùn)含著用戶行為的抽象內(nèi)涵。社會(huì)角色不同的用戶具有不同的活動(dòng)軌跡,其行為模式也存在差異,解讀地理坐標(biāo)數(shù)據(jù)下的語義內(nèi)涵能夠識(shí)別用戶的社會(huì)角色和行為模式。從認(rèn)知科學(xué)角度來講,人類行為的核心方面依賴于主體的知識(shí)以及從中所作出的推斷并將其轉(zhuǎn)化為行為意向[1]24-78。地理坐標(biāo)數(shù)據(jù)語義轉(zhuǎn)化符合用戶認(rèn)知,是數(shù)據(jù)向信息轉(zhuǎn)化的必然過程。地理坐標(biāo)數(shù)據(jù)是極為準(zhǔn)確的地理位置信息數(shù)值化表達(dá),以此表達(dá)用戶行為軌跡缺乏語義內(nèi)涵,則難以理解用戶行為意圖。例如,“某人在經(jīng)緯度為(A,B)的地理位置停留一小時(shí)”的表達(dá),就較難以理解用戶偏好和行為意圖,而“某人在C 圖書館停留1 小時(shí)”的語義化則較為容易理解用戶的行為意圖。
本文地理坐標(biāo)數(shù)據(jù)分析所采用的方法主要借鑒關(guān)聯(lián)數(shù)據(jù)理論及技術(shù)。關(guān)聯(lián)數(shù)據(jù)技術(shù)可將文本潛在的語義關(guān)系進(jìn)行顯式揭示和表達(dá),構(gòu)建起層級(jí)清晰、語義關(guān)系明確的網(wǎng)絡(luò)。大量精確的地理坐標(biāo)數(shù)據(jù)蘊(yùn)含著地理語義信息,但需要經(jīng)過解析才能得到相應(yīng)的地名實(shí)體信息。地名實(shí)體的空間語義特征不僅包含實(shí)體所賦予的功能角色、人文歷史等,還包括實(shí)體間聯(lián)系的空間關(guān)系。空間相鄰、功能相似的不同語義的地名實(shí)體,從用戶行為數(shù)字軌跡上存在鄰近相似,在用戶行為語義內(nèi)涵上具有相似的行為習(xí)慣。在語義轉(zhuǎn)化過程中,地理坐標(biāo)數(shù)據(jù)語義轉(zhuǎn)化面臨著隱含的關(guān)聯(lián)信息難以有效表達(dá)、地理坐標(biāo)數(shù)據(jù)空間層面的語義關(guān)聯(lián)關(guān)系難以構(gòu)建等問題。地理實(shí)體不僅具有社會(huì)功能屬性甚至還具有豐富的人文背景信息,數(shù)據(jù)關(guān)聯(lián)能為地理實(shí)體名稱提供大量的實(shí)體內(nèi)涵描述,為用戶行為意圖分析提供充分的語料。用戶行為軌跡的社會(huì)功能及人文背景分析、轉(zhuǎn)化后的抽象描述有利于把握用戶的行為偏好以及生活習(xí)慣。鑒于傳統(tǒng)的信息組織方法無法識(shí)別數(shù)據(jù)間的潛在空間關(guān)系,本文采用關(guān)聯(lián)數(shù)據(jù)技術(shù)進(jìn)行地理語義信息組織,同時(shí)利用空間本體表征地理坐標(biāo)數(shù)據(jù)的空間語義關(guān)聯(lián)關(guān)系構(gòu)建地理坐標(biāo)數(shù)據(jù)語義轉(zhuǎn)化模型。
本文相關(guān)研究主要從關(guān)聯(lián)數(shù)據(jù)和地理坐標(biāo)數(shù)據(jù)語義化兩個(gè)維度展開。關(guān)聯(lián)數(shù)據(jù)通過RDF數(shù)據(jù)模型和本體可以將原本隱含在數(shù)據(jù)背后的語義關(guān)系進(jìn)行明確關(guān)聯(lián)和表達(dá),其存在一整套相對(duì)成熟和完善的理論、方法、模型,而且也還處于不斷完善的階段,對(duì)相關(guān)研究充分調(diào)研有助于更好地利用關(guān)聯(lián)數(shù)據(jù)來實(shí)現(xiàn)地理坐標(biāo)數(shù)據(jù)的語義化;地理坐標(biāo)語義轉(zhuǎn)化目前涉及到方法不一而足,相關(guān)研究主要聚焦用戶地理行為數(shù)據(jù)聚類和地理語義表達(dá)兩個(gè)維度,這些已經(jīng)開展的研究為本文模型設(shè)計(jì)提供有力支撐。
關(guān)聯(lián)數(shù)據(jù)技術(shù)作為一種新型的信息組織方式,一經(jīng)提出,政府、企業(yè)、圖書館等行業(yè)及各類科研機(jī)構(gòu)就展開了大量研究與實(shí)踐。牟冬梅等[2]為解決數(shù)據(jù)異構(gòu)問題,利用關(guān)聯(lián)數(shù)據(jù)技術(shù)將資源顆?;Y(jié)合本體技術(shù)細(xì)粒度組織聚合不同結(jié)構(gòu)、類型、來源和關(guān)聯(lián)強(qiáng)度的數(shù)字資源。沈志宏等[3]設(shè)計(jì)及歸納了關(guān)聯(lián)數(shù)據(jù)的發(fā)布流程,包括數(shù)據(jù)建模、實(shí)體命名、實(shí)體RDF化、實(shí)體關(guān)聯(lián)化、實(shí)體發(fā)布和開放查詢6個(gè)步驟。在數(shù)據(jù)關(guān)聯(lián)分析過程中,不同資源對(duì)象在各個(gè)層面的語義互操作問題是實(shí)現(xiàn)關(guān)聯(lián)的關(guān)鍵環(huán)節(jié),針對(duì)該問題,賈君枝等[4]從資源對(duì)象、謂詞、屬性值層面提出資源間不同關(guān)系(如等同關(guān)系、等級(jí)關(guān)系、相關(guān)關(guān)系)的語義互操作方法。張艷俠等[5]分析了關(guān)聯(lián)數(shù)據(jù)和本體在VIVO系統(tǒng)中語義互聯(lián)的作用,探討關(guān)聯(lián)數(shù)據(jù)協(xié)同本體實(shí)現(xiàn)資源語義互聯(lián)的機(jī)理,構(gòu)建資源間語義關(guān)系,實(shí)現(xiàn)語義層面的資源互聯(lián)。除語義互操作問題,資源間語義關(guān)系的揭示也是關(guān)聯(lián)數(shù)據(jù)分析過程中需要重視的環(huán)節(jié),據(jù)此相關(guān)研究者也開展了研究。崔家旺等[6]構(gòu)建基于關(guān)聯(lián)數(shù)據(jù)的類簇語義關(guān)系,為共詞聚類結(jié)果的理解和分析提供了新方式。成全等[7]通過對(duì)比、剖析關(guān)聯(lián)數(shù)據(jù)在語義發(fā)現(xiàn)和關(guān)聯(lián)構(gòu)建領(lǐng)域的研究,總結(jié)出關(guān)聯(lián)數(shù)據(jù)語義發(fā)現(xiàn)與關(guān)聯(lián)構(gòu)建過程遵循的數(shù)據(jù)處理流程。董坤[8]提出一種基于關(guān)聯(lián)數(shù)據(jù)的高校知識(shí)資源語義化組織框架,實(shí)現(xiàn)對(duì)高校知識(shí)資源及其關(guān)聯(lián)關(guān)系的語義化描述。王萍等[9]以國(guó)內(nèi)文化遺產(chǎn)領(lǐng)域數(shù)字化資源為研究對(duì)象,圍繞資源內(nèi)容描述規(guī)則、語義知識(shí)本體模型設(shè)計(jì)、元數(shù)據(jù)語義化操作和關(guān)聯(lián)數(shù)據(jù)發(fā)布等方面開展了數(shù)字資源語義融合方法研究。綜上所述,關(guān)聯(lián)數(shù)據(jù)技術(shù)在語義揭示、語義關(guān)聯(lián)和語義網(wǎng)絡(luò)構(gòu)建等領(lǐng)域具有重要的應(yīng)用場(chǎng)景,但圍繞地理數(shù)據(jù)所作的關(guān)聯(lián)研究還相對(duì)較少。
目前該主題相關(guān)研究主要聚焦兩方面:(1)從數(shù)據(jù)聚類角度,采用聚類方法抽取關(guān)鍵地理實(shí)體,表達(dá)一定范圍地理坐標(biāo)數(shù)據(jù)的語義信息。Daniel Ashbrook等[10]采用K-means聚類方式將地理坐標(biāo)數(shù)據(jù)以15米為范圍半徑進(jìn)行地名實(shí)體語義信息表達(dá)。Jong Hee Kang等[11]提出一種融合時(shí)間和距離的聚類方法,抽取用戶行為軌跡中的重要地名實(shí)體,以重要地名實(shí)體名稱描述相應(yīng)范圍內(nèi)的地理坐標(biāo)數(shù)據(jù)的語義信息;聚類發(fā)掘地理語義信息有助于增強(qiáng)重要地名實(shí)體地標(biāo)效應(yīng),易于發(fā)現(xiàn)用戶日常行為軌跡,但空間粒度難以控制;地理空間語義關(guān)聯(lián)能夠充分表達(dá)地名實(shí)體間的空間、層級(jí)關(guān)系,對(duì)空間粒度大小具有操控能力。相關(guān)研究仍存在空間語義信息描述不充分、語義人文、功能信息缺乏等問題。(2)從數(shù)據(jù)關(guān)聯(lián)角度,利用關(guān)聯(lián)數(shù)據(jù)技術(shù),構(gòu)建地理坐標(biāo)數(shù)據(jù)在空間層面的語義關(guān)聯(lián)。李國(guó)忠等[12]通過對(duì)地理數(shù)據(jù)進(jìn)行語義關(guān)系分析,構(gòu)建地理本體數(shù)據(jù)庫(kù)以檢查地理數(shù)據(jù)的語義一致性,實(shí)現(xiàn)地理信息服務(wù)智能化。王坤等[13]從地理信息語義關(guān)系角度,以國(guó)家基礎(chǔ)地理要素分類體系為概念域,從行政、隸屬、空間形態(tài)等方面對(duì)地理概念的語義關(guān)系進(jìn)行篩選和顯式定義,重構(gòu)地理要素間多元語義關(guān)系。劉鳳臣等[14]利用關(guān)聯(lián)數(shù)據(jù)技術(shù)組織和描述地理數(shù)據(jù),發(fā)掘地理數(shù)據(jù)間隱含的語義關(guān)系,實(shí)現(xiàn)地理數(shù)據(jù)在空間層面的語義關(guān)聯(lián)。地理數(shù)據(jù)本質(zhì)上反映了關(guān)聯(lián)主體(多為用戶)的行為規(guī)律,對(duì)此相關(guān)研究者提出通過用戶日程建模和提取法,借助用戶訪問地理位置數(shù)據(jù)中發(fā)掘用戶行為模式,獲取用戶日程行為語義[15]85-96。重要地名實(shí)體聚類和用戶行為模式發(fā)掘都是從用戶行為軌跡整體角度出發(fā),以重要地名實(shí)體表達(dá)用戶行為地理語義。這種方式對(duì)于連續(xù)性地理坐標(biāo)數(shù)據(jù)的語義挖掘較為實(shí)用,但該方法僅是從用戶整體軌跡語義描述的角度出發(fā),缺乏對(duì)單一地名實(shí)體語義信息的充分描述。每一個(gè)地理坐標(biāo)數(shù)據(jù)都蘊(yùn)含著地理語義信息,在不同的空間粒度下,相同的地理坐標(biāo)數(shù)據(jù)可解析出不同層級(jí)的地理語義信息;此外,不同層級(jí)的地理語義信息蘊(yùn)含著不同深度的地理人文信息。因此,目前地理坐標(biāo)數(shù)據(jù)語義轉(zhuǎn)化分析還存在較大的拓展空間。
融合本文1.1節(jié)研究,可以發(fā)現(xiàn)聚類抽取地名實(shí)體的方式是實(shí)現(xiàn)地理坐標(biāo)數(shù)據(jù)語義轉(zhuǎn)化的重要方法,可有效表達(dá)用戶行為偏好,但難以表達(dá)地名實(shí)體間的空間關(guān)系,不利于精細(xì)化構(gòu)建用戶畫像。關(guān)聯(lián)數(shù)據(jù)是一種擅于構(gòu)建語義關(guān)系(包括空間關(guān)系)的信息組織形式,能夠?qū)⒌乩韺?shí)體的層級(jí)和空間關(guān)系映射到不同層級(jí)的地理語義信息,為本文的地理坐標(biāo)數(shù)據(jù)語義轉(zhuǎn)化模型提供了有力的理論支撐。
地理語義信息網(wǎng)作為新型地理信息組織方式將助力于智慧中國(guó)、智慧城市的構(gòu)建以滿足地理信息服務(wù)智能化需求。地理坐標(biāo)數(shù)據(jù)蘊(yùn)含地理語義信息,需借助語義關(guān)聯(lián)技術(shù)揭示語義關(guān)系,深入解讀相應(yīng)地點(diǎn)語義信息。目前,地理坐標(biāo)數(shù)據(jù)主要來源于GPS和移動(dòng)設(shè)備信號(hào)塔所確定的經(jīng)緯度數(shù)據(jù)。地理坐標(biāo)數(shù)據(jù)的語義轉(zhuǎn)化主要包括地理坐標(biāo)數(shù)據(jù)預(yù)處理、關(guān)聯(lián)數(shù)據(jù)構(gòu)建以及語義轉(zhuǎn)化等三個(gè)重要部分組成。地理坐標(biāo)數(shù)據(jù)預(yù)處理是指利用反地理編碼技術(shù)進(jìn)行地理實(shí)體抽取,并針對(duì)相應(yīng)的語義地理實(shí)體進(jìn)行地理信息描述。關(guān)聯(lián)數(shù)據(jù)構(gòu)建包括地理本體構(gòu)建和本體語義推理兩個(gè)部分,利用空間本體構(gòu)建地理坐標(biāo)數(shù)據(jù)的空間語義關(guān)聯(lián)關(guān)系,推理地理數(shù)據(jù)間隱含的語義關(guān)系,實(shí)現(xiàn)地理數(shù)據(jù)在空間層面的語義關(guān)聯(lián)。語義轉(zhuǎn)化過程需考慮用戶行為的區(qū)域性,以及行為目的指向性特點(diǎn)。語義化地理區(qū)域識(shí)別使得語義轉(zhuǎn)化過程不僅描述單一地理位置的語義信息,而且表達(dá)地理坐標(biāo)數(shù)據(jù)的空間關(guān)系。地理坐標(biāo)數(shù)據(jù)語義轉(zhuǎn)化模型構(gòu)建流程如圖1所示。
圖1 地理坐標(biāo)數(shù)據(jù)語義轉(zhuǎn)化模型
移動(dòng)智能環(huán)境下,地理空間行為數(shù)據(jù)主要以地理坐標(biāo)數(shù)據(jù)的形式存在,移動(dòng)智能設(shè)備能夠感知來自GPS定位系統(tǒng)和通訊信號(hào)塔的地理坐標(biāo)數(shù)據(jù)(經(jīng)緯度記錄)。為了有效發(fā)掘地理實(shí)體潛在語義關(guān)系,本研究首先利用反地理編碼技術(shù)對(duì)地理坐標(biāo)數(shù)據(jù)進(jìn)行初始語義轉(zhuǎn)化,然后采用自然語言處理中的命名實(shí)體認(rèn)知方法(NER)抽取相應(yīng)地理語義實(shí)體,最后結(jié)合黃頁(yè)網(wǎng)站信息以及現(xiàn)存的關(guān)聯(lián)數(shù)據(jù)(如DBpedia)對(duì)地理語義實(shí)體進(jìn)行信息描述。本文對(duì)地理坐標(biāo)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗并完成反地理編碼、地點(diǎn)實(shí)體識(shí)別抽取。地理坐標(biāo)數(shù)據(jù)預(yù)處理算法如表1所示。
關(guān)聯(lián)數(shù)據(jù)構(gòu)建過程由RDF數(shù)據(jù)模型和地理空間本體構(gòu)建組成,RDF數(shù)據(jù)模型將確定地理實(shí)體術(shù)語并構(gòu)建地理實(shí)體關(guān)系圖譜;地理空間本體能夠?qū)Φ乩頂?shù)據(jù)涉及到的空間特征進(jìn)行語義關(guān)系的明確表達(dá)。RDF數(shù)據(jù)模型是關(guān)聯(lián)數(shù)據(jù)的基礎(chǔ),該模型中各數(shù)據(jù)元素存在關(guān)聯(lián),提供合并各種來源數(shù)據(jù)所需的通用框架。本文采用URI命名實(shí)體、謂詞和某些客體(三元組)的形式實(shí)現(xiàn)地理實(shí)體相互連接以形成圖譜。針對(duì)地理實(shí)體關(guān)聯(lián)數(shù)據(jù)所用術(shù)語,本文參照Geonames(全球地理數(shù)據(jù)庫(kù))構(gòu)建具有區(qū)域性、功能性以及富含人文信息的地理實(shí)體RDF數(shù)據(jù)模型。
任何一個(gè)理論的傳播都離不開大眾媒介,“人類有了某種媒介才有可能從事與之相適應(yīng)的傳播和其他社會(huì)活動(dòng)。”麥克盧漢說:“正是傳播媒介在形式上的特性——它在多種多樣的物質(zhì)條件下一再重現(xiàn)——而不是特定的訊息內(nèi)容,構(gòu)成了傳播媒介的歷史行為功效?!保?]148“媒介是理論傳播的助推器和重要載體。傳播媒介大致有兩種含義:第一,它指信息傳遞的載體、渠道、中介物、工具或技術(shù)手段;第二,它指從事信息的采集、加工制作或傳播的社會(huì)組織?!保?]147
表1 地理坐標(biāo)數(shù)據(jù)預(yù)處理算法
地理本體是哲學(xué)本體和信息本體技術(shù)的發(fā)展,地理本體具有信息本體屬性特征的同時(shí),還具有地理信息所特有的空間特征。本體語言對(duì)地理本體形式化的描述有利于機(jī)器的理解和地理本體模型的邏輯推理。本文按照語義元數(shù)據(jù)格式對(duì)地理實(shí)體進(jìn)行本體構(gòu)建,并以RDF三元組形式實(shí)現(xiàn)機(jī)器理解地理坐標(biāo)數(shù)據(jù)在空間層面上的語義關(guān)聯(lián)。由于地理本體需要描述地理信息的空間特征,因此地理本體不僅包含屬性關(guān)系還包含空間關(guān)系。本文構(gòu)建本體時(shí)主要考慮三種空間關(guān)系:(1)行政等級(jí)。是指地理位置在行政區(qū)域方面的空間等級(jí)關(guān)系;(2)拓?fù)潢P(guān)系。是指地理信息所具有的相鄰、連接、相離、相交等空間關(guān)系;(3)位置關(guān)系。是指相對(duì)位置關(guān)系,包括方位等。在地理實(shí)體RDF數(shù)據(jù)模型的基礎(chǔ)上,結(jié)合地理空間特征構(gòu)建語義本體模型,如圖2所示。
地理坐標(biāo)語義本體是地理本體的一種特殊形式,由概念或類、地理關(guān)系、函數(shù)、公理和實(shí)例構(gòu)成,本文稱之為地理空間本體。本模型是將地理坐標(biāo)數(shù)據(jù)反地理編碼后的初始語義地理信息以及識(shí)別的地理實(shí)體進(jìn)行本體元素抽取、提煉、構(gòu)建關(guān)聯(lián)關(guān)系,其中相關(guān)元素的含義如表2所示。
圖2 地理坐標(biāo)數(shù)據(jù)語義本體模型
本研究旨在探索地理坐標(biāo)數(shù)據(jù)語義轉(zhuǎn)化過程中地理信息語義的充分表達(dá),以發(fā)現(xiàn)用戶行為意圖和偏好。實(shí)驗(yàn)數(shù)據(jù)是通過開源情境數(shù)據(jù)采集軟件AWARE,采集某高校20位志愿者于2016年10月15-30日的行為記錄。將20位用戶移動(dòng)智能手機(jī)中l(wèi)ocations.db數(shù)據(jù)庫(kù)導(dǎo)出,初步數(shù)據(jù)整理,共抽取13 余萬條連續(xù)的地理坐標(biāo)數(shù)據(jù)。Location數(shù)據(jù)庫(kù)樹形結(jié)構(gòu)如圖3所示。其中包括android_metadata、locations、sqlite_sequence數(shù)據(jù)庫(kù)表,locations表中記錄了時(shí)間戳(timestamp)、用戶 ID(device_id)、經(jīng)度(double_latitude)、緯度(double_longitude)以及地理坐標(biāo)數(shù)據(jù)來源方式(network/gps)。具體數(shù)據(jù)格式如表3所示。
表2 地理坐標(biāo)數(shù)據(jù)語義本體模型元素含義
圖3 locations.db數(shù)據(jù)庫(kù)樹形結(jié)構(gòu)
地理坐標(biāo)數(shù)據(jù)預(yù)處理是地理空間本體構(gòu)建的前奏,即將地理坐標(biāo)數(shù)據(jù)進(jìn)行反地理編碼獲取初始的地理語義信息,然后識(shí)別抽取地名實(shí)體名稱。依據(jù)本文2.1節(jié)中的數(shù)據(jù)預(yù)處理程序,對(duì)20位用戶的地理坐標(biāo)行為數(shù)據(jù)進(jìn)行預(yù)處理,獲取包含用戶編碼(user_id)、經(jīng)度(double_latitude)、緯 度 (double_longitude)、 語義 地址 (address)、地理實(shí)體名稱(geo-entity)的地理坐標(biāo)數(shù)據(jù)-實(shí)體名稱映射表,如表4 所示(以359**998 用戶為例)。
表3 locations地理坐標(biāo)數(shù)據(jù)表
表4 地理坐標(biāo)數(shù)據(jù)——實(shí)體名稱映射表
本文從空間信息和文本信息兩個(gè)角度構(gòu)建地理坐標(biāo)數(shù)據(jù)語義化本體。地理本體是本體的特定應(yīng)用領(lǐng)域,借鑒斯坦福大學(xué)醫(yī)學(xué)院“七步法”本體構(gòu)建思路,自動(dòng)和半自動(dòng)地構(gòu)建地理空間本體,結(jié)合數(shù)據(jù)源特征以空間區(qū)域中的高校場(chǎng)所子本體為例,建模步驟如下:
(1)確定地理本體的行政區(qū)域?qū)蛹?jí)和范疇。地理本體層級(jí)主要來源于國(guó)家行政區(qū)劃代碼,以及機(jī)構(gòu)層級(jí)設(shè)置等。
(2)獲取地理領(lǐng)域知識(shí)賦予地理實(shí)體人文環(huán)境及功能屬性。地理實(shí)體處于人文社會(huì)環(huán)境之中,不僅具有社會(huì)功能屬性,還具有歷史文化背景,為理解用戶行為意圖提供語義參考。
(3)從領(lǐng)域知識(shí)中提取類和類的層級(jí)關(guān)系。高校子本體主要借鑒行政區(qū)劃代碼和機(jī)構(gòu)層級(jí)設(shè)置兩種層次分類方法,對(duì)某高校地理實(shí)體進(jìn)行層級(jí)劃分和精確描述,如表5所示。
表5 高校子本體中部分類及層級(jí)關(guān)系
表6 高校場(chǎng)所類的屬性及其取值
表7 高校子本體的屬性列表
(5)依據(jù)屬性定義和約束類。本文采用Protégé 文本編輯器自動(dòng)和半自動(dòng)方法構(gòu)建地理空間本體,可依據(jù)定義好的屬性對(duì)高校子本體加以定義,高校子本體的部分類定義如表8。
表8 高校場(chǎng)所類的定義
(6)創(chuàng)建地理本體實(shí)例。地理空間本體構(gòu)建主要依賴于數(shù)據(jù)預(yù)處理階段的地理實(shí)體識(shí)別抽取,以及本文3.2節(jié)中地理坐標(biāo)數(shù)據(jù)語義本體模型所描述的地理屬性關(guān)系、地理實(shí)體自身所具有的空間關(guān)系。本文采用Protégé 文本編輯器,依據(jù)識(shí)別的地理實(shí)體以及地理空間關(guān)系,并參照地理坐標(biāo)數(shù)據(jù)語義本體模型,對(duì)特定區(qū)域用戶行為坐標(biāo)數(shù)據(jù)進(jìn)行語義化本體構(gòu)建,如圖4所示。
圖4 地理空間本體實(shí)例
目前對(duì)地理本體空間關(guān)系的表達(dá)主要方法還是利用OWL建模語言,其中is_close_to表達(dá)位置關(guān)系中的鄰近;拓展關(guān)系中的is_isolated_with表示相離;has_been_thrtough 表示橫穿;is_part_of表示行政等級(jí)關(guān)系。本文根據(jù)RDF數(shù)據(jù)模型,通過地理空間本體構(gòu)建,明確表達(dá)某高校地理對(duì)象間的語義關(guān)系,并以O(shè)WL建模語言形式存儲(chǔ),如圖5所示。
圖5 OWL文件片段
地理坐標(biāo)語義轉(zhuǎn)化是利用地理語義關(guān)系將用戶行為地理坐標(biāo)數(shù)據(jù)進(jìn)行地理空間關(guān)系構(gòu)建以及用戶行為意圖理解。地理坐標(biāo)數(shù)據(jù)語義轉(zhuǎn)化過程中需考慮用戶行為區(qū)域性問題,用戶行為的區(qū)域性特點(diǎn)影響用戶行為規(guī)律分析。本文實(shí)驗(yàn)對(duì)象為高校學(xué)生,結(jié)合本文3.2節(jié)空間本體的構(gòu)建過程,對(duì)高校子本體進(jìn)行可視化,如圖6所示。
圖6 高校子本體的簡(jiǎn)單示例
以編號(hào)為359**998用戶行為坐標(biāo)數(shù)據(jù),借助地理關(guān)聯(lián)數(shù)據(jù)庫(kù),對(duì)用戶行為進(jìn)行語義描述。該用戶行為具有明顯的區(qū)域性,通過對(duì)地理行政關(guān)系樹遍歷得出用戶活動(dòng)區(qū)域主要分為“武漢洪山”和“湖南衡陽(yáng)”。對(duì)用戶“武漢洪山”坐標(biāo)行為數(shù)據(jù)的語義轉(zhuǎn)化能抽象描述如圖7所示。
圖7 用戶行為地理坐標(biāo)數(shù)據(jù)語義轉(zhuǎn)化抽象描述
針對(duì)高校學(xué)生行為軌跡的關(guān)聯(lián)分析,融合空間關(guān)系和地理實(shí)體社會(huì)功能的地理坐標(biāo)語義轉(zhuǎn)化模型將為用戶行為相似度計(jì)算、用戶行為偏好挖掘、用戶行為意圖理解等提供技術(shù)支持,同時(shí)拓寬用戶行為研究的維度,提升地理空間信息在用戶行為研究領(lǐng)域的效應(yīng)。
(1)改進(jìn)用戶行為相似度計(jì)算。以往針對(duì)地理空間數(shù)據(jù)的相似度計(jì)算,多以地理實(shí)體名稱匹配相似,此種方式忽略了地理空間數(shù)據(jù)內(nèi)含的空間關(guān)系。正如圖7所示,不同語義的地理實(shí)體名稱在空間上可能相鄰,功能上可能相似,從用戶行為軌跡上存在鄰近相似性,在用戶行為偏好上具有相似的行為習(xí)慣。
(2)提升用戶行為意圖理解。地理實(shí)體不僅具有社會(huì)功能屬性甚至還具有豐富的人文背景信息,數(shù)據(jù)關(guān)聯(lián)能為地理實(shí)體名稱提供大量的實(shí)體內(nèi)涵描述,為用戶行為意圖分析提供充分的語料。正如圖7所示,用戶的行為具有目的性,通過對(duì)行為軌跡的社會(huì)功能及人文背景的分析,轉(zhuǎn)化之后的抽象描述有助于把握用戶的行為偏好以及生活習(xí)慣。
本文采用關(guān)聯(lián)數(shù)據(jù)技術(shù)進(jìn)行地理語義信息組織,同時(shí)利用空間本體構(gòu)建地理坐標(biāo)數(shù)據(jù)的空間語義關(guān)聯(lián)關(guān)系。首先,利用反地理編碼技術(shù)對(duì)地理坐標(biāo)數(shù)據(jù)進(jìn)行前期語義轉(zhuǎn)化;其次,采用自然語言處理中的命名實(shí)體認(rèn)知方法(NER)抽取相應(yīng)地理語義實(shí)體;然后,依賴數(shù)據(jù)預(yù)處理階段識(shí)別抽取的地理實(shí)體構(gòu)建地理空間本體,并以O(shè)WL
建模語義存儲(chǔ);最后,根據(jù)存儲(chǔ)的關(guān)聯(lián)數(shù)據(jù)庫(kù),對(duì)用戶行為坐標(biāo)數(shù)據(jù)進(jìn)行語義轉(zhuǎn)化。本研究將用戶行為數(shù)據(jù)語義化的過程中,不僅轉(zhuǎn)化了地理坐標(biāo)數(shù)據(jù)所內(nèi)含的用戶行為習(xí)慣,同時(shí)保留了地理信息所獨(dú)有的空間關(guān)系,使得用戶在認(rèn)知范圍內(nèi)更好地理解坐標(biāo)數(shù)據(jù)所隱含的語義內(nèi)容??墒牵捎诘乩頂?shù)據(jù)空間關(guān)系較為復(fù)雜,本文只考慮位置關(guān)系、行政等級(jí)關(guān)系以及拓?fù)潢P(guān)系,對(duì)于特定研究可能存在語義轉(zhuǎn)化不充分的弊端。后續(xù)研究將針對(duì)地理坐標(biāo)語義轉(zhuǎn)化可以融入時(shí)間維度,形成用戶行為片段,以深入挖掘用戶行為規(guī)律。