• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于校園行為信息網(wǎng)絡(luò)的生活習(xí)慣相似學(xué)生搜索

    2020-11-10 12:35:58王新澳崔丁山頓毅杰秦蕊琦
    計(jì)算機(jī)研究與發(fā)展 2020年11期
    關(guān)鍵詞:數(shù)據(jù)源信息網(wǎng)絡(luò)相似性

    王新澳 段 磊 崔丁山 盧 莉 頓毅杰 秦蕊琦

    1(四川大學(xué)計(jì)算機(jī)學(xué)院 成都 610065)

    2(西北民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 蘭州 730030)(wangxinao@stu.scu.edu.cn)

    隨著2018年國家標(biāo)準(zhǔn)《智慧校園總體框架》發(fā)布,致力于構(gòu)建校園工作、學(xué)習(xí)和生活一體化的智慧校園正在全國多個高校逐步成型,從課堂到生活的教育理念已經(jīng)被廣為接受.傳統(tǒng)基于預(yù)制定教學(xué)計(jì)劃的培養(yǎng)模式已不能滿足當(dāng)前創(chuàng)新性人才的個性化培養(yǎng)需求.以大數(shù)據(jù)分析、人工智能等信息技術(shù)為支撐的智慧教育模式已成為教育信息化的趨勢[1],通過掌握學(xué)生的興趣、愛好、生活習(xí)慣等,提高人才培養(yǎng)質(zhì)量成為當(dāng)前教育領(lǐng)域的重要研究問題.

    生活習(xí)慣是學(xué)生心理狀況、財務(wù)狀況和興趣愛好的綜合體現(xiàn),對學(xué)生的個人發(fā)展和學(xué)業(yè)表現(xiàn)有著重要的影響.分析學(xué)生的行為,掌握學(xué)生的生活習(xí)慣,對關(guān)愛學(xué)生心理健康、明晰學(xué)生財務(wù)狀況、促進(jìn)學(xué)生學(xué)業(yè)進(jìn)步有非常重要的作用.例如:中國礦業(yè)大學(xué)根據(jù)學(xué)生校園生活狀況,建立家庭經(jīng)濟(jì)困難學(xué)生數(shù)據(jù)庫,提供精準(zhǔn)資助依據(jù)(1)http://www.moe.gov.cn/jyb_xwfb/s6192/s133/s183/201612/t20161212_291588.html.西安電子科技大學(xué)利用大數(shù)據(jù)分析學(xué)生食堂用餐期間的消費(fèi)記錄,“隱性地”資助貧困學(xué)生(2)http://www.cpwnews.com/content-22-32315-1.html.

    計(jì)算學(xué)生生活習(xí)慣的相似性,搜索相似的學(xué)生,可以支持包括下面2種場景的眾多應(yīng)用:

    1) 場景1.現(xiàn)有的大學(xué)寢室分配方法較單一,沒有充分考慮學(xué)生的興趣、性格、生活習(xí)慣等方面,容易造成矛盾.通過搜索生活習(xí)慣相似學(xué)生,調(diào)整寢室分配,對促進(jìn)和諧校園、改善寢室氛圍有著積極的作用.

    2) 場景2.學(xué)生進(jìn)行社團(tuán)選擇、項(xiàng)目組隊(duì)時信息來源較少.搜索與學(xué)生生活習(xí)慣一致的社員或隊(duì)友,可以為學(xué)生的選擇提供參考,同時有利于突破學(xué)生自身交際圈促成跨專業(yè)或跨學(xué)院的交流.

    本文基于校園行為信息搜索具有相似生活習(xí)慣的學(xué)生.從技術(shù)上講,使用校園行為數(shù)據(jù)分析學(xué)生生活習(xí)慣具有2方面挑戰(zhàn):

    1) 學(xué)生在校行為數(shù)據(jù)是多源、異構(gòu)且持續(xù)增長的,包含例如選課、成績、消費(fèi)、門禁等不同來源和不同結(jié)構(gòu),并會隨時間逐漸增多數(shù)據(jù).算法設(shè)計(jì)過程中需要充分考慮原始數(shù)據(jù)的這些特點(diǎn).

    2) 不同數(shù)據(jù)源之間的語義復(fù)雜,包括自習(xí)(圖書館門禁數(shù)據(jù))、飲食(食堂消費(fèi)數(shù)據(jù))等.在計(jì)算相似性時需要保證語義清晰準(zhǔn)確,即能夠解釋相似的原因.

    目前教育數(shù)據(jù)挖掘領(lǐng)域絕大多數(shù)研究的關(guān)注點(diǎn)在于學(xué)生的學(xué)習(xí)過程和學(xué)習(xí)表現(xiàn)以及一些特殊任務(wù),例如評估抑郁[2]、拖延癥[3]、學(xué)業(yè)預(yù)警[4]或輔助獎助學(xué)金發(fā)放[5-6]等.文獻(xiàn)[7]通過基于LINE的網(wǎng)絡(luò)嵌入方法獲得學(xué)生的低維向量表示,從而計(jì)算學(xué)生之間的相似性,但這種方法會損失原始數(shù)據(jù)中包含的語義信息,并且無法拓展性地融合更多的數(shù)據(jù)源.

    使用異構(gòu)信息網(wǎng)絡(luò)可以很好地將學(xué)生和行為信息保存在一起.借鑒異構(gòu)信息網(wǎng)絡(luò)的思想和技術(shù)[8],我們構(gòu)建校園行為信息網(wǎng)絡(luò)(campus behavior infor-mation network)來表達(dá)學(xué)生在校行為信息.并且在校園行為信息網(wǎng)絡(luò)中,我們用具有明確語義信息的元路徑度量學(xué)生之間的相似性,從而得到所有學(xué)生之間的相似關(guān)系.目前基于異構(gòu)信息網(wǎng)絡(luò)的相似性度量方法已較為成熟,但因?yàn)樾@活動數(shù)據(jù)與常用于構(gòu)建異構(gòu)信息網(wǎng)絡(luò)的數(shù)據(jù)不同,具有重復(fù)率高的特點(diǎn)(第2節(jié)做詳細(xì)分析),目前的相似性度量方法并不完全適用于校園行為信息網(wǎng)絡(luò).

    同時因?yàn)樾@行為數(shù)據(jù)多源的特點(diǎn),在單一數(shù)據(jù)源的行為信息網(wǎng)絡(luò)中提取的相似語義信息往往是片面的.例如,僅使用圖書館的進(jìn)出記錄無法確定一個學(xué)生是否喜歡上自習(xí),因?yàn)榻虒W(xué)樓同樣具有自習(xí)的功能.因此有必要集成多個網(wǎng)絡(luò)中的相似信息來更全面地體現(xiàn)學(xué)生的在校行為.相應(yīng)地,還需要設(shè)計(jì)將多個學(xué)生相似信息融合起來的方法,用于從整體上評判學(xué)生之間的相似性.

    對此,本文提出SCALE(similar campus lifestyle miner)算法用于解決在校園行為信息網(wǎng)絡(luò)中搜索生活習(xí)慣相似學(xué)生的問題.主要工作有4個方面:

    1) 單層學(xué)生相似子網(wǎng)絡(luò)的構(gòu)建.由單一數(shù)據(jù)源得到校園行為信息網(wǎng)絡(luò),提出一種帶約束的元路徑相似度計(jì)算方法,使用給定的元路徑計(jì)算學(xué)生之間的相似度,構(gòu)建單層學(xué)生相似子網(wǎng)絡(luò).

    2) 學(xué)生相似網(wǎng)絡(luò)的構(gòu)建.增量式地將單層學(xué)生相似子網(wǎng)絡(luò)構(gòu)建為一個多層結(jié)構(gòu)的學(xué)生相似網(wǎng)絡(luò),并通過帶偏隨機(jī)游走的方式生成每個學(xué)生的上下文語義.

    3) 基于網(wǎng)絡(luò)嵌入的相似學(xué)生搜索.使用Skip-Gram模型將所有學(xué)生的上下文語義嵌入到一個低維向量空間中,將每位同學(xué)的相似信息向量化.通過計(jì)算向量之間的相似度搜索相似學(xué)生.

    4) 通過真實(shí)校園環(huán)境數(shù)據(jù)集上的實(shí)驗(yàn),驗(yàn)證了SCALE算法的有效性和執(zhí)行效率.

    1 問題定義

    我們首先引入一些用于表示學(xué)生行為的概念.

    考慮到校園行為一般以教學(xué)周為周期迭代進(jìn)行,我們用時間約束(τ)描述一對時間條件{W(t)=Tdow,T(t)∈Tz},其中Tdow表示1周中的某一天,Tz表示1天中的某個時間區(qū)間.滿足此約束的時間t記作tτ.例如{W(t)=Monday,T(t)∈[11:00,13:00)}為一個具體的時間約束.

    滿足同一個時間約束且在相同地點(diǎn)發(fā)生的同類型事件實(shí)例的集合體現(xiàn)了相似的行為,由一個行為實(shí)例表示,記作時間約束(τ),地點(diǎn)(l),事件類型(c).對于tτ,l=l,c=c,都有t,l,c∈τ,l,c.

    例1.有屬于學(xué)生1和學(xué)生2的3個事件實(shí)例.

    對于時間約束τ:{W(t)=Monday,T(t)∈[11:00,13:00)},t1,t2滿足時間約束τ,而t3不滿足τ.因此,學(xué)生1的2個事件實(shí)例均屬于同一個行為實(shí)例{W(t)=Monday,T(t)∈[11:00,13:00)},一食堂,就餐.且學(xué)生1參與了此行為實(shí)例2次,學(xué)生2沒有參與此行為實(shí)例.

    校園行為信息網(wǎng)絡(luò)包含了5種典型的對象類型:學(xué)生(s)、時間約束(τ)、地點(diǎn)(l)、事件類型(c)、行為實(shí)例(b).時間約束、地點(diǎn)及事件類型為行為實(shí)例的屬性.網(wǎng)絡(luò)還包括4種類型的鏈接:學(xué)生與行為實(shí)例之間具有參與幾次或者被參與幾次的關(guān)系,行為實(shí)例和時間約束之間存在“發(fā)生”或者“發(fā)生在”的關(guān)系,行為實(shí)例和地點(diǎn)之間存在處于或發(fā)生的關(guān)系,行為實(shí)例與事件類型之間存在屬于或包含的關(guān)系.容易看出,校園行為信息網(wǎng)絡(luò)是一個帶權(quán)重的異構(gòu)信息網(wǎng)絡(luò)[9],包含了4種權(quán)重類型.學(xué)生與行為實(shí)例之間鏈接的權(quán)重為學(xué)生參與此行為實(shí)例的次數(shù),時間約束、地點(diǎn)和事件類型為行為實(shí)例的屬性,它們與行為實(shí)例之間鏈接的權(quán)重均為1,且任一行為實(shí)例必須與其對應(yīng)的時間約束、處于的地點(diǎn)及屬于的事件類型對象相連.圖1為校園行為信息網(wǎng)絡(luò)的一個示例,時間約束、地點(diǎn)、事件類型與行為實(shí)例之間鏈接的權(quán)重被省略.

    Fig.1 An example of campus behavior information network

    在校園行為信息網(wǎng)絡(luò)中,2個對象可以通過多條不同的路徑相連,連接2個對象的某一條路徑蘊(yùn)含了這2個對象之間的某種語義關(guān)系,且不同路徑表達(dá)著不同的語義關(guān)系,稱這些路徑為元路徑,記作P.若元路徑P上的鏈接帶有權(quán)重,則P為帶權(quán)重元路徑[9].

    若校園信息網(wǎng)絡(luò)中存在1條與元路徑P的對象類型和鏈接類型全部對應(yīng)的路徑p,則稱p為元路徑P的實(shí)例,記作p∈P.

    考慮元路徑P:“學(xué)生—行為實(shí)例—地點(diǎn)—行為實(shí)例—學(xué)生”,在要求路徑中對象不重復(fù)的情況下,圖1中存在著2條元路徑P的實(shí)例.p1:“s1—b3—l2—b2—s3”;p2:“s2—b3—l2—b2—s3”.

    在校園行為信息網(wǎng)絡(luò)中使用元路徑查找相似語義時,存在不同類型行為的路徑并不能表達(dá)相似,因此要求元路徑中出現(xiàn)的行為實(shí)例為相同事件類型.具有較強(qiáng)相似語義信息的元路徑有3條:

    1) “學(xué)生—行為實(shí)例—時間約束—行為實(shí)例—學(xué)生”.2個學(xué)生在相同的時間約束下具有相同類型的行為,例如圖1中包含的實(shí)例“s1—b3—τ3—b4—s4”,語義為s1和s4在相同的時間約束(τ3)下有相同類型的行為(b3,b4的事件類型同為c2).

    2) “學(xué)生—行為實(shí)例—地點(diǎn)—行為實(shí)例—學(xué)生”.2個學(xué)生在相同的地點(diǎn)具有同樣類型的行為,例如圖1中包含的實(shí)例“s1—b3—l2—b2—s3”,語義為s1和s3在相同的地點(diǎn)(l2)有同樣類型的行為(b2,b3的事件類型同為c2).

    3) “學(xué)生—行為實(shí)例—學(xué)生”.2個學(xué)生在相同的時間約束下和相同的地點(diǎn)有相同的行為,例如圖1中包含的實(shí)例“s1—b3—s2”,等價于同時存在前2種元路徑的情況,即同時存在實(shí)例“s1—b3—τ3—b3—s2”和“s1—b3—l2—b3—s2”,語義為s1和s2在相同的時間約束(τ3)下和地點(diǎn)(l2)中有相同的行為(b3的事件類型為c2).

    可以發(fā)現(xiàn),上面3種元路徑與其反向的元路徑是相同的,我們稱這種元路徑為對稱元路徑[8].對于一個給定的對稱元路徑P,文獻(xiàn)[8]給出了2個相同類型對象os和ot之間基于實(shí)例數(shù)的元路徑相似性度量方式PathSim.

    Sim(os,ot,P)=

    (1)

    其中,pos?ot表示os和ot之間的路徑實(shí)例,pos?os表示os和os之間的路徑實(shí)例,pot?ot表示ot和ot之間的路徑實(shí)例.

    例2.對于圖1中的校園行為信息網(wǎng)絡(luò)G和元路徑P:“學(xué)生—行為實(shí)例—學(xué)生”.學(xué)生1(s1)與學(xué)生2(s2)之間的Pathsim相似度計(jì)算如下:

    1) 學(xué)生1與學(xué)生2之間元路徑P的實(shí)例有2條,分別為“s1—b1—s2”和“s1—b3—s2”,因此|{ps1?s2|ps1?s2∈P}|=2.

    2) 學(xué)生1與學(xué)生1之間元路徑P的實(shí)例有2條,分別為“s1—b1—s1”和“s1—b3—s1”,因此|{ps1?s1|ps1?s1∈P}|=2.

    3) 學(xué)生2與學(xué)生2之間元路徑P的實(shí)例有2條,分別為“s2—b1—s2”和“s2—b3—s2”,因此|{ps2?s2|ps2?s2∈P}|=2.

    4) 因此,Sim(s1,s2,P

    通過基于元路徑的相似度計(jì)算方式,我們可以基于給定元路徑從校園行為信息網(wǎng)絡(luò)中計(jì)算得到所有學(xué)生之間的相似度.以學(xué)生作為節(jié)點(diǎn)、相似度作為權(quán)重,構(gòu)建單層學(xué)生相似子網(wǎng)絡(luò).單層學(xué)生相似子網(wǎng)絡(luò)是一個無向帶權(quán)重圖B=(S,),其中每個節(jié)點(diǎn)s∈S代表1個學(xué)生,每條邊e∈連接2個相似的學(xué)生,e上帶有的屬性w代表2個學(xué)生的相似度.

    但是獲得多個子網(wǎng)絡(luò)之后,單層學(xué)生相似子網(wǎng)絡(luò)的權(quán)重并不能表達(dá)學(xué)生之間的相似度.因此為了度量學(xué)生在多個子網(wǎng)絡(luò)中表現(xiàn)出的相似性,我們構(gòu)建多層結(jié)構(gòu)的學(xué)生相似網(wǎng)絡(luò)并使用網(wǎng)絡(luò)嵌入的方法得到學(xué)生的向量表示,從而通過計(jì)算向量之間的距離得到學(xué)生之間的相似性.

    2 相關(guān)工作

    本文基于異構(gòu)信息網(wǎng)絡(luò),以信息網(wǎng)絡(luò)的形式重構(gòu)校園行為數(shù)據(jù),構(gòu)建了校園行為信息網(wǎng)絡(luò),使用結(jié)合元路徑方法的網(wǎng)絡(luò)嵌入方法來研究校園行為信息網(wǎng)絡(luò)中的相似搜索.因此,本節(jié)將從基于異構(gòu)信息網(wǎng)絡(luò)的相似性度量和教育數(shù)據(jù)挖掘2個方面介紹本文的相關(guān)工作.

    2.1 基于異構(gòu)信息網(wǎng)絡(luò)的相似性度量

    異構(gòu)信息網(wǎng)絡(luò)被定義為由多種類型的實(shí)體和關(guān)系構(gòu)成的網(wǎng)絡(luò).區(qū)別于傳統(tǒng)的網(wǎng)絡(luò),異構(gòu)信息網(wǎng)絡(luò)包含了不同的類別信息,它們能用來表達(dá)路徑中豐富的語義信息.因此在大部分現(xiàn)實(shí)場景下,異構(gòu)信息網(wǎng)絡(luò)更適合用于對現(xiàn)實(shí)世界進(jìn)行抽象表示.近些年,為了研究復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)之間豐富的聯(lián)系,基于異構(gòu)信息網(wǎng)絡(luò)的數(shù)據(jù)挖掘任務(wù)成為了研究熱點(diǎn),其中包括聚類[10]、分類[11]、鏈接預(yù)測[12]和相似搜索[13]等.比如,Sun等人[10]將元路徑與融入了用戶偏好的聚類相結(jié)合,從而對網(wǎng)絡(luò)中對象聚類;Ji等人[11]基于在1個類中排位更高對象應(yīng)該有更重要作用的思想,提出了基于排序的分類方法RankClass;Kuo等人[12]通過綜合的統(tǒng)計(jì)方法,將異構(gòu)信息網(wǎng)絡(luò)中不同類別的信息建模到一個多層的圖中,并推理出隱藏的鏈接.侯泳旭等人[13]構(gòu)建了包含疾病、基因和病癥節(jié)點(diǎn)的疾病信息網(wǎng)絡(luò),并設(shè)計(jì)了基于元路徑的相似基因搜索算法gSim_Miner.在這些任務(wù)中,異構(gòu)信息網(wǎng)絡(luò)的相似性度量是一個基本并且重要的功能.在下文中,我們將總結(jié)異構(gòu)信息網(wǎng)絡(luò)的相似性度量的相關(guān)工作.

    不少研究者已經(jīng)意識到基于異構(gòu)信息網(wǎng)絡(luò)的相似性度量的重要性.Ni等人[14]在利用科學(xué)文獻(xiàn)中豐富的元數(shù)據(jù)構(gòu)建有向圖的基礎(chǔ)上,設(shè)計(jì)了一個有路徑約束的隨機(jī)游走算法(path-constrained random walks, PCRW)來測量任意類型節(jié)點(diǎn)對之間的相似性.Sun等人[8]考慮到不同類型對象組成的元路徑能表達(dá)語義,提出了PathSim算法,該算法通過對稱的元路徑計(jì)算2個相同類型對象之間的相似性.Shi等人[15]結(jié)合PCRW和PathSim算法,設(shè)計(jì)了HeteSim算法,通過用戶給定的任意的元路徑計(jì)算相同或不同類型的對象相關(guān)性.注意:校園行為信息網(wǎng)絡(luò)與其他常見的異構(gòu)信息網(wǎng)絡(luò)存在不同,學(xué)生常在幾個固定的場所活動,很少前往沒有去過的地點(diǎn),且對于熟悉的地點(diǎn),學(xué)生通常會頻繁前往,即重復(fù)率高,所以在校園信息網(wǎng)絡(luò)中需要以邊上權(quán)重的方式存儲學(xué)生與某地之間產(chǎn)生聯(lián)系的頻度,且一般情況下權(quán)重會比較高.若使用以上的方法計(jì)算元路徑相似度,邊上的權(quán)重信息就會被丟失,例如偶爾去1次圖書館和經(jīng)常出入圖書館會被相似度評價方法視作相同的行為.因此以上方法不適用于本問題.近年來,Shi等人[9]介紹了SemRec算法,并提出用帶有權(quán)重的元路徑來精細(xì)地描述路徑語義,在計(jì)算實(shí)例數(shù)時要求對稱的2個關(guān)系所具有的權(quán)重相等,從而保證被計(jì)算的實(shí)例能夠表達(dá)2個對象之間相似的語義.但是SemRec適用于評分的場景,對于重復(fù)率高的校園數(shù)據(jù)來說,只計(jì)算權(quán)重相等的實(shí)例太過嚴(yán)格,會丟失過多的語義.

    網(wǎng)絡(luò)嵌入是將對象嵌入到低維稠密的向量空間中的技術(shù),能有效捕捉對象的重要信息.因此,許多研究工作將基于元路徑的方法融入網(wǎng)絡(luò)嵌入來得到節(jié)點(diǎn)唯一的向量表達(dá).Metapath2vec[16]和HIN2Vec[17]通過元路徑的隨機(jī)游走得到節(jié)點(diǎn)的序列,并結(jié)合Skip-gram模型從而得到網(wǎng)絡(luò)節(jié)點(diǎn)的嵌入.HEBE[18]提出了異構(gòu)信息網(wǎng)絡(luò)中事件的概念,它將參與同一個事件的對象看為1個整體,即1個事件,并用超邊表示對象之間的多種關(guān)系,從而得到對象的近似.TransPath[19]借用了知識圖譜中的平移機(jī)制的思想,將元路徑當(dāng)作源結(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)的平移操作,用于得到元路徑和節(jié)點(diǎn)的嵌入.但是此類方法的拓展性普遍較差,在融合更多數(shù)據(jù)源的數(shù)據(jù)時已有的計(jì)算結(jié)果將被全部重新計(jì)算.

    2.2 教育數(shù)據(jù)挖掘

    近年來,由于學(xué)生相關(guān)數(shù)據(jù)越來越多,教育數(shù)據(jù)挖掘(educational data mining, EDM)已成為一個新興的跨學(xué)科研究領(lǐng)域.EDM指在教育環(huán)境中利用數(shù)據(jù)挖掘的技術(shù)解決實(shí)際的教育教學(xué)問題,從而改善和提高學(xué)生學(xué)習(xí)質(zhì)量,完善學(xué)習(xí)過程與教育管理[20].

    在教育數(shù)據(jù)挖掘中,大部分研究關(guān)注于學(xué)生的學(xué)習(xí)過程[21-26]和學(xué)習(xí)表現(xiàn)[27-33].這些方法通過分析線下或線上的學(xué)習(xí)活動所產(chǎn)生的數(shù)據(jù)來進(jìn)行建模,從而研究和預(yù)測學(xué)生的學(xué)習(xí)行為和學(xué)習(xí)成績.除了學(xué)生的學(xué)習(xí)過程和學(xué)習(xí)表現(xiàn),校園生活等也引起了研究者的注意.Resnik等人[2]分析對大學(xué)生的問卷調(diào)查,使用文本分析主題建模以預(yù)測學(xué)生中的抑郁者.Zhu等人[3]提出了一個從行為畫像到預(yù)測抑郁的無監(jiān)督學(xué)習(xí)模型(動態(tài)RP),該模型通過分析大學(xué)生在圖書館的借閱記錄來評估學(xué)生的拖延癥.Sattar等人[4]介紹了一個框架,該框架利用了多組不同類型的變量,包括了家庭背景、中學(xué)信息、注冊登記和學(xué)分,以預(yù)測學(xué)生退學(xué)的概率.Ye等人[5]給出了多模型多標(biāo)簽的方法,來輔助大學(xué)提供學(xué)生獎學(xué)金和補(bǔ)助金的分配.Guan等人[6]設(shè)計(jì)了Dis-HARD框架,用于預(yù)測學(xué)生應(yīng)給的補(bǔ)助等級.Hang等人[7]將學(xué)生的Check-In數(shù)據(jù)(WIFI訪問日志)整合到二部圖,并編碼學(xué)生、興趣點(diǎn)(point of interest, POI)和活動之間的相關(guān)性,用以預(yù)測POI、查詢相似學(xué)生.

    據(jù)我們所知,在教育環(huán)境下的研究工作只有文獻(xiàn)[7]針對有著相似生活行為學(xué)生的搜索,與本文最為相似.但文獻(xiàn)[7]提出的算法基于LINE進(jìn)行向量嵌入,計(jì)算時會丟失語義信息,并且無法拓展性地融合更多數(shù)據(jù)源.本文將在實(shí)驗(yàn)部分與文獻(xiàn)[7]提出的算法進(jìn)行對比.

    3 SCALE—生活習(xí)慣相似學(xué)生搜索

    SCALE是基于校園行為信息網(wǎng)絡(luò)的生活習(xí)慣相似學(xué)生搜索算法.學(xué)生的校園行為是多種多樣的,因此描述學(xué)生在校行為的數(shù)據(jù)也是多源的,對于單個數(shù)據(jù)源可以構(gòu)建出一個校園行為信息網(wǎng)絡(luò),通過給定的元路徑能得到單層學(xué)生相似子網(wǎng)絡(luò).顯然,單層學(xué)生相似子網(wǎng)絡(luò)所包含的信息是片面的,無法從整體上對學(xué)生之間的相似性進(jìn)行表達(dá).因此需要構(gòu)建多層結(jié)構(gòu)的學(xué)生相似網(wǎng)絡(luò),并使用網(wǎng)絡(luò)嵌入的方法將所有學(xué)生映射到低維的向量空間中,從而使相似學(xué)生搜索問題得到簡化.

    圖2展示了SCALE算法的主要流程.

    Fig.2 Algorithm flow introduction of SCALE

    3.1 單層學(xué)生相似子網(wǎng)絡(luò)的構(gòu)建

    根據(jù)不同的數(shù)據(jù)源,構(gòu)建校園行為信息網(wǎng)絡(luò)的方式有很多種.對于行為信息來說,我們首先可以把學(xué)生的所有事件劃分為多個獨(dú)立的行為實(shí)例,用行為實(shí)例作為事件實(shí)例的載體保存在網(wǎng)絡(luò)中.同時,為保證能夠在網(wǎng)絡(luò)的元路徑中提取到明確的語義,我們按如下方式構(gòu)建校園行為信息網(wǎng)絡(luò):

    1) 根據(jù)校園生活存在的周期性和具體情況設(shè)置時間約束.不失一般性,我們采用與文獻(xiàn)[7]相同的方式將所有的時間劃分到以1周7天為周期,每天4個時間段(從0點(diǎn)開始,每6 h為1個時間段)所組成的28個時間約束中.

    2) 將同一個時間約束下,同一個地點(diǎn)發(fā)生的相同類型的事件實(shí)例保存在同一個行為實(shí)例對象中存入校園行為信息網(wǎng)絡(luò).并與對應(yīng)的時間約束、地點(diǎn)和事件類型對象相連,鏈接的權(quán)重為1.

    3) 將每個學(xué)生作為1個對象存入網(wǎng)絡(luò),并與參與的行為實(shí)例對象相連,鏈接的權(quán)重為參與的次數(shù).

    自然地,所有的行為實(shí)例都具有時間約束、地點(diǎn)及事件類型屬性.因此上述的校園行為信息網(wǎng)絡(luò)構(gòu)建方式對于所有的校園行為都適用.但校園行為信息網(wǎng)絡(luò)的表達(dá)能力是可拓展的.針對一些具有特殊屬性的行為實(shí)例,也可以將這些屬性作為節(jié)點(diǎn)加入到校園行為信息網(wǎng)絡(luò)中,使網(wǎng)絡(luò)包含更豐富的語義.例如,對于學(xué)生的消費(fèi)行為,可以將“消費(fèi)金額范圍”作為行為實(shí)例的屬性存儲在校園行為信息網(wǎng)絡(luò)中,從而使元路徑“學(xué)生—行為實(shí)例—消費(fèi)金額范圍—行為實(shí)例—學(xué)生”表達(dá)2個學(xué)生消費(fèi)金額相近的語義.

    根據(jù)上述的方式在單數(shù)據(jù)源下構(gòu)建校園行為信息網(wǎng)絡(luò)后,我們可以通過基于元路徑的相似性度量方式計(jì)算學(xué)生之間在此網(wǎng)絡(luò)中的相似度.本文提出一種基于權(quán)重相似度的方式對元路徑的實(shí)例數(shù)進(jìn)行計(jì)算.

    (2)

    (3)

    (4)

    使用帶約束的元路徑相似度計(jì)算公式可以得到所有學(xué)生相互之間的相似度值,從而構(gòu)建學(xué)生相似子網(wǎng)絡(luò).

    例3.對于圖1中展示的校園行為信息網(wǎng)絡(luò)G,給定元路徑P:“學(xué)生—行為實(shí)例—地點(diǎn)—行為實(shí)例—學(xué)生”及權(quán)重相似度閾值α=2.構(gòu)建基于(G,P)的單層學(xué)生相似子網(wǎng)絡(luò)的步驟為:

    3) 同理,s1與s2之間有2條元路徑實(shí)例,s4與其他學(xué)生對象之間無元路徑實(shí)例.s1,s2,s3與自身之間分別有2條、2條、1條元路徑實(shí)例.

    4) 使用wij代表si與sj的相似度,有

    5)s4與其他學(xué)生對象之間的相似度均為0.

    以每一個學(xué)生作為對象,學(xué)生之間相似度作為鏈接的權(quán)重,構(gòu)建基于(G,P)的單層學(xué)生相似子網(wǎng)絡(luò).

    3.2 學(xué)生相似網(wǎng)絡(luò)的構(gòu)建

    單層學(xué)生相似子網(wǎng)絡(luò)只反映了從1個數(shù)據(jù)源中通過1條元路徑語義表達(dá)的學(xué)生相似性,將得到的多個單層學(xué)生相似子網(wǎng)絡(luò)整合起來,形成1個多層結(jié)構(gòu)的學(xué)生相似網(wǎng)絡(luò).因?yàn)槊總€學(xué)生一定是和自身完全相似的,所以通過權(quán)重為1的邊將多層網(wǎng)絡(luò)中相同的學(xué)生對象連接起來.從而獲得1個多層的網(wǎng)絡(luò)結(jié)構(gòu)表達(dá)學(xué)生之間的相似關(guān)系.

    SCALE在學(xué)生相似網(wǎng)絡(luò)中采取帶偏的隨機(jī)游走算法生成每個學(xué)生的上下文語義.因?yàn)榫W(wǎng)絡(luò)是多層的,因此隨機(jī)游走的過程中會出現(xiàn)2種情況:1)算法根據(jù)隨機(jī)生成的概率選擇留在本層,以更大概率游走到和當(dāng)前節(jié)點(diǎn)更相似的節(jié)點(diǎn),即與當(dāng)前節(jié)點(diǎn)由更大權(quán)重的邊相連的節(jié)點(diǎn);2)算法選擇游走到網(wǎng)絡(luò)中的其他層,則此步不再做其他操作.通過上述的隨機(jī)游走算法,可以為每一個學(xué)生生成1個由相似節(jié)點(diǎn)組成的序列,表達(dá)其他節(jié)點(diǎn)與當(dāng)前節(jié)點(diǎn)之間的相似關(guān)系.

    3.3 基于網(wǎng)絡(luò)嵌入的相似學(xué)生搜索

    通過帶偏的隨機(jī)游走算法在學(xué)生相似網(wǎng)絡(luò)中獲得每個學(xué)生與其他學(xué)生的相似關(guān)系之后,SCALE采用Skip-Gram模型對所有的隨機(jī)游走序列進(jìn)行嵌入學(xué)習(xí).從而將所有學(xué)生映射到1個低維的向量空間中,使得每個學(xué)生嵌入的向量保留了學(xué)生相似網(wǎng)絡(luò)中體現(xiàn)的相似性.

    得到所有學(xué)生的向量表示之后,對于每一個查詢學(xué)生,利用余弦相似度計(jì)算此學(xué)生向量與其他所有向量之間的距離,得到距離最小的k個向量,所對應(yīng)的k個學(xué)生即為SCALE的搜索結(jié)果.

    需要注意的是,SCALE在單層學(xué)生相似子網(wǎng)絡(luò)構(gòu)建時采用基于帶約束的元路徑相似度計(jì)算方法度量節(jié)點(diǎn)間相似性,在學(xué)生相似網(wǎng)絡(luò)生成上下文語義和網(wǎng)絡(luò)嵌入時使用帶偏隨機(jī)游走和Skip-Gram模型將學(xué)生映射到低維向量.在其他的應(yīng)用中,可以根據(jù)使用場景,更換上述度量方式或表達(dá)學(xué)習(xí)方法.

    SCALE算法的整體流程如算法1所示.

    算法1.SCALE算法.

    ③ 計(jì)算G中每一對學(xué)生的PathSimC(si,sj,P);

    ④N←由G構(gòu)建的單層學(xué)生相似子網(wǎng)絡(luò);

    ⑥ END FOR

    3.4 并行化

    SCALE算法有3處是可解耦的,因此可以針對本算法設(shè)計(jì)并行化處理方法,從而提高算法效率.

    1) 學(xué)生相似度計(jì)算.在構(gòu)建學(xué)生相似網(wǎng)絡(luò)的過程中,需要對任意2個學(xué)生之間計(jì)算相似度.而不同對學(xué)生之間計(jì)算相似度的過程是互不影響的,因此在學(xué)生相似度計(jì)算時,即單層學(xué)生相似子網(wǎng)絡(luò)的構(gòu)建過程中可以使用多進(jìn)程(線程)提升程序運(yùn)行效率.

    2) 學(xué)生相似網(wǎng)絡(luò)構(gòu)建.構(gòu)建不同的學(xué)生相似子網(wǎng)絡(luò)的過程是相互獨(dú)立的,在相似網(wǎng)絡(luò)構(gòu)建的過程中網(wǎng)絡(luò)之間不會互相影響,因此可以使用多進(jìn)程(線程)完成學(xué)生相似網(wǎng)絡(luò)的構(gòu)建過程.

    3) 構(gòu)建學(xué)生相似網(wǎng)絡(luò)之后,需要針對每個學(xué)生使用帶偏隨機(jī)游走算法生成大量的隨機(jī)游走序列,此處可用2個思路實(shí)現(xiàn)并行化:①每個進(jìn)程(線程)都對所有的學(xué)生生成部分隨機(jī)游走序列,全部運(yùn)行完成后將結(jié)果進(jìn)行拼接得到1個學(xué)生所有的隨機(jī)游走序列.②每個進(jìn)程(線程)只對部分學(xué)生生成所有的隨機(jī)游走序列,全部運(yùn)行完成后得到所有學(xué)生的隨機(jī)游走序列.

    同時,因?yàn)镾CALE算法構(gòu)建學(xué)生相似網(wǎng)絡(luò)的過程是解耦的,因此SCALE算法是一個可拓展的方法.當(dāng)添加新的數(shù)據(jù)源或元路徑時,只需將新獲得的單層學(xué)生相似子網(wǎng)絡(luò)加入到之前已經(jīng)構(gòu)建好的學(xué)生相似網(wǎng)絡(luò)中即可進(jìn)行后續(xù)計(jì)算.之前計(jì)算得到的學(xué)生相似網(wǎng)絡(luò)無需重新進(jìn)行計(jì)算,由此節(jié)約了運(yùn)算資源.

    4 實(shí) 驗(yàn)

    本文利用真實(shí)的數(shù)據(jù)集驗(yàn)證校園行為信息網(wǎng)絡(luò)的適用性和相似學(xué)生搜索算法SCALE的有效性以及執(zhí)行效率.實(shí)驗(yàn)源碼存放于https:github.comhdwxaSCALE.git.

    4.1 數(shù)據(jù)集介紹及實(shí)驗(yàn)設(shè)置

    本文使用2018年3月1日—11月30日期間,四川大學(xué)3個校區(qū)內(nèi)采集到的6個不同學(xué)院共2 449名學(xué)生在校行為數(shù)據(jù)進(jìn)行本次實(shí)驗(yàn).該數(shù)據(jù)包含2個數(shù)據(jù)源:1)后勤集團(tuán)數(shù)據(jù)(source1).學(xué)生在校園內(nèi)食堂、便利店及澡堂等地點(diǎn)的消費(fèi)記錄,共包含1 276 806個事件實(shí)例.2)保衛(wèi)處數(shù)據(jù)(source2).學(xué)生進(jìn)出教學(xué)樓、球場、寢室樓的門禁記錄,共包含752 361個事件實(shí)例.表1分別展示了相關(guān)的事件實(shí)例數(shù)為Top-5的地點(diǎn)和事件類型,及它們對應(yīng)的事件實(shí)例數(shù).

    Table 1 Top-5 Locations and Event Types with Highest Number of Event Instances

    表2列出了通過每個數(shù)據(jù)源構(gòu)建的校園信息網(wǎng)絡(luò)的具體規(guī)模.

    Table 2 Size of Campus Behavior Information Networks

    為驗(yàn)證SCALE算法的有效性和執(zhí)行效率,本文在真實(shí)數(shù)據(jù)集上運(yùn)行SCALE算法,挖掘Top-k生活習(xí)慣相似學(xué)生.從有效性測試、模型簡化測試以及應(yīng)用實(shí)例3方面說明SCALE算法的有效性.并驗(yàn)證SCALE算法采取的并行化策略對執(zhí)行效率的提升效果.

    4.2 SCALE有效性測試

    與本文工作相似的最新工作是由文獻(xiàn)[7]提出的EDHG算法,對于給定的查詢學(xué)生s、向量嵌入維度d和負(fù)采樣個數(shù)m,EDHG可以找到Top-k個相似學(xué)生,但無法提供對結(jié)果相似的語義解釋.

    同時,本文還將校園行為信息網(wǎng)絡(luò)轉(zhuǎn)化為矩陣的形式記錄學(xué)生在2個數(shù)據(jù)源中參與某個事件類型、時間約束和地點(diǎn)的行為實(shí)例的次數(shù),針對每位學(xué)生構(gòu)建9×28×101的3維張量.其中后勤集團(tuán)數(shù)據(jù)包含6種事件類型及44個地點(diǎn),保衛(wèi)處數(shù)據(jù)包含3種事件類型及57個地點(diǎn),時間約束個數(shù)均為28.通過主成分分析得到每位學(xué)生在事件類型、時間約束和地點(diǎn)維度上的第1主成分作為每位學(xué)生的向量表示,以此搜索Top-k的相似學(xué)生,與SCALE算法進(jìn)行效果對比,從而說明SCALE算法獲取校園行為信息網(wǎng)絡(luò)中信息的準(zhǔn)確性.3種算法分別記為PCA-c,PCA-τ,PCA-l.

    文獻(xiàn)[7]提出使用共現(xiàn)行為,即2位學(xué)生在很短的時間內(nèi)(本次實(shí)驗(yàn)設(shè)置為2 min)同時出現(xiàn)在同一個地點(diǎn),作為學(xué)生之間是否在行為上相似的一種評判方式.2位學(xué)生之間共現(xiàn)行為越多,則這2位學(xué)生生活習(xí)慣就更為相似.本文采取與文獻(xiàn)[7]相同的方式作為評估模型效果的指標(biāo).以共現(xiàn)行為最高的k個學(xué)生為標(biāo)準(zhǔn),對SCALE算法找到的Top-k個相似學(xué)生使用平均相關(guān)排名(mean reciprocal rank,MRR)進(jìn)行評估.平均相關(guān)排名的計(jì)算方式為

    (5)

    其中,U為全部查詢學(xué)生的集合,Fi為使用共現(xiàn)行為找出學(xué)生i的|Fi|=k個相似生活習(xí)慣的學(xué)生,Rank(j)為學(xué)生j由SCALE算法計(jì)算出的排名.MRR得分越高,說明SCALE算法的效果越好.

    實(shí)驗(yàn)過程中,SCALE算法需要設(shè)置的參數(shù)有:每次查詢搜索的相似生活習(xí)慣學(xué)生個數(shù)k、計(jì)算學(xué)生相似度時的權(quán)重相似度閾值α、多層學(xué)生相似網(wǎng)絡(luò)中對每個節(jié)點(diǎn)產(chǎn)生隨機(jī)游走序列的個數(shù)n,以及使用Skip-Gram模型進(jìn)行向量嵌入的維度d.為保證提取的相似語義充分且不重復(fù),實(shí)驗(yàn)在元路徑“學(xué)生—行為實(shí)例—學(xué)生”上計(jì)算相似度.表3記錄了將四川大學(xué)學(xué)生在校行為數(shù)據(jù)分別應(yīng)用于PCA-c,PCA-τ,PCA-l,EDHG算法和SCALE算法得到的結(jié)果.

    Table 3 MRR Scores

    在表3中可以看出,在k=2時,SCALE算法和EDHG算法的效果相近,且都比PCA-c,PCA-τ,PCA-l效果好.隨著k的增大,5種算法的MRR得分都呈現(xiàn)增長趨勢,并且SCALE算法的得分始終高于其他4種算法,說明本文提出的SCALE算法在尋找相似生活習(xí)慣學(xué)生的任務(wù)上比其他4種算法效果更好.在k=10時,SCALE算法相對于PCA-c,PCA-τ,PCA-l,EDHG算法的效果提升分別達(dá)到了391%,115%,70.3%,65.4%.同時可以發(fā)現(xiàn),在k增大時,SCALE算法相對于其他4種算法效果提升得更為明顯,說明SCALE算法的效果在k取較大的值時更有優(yōu)勢.

    Fig. 3 Influence on SCALE with respect to parameters

    圖3(a)~(c)分別展示了在完整數(shù)據(jù)集下參數(shù)α,n,d對于SCALE算法效果的影響.圖3(a)中可以看出,隨著權(quán)重相似度閾α變大,算法的效果呈現(xiàn)先升后降的趨勢,在α=1.4時,SCALE算法取得最好的效果,因此默認(rèn)情況下設(shè)置α=1.4.由圖3(b)可以看出隨著每個節(jié)點(diǎn)產(chǎn)生隨機(jī)游走序列個數(shù)n的增大,SCALE的效果也逐漸變好,但當(dāng)n由128增大至256時,模型效果的提升很微弱,因此本次實(shí)驗(yàn)?zāi)J(rèn)將n設(shè)置為128.由圖3(c)觀察可知,當(dāng)d=32時SCALE效果最好,因此默認(rèn)設(shè)置d=32.

    4.3 模型簡化測試

    在圖3(a)中,當(dāng)權(quán)重相似度閾值α=1時,PathSimC等價于文獻(xiàn)[9]提出的算法,當(dāng)α為正無窮時,PathSimC等價于PathSim算法,SCALE算法的效果在α=1.4時獲得最好效果,說明PathSimC相對于之前的方法可以更好地保留學(xué)生之間相似生活習(xí)慣的信息.

    我們還將沒有構(gòu)建多層學(xué)生相似網(wǎng)絡(luò)的單數(shù)據(jù)源Na?ve算法與SCALE算法進(jìn)行對比,說明在多數(shù)據(jù)源情況下使用SCALE算法的有效性.在本實(shí)驗(yàn)中,使用消費(fèi)數(shù)據(jù)和門禁數(shù)據(jù)的Na?ve算法分別記為Na?ve-C和Na?ve-E,對比結(jié)果記錄在圖3(d)中.可以看出,SCALE算法的效果始終好于2種Na?ve算法,說明使用多層結(jié)構(gòu)的學(xué)生相似網(wǎng)絡(luò)可以更好地保留多數(shù)據(jù)源中的學(xué)生生活習(xí)慣信息.

    4.4 應(yīng)用實(shí)例

    SCALE算法使用的相似度計(jì)算方法是基于元路徑的,因此SCALE算法相對于EDHG算法的另一個優(yōu)點(diǎn)就是還保留了原始數(shù)據(jù)中的語義信息.本實(shí)驗(yàn)展示2種應(yīng)用場景下SCALE算法的Top-k搜索結(jié)果.

    1) 在消費(fèi)和門禁2個數(shù)據(jù)源中都使用元路徑“學(xué)生—行為實(shí)例—學(xué)生”計(jì)算相似度.相似度高的學(xué)生說明他們更傾向于在同一時間、同一地點(diǎn)產(chǎn)生相同的行為.

    2) 僅使用消費(fèi)數(shù)據(jù)源,將“消費(fèi)金額范圍”作為行為實(shí)例的屬性存儲在校園行為信息網(wǎng)絡(luò)中,使用元路徑“學(xué)生—行為實(shí)例—消費(fèi)金額范圍—行為實(shí)例—學(xué)生”和元路徑“學(xué)生—行為實(shí)例—地點(diǎn)—行為實(shí)例—學(xué)生”計(jì)算相似度,相似度高的學(xué)生說明他們消費(fèi)金額相近且喜歡去相同的地方消費(fèi),即消費(fèi)能力相似.

    本文隨機(jī)抽取了3位學(xué)生,并展示針對他們搜索得到的Top-10相似的學(xué)生來說明結(jié)果的合理性.為方便對比,展示時使用“專業(yè)—班號—學(xué)號后2位”代替學(xué)號.由表4的結(jié)果可以看出,在第1種應(yīng)用場景下,尋找到的相似學(xué)生絕大多數(shù)都是相同專業(yè)甚至是相同班級的學(xué)生,這是因?yàn)橄嗤瑢I(yè)和班級學(xué)生的上課時間安排及主要活動區(qū)域是一致的,因此他們更傾向于在相同時間前往相同的教學(xué)樓、食堂、宿舍等區(qū)域,說明SCALE算法在計(jì)算相似性時成功捕獲了此類信息.同時我們可以發(fā)現(xiàn)一些有趣的現(xiàn)象:第2位和第3位查詢學(xué)生在其搜索到的相似學(xué)生中都各自出現(xiàn)了1個非本專業(yè)的學(xué)生.我們通過查看以上學(xué)生的基本信息,發(fā)現(xiàn)第2位同學(xué)與其相似的非本專業(yè)相似學(xué)生性別都為女性,我們推測她們可能是好友.第3位同學(xué)與其相似的非本專業(yè)同學(xué)為不同性別(與其他相似同學(xué)均為同性別),推測他們可能是情侶.

    Table 4 Top-10 Similar Students Found by SCALE

    而在第2種應(yīng)用場景下,不再出現(xiàn)大多數(shù)相似學(xué)生專業(yè)、班級甚至性別屬性相同的情況.這和常識相符,因?yàn)榈?種場景下元路徑所表達(dá)的語義為消費(fèi)能力相似,與專業(yè)、班級或性別屬性的相關(guān)性較小.

    可見SCALE算法具有很好的靈活性,根據(jù)語義設(shè)置不同的元路徑可以獲取學(xué)生之間不同的相似性.

    4.5 SCALE執(zhí)行效率

    為了驗(yàn)證SCALE算法并行化策略對效率的提升效果,本文使用不采取并行化策略的SCALE-Ser算法和使用了并行化策略的SCALE算法在不同數(shù)據(jù)規(guī)模下對比執(zhí)行時間.同時驗(yàn)證SCALE算法在數(shù)據(jù)規(guī)模上的拓展性,本實(shí)驗(yàn)在合成數(shù)據(jù)集上完成.

    若無特殊說明,實(shí)驗(yàn)過程中參數(shù)設(shè)置與有效性實(shí)驗(yàn)中保持一致.并行化使用最大進(jìn)程數(shù)為10的進(jìn)程池實(shí)現(xiàn).在圖4(a)中可以看出,SCALE算法相對于SCALE-Ser算法有顯著的效率提升.但只降低到了原時間規(guī)模的40%左右,并沒有在最大進(jìn)程數(shù)為10的情況下將效率提升到預(yù)期的10倍.這是因?yàn)椴⑿谢椒ㄖ粚CALE算法的學(xué)生相似網(wǎng)絡(luò)構(gòu)建和隨機(jī)游走部分進(jìn)行了并行化,并沒有對網(wǎng)絡(luò)嵌入和Top-k搜索步驟采取并行測量,因此并行化并不能完全達(dá)到預(yù)期的效果.

    同時我們可以發(fā)現(xiàn),隨著數(shù)據(jù)集規(guī)模的增大,SCALE算法的耗時呈非線性關(guān)系增大趨勢,這是因?yàn)樵跇?gòu)建學(xué)生相似網(wǎng)絡(luò)部分需要計(jì)算任意2個學(xué)生之間的相似度,通過Skip-Gram模型進(jìn)行向量嵌入時也需要與其他所有學(xué)生作對比,因此當(dāng)數(shù)據(jù)規(guī)模增大時需要進(jìn)行的計(jì)算次數(shù)以平方規(guī)模增長,因此時間的增加呈現(xiàn)非線性趨勢.

    圖4(a)中還可以看出,SCALE算法具有較好的拓展性,在學(xué)生規(guī)模達(dá)到20 000時仍然可以支持相似學(xué)生的搜索.真實(shí)環(huán)境下,在上萬人中搜索相似學(xué)生已經(jīng)可以滿足絕大多數(shù)需求,因此本算法是具有現(xiàn)實(shí)意義的.

    Fig.4 Scalability test and runtime with respect to parameters

    圖4的(b)~(d)分別展示了參數(shù)α,n,d對SCALE算法效率的影響.圖4(b)中可以看出α對于SCALE算法效率的影響不大,只有在α較小時耗時略低,這是因?yàn)樵讦梁芙咏?時,構(gòu)建學(xué)生相似網(wǎng)絡(luò)過程中只有很少的學(xué)生之間有邊連接,因此導(dǎo)致耗時較短.在α增長到1.4后SCALE算法的效率保持穩(wěn)定.參數(shù)n對SCALE算法效率的影響在隨機(jī)游走和網(wǎng)絡(luò)嵌入2部分,圖4(c)中可以看出,參數(shù)n以乘方規(guī)模增大時,SCALE算法耗時也呈非線性增長,但是增長速度沒有達(dá)到乘方規(guī)模.圖4(d)中展示了SCALE算法隨參數(shù)d的變化,整體上呈現(xiàn)非線性增長的趨勢,但是在d由16增長至32時,耗時反而下降了,這可能是因?yàn)樵赿=16時,Skip-Gram無法快速收斂,因而導(dǎo)致效率降低.

    5 結(jié) 論

    搜索相似生活習(xí)慣的學(xué)生在教育數(shù)據(jù)挖掘領(lǐng)域是一個值得被關(guān)注的問題,但目前已有的研究存在著語義缺失或不適用于校園場景數(shù)據(jù)等問題,因此本文提出SCALE算法用于搜索校園場景下生活習(xí)慣相似的學(xué)生,在保留學(xué)生間相似語義的情況下設(shè)計(jì)帶約束的元路徑相似度計(jì)算方法解決校園場景數(shù)據(jù)中存在的密集性高的問題,最終得到所有學(xué)生的低維向量表示,從而搜索Top-k的相似生活習(xí)慣學(xué)生.同時,我們將SCALE算法的各部分解耦,通過并行化的方法提升效率.最后,我們在校園環(huán)境采集到的真實(shí)數(shù)據(jù)集中驗(yàn)證了SCALE算法的有效性和執(zhí)行效率.

    因?yàn)镾CALE算法的設(shè)計(jì)是模塊化、易拓展的,因此下一步可以考慮將更多的數(shù)據(jù)源納入SCALE,同時可以嘗試在網(wǎng)絡(luò)嵌入部分使用更為前沿的方法以提升模型的效果.在目前SCALE的算法流程中,并未考慮噪聲對搜索結(jié)果的影響,如何在搜索過程中降低噪聲的影響從而獲得更準(zhǔn)確的結(jié)果是未來需要進(jìn)一步研究的工作.

    猜你喜歡
    數(shù)據(jù)源信息網(wǎng)絡(luò)相似性
    一類上三角算子矩陣的相似性與酉相似性
    淺析當(dāng)代中西方繪畫的相似性
    河北畫報(2020年8期)2020-10-27 02:54:20
    幫助信息網(wǎng)絡(luò)犯罪活動罪的教義學(xué)展開
    刑法論叢(2018年2期)2018-10-10 03:32:22
    非法利用信息網(wǎng)絡(luò)罪的適用邊界
    法律方法(2018年3期)2018-10-10 03:21:34
    Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
    基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
    網(wǎng)絡(luò)共享背景下信息網(wǎng)絡(luò)傳播權(quán)的保護(hù)
    幫助信息網(wǎng)絡(luò)犯罪活動罪若干問題探究
    低滲透黏土中氯離子彌散作用離心模擬相似性
    基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
    桃色一区二区三区在线观看| 久久精品人妻少妇| 精品一区二区三区av网在线观看| 熟女少妇亚洲综合色aaa.| 国产69精品久久久久777片 | 99精品久久久久人妻精品| АⅤ资源中文在线天堂| 少妇人妻一区二区三区视频| 亚洲人成网站在线播放欧美日韩| 超碰成人久久| 成人精品一区二区免费| 小蜜桃在线观看免费完整版高清| 女人被狂操c到高潮| 日本精品一区二区三区蜜桃| 好男人电影高清在线观看| 午夜视频精品福利| 12—13女人毛片做爰片一| 午夜精品一区二区三区免费看| 欧美在线一区亚洲| 国产成年人精品一区二区| 午夜福利在线在线| 婷婷精品国产亚洲av| 啦啦啦韩国在线观看视频| 国产美女午夜福利| 夜夜夜夜夜久久久久| 日韩高清综合在线| 亚洲激情在线av| 午夜福利高清视频| 黄色成人免费大全| 一个人看的www免费观看视频| 亚洲精品一卡2卡三卡4卡5卡| 不卡av一区二区三区| 人妻久久中文字幕网| 一卡2卡三卡四卡精品乱码亚洲| 久久伊人香网站| 久久性视频一级片| a级毛片a级免费在线| 亚洲av五月六月丁香网| 黄色丝袜av网址大全| 国产精品电影一区二区三区| 美女被艹到高潮喷水动态| 亚洲自偷自拍图片 自拍| 亚洲国产精品合色在线| 免费无遮挡裸体视频| 国产成人午夜福利电影在线观看| 亚洲人与动物交配视频| 午夜精品在线福利| 久久久精品94久久精品| 黑人高潮一二区| 久久精品91蜜桃| 一级爰片在线观看| 好男人在线观看高清免费视频| 视频中文字幕在线观看| 长腿黑丝高跟| 热99在线观看视频| 国产亚洲5aaaaa淫片| 中文天堂在线官网| 精品国产一区二区三区久久久樱花 | 午夜亚洲福利在线播放| 国产精品久久久久久精品电影| 搡女人真爽免费视频火全软件| 精品久久久久久久久亚洲| 91aial.com中文字幕在线观看| 国产乱人视频| 亚洲精品日韩在线中文字幕| 亚洲精品亚洲一区二区| 一个人看视频在线观看www免费| 久久精品国产亚洲av涩爱| 亚洲欧美成人精品一区二区| av在线亚洲专区| 最近最新中文字幕大全电影3| 91久久精品国产一区二区成人| 国产精品三级大全| 男女国产视频网站| 舔av片在线| 免费观看性生交大片5| 欧美bdsm另类| 国产一级毛片七仙女欲春2| 国产成人一区二区在线| 免费观看精品视频网站| 日本三级黄在线观看| 人妻系列 视频| 一本一本综合久久| 国产成人a∨麻豆精品| 一本久久精品| 国产亚洲91精品色在线| 午夜福利在线在线| 两个人的视频大全免费| av.在线天堂| 久久久久久九九精品二区国产| 少妇被粗大猛烈的视频| 国产精品国产三级国产av玫瑰| 日韩制服骚丝袜av| 欧美bdsm另类| 成人国产麻豆网| 男女下面进入的视频免费午夜| 久久久午夜欧美精品| 亚洲自拍偷在线| 色噜噜av男人的天堂激情| 五月玫瑰六月丁香| 久久久久久国产a免费观看| 久久欧美精品欧美久久欧美| 久久久久久久久久成人| 18+在线观看网站| 成人高潮视频无遮挡免费网站| av福利片在线观看| 最近中文字幕2019免费版| h日本视频在线播放| 秋霞伦理黄片| 亚洲av成人精品一区久久| 国产久久久一区二区三区| 免费黄色在线免费观看| 性色avwww在线观看| 欧美成人a在线观看| 国产在视频线精品| 国产一级毛片在线| 午夜福利成人在线免费观看| 国产精华一区二区三区| 狠狠狠狠99中文字幕| 搡老妇女老女人老熟妇| 亚洲综合精品二区| 久久精品国产99精品国产亚洲性色| 亚洲人成网站在线播| 久久人妻av系列| 高清毛片免费看| 一级av片app| 久久精品国产亚洲av天美| 91精品国产九色| 特大巨黑吊av在线直播| 特大巨黑吊av在线直播| 久久精品夜色国产| 99久国产av精品| 欧美97在线视频| 亚洲成色77777| 成人三级黄色视频| 亚洲自拍偷在线| 你懂的网址亚洲精品在线观看 | 婷婷六月久久综合丁香| 国产高清视频在线观看网站| 九九热线精品视视频播放| 日韩三级伦理在线观看| 亚洲av男天堂| 我的女老师完整版在线观看| 国产私拍福利视频在线观看| 草草在线视频免费看| 色综合亚洲欧美另类图片| 七月丁香在线播放| 久久久精品欧美日韩精品| 久久亚洲精品不卡| 国产精品三级大全| 嫩草影院精品99| or卡值多少钱| 黄色欧美视频在线观看| 亚洲欧美精品综合久久99| 99热这里只有精品一区| 国产成人精品一,二区| 麻豆成人av视频| 国内精品一区二区在线观看| 看免费成人av毛片| 人妻夜夜爽99麻豆av| 边亲边吃奶的免费视频| 日产精品乱码卡一卡2卡三| 国产成人91sexporn| 舔av片在线| 精品欧美国产一区二区三| 国产麻豆成人av免费视频| 国产精品久久视频播放| 日本一二三区视频观看| 国内精品宾馆在线| 91精品国产九色| 99热这里只有是精品50| 久久99热6这里只有精品| 国产中年淑女户外野战色| 成年免费大片在线观看| 成人二区视频| 高清毛片免费看| 又黄又爽又刺激的免费视频.| 午夜精品一区二区三区免费看| 美女被艹到高潮喷水动态| 久久久欧美国产精品| 欧美区成人在线视频| 全区人妻精品视频| 亚洲精华国产精华液的使用体验| 看黄色毛片网站| 日韩国内少妇激情av| 我的老师免费观看完整版| 哪个播放器可以免费观看大片| 亚洲国产欧美在线一区| 国产精品女同一区二区软件| 亚洲av电影在线观看一区二区三区 | 国产高清国产精品国产三级 | 久久99热这里只频精品6学生 | 丰满少妇做爰视频| 毛片一级片免费看久久久久| 亚洲综合精品二区| 国产精品蜜桃在线观看| 国产精品不卡视频一区二区| 成人毛片60女人毛片免费| 成人国产麻豆网| 高清日韩中文字幕在线| av免费在线看不卡| 国产精品一区二区三区四区久久| a级毛片免费高清观看在线播放| 免费看美女性在线毛片视频| 国产精品久久久久久av不卡| 大香蕉97超碰在线| 桃色一区二区三区在线观看| 亚洲国产精品国产精品| 国产午夜精品论理片| 国产一级毛片七仙女欲春2| 午夜福利高清视频| 久久欧美精品欧美久久欧美| 国产极品天堂在线| 精品一区二区免费观看| 欧美zozozo另类| 亚洲一区高清亚洲精品| 国产精品伦人一区二区| 啦啦啦观看免费观看视频高清| 国产精品电影一区二区三区| 免费人成在线观看视频色| 国内精品一区二区在线观看| 中文欧美无线码| 亚洲一级一片aⅴ在线观看| 长腿黑丝高跟| 91精品一卡2卡3卡4卡| 三级男女做爰猛烈吃奶摸视频| 3wmmmm亚洲av在线观看| 免费搜索国产男女视频| 蜜桃久久精品国产亚洲av| 岛国毛片在线播放| 日韩av不卡免费在线播放| 国产一区二区亚洲精品在线观看| 国产黄片视频在线免费观看| 春色校园在线视频观看| 日本黄色片子视频| 午夜精品一区二区三区免费看| 国产精品一区二区在线观看99 | 亚洲丝袜综合中文字幕| 国产精品1区2区在线观看.| 看十八女毛片水多多多| 日韩制服骚丝袜av| 18禁裸乳无遮挡免费网站照片| 欧美另类亚洲清纯唯美| 亚洲欧美日韩东京热| 亚洲国产精品sss在线观看| 狂野欧美激情性xxxx在线观看| 中文资源天堂在线| 99热精品在线国产| 午夜福利在线观看免费完整高清在| 国产精品av视频在线免费观看| 少妇裸体淫交视频免费看高清| 国产老妇伦熟女老妇高清| av线在线观看网站| 久久久久久久久久久免费av| 最新中文字幕久久久久| 国产精品久久久久久av不卡| 又爽又黄无遮挡网站| 欧美激情国产日韩精品一区| 男女啪啪激烈高潮av片| 久久久久久久午夜电影| av女优亚洲男人天堂| 国产av一区在线观看免费| 欧美+日韩+精品| 两个人的视频大全免费| 麻豆国产97在线/欧美| 中文乱码字字幕精品一区二区三区 | 99在线人妻在线中文字幕| 日本免费a在线| 亚洲精品国产av成人精品| 青春草国产在线视频| 久久人妻av系列| 伊人久久精品亚洲午夜| 久久99蜜桃精品久久| 搡老妇女老女人老熟妇| 一级av片app| 内射极品少妇av片p| 只有这里有精品99| 亚洲av电影在线观看一区二区三区 | 三级毛片av免费| 久久久a久久爽久久v久久| 精品酒店卫生间| 永久免费av网站大全| 热99在线观看视频| 日韩欧美精品免费久久| 尤物成人国产欧美一区二区三区| 九草在线视频观看| 亚洲欧美成人综合另类久久久 | 免费av观看视频| 国产伦理片在线播放av一区| 国内精品一区二区在线观看| 久久热精品热| 久久人人爽人人爽人人片va| 好男人在线观看高清免费视频| 国产精品电影一区二区三区| 久久久亚洲精品成人影院| 男人舔女人下体高潮全视频| 久久久久久国产a免费观看| 搡老妇女老女人老熟妇| 日韩 亚洲 欧美在线| 国产久久久一区二区三区| 久久久久久久久久成人| 久久久亚洲精品成人影院| 亚洲精品,欧美精品| 日韩精品有码人妻一区| 亚州av有码| 精品久久国产蜜桃| 精品欧美国产一区二区三| 久久人妻av系列| 人妻夜夜爽99麻豆av| 色哟哟·www| 69av精品久久久久久| 日韩一区二区三区影片| 国产高清三级在线| 内射极品少妇av片p| 91午夜精品亚洲一区二区三区| 免费电影在线观看免费观看| 国产高清有码在线观看视频| 午夜激情欧美在线| 成人综合一区亚洲| 人人妻人人澡人人爽人人夜夜 | 国产色爽女视频免费观看| 亚洲中文字幕日韩| 久久久久久国产a免费观看| 人妻系列 视频| 国产午夜精品论理片| 欧美日韩在线观看h| av在线天堂中文字幕| 国产精品久久久久久精品电影小说 | 久久久久久大精品| 99热6这里只有精品| 一个人看视频在线观看www免费| 久久99精品国语久久久| 一个人免费在线观看电影| 亚洲不卡免费看| 亚洲电影在线观看av| 亚洲18禁久久av| 2021少妇久久久久久久久久久| 久久久久久久久久久丰满| 国产av码专区亚洲av| 亚洲av成人av| 一级黄片播放器| 欧美激情久久久久久爽电影| 欧美bdsm另类| 毛片一级片免费看久久久久| 极品教师在线视频| 国产大屁股一区二区在线视频| 人妻制服诱惑在线中文字幕| 日韩中字成人| 亚洲国产最新在线播放| 国产色婷婷99| 久久精品人妻少妇| 日本爱情动作片www.在线观看| 亚洲av不卡在线观看| 高清视频免费观看一区二区 | 国产高潮美女av| 我要搜黄色片| 色视频www国产| 国产精品不卡视频一区二区| 天天躁夜夜躁狠狠久久av| 成人国产麻豆网| 日韩高清综合在线| 我的女老师完整版在线观看| 天天躁日日操中文字幕| 亚洲欧美日韩高清专用| a级一级毛片免费在线观看| 高清午夜精品一区二区三区| 少妇丰满av| 国内精品宾馆在线| 国产亚洲精品av在线| 男女下面进入的视频免费午夜| 一级毛片我不卡| 在线播放无遮挡| 亚洲乱码一区二区免费版| 精品久久国产蜜桃| 国产美女午夜福利| 亚洲精华国产精华液的使用体验| 日韩av在线免费看完整版不卡| 国产精品三级大全| 少妇人妻精品综合一区二区| 欧美高清成人免费视频www| 蜜臀久久99精品久久宅男| 18禁在线播放成人免费| 久久草成人影院| 国产精品.久久久| 日本wwww免费看| 亚洲精品国产av成人精品| 欧美日韩国产亚洲二区| 日韩大片免费观看网站 | 亚洲国产精品国产精品| 人人妻人人澡人人爽人人夜夜 | 在线播放无遮挡| 亚洲真实伦在线观看| 久久久久久大精品| 少妇熟女欧美另类| 国产精品不卡视频一区二区| 亚洲精品,欧美精品| 在线观看美女被高潮喷水网站| 干丝袜人妻中文字幕| 国产免费男女视频| 久久婷婷人人爽人人干人人爱| 精品久久久久久久末码| 久久精品国产鲁丝片午夜精品| 老司机影院毛片| 丰满人妻一区二区三区视频av| 99久久精品国产国产毛片| 啦啦啦观看免费观看视频高清| 成人毛片a级毛片在线播放| 国国产精品蜜臀av免费| 国产黄色视频一区二区在线观看 | 爱豆传媒免费全集在线观看| 国产亚洲精品久久久com| 精品久久久久久久人妻蜜臀av| 男人舔奶头视频| 免费看美女性在线毛片视频| 久久草成人影院| 三级男女做爰猛烈吃奶摸视频| 99久久精品热视频| 欧美成人一区二区免费高清观看| 天堂影院成人在线观看| 神马国产精品三级电影在线观看| 毛片一级片免费看久久久久| 99久久精品一区二区三区| 久久精品久久久久久噜噜老黄 | 亚洲三级黄色毛片| 日本免费一区二区三区高清不卡| 久久人人爽人人爽人人片va| 在线免费观看不下载黄p国产| 精品国产一区二区三区久久久樱花 | 国产一区有黄有色的免费视频 | 日本一本二区三区精品| 亚洲国产精品sss在线观看| 简卡轻食公司| 亚洲中文字幕日韩| 日本av手机在线免费观看| 国产一区有黄有色的免费视频 | 成人一区二区视频在线观看| 亚洲欧美精品专区久久| 综合色av麻豆| 一本一本综合久久| 美女被艹到高潮喷水动态| 婷婷色麻豆天堂久久 | 一级毛片aaaaaa免费看小| 亚洲精品成人久久久久久| 午夜激情福利司机影院| 精品国产一区二区三区久久久樱花 | 亚洲人成网站高清观看| 只有这里有精品99| 午夜免费激情av| 国产在线男女| 欧美日本亚洲视频在线播放| 亚洲五月天丁香| 中国美白少妇内射xxxbb| 亚洲av成人av| 精品人妻一区二区三区麻豆| 国产高潮美女av| 久久99热这里只频精品6学生 | 在线a可以看的网站| 亚洲最大成人av| 国产成人a区在线观看| 3wmmmm亚洲av在线观看| 简卡轻食公司| 看十八女毛片水多多多| 少妇的逼好多水| 女的被弄到高潮叫床怎么办| 三级经典国产精品| 久久热精品热| 美女内射精品一级片tv| 成人一区二区视频在线观看| 日本wwww免费看| 国产69精品久久久久777片| 成人毛片a级毛片在线播放| 97热精品久久久久久| 69av精品久久久久久| 青春草视频在线免费观看| 亚洲成人精品中文字幕电影| 最后的刺客免费高清国语| 日韩欧美在线乱码| 欧美bdsm另类| 国产真实乱freesex| 成人高潮视频无遮挡免费网站| 久久久久久久久久黄片| 少妇熟女欧美另类| av福利片在线观看| 久久久久久大精品| av线在线观看网站| 国产三级中文精品| 国产精品久久久久久av不卡| 精品久久久久久久人妻蜜臀av| 成人国产麻豆网| 少妇人妻精品综合一区二区| 波野结衣二区三区在线| 97在线视频观看| 日韩欧美国产在线观看| 亚洲成人精品中文字幕电影| 日本欧美国产在线视频| 国语自产精品视频在线第100页| 青青草视频在线视频观看| 国产精品人妻久久久久久| 亚洲国产欧美在线一区| 国产 一区 欧美 日韩| 亚洲欧洲国产日韩| 啦啦啦啦在线视频资源| 22中文网久久字幕| 久久午夜福利片| 日韩欧美在线乱码| av又黄又爽大尺度在线免费看 | 看黄色毛片网站| 国产成人精品婷婷| 国产综合懂色| 99久久精品热视频| 欧美另类亚洲清纯唯美| 五月伊人婷婷丁香| 国产v大片淫在线免费观看| 国产午夜精品久久久久久一区二区三区| 国产老妇伦熟女老妇高清| 国语自产精品视频在线第100页| 偷拍熟女少妇极品色| 色5月婷婷丁香| 亚洲精品国产成人久久av| 赤兔流量卡办理| 男女国产视频网站| 亚洲人成网站在线观看播放| 床上黄色一级片| 啦啦啦韩国在线观看视频| 成人特级av手机在线观看| 啦啦啦韩国在线观看视频| АⅤ资源中文在线天堂| 国产高清三级在线| 久久亚洲精品不卡| 国产人妻一区二区三区在| 免费av不卡在线播放| 综合色丁香网| 欧美变态另类bdsm刘玥| 亚洲18禁久久av| av黄色大香蕉| 热99在线观看视频| 亚洲图色成人| 热99在线观看视频| 尤物成人国产欧美一区二区三区| 久久精品国产自在天天线| 精品99又大又爽又粗少妇毛片| 久久国产乱子免费精品| 国产精品伦人一区二区| 91av网一区二区| 老司机福利观看| 欧美日本亚洲视频在线播放| 麻豆成人午夜福利视频| 免费观看在线日韩| 男插女下体视频免费在线播放| 三级男女做爰猛烈吃奶摸视频| av国产久精品久网站免费入址| 亚洲欧美日韩东京热| 欧美性感艳星| 18+在线观看网站| 亚洲精品国产成人久久av| 小蜜桃在线观看免费完整版高清| 麻豆国产97在线/欧美| 看片在线看免费视频| 九九热线精品视视频播放| 日韩在线高清观看一区二区三区| 国产亚洲午夜精品一区二区久久 | 少妇丰满av| 三级国产精品片| 欧美又色又爽又黄视频| 中文字幕精品亚洲无线码一区| 波多野结衣高清无吗| 美女高潮的动态| 国产真实伦视频高清在线观看| 亚洲av电影不卡..在线观看| 久久久久精品久久久久真实原创| 尤物成人国产欧美一区二区三区| 七月丁香在线播放| 十八禁国产超污无遮挡网站| 丰满人妻一区二区三区视频av| 直男gayav资源| 亚洲欧美成人综合另类久久久 | 国产高潮美女av| 老司机影院成人| 永久网站在线| 一本一本综合久久| 亚洲中文字幕一区二区三区有码在线看| 国语对白做爰xxxⅹ性视频网站| 国产精品一区二区在线观看99 | 97人妻精品一区二区三区麻豆| 久久精品久久久久久久性| 神马国产精品三级电影在线观看| 51国产日韩欧美| 久久99精品国语久久久| 亚洲欧美精品综合久久99| 欧美bdsm另类| 亚洲国产精品国产精品| 黑人高潮一二区| 丝袜喷水一区| 最近最新中文字幕免费大全7| 午夜久久久久精精品| 久久久久久久久大av| av黄色大香蕉| 亚洲av.av天堂| 观看免费一级毛片| 亚洲av免费在线观看| 亚洲在线观看片| 99在线人妻在线中文字幕| 啦啦啦韩国在线观看视频| 变态另类丝袜制服| 麻豆一二三区av精品| 91久久精品国产一区二区三区| 国产成人午夜福利电影在线观看| 一级毛片久久久久久久久女| 亚洲色图av天堂| 嫩草影院新地址| 高清午夜精品一区二区三区| 亚洲国产色片| 日韩精品青青久久久久久| 国产精品久久久久久久久免| 久久99热这里只有精品18|