• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    軟件倉庫挖掘領(lǐng)域:貢獻(xiàn)者和研究熱點

    2016-12-22 04:15:15張靜宣韓雪嬌徐秀娟
    計算機(jī)研究與發(fā)展 2016年12期
    關(guān)鍵詞:影響力次數(shù)論文

    江 賀 陳 信 張靜宣 韓雪嬌 徐秀娟

    (大連理工大學(xué)軟件學(xué)院 遼寧大連 116024)(jianghe@dlut.edu.cn)

    ?

    軟件倉庫挖掘領(lǐng)域:貢獻(xiàn)者和研究熱點

    江 賀 陳 信 張靜宣 韓雪嬌 徐秀娟

    (大連理工大學(xué)軟件學(xué)院 遼寧大連 116024)(jianghe@dlut.edu.cn)

    隨著時間的推移,軟件不斷地更新和演化,軟件倉庫中累積了海量的數(shù)據(jù),如何有效地收集、組織、利用軟件工程中涌現(xiàn)的軟件大數(shù)據(jù)是一個至關(guān)重要的問題.軟件倉庫挖掘(mining software repositories, MSR)通過挖掘軟件倉庫中繁雜多變的數(shù)據(jù)中蘊(yùn)含的知識來提高軟件的質(zhì)量和生產(chǎn)效率.雖然一些研究工作詳細(xì)闡述了MSR的背景、歷史和前景,但現(xiàn)有的研究工作并未系統(tǒng)地呈現(xiàn)MSR領(lǐng)域中最有影響力的作者、機(jī)構(gòu)、國家以及最受歡迎的研究主題和主題變遷等領(lǐng)域知識.因此,結(jié)合已有的經(jīng)典的文獻(xiàn)分析框架和算法來分析MSR相關(guān)文獻(xiàn),并呈現(xiàn)一些MSR基本領(lǐng)域知識.為了實現(xiàn)MSR 文獻(xiàn)分析,建立了一個包含3個組件的MSR文獻(xiàn)分析框架(MSR publication analysis framework, MSR-PAF),這3個組件分別被用來創(chuàng)建數(shù)據(jù)集、執(zhí)行基礎(chǔ)文獻(xiàn)分析、實施合作模式分析.基礎(chǔ)文獻(xiàn)分析結(jié)果表明:最高產(chǎn)的作者、機(jī)構(gòu)、國家地區(qū)分別是Ahmed E. Hassan,University of Victoria和美國,最有影響力作者是Ahmed E. Hassan,最頻繁的關(guān)鍵詞是software maintenance.合作模式分析的結(jié)果顯示Abram Hindle是MSR領(lǐng)域最活躍的作者,open source project和software maintenance是最流行的研究主題.

    文獻(xiàn)分析;合作模式分析;數(shù)據(jù)挖掘;軟件倉庫挖掘;大數(shù)據(jù)

    在互聯(lián)網(wǎng)的推動下,軟件工程正經(jīng)歷重大變革,軟件的規(guī)模和復(fù)雜性急劇增加.為了方便軟件管理,一些工具如版本控制系統(tǒng)、缺陷追蹤系統(tǒng)等已被廣泛應(yīng)用到軟件開發(fā)活動中,記錄軟件的每一次測試活動、每一次代碼變更、每一次缺陷修復(fù)等[1].隨著時間的推移,軟件倉庫中積累了海量的、不同類型的數(shù)據(jù),包括開發(fā)過程中的源代碼、需求文檔;軟件測試時的測試實例、bug報告;系統(tǒng)運(yùn)行時的日志文件、事件記錄等[2].這些數(shù)據(jù)呈現(xiàn)出體量(volume)、增速(velocity)、多樣(variety)、價值(value)、真?zhèn)?veracity)、可驗性(verification)、可變性(variabi-lity)以及臨近性(vicinity)等多“V”特點[3],對軟件工程提出了重大挑戰(zhàn).因此,如何有效地收集、組織、利用這些大數(shù)據(jù)來幫助改善軟件的質(zhì)量和生產(chǎn)效率已成為大數(shù)據(jù)背景下軟件工程中一個至關(guān)重要的問題.

    軟件倉庫挖掘(mining software repositories, MSR)是一個新興的軟件工程領(lǐng)域,通過數(shù)據(jù)挖掘技術(shù)分析軟件倉庫中海量的數(shù)據(jù),來提高軟件的質(zhì)量和生產(chǎn)效率[4-6].我們引入一個典型的軟件倉庫挖掘任務(wù)——開發(fā)者優(yōu)先級識別,來詳細(xì)呈現(xiàn)軟件倉庫挖掘過程.開發(fā)者優(yōu)先級識別是指根據(jù)開發(fā)者的貢獻(xiàn)大小,確定開發(fā)者的優(yōu)先級序列[7],輔助軟件開發(fā)工作.Xuan等人[7]首先以Eclipse和Mozilla 的bug倉庫為數(shù)據(jù)源,收集2011年之前的所有報告.然后,預(yù)處理每個bug報告,抽取報告中的標(biāo)識、提交者、修復(fù)者、摘要、描述、創(chuàng)建時間以及評論信息,生成2個實驗數(shù)據(jù)集.之后,在能夠識別開發(fā)者優(yōu)先級的領(lǐng)導(dǎo)力網(wǎng)絡(luò)[8]的基礎(chǔ)上進(jìn)行改進(jìn),為所有開發(fā)者增加一個虛擬的開發(fā)者,并建立原始開發(fā)者和虛擬開發(fā)者間雙向鏈接,提出一種新的領(lǐng)導(dǎo)力網(wǎng)絡(luò),能夠識別基于組件和基于產(chǎn)品的開發(fā)者優(yōu)先級.最后,將改進(jìn)的網(wǎng)絡(luò)應(yīng)用于收集到的數(shù)據(jù)集,并調(diào)研4個研究問題來驗證開發(fā)者優(yōu)先級的有效性.

    綜上,軟件倉庫挖掘一般流程為:收集數(shù)據(jù)、預(yù)處理數(shù)據(jù) (特征提取)、尋找改進(jìn)設(shè)計合適的數(shù)據(jù)挖掘算法、運(yùn)用數(shù)據(jù)挖掘算法解決軟件工程問題[6,9-10],如圖1所示,其中軟件工程數(shù)據(jù)(software engineering data)在軟件倉庫挖掘中起著關(guān)鍵作用.軟件工程數(shù)據(jù)種類繁多,可以分為序列(如執(zhí)行路徑)、圖(如程序依賴圖)、文本(如bug報告、e-mail)[5].這些數(shù)據(jù)常常涉及3個因素,即人(people)、過程(processes)和產(chǎn)品(products),可以稱為“3P”因素[5].人包括軟件開發(fā)者、測試者、工程管理者和終端用戶;過程包含軟件活動的各個階段,如軟件測試、軟件維護(hù)等;產(chǎn)品包括結(jié)構(gòu)化產(chǎn)品(如代碼)和非結(jié)構(gòu)化產(chǎn)品(如文檔).為了促進(jìn)軟件倉庫挖掘領(lǐng)域的發(fā)展,2004年第1屆國際軟件倉庫挖掘研討會(international workshop on mining software repositories, WMSR)在蘇格蘭首府愛丁堡舉行,之后軟件倉庫挖掘在學(xué)術(shù)界和工業(yè)界受到了廣泛的重視和研究.

    Fig. 1 The procedure of mining software repositories.圖1 軟件倉庫挖掘流程

    雖然MSR吸引了大量研究者,但現(xiàn)有的研究工作并未為這些研究者系統(tǒng)地呈現(xiàn)該領(lǐng)域的最有影響力的作者、研究機(jī)構(gòu)、國家地區(qū),以及最熱門的研究主題和主題變遷等領(lǐng)域知識.一些綜述性的研究只是概括性地總結(jié)了MSR的背景、歷史和值得研究的問題[9-10],并沒有量化的方法來揭示MSR豐富的領(lǐng)域知識.隨著專業(yè)知識的提高,研究者更希望對MSR領(lǐng)域進(jìn)行深入挖掘,了解MSR論文作者間的合作關(guān)系,掌握MSR領(lǐng)域的研究主題動態(tài)變化趨勢,從而合理地推斷出未來的發(fā)展方向.WMSR作為MSR領(lǐng)域內(nèi)一個重要的國際會議,在MSR領(lǐng)域有著很大的影響力,其收錄的MSR相關(guān)論文無論是數(shù)量還是質(zhì)量都具有很強(qiáng)的代表意義,研究WMSR上的文獻(xiàn)信息能夠幫助我們了解一些有價值的MSR領(lǐng)域知識.因此,本文主要工作是分析WMSR中文獻(xiàn)信息,識別最高產(chǎn)的作者、機(jī)構(gòu)、國家地區(qū)、最頻繁的關(guān)鍵詞、最有影響力的作者和論文,并分析作者間的合作關(guān)系、熱點研究主題以及作者的研究興趣,幫助研究者深入了解MSR領(lǐng)域知識.在后續(xù)章節(jié)中出現(xiàn)的MSR文獻(xiàn)分析特指WMSR文獻(xiàn)分析,從而得出的結(jié)論主要適應(yīng)于WMSR上收錄的論文.

    在本文中,我們采用文獻(xiàn)分析技術(shù)[11-15].最初的文獻(xiàn)分析研究通常借助數(shù)理統(tǒng)計方法來揭示某一領(lǐng)域的基本信息,包括論文、作者、機(jī)構(gòu)、國家組織[11-12].后來隨著研究的深入,人們不再拘泥于簡單的數(shù)據(jù)統(tǒng)計,而是采用數(shù)據(jù)挖掘等方法來分析文獻(xiàn)內(nèi)部蘊(yùn)含的知識和關(guān)系,如特定主題論文分布情況、研究主題逐年變化趨勢,以及作者之間的合作關(guān)系等,這些研究內(nèi)容可以歸結(jié)為基礎(chǔ)文獻(xiàn)分析(biblio-graphy analysis)和合作模式分析(collaboration pattern analysis).長期的研究也形成了一套行之有效的文獻(xiàn)分析框架和技術(shù)[14-16],其主要步驟為:確定數(shù)據(jù)源、收集數(shù)據(jù)、預(yù)處理數(shù)據(jù)、執(zhí)行相關(guān)文獻(xiàn)分析.各種算法和度量標(biāo)準(zhǔn)也被應(yīng)用到文獻(xiàn)分析領(lǐng)域,如GN(Girvan-Newman)社區(qū)聚類算法[16]、文本處理技術(shù)、數(shù)據(jù)挖掘技術(shù)以及APS(adjusted productivity score)指數(shù)[17]、ACS(adjusted citation score)指數(shù)[18]、NCII (normalized citation impact index)指數(shù)[19].調(diào)研顯示,現(xiàn)有的框架和技術(shù)能被廣泛地應(yīng)用到不同領(lǐng)域的文獻(xiàn)分析研究中.

    為了實現(xiàn)MSR文獻(xiàn)分析,我們構(gòu)建了一個MSR文獻(xiàn)分析框架(MSR publication analysis framework, MSR-PAF),該框架包含3個組件:1)數(shù)據(jù)收集組件,用來建立文獻(xiàn)分析所需的數(shù)據(jù)集.我們首先從WMSR上收集已發(fā)表的論文標(biāo)題,然后利用網(wǎng)絡(luò)爬蟲工具從DBLP, IEEE Xplore, ACM上爬取作者全名、機(jī)構(gòu)、國家地區(qū)、關(guān)鍵詞、摘要等信息,最后從Google Scholar中抽取論文的引用次數(shù).2)基礎(chǔ)文獻(xiàn)分析組件,通過實施產(chǎn)量分析和影響力分析,識別出最高產(chǎn)的作者、機(jī)構(gòu)、國家地區(qū)以及最頻繁的關(guān)鍵詞,同時找到最有影響力的作者和論文.3)合作模式分析組件,通過構(gòu)建3個關(guān)系網(wǎng)絡(luò),即作者合著網(wǎng)絡(luò)(co-authorship network)、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)(co-occurrence keyword network)和作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)(author co-keyword network),分別分析作者之間的合作關(guān)系、主要的研究主題以及作者的研究興趣,并使用NetDraw[20]工具可視化這3個關(guān)系網(wǎng)絡(luò).基礎(chǔ)文獻(xiàn)分析結(jié)果顯示最高產(chǎn)的作者、機(jī)構(gòu)、國家地區(qū)分別是Ahmed E. Hassan, University of Victoria和美國,最頻繁的關(guān)鍵詞是“software maintenance”,最有影響力的作者和論文是Ahmed E. Hassan和“When do changes induce fixes?”.另外,合作模式分析結(jié)果顯示Abram Hindle是MSR領(lǐng)域最活躍的作者,open source project和software maintenance是最流行的研究主題.

    本文的貢獻(xiàn)有3點:

    1) 為了實施MSR文獻(xiàn)分析,我們構(gòu)建了一個MSR 文獻(xiàn)分析框架,即MSR-PAF,該框架包含3個組件,我們創(chuàng)建了一個完整的數(shù)據(jù)集用于MSR文獻(xiàn)分析;

    2) 在執(zhí)行基礎(chǔ)文獻(xiàn)分析時,我們使用數(shù)理統(tǒng)計方法實施產(chǎn)量分析,同時引入H因子和NCII指數(shù)實施影響力分析;

    3) 在執(zhí)行合作模式分析時,我們生成3個關(guān)系網(wǎng)絡(luò),包含作者合著網(wǎng)絡(luò)、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)和作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),分析作者之間的合作關(guān)系、主要的研究主題以及作者的研究興趣.

    1 相關(guān)研究工作

    本節(jié)詳細(xì)討論相關(guān)研究工作,主要包括2個領(lǐng)域:軟件倉庫挖掘和文獻(xiàn)分析.

    1.1 軟件倉庫挖掘

    MSR研究覆蓋軟件開發(fā)的各個階段,包括需求、設(shè)計、實施、測試、調(diào)試、維護(hù)和部署,其涉及到的軟件工程數(shù)據(jù)可以劃分為3類[5]:

    1) 序列.這類數(shù)據(jù)通常是軟件在執(zhí)行過程中動態(tài)生成的結(jié)構(gòu)化信息,包含執(zhí)行路徑、co-change等信息.比如,crash報告系統(tǒng)能夠自動地生成crash報告,這些報告通常包含系統(tǒng)執(zhí)行過程中的調(diào)用棧信息.許多研究通過抽取調(diào)用棧信息來計算crash報告的相似度并自動地實現(xiàn)crash報告分桶(crash report bucketing)[21-22],還有一些研究通過挖掘調(diào)用棧信息來幫助開發(fā)者識別crash根源[23].

    2) 圖.這類數(shù)據(jù)往往能夠直觀形象地呈現(xiàn)軟件工件間的關(guān)系,包括動態(tài)靜態(tài)調(diào)用圖、程序依賴圖等.例如程序依賴圖是一種帶標(biāo)簽的有向圖、模擬程序或過程語句之間的依賴關(guān)系.通過挖掘程序依賴圖,可以提取程序內(nèi)在關(guān)系,從而發(fā)掘隱藏的信息[24-25].

    3) 文本.這類數(shù)據(jù)通常是人工撰寫的非結(jié)構(gòu)化信息,包括bug報告、e-mail、文檔等.例如,測試者通過執(zhí)行軟件測試為軟件的異常行為撰寫bug報告,這些報告往往包含較多的自然語言信息,然而,人工檢測大量的bug報告是一項十分繁重的任務(wù).因此,為了減少人工檢測代價,研究者提出了一種典型的文本挖掘任務(wù),即bug報告重復(fù)檢測(duplicate bug report detection)[26-29].許多研究利用常見的文本挖掘方法,如自然語言處理技術(shù)(natural language processing, NLP)[26]、信息檢索技術(shù)(information retrieval, IR)[27]、主題模型(topic modeling)[28]或機(jī)器學(xué)習(xí)(machine learning)[29]抽取特征或者建立向量空間模型來計算文本相似度,從而實現(xiàn)重復(fù)檢測.

    實際上,MSR文獻(xiàn)分析研究也可以看作一種特殊的軟件倉庫挖掘任務(wù),其使用的數(shù)據(jù)集是基于文本的.通過挖掘數(shù)據(jù)集中包含的信息來識別高產(chǎn)作者、機(jī)構(gòu)、國家地區(qū),并發(fā)現(xiàn)最頻繁的關(guān)鍵詞、最有影響力的作者和論文,同時,分析MSR領(lǐng)域作者間的合作關(guān)系、主要的研究主題以及作者的研究興趣.

    1.2 文獻(xiàn)分析

    文獻(xiàn)分析(publication analysis)主要是采用數(shù)理統(tǒng)計和數(shù)據(jù)挖掘等方法對某個特定領(lǐng)域的文獻(xiàn)進(jìn)行深入地挖掘,使該領(lǐng)域的研究者能夠系統(tǒng)地了解這個領(lǐng)域的研究背景、歷史和現(xiàn)狀,明確該領(lǐng)域內(nèi)最流行的研究主題和方向[14].傳統(tǒng)的文獻(xiàn)分析通常簡單地統(tǒng)計文獻(xiàn)的基本信息,如論文標(biāo)題、作者、機(jī)構(gòu)、國家地區(qū)、關(guān)鍵詞等.大量的文獻(xiàn)分析研究聚集在智能交通領(lǐng)域,Wang[11]簡單統(tǒng)計了2000年至2009年發(fā)表在T-ITS (IEEE Transaction on Intelligent Transportation System)期刊上的文獻(xiàn).Li等人[12]收集了T-ITS上10年的文獻(xiàn),并通過產(chǎn)量分析識別出該領(lǐng)域最高產(chǎn)的作者、機(jī)構(gòu)、國家和地區(qū).近年來,隨著研究的深入,文獻(xiàn)分析的內(nèi)容不斷擴(kuò)充,延伸到影響力分析、社會網(wǎng)絡(luò)分析、聚類分析、文章話題分析等各個方面,因此一些典型的數(shù)據(jù)挖掘方法也被引入到文獻(xiàn)分析研究中.Tang等人[30]收集了T-ITS上2010年至2013年出版的所有文獻(xiàn),并對該領(lǐng)域的研究主題分類,識別出5個熱點研究主題.Xu等人[16]收集了該期刊上所有的論文,并執(zhí)行了全面的基礎(chǔ)文獻(xiàn)分析和合作模式分析,他們引入了GN聚類算法和3個關(guān)系網(wǎng)絡(luò)對作者合作模式以及主題變遷進(jìn)行深入分析.在推薦系統(tǒng)領(lǐng)域,Park等人[14]利用一些重要的關(guān)鍵詞搜索幾個主要數(shù)據(jù)庫,從31個期刊中精心挑選出164篇論文,劃分為8類,并使用數(shù)據(jù)挖掘技術(shù)檢測這些論文,識別出推薦系統(tǒng)領(lǐng)域內(nèi)流行的研究主題.在云計算領(lǐng)域,Heilig等人[13]從Elsevier數(shù)據(jù)庫中收集了總計15 376篇論文,這些論文發(fā)表于2008年至2013年,他們主要執(zhí)行了產(chǎn)量分析、影響力分析以及研究主題分析.

    與上述任務(wù)類似,我們的工作是分析MSR文獻(xiàn)信息,挖掘MSR領(lǐng)域知識.我們收集WMSR上文獻(xiàn)并執(zhí)行文獻(xiàn)分析,主要分為基礎(chǔ)文獻(xiàn)分析和合作模式分析.

    2 MSR文獻(xiàn)分析框架

    本節(jié)詳細(xì)闡述MSR文獻(xiàn)分析框架,由3個組件組成,如圖2所示,包括一個數(shù)據(jù)收集組件、一個基礎(chǔ)文獻(xiàn)分析組件和一個合作模式分析組件.數(shù)據(jù)收集組件用來創(chuàng)建我們研究所需要的數(shù)據(jù)集;基礎(chǔ)文獻(xiàn)分析組件針對論文中的單一類別的信息執(zhí)行統(tǒng)計分析,從而識別最高產(chǎn)的作者、機(jī)構(gòu)、國家地區(qū)和最頻繁的關(guān)鍵詞,并分析作者和論文的影響力,主要包括產(chǎn)量分析和影響力分析;合作模式分析組件針對多種信息的關(guān)聯(lián)關(guān)系來挖掘隱藏的知識,通過構(gòu)造3個關(guān)系網(wǎng)絡(luò)來研究作者間的合作關(guān)系、主要的研究主題以及作者的研究興趣.

    Fig. 2 The MSR publication analysis framework.圖2 MSR文獻(xiàn)分析框架

    2.1 數(shù)據(jù)收集

    為了實現(xiàn)MSR 文獻(xiàn)分析,我們需要建立一個完備的數(shù)據(jù)集.我們選取WMSR作為我們的數(shù)據(jù)源,并收集2004年至2016年所有發(fā)表在WMSR上的論文標(biāo)題.在我們的研究中,主要包括基礎(chǔ)文獻(xiàn)分析和合作模式分析.基礎(chǔ)文獻(xiàn)分析又包括產(chǎn)量分析和影響力分析,產(chǎn)量分析涉及到的信息包括作者、機(jī)構(gòu)、國家地區(qū)、關(guān)鍵詞;影響力分析涉及到的關(guān)鍵信息是論文的引用次數(shù).合作模式分析研究作者間的合作關(guān)系、主要的研究主題以及作者的研究興趣、涉及到的信息包括每篇論文的所有作者以及關(guān)鍵詞.通過仔細(xì)調(diào)研,發(fā)現(xiàn)有些論文并沒有提供關(guān)鍵詞信息,因此我們試圖從摘要和標(biāo)題中抽取一些主題詞來補(bǔ)充關(guān)鍵詞.我們采用關(guān)鍵詞抽取模型[31],其過程有3個步驟:

    1) 移除停用詞.對于一些如the,is,we等對關(guān)鍵詞抽取來說毫無意義的詞,我們建立一個停用詞表[32],從摘要和標(biāo)題中刪除這些詞.

    2) 對剩下的詞分別建立x-元詞(x為單詞個數(shù),取值為1~4)權(quán)重矩陣,權(quán)重的值為單詞或術(shù)語在標(biāo)題和摘要中出現(xiàn)的次數(shù).

    3) 對所有的x-元詞按權(quán)重進(jìn)行降序排序,然后取權(quán)重最高的n(n≤10)個詞作為關(guān)鍵詞.

    1) 收集2004年至2016年所有發(fā)表在WMSR上的論文的標(biāo)題,作為數(shù)據(jù)集的元數(shù)據(jù).

    2) 利用網(wǎng)絡(luò)爬蟲工具從IEEE Xplore和ACM數(shù)據(jù)庫中抽取一些重要的信息,包括作者、機(jī)構(gòu)、國家地區(qū)、摘要、關(guān)鍵詞.

    3) 考慮到IEEE Xplore 和ACM數(shù)據(jù)庫中提供的作者姓名通常是縮寫,因此我們利用網(wǎng)絡(luò)爬蟲工具從DBLP中自動抽取作者的全名.

    4) 利用網(wǎng)絡(luò)爬蟲工具從Google Scholar中抽取論文的引用次數(shù).

    通過以上這4個步驟,我們收集了MSR文獻(xiàn)分析所需的相關(guān)數(shù)據(jù),并構(gòu)建了一個完整的數(shù)據(jù)集.該數(shù)據(jù)集包含不同類型的數(shù)據(jù),呈現(xiàn)復(fù)雜而多相的特點.

    2.2 基礎(chǔ)文獻(xiàn)分析

    基礎(chǔ)文獻(xiàn)分析包括2個方面,即產(chǎn)量分析和影響力分析,主要針對單一類別的信息,采用統(tǒng)計分析方法來挖掘MSR基本的領(lǐng)域知識,如圖2所示.本節(jié)詳細(xì)介紹產(chǎn)量分析和影響力分析的實施方法.

    2.2.1 產(chǎn)量分析實施方法

    2.2.2 影響力分析實施方法

    1) 作者影響力分析.在作者影響力分析中,我們引入H因子(H factor)[33]來度量單個作者的影響力.

    H因子:又稱為H指數(shù),是Hirsch[33]于2005年提出的一種衡量作者影響力的指標(biāo),其綜合考慮了作者發(fā)表的論文的質(zhì)量和數(shù)量.對于一些作者,雖然發(fā)表的論文數(shù)量較多,然而論文的質(zhì)量并不高,即所有論文的引用數(shù)量都較低.因此,H因子綜合考慮論文的質(zhì)量和數(shù)量,其主要思想為:如果一個作者發(fā)表了h篇論文,其被引次數(shù)不得少于h次.具體過程為:對某個作者在某個時段內(nèi)發(fā)表的論文,按被引次數(shù)從高到低排列,排序后每篇論文會得到一個序號i,將每篇論文的序號i和被引次數(shù)進(jìn)行比較,找到序號h的論文,使得該論文的序號h小于或等于它的被引次數(shù),而下一篇論文,其序號h+1大于它的被引次數(shù).

    H因子已經(jīng)被廣泛接受并用于衡量不同領(lǐng)域作者的影響力.例如,Alcaide等人[34]通過H因子來評估生物醫(yī)學(xué)中20個主要作者的科學(xué)研究的影響力;Oppenheim[35]使用H因子對信息領(lǐng)域的科學(xué)家進(jìn)行排序;Bornmann和Daniel[36]也應(yīng)用H因子到博士后獎學(xué)金申請人的評選工作中.在文獻(xiàn)[37]中,Alonso等人對H因子的優(yōu)點、缺點、應(yīng)用以及各種改進(jìn)版本進(jìn)行了系統(tǒng)地總結(jié).很多研究者的H因子能在Google Scholar中查詢到,在本文我們并不直接使用Google Scholar中的H因子,因為其衡量的是作者在所有研究領(lǐng)域的影響力.我們需要計算所有作者在MSR 領(lǐng)域的H因子,然后根據(jù)H因子對作者排序.

    2) 論文影響力分析.在論文影響力分析中,我們引入NCII指數(shù)[19]來度量論文的影響力.

    NCII指數(shù):通常情況下,論文的引用次數(shù)與其發(fā)表的時間有著很大的關(guān)系,也就是說,一篇論文發(fā)表的時間越早,其被引用的次數(shù)可能越多.從而導(dǎo)致不同時期出版的論文難以比較它們的影響力.因此,考慮到出版時間對引用數(shù)量的影響, Holsapple等人[19]提出了一個新的影響力計算標(biāo)準(zhǔn),即NCII指數(shù).其計算為

    (1)

    從式(1)可以看出,NCII指數(shù)實際上代表了論文每年的平均引用次數(shù).相比較于總的引用次數(shù),使用NCII指數(shù)作為論文影響力評價標(biāo)準(zhǔn)更加合理.目前,NCII指數(shù)已被廣泛用于評估領(lǐng)域科研論文的影響力.例如,Serenko和Bontis[38]利用NCII指數(shù)來計算知識管理和智能資本相關(guān)文獻(xiàn)的影響力;在智能交通領(lǐng)域,Xu等人[16]使用NCII指數(shù)對該領(lǐng)域的文章進(jìn)行影響力排序;另外,基于NCII指數(shù)的思想,Cheng等人[39]提出了類似的標(biāo)準(zhǔn)化評分(normalized score),對人工智能領(lǐng)域的1224個期刊雜志的影響力進(jìn)行了排序.在本文我們首先計算出每篇論文NCII指數(shù);然后根據(jù)NCII指數(shù)排序,分析論文的影響力.

    2.3 合作模式分析

    合作模式分析研究作者間的合作關(guān)系、MSR領(lǐng)域主要研究主題以及作者的研究興趣.通過分析信息之間的相互聯(lián)系,挖掘MSR領(lǐng)域中一些隱藏的領(lǐng)域知識.為了完成這些關(guān)鍵問題的分析,我們構(gòu)建3個重要的關(guān)系網(wǎng)絡(luò),即作者合著網(wǎng)絡(luò)、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)、作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò).其中作者合著網(wǎng)絡(luò)與關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)相互獨立,分別基于作者間的依賴關(guān)系和關(guān)鍵詞間的依賴關(guān)系,揭露作者間的合作關(guān)系以及流行的研究主題;而作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)基于作者和關(guān)鍵詞間的依賴關(guān)系,揭露作者研究興趣.本節(jié)闡述合作模式分析的詳細(xì)過程.

    2.3.1 GN聚類算法

    GN是一種經(jīng)典的社區(qū)發(fā)現(xiàn)算法,屬于分裂的層次聚類算法[40].基本思想是不斷地刪除網(wǎng)絡(luò)中具有相對于源節(jié)點的最大邊介數(shù)(edge betweenness)(一條邊的邊介數(shù)是指通過該邊的最短路徑的條數(shù))的邊,再重新計算網(wǎng)絡(luò)中剩余的邊相對于源節(jié)點的邊介數(shù),直到所有邊被消除.然而,在不知道社區(qū)數(shù)目的情況下,GN算法無法確定選取哪種網(wǎng)絡(luò)狀態(tài).因此,Clauset[41]引入了模塊度的概念,提出了一種改進(jìn)的GN算法.其基本步驟如下:

    1) 計算網(wǎng)絡(luò)中所有邊的邊介數(shù);

    2) 找到邊介數(shù)最高的邊并將該邊從網(wǎng)絡(luò)中刪除掉,記錄新網(wǎng)絡(luò)狀態(tài)下的模塊度和網(wǎng)絡(luò)狀態(tài);

    3) 重復(fù)步驟1和步驟2,直到每個節(jié)點就是一個退化的社區(qū)為止,最后把模塊度最大的狀態(tài)作為分裂的結(jié)果.

    模塊度(modularity)Q是一種評價社區(qū)劃分質(zhì)量的標(biāo)準(zhǔn)[32],其計算公式為

    (2)

    其中,ei i表示網(wǎng)絡(luò)中第i個社區(qū)中連接2個不同節(jié)點的邊在所有邊中所占的比例,ai表示與第i個社區(qū)中的節(jié)點相連的邊在所有邊中所占的比例.

    2.3.2 作者合著網(wǎng)絡(luò)

    在一篇論文中,可能存在多個作者,這些作者相互合作共同完成論文的撰寫.同一作者可能與不同的作者合作,具有不同的合作關(guān)系.作者合著網(wǎng)絡(luò)使用GN算法對作者進(jìn)行聚類,揭示作者間緊密的合作關(guān)系.

    定義1. 給定一個關(guān)系網(wǎng)絡(luò)N={A,B,W}.其中,A代表點的集合,即作者集合;B代表邊的集合,即作者間的合作關(guān)系集合,B中的每一個元素bx y表示作者ax和作者ay共同完成了一篇論文;W表示權(quán)重集合,即作者之間的合作次數(shù)集合,其值是2個作者合作完成的論文數(shù)量.

    (3)

    (4)

    2.3.3 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)

    一般情況下,論文會提供一些關(guān)鍵詞來表明其核心研究主題,當(dāng)幾個關(guān)鍵詞出現(xiàn)在同一篇論文中,意味著這些關(guān)鍵詞有著一定的相關(guān)性.關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)使用GN算法對關(guān)鍵詞聚類,找到網(wǎng)絡(luò)中流行的研究主題.

    定義2. 給定一個關(guān)系網(wǎng)絡(luò)N={K,B,W}.其中,K是點的集合,即關(guān)鍵詞集合;B是邊的集合,代表關(guān)鍵詞之間共現(xiàn)關(guān)系,B中的每一個元素bx y表示關(guān)鍵詞kx和關(guān)鍵詞ky之間的共現(xiàn)關(guān)系;W表示權(quán)重集合,其值為同時出現(xiàn)這2個關(guān)鍵詞的論文的數(shù)量.

    關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析.對該網(wǎng)絡(luò)實行w(K′)操作,并使得模塊度Q的值最大.標(biāo)志w(K′)的定義與w(A′)相同.

    2.3.4 作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)

    通常,作者完成1篇論文時都會使用一些關(guān)鍵詞來表明該論文的研究主題,當(dāng)2篇論文的作者使用相似或相同的關(guān)鍵詞時,意味著這些作者之間可能有著相近或相同的研究興趣.作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)使用GN算法對作者聚類,每一類中的作者都有著相近或相同的研究興趣.

    定義3. 給定一個關(guān)系網(wǎng)絡(luò)N={A,AK,T}.其中,A是點的集合,即作者集合;AK是邊的集合,每一個元素akx y表示作者ax和作者ay使用過相同的關(guān)鍵詞;T表示權(quán)重集合,其值為2個作者使用相同關(guān)鍵詞的數(shù)目.

    作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析.對該網(wǎng)絡(luò)實行w(A′)操作,并使得模塊度Q的值最大.

    2.3.5 關(guān)系網(wǎng)絡(luò)分析過程

    關(guān)系網(wǎng)絡(luò)分析主要是借助GN聚類算法對網(wǎng)絡(luò)中的節(jié)點聚類,將網(wǎng)絡(luò)的節(jié)點劃分到不同的簇.然而,上述3個關(guān)系網(wǎng)絡(luò)都是帶有權(quán)重的網(wǎng)絡(luò),傳統(tǒng)的GN聚類算法不能直接應(yīng)用于這3個網(wǎng)絡(luò).因此,Xu等人[16]定義了一個新的概念,即邊值(edge value),其值等于邊介數(shù)除以權(quán)重.GN算法通過不斷地刪除邊值最大的邊,來尋找模塊度最大的網(wǎng)絡(luò)狀態(tài).使用GN算法聚類以后,在對每個簇評價時需要使用到一種指標(biāo),即平均節(jié)點度Ad(average degree)[16].下面,我們詳細(xì)介紹這個指標(biāo):

    平均節(jié)點度是社會網(wǎng)絡(luò)中某個點所連接的邊的權(quán)重的平均值[16].以作者合著網(wǎng)絡(luò)為例,平均節(jié)點度是作者平均合作次數(shù).假設(shè)存在一個子網(wǎng)絡(luò)N′={A′,B′,W′},A′,B′,W′為A,B,W的子集,則有:

    (5)

    Fig. 3 The number of publications per year in WMSR.圖3 WMSR每年文章數(shù)量

    3 基礎(chǔ)文獻(xiàn)分析結(jié)果

    本節(jié)主要介紹MSR文獻(xiàn)分析數(shù)據(jù)集,并從2個方面即產(chǎn)量分析和影響力分析來呈現(xiàn)基礎(chǔ)文獻(xiàn)分析結(jié)果.

    3.1 數(shù)據(jù)集

    我們數(shù)據(jù)集的數(shù)據(jù)來源于2004年至2016年WMSR收錄的所有論文.為了創(chuàng)建MSR文獻(xiàn)分析數(shù)據(jù)集,我們首先從WMSR上抽取論文標(biāo)題作為元數(shù)據(jù),然后通過網(wǎng)絡(luò)爬蟲工具從DBLP, ACM, IEEE Xplore, Google Scholar中抽取作者全名、機(jī)構(gòu)、國家地區(qū)、關(guān)鍵詞、摘要以及引用次數(shù).該數(shù)據(jù)集包含529篇論文和961位作者,這些作者來自35個國家地區(qū),隸屬于254個不同的機(jī)構(gòu).圖3顯示了WMSR每年收錄的論文的數(shù)量,從圖3中可以看出,在2012年(含)之前,每年WMSR收錄的文章數(shù)量都在40篇以下,從2013年開始文章數(shù)量有所增加,這表明近年來更多的學(xué)者開始關(guān)注MSR領(lǐng)域.

    3.2 產(chǎn)量分析結(jié)果

    3.2.1 作者統(tǒng)計

    我們的數(shù)據(jù)集中收集了所有論文的作者全名,為了識別最高產(chǎn)的作者,需要對作者信息進(jìn)行預(yù)處理:

    首先,由于一些特殊字符,需要統(tǒng)一作者全名,如“Yann-Ga?l Guéhéneuc”和“Yann-Gael Gueheneuc”應(yīng)該表示同一個作者,我們用后者代替前者;然后,去掉重復(fù)的作者,并統(tǒng)計每個作者發(fā)表的論文數(shù)量.

    我們的數(shù)據(jù)集中包含529篇論文,大多數(shù)論文的作者數(shù)量為1~6位,極少數(shù)作者數(shù)量超過7位,平均作者數(shù)量為3.29位,共涉及961位不同的作者,其中674位作者僅發(fā)表了1篇論文.表1顯示了最高產(chǎn)的10位作者以及他們發(fā)表的論文數(shù)量.從表1中可以看出,排名第1的作者是Ahmed E. Hassan,在WMSR上共發(fā)表了23篇論文;排在第2位和第3位的是Abram Hindle和Daniel M. German,在WMSR上均發(fā)表了22篇論文;其余7位作者在WMSR上發(fā)表的論文數(shù)量都超過10篇.

    Table 1 The Information of the Most Productive Authors

    3.2.2 機(jī)構(gòu)統(tǒng)計

    為了識別最高產(chǎn)的機(jī)構(gòu),我們需要對機(jī)構(gòu)信息進(jìn)行預(yù)處理:

    1) 在數(shù)據(jù)集中,每一篇論文的每一個作者都對應(yīng)一個機(jī)構(gòu),必然存在多個作者來自于同一個機(jī)構(gòu).因此同一篇論文中,同一機(jī)構(gòu)僅統(tǒng)計一次.

    2) 在不同的論文中,由于不同作者的表達(dá)方式或者寫作習(xí)慣不同,同一機(jī)構(gòu)可能有不同的名稱.因此,需要人工統(tǒng)一機(jī)構(gòu)的名稱,比如Ecole Polytechnique de Montréal和Polytechnique de Montréal實際上表示同一機(jī)構(gòu).

    3) 部分大學(xué)包含多個分校,比如加州大學(xué)(University of California)包含10個分校,這些分校間相互獨立,即不共享研究成果.因此,需要區(qū)分這些分校.

    4) 一些公司或企業(yè)的研究機(jī)構(gòu)也會參與科學(xué)研究,這些研究機(jī)構(gòu)可能分布在不同的國家地區(qū),但共享研究成果.比如,IBM Watson Research Lab和IBM Haifa Research Lab分別位于美國和以色列.因此,我們不區(qū)分這些機(jī)構(gòu),即統(tǒng)一使用公司名稱.

    通過以上4個步驟,我們發(fā)現(xiàn)共有254個不同的組織或機(jī)構(gòu),其中135個機(jī)構(gòu)僅發(fā)表了1篇論文.表2列出了前10的機(jī)構(gòu)的名稱、發(fā)表的論文數(shù)量以及它們所屬的國家地區(qū).從表2中可以看出,排名前3的大學(xué)是加拿大的University of Victoria, Queen’s University, University of Waterloo,分別發(fā)表了32,31,29篇論文,其他7所大學(xué)所發(fā)表的論文都超過10篇.在前10的大學(xué)中有5所大學(xué)位于加拿大,另外5所大學(xué)分別位于荷蘭、美國、西班牙、瑞士和德國.可見,隸屬加拿大的研究機(jī)構(gòu)對MSR領(lǐng)域的發(fā)展有著一定的貢獻(xiàn).

    Table 2 The Information of the Most Productive Institutions

    1) 極少數(shù)論文中雖然提供了機(jī)構(gòu)信息,然而缺失國家信息.因此,我們需要仔細(xì)核對這些機(jī)構(gòu)所屬國家地區(qū).

    通過上述預(yù)處理的2個步驟,我們統(tǒng)計出該數(shù)據(jù)集中包含35個國家地區(qū),其中有9個國家地區(qū)僅發(fā)表了1篇論文,按照發(fā)表的論文數(shù)量對這些國家地區(qū)進(jìn)行排序,圖4顯示這些國家地區(qū)發(fā)表論文的數(shù)量信息.從圖4中可以看出,最高產(chǎn)的10個國家分別是美國、加拿大、荷蘭、德國、瑞士、日本、英國、意大利、西班牙和法國;美國和加拿大分別發(fā)表了174和146篇論文,與機(jī)構(gòu)統(tǒng)計結(jié)果相比,美國才是最高產(chǎn)的國家.這是因為美國有著更多的機(jī)構(gòu)參與了MSR領(lǐng)域研究,而在加拿大,僅有幾所大學(xué)參與MSR領(lǐng)域研究.另外,觀察發(fā)現(xiàn)美國和加拿大發(fā)表的論文數(shù)量占總數(shù)量一半以上,主導(dǎo)著MSR領(lǐng)域的發(fā)展.中國作者參與了13篇論文的撰寫,排名為11.

    Fig. 4 The publication numbers of different countries.圖4 各國發(fā)表的MSR論文數(shù)量

    3.2.4 關(guān)鍵詞統(tǒng)計

    為了識別最頻繁的關(guān)鍵詞,我們需要對數(shù)據(jù)集中的關(guān)鍵詞信息進(jìn)行預(yù)處理:

    1) 同樣關(guān)鍵詞中某個單詞可能是復(fù)數(shù)也可能是單數(shù).因此我們將復(fù)數(shù)變成單數(shù),但僅考慮將結(jié)尾為“s”和“ies”的詞轉(zhuǎn)化為原型.

    2) 在關(guān)鍵詞中,存在一些對關(guān)鍵詞統(tǒng)計毫無意義詞,如software engineering,mining software repositories,data mining等,我們收集這些關(guān)鍵詞并放入停用詞列表[32],然后自動移除這些關(guān)鍵詞.

    3) 不同作者有著不同的寫作習(xí)慣和表達(dá)方式,他們會使用不同的關(guān)鍵詞來表示相同的主題,比如bug,defect,fault等.因此,我們建立了一個同義詞表[32],將不同的詞替換為同一個詞,如將defect和fault替換為bug.

    通過以上3個步驟,我們統(tǒng)計出所有的不同的關(guān)鍵詞,并計算每個關(guān)鍵詞的頻率,根據(jù)它們的頻率排序,表3顯示了前10個最頻繁的關(guān)鍵詞.從表3中可以看出,“software maintenance”是最頻繁的關(guān)鍵詞,109篇論文使用過該關(guān)鍵詞,這說明在軟件倉庫挖掘領(lǐng)域,軟件維護(hù)是最主要研究方向.其原因是軟件倉庫挖掘所涉及到的數(shù)據(jù)大部分源于軟件維護(hù)階段;排在第2和第3的是“Open source project”和“Software configuration management and version control system”,頻率分別為87次和58次.這2個關(guān)鍵詞獲得較高排名的原因是從開源工程獲取數(shù)據(jù)最為容易,而軟件版本演化是重要的研究主題.其他的頻繁的關(guān)鍵詞包括“Software post development issue”, “Java”, “Documentation”, “Software quality”,“Human factor”, “Performance”, “Public domain software”.

    Table 3 The Information of the Most Frequent Keywords

    3.3 影響力分析

    本節(jié)呈現(xiàn)影響力分析結(jié)果,主要分為作者影響力分析和論文影響力分析2個方面.

    3.3.1 作者影響力分析

    MSR文獻(xiàn)分析數(shù)據(jù)集收集了所有論文的引用次數(shù),我們根據(jù)引用次數(shù)計算所有作者的H因子,然后根據(jù)H因子對作者進(jìn)行排序,表4記錄了前10位作者的信息.從表4中可以看出,排名前3的作者是Ahmed E. Hassan, Daniel M. German, Abram Hindle,H因子分別為14,14,11,他們均來自加拿大,所在的機(jī)構(gòu)也是高產(chǎn)機(jī)構(gòu);其他7位作者均來自加拿大、西班牙、荷蘭等高產(chǎn)國家,可見,來自高產(chǎn)國家地區(qū)的作者往往有著較大的影響力.

    Table 4 The Information of 10 Authors with the Highest H Factor

    3.3.2 論文影響力分析

    我們收集了每篇論文的引用次數(shù),表5呈現(xiàn)了引用次數(shù)最高的10篇論文的標(biāo)題、引用次數(shù)、作者、國家和年份信息.從表5中可以看出,引用次數(shù)最高的論文大多發(fā)表于2004年至2007年,僅有2篇論文分別發(fā)表于2009年和2010年.可見,引用次數(shù)和發(fā)表年份有著很大的關(guān)系.排名前3的論文分別被引用了489,442,253次,其他7篇論文的引用次數(shù)均在100次以上.這些高引論文的作者大多數(shù)來自德國、美國和瑞士.很明顯,高產(chǎn)國家參與MSR研究更早,所發(fā)表的論文引用次數(shù)自然更高.

    我們計算所有論文的NCII指數(shù),然后根據(jù)NCII指數(shù)對論文進(jìn)行排名.表6呈現(xiàn)了NCII指數(shù)最高的前10篇論文標(biāo)題、引用次數(shù)、NCII指數(shù)、作者、國家和年份信息.排名前10 的論文中發(fā)表于2013年和2014年各有2篇,其他發(fā)表于2005年、2006年、2007年、2009年、2010年、2012年各有1篇.NCII指數(shù)最高的3篇論文分別是“When do changes induce fixes?”, “Mining email social networks”, “The promises and perils of mining GitHub”,其值均超過40.實際上,NCII指數(shù)最高的論文“When do changes induce fixes?”也有著最高的引用次數(shù).

    Table 5 The Information of the 10 Most Cited Publications

    Table 6 The Information of 10 Publications with the Highest NCII

    另外,這些論文的作者基本上來自于德國、美國、加拿大、荷蘭、英國、日本等一些高產(chǎn)國家.可見,高產(chǎn)國家的論文有著較大的影響力.實際上,NCII指數(shù)平衡了論文的引用次數(shù)和發(fā)表時間關(guān)系,即論文發(fā)表的時間越早,并不代表論文的影響力就越高,在一定程度上能更準(zhǔn)確地反映出論文的影響力.

    4 合作模式分析結(jié)果

    本節(jié)主要通過3個關(guān)系網(wǎng)絡(luò),包括作者合著網(wǎng)絡(luò)、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)、作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)來呈現(xiàn)合作模式分析結(jié)果.

    4.1 作者合著網(wǎng)絡(luò)

    一個人對某個領(lǐng)域的影響力大小,與他和該領(lǐng)域其他作者合作次數(shù)有著很大的關(guān)系.另外,影響力越大的作者,對整個領(lǐng)域的貢獻(xiàn)也就越大,與他合作的作者就可能越多.通過使用GN算法對作者合著網(wǎng)絡(luò)中的節(jié)點(即作者)聚類,分析作者之間的合作關(guān)系.在我們的研究中,為了深入地挖掘作者間的合作關(guān)系,僅考慮那些發(fā)表論文數(shù)量超過2篇的作者.在構(gòu)建的作者合著網(wǎng)絡(luò)中,共包含404個節(jié)點和2 536條邊.在這個網(wǎng)絡(luò)中,由于一些作者與另外一些作者可能沒有合作關(guān)系,因此該網(wǎng)絡(luò)通常由一些連通子圖(社區(qū))組成.我們借助NetDraw工具[20]可視化作者合著網(wǎng)絡(luò)中最大的2個連通子圖.

    Fig. 5 The largest connected subgraph.圖5 最大的連通子圖

    第1個連通子圖的模塊度為0.719,平均節(jié)點數(shù)是6.173 6,如圖5所示.在這個連通塊中共包含288個節(jié)點、1 778條邊,分屬16個簇.由于每個作者的合作次數(shù)不同,我們用不同大小的點來區(qū)分合作次數(shù)的多少,用不同的顏色來區(qū)分這些簇.在這個連通塊中,擁有合作次數(shù)最多的作者是Ahmed E. Hassan,共參與合作35次,其所在簇的作者大多數(shù)來自加拿大;排名第2的是Bram Adams,其參與合作的次數(shù)為34次;接著是Christian Bird,合作次數(shù)為32次.

    第2個連通子圖的模塊度為0.649,平均節(jié)點數(shù)是6.903,如圖6所示.第2個連通塊中作者的平均合作次數(shù)要高于第1個連通塊的作者平均合作次數(shù).在這個連通塊中共包含93個節(jié)點、642條邊,分屬8個簇.在這個連通塊中,合作次數(shù)最多的作者是Abram Hindle,達(dá)到60次,也是MSR領(lǐng)域參與合作次數(shù)最多的作者,即最活躍的作者;接著是Daniel M. German和Katsuro Inoue,參與合作的次數(shù)分別達(dá)到50次和28次;另外,Jesus M. Gonzalez-Barahona也有著較多的合作次數(shù).

    Fig. 6 The second largest connected subgraph.圖6 第2大連通子圖

    4.2 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)

    在1篇已發(fā)表的論文中,一般會提供3~5個關(guān)鍵詞作為標(biāo)簽,標(biāo)注該論文的研究主題.同時出現(xiàn)在一篇論文中的關(guān)鍵詞可能圍繞著同樣的研究主題.通過使用GN算法對關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中的節(jié)點(即關(guān)鍵詞)聚類來分析MSR領(lǐng)域中熱點研究主題.為了準(zhǔn)確地分析出主要的研究主題,我們考慮移除那些在論文中出現(xiàn)次數(shù)少于5次的關(guān)鍵詞.這是因為當(dāng)出現(xiàn)次數(shù)較小時,該關(guān)鍵詞所代表的研究主題可能不是熱點研究主題.在生成的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中,包含93個節(jié)點、340條邊,每2個節(jié)點之間的邊表示2個關(guān)鍵詞在不同論文中出現(xiàn)的次數(shù)總計超過5次.我們借助NetDraw工具[20]可視化關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò).

    圖7是生成的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),其模塊度為0.473,所有的關(guān)鍵詞被劃分為12個簇,分別用紅色數(shù)字標(biāo)出.劃分在同一簇中的關(guān)鍵詞有著一定的關(guān)系,比如 “information retrieval”和“duplicate bug report detection”被聚集在簇11中,這是因為信息檢索技術(shù)是解決重復(fù)bug檢測的一個重要方法.“data acquisition”和“data analysis”被聚集在簇6中,這2個主題分別表示數(shù)據(jù)采集和數(shù)據(jù)分析,有著很強(qiáng)的相關(guān)性.我們把節(jié)點數(shù)最高的節(jié)點作為主題詞,每個簇代表了一個研究主題.通過聚類我們發(fā)現(xiàn),最大的4個簇,即簇1,2,3,4分別圍繞“open source project”, “software maintenance”, “performance, test”, “documentation”四個主題詞.這些主題詞是MSR領(lǐng)域最熱門的研究主題,同時,也是軟件工程領(lǐng)域最常見的研究主題.因此,關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)能夠解析出MSR領(lǐng)域熱門研究主題.

    Fig. 7 The keyword co-occurrence network.圖7 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)

    Fig. 8 The author co-keyword network.圖8 作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)

    4.3 作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)

    在2篇不同的論文中,可能使用相同的關(guān)鍵詞來描述論文的研究主題,這些相同的關(guān)鍵詞表明這些作者可能具有相同或相近的研究方向.通過使用GN算法對作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中的點(即作者)聚類,來分析哪些作者有著相同的研究興趣.在我們的研究中,為了重點研究一些具有代表性的作者的研究興趣,我們過濾掉那些發(fā)表的論文數(shù)量少于2篇的作者,實際上,這些作者在MSR領(lǐng)域并不具有突出貢獻(xiàn).生成的網(wǎng)絡(luò)包含126個作者、340條邊.我們借助NetDraw工具[20]可視化作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò).

    圖8是作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),其模塊度為0.837,所有節(jié)點共被劃分為30個簇,大多數(shù)簇中的節(jié)點都較少.我們詳細(xì)分析其中最大的3個簇:

    簇1. 這個簇是作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中最大的簇,以Ahmed E. Hassan和 Abram Hindle為主導(dǎo),包括Daniel M. German, Bram Adams, Israel Herraiz等作者,實際上,在這個簇中的作者大多數(shù)都是高產(chǎn)作者.主要關(guān)注軟件維護(hù)領(lǐng)域,包括軟件演化、代碼推薦等方向.

    簇2. 這個簇也包含較多的作者,主要以Andy Zaidman和Arie van Deursen為主導(dǎo).主要關(guān)注軟件測試和軟件開發(fā)領(lǐng)域,比如測試實例自動化生成和基于拉式的軟件開發(fā)等方向.

    簇3. 這個簇也有一定數(shù)量的作者,主要以Christian Bird, Denys Poshyvanyk, Premkumar Devanbu為主導(dǎo).其主要的研究方向是開源工程和社交網(wǎng)絡(luò)等.

    5 結(jié)束語

    本文主要工作是MSR文獻(xiàn)分析研究,分為基礎(chǔ)文獻(xiàn)分析和合作模式分析.為了高效地完成這項工作,我們建立了MSR文獻(xiàn)分析框架,即MSR-PAF.MSR文獻(xiàn)分析框架由3個組件組成:

    1) 第1個組件用來創(chuàng)建數(shù)據(jù)集.我們收集WMSR上的所有文獻(xiàn)標(biāo)題作為元數(shù)據(jù),從IEEE Xplore和ACM數(shù)據(jù)庫中爬取作者、機(jī)構(gòu)、國家地區(qū)、關(guān)鍵詞、摘要等信息,然后從DBLP中爬取作者的全名,最后從Google Scholar中爬取論文的引用次數(shù),最終創(chuàng)建MSR文獻(xiàn)分析數(shù)據(jù)集.

    2) 第2個組件執(zhí)行基礎(chǔ)文獻(xiàn)分析,我們使用數(shù)理統(tǒng)計方法識別最高產(chǎn)的作者、機(jī)構(gòu)、國家地區(qū)、最頻繁的關(guān)鍵詞,同時引入H因子和NCII指數(shù)來檢測最有影響力的作者和論文.

    3) 第3個組件實施合作模式分析,我們利用3個關(guān)系網(wǎng)絡(luò),包括作者合著網(wǎng)絡(luò)、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)、作者-關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)來分析作者之間的合作關(guān)系、主要研究主題以及作者的研究興趣.文獻(xiàn)分析結(jié)果表明Ahmed E. Hassan是最高產(chǎn)的作者,open source project和software maintenance是最流行的研究主題.將來,我們會更多地關(guān)注MSR文獻(xiàn)分析研究,擴(kuò)展MSR文獻(xiàn)分析數(shù)據(jù)源,更加深入地挖掘MSR文獻(xiàn)中蘊(yùn)含的知識.

    [1]Zhou Minghui, Guo Changguo. New thought of software engineering based big data[J]. Communications of the CCF, 2014, 10(3): 37-42 (in Chinese)(周明輝, 郭長國. 基于大數(shù)據(jù)的軟件工程新思維[J]. 中國計算機(jī)學(xué)會通訊, 2014, 10(3): 37-42)

    [2]Zhang Dongmei, Han Shi, Lou Jianguang, et al. Software analytics-key points and practice[J]. Communications of the CCF, 2014, 10(3): 29-36 (in Chinese)(張冬梅, 韓石, 樓建光, 等. 軟件解析學(xué)——要點與實踐[J]. 中國計算機(jī)學(xué)會通訊, 2014, 10(3): 29-36)

    [3]He Keqing, Li Bing, Ma Yutao, et al. Key techniques of software engineering in the era of big data[J]. Communications of the CCF, 2014, 10(3): 8-18 (in Chinese)(何克清, 李兵, 馬于濤, 等. 大數(shù)據(jù)時代的軟件工程關(guān)鍵技術(shù)[J]. 中國計算機(jī)學(xué)會通訊, 2014, 10(3): 8-18)

    [4]Xie Tao, Pei Jian, Hassan A E. Mining software engineering data[C] //Proc of IEEE ICSE’07 Compaion. Piscataway, NJ: IEEE, 2007: 172-173

    [5]Xie Tao, Thummalapenta S, Lo D, et al. Data mining for software engineering[J]. Computer, 2009, 42(8): 55-62

    [6]Li Xiaochen, Jiang He, Ren Zhilei. Data driven feature extraction for mining software repositories[J]. Computer Science, 2015, 42(9): 159-164 (in Chinese)(李曉晨, 江賀, 任志磊. 面向軟件倉庫挖掘的數(shù)據(jù)驅(qū)動特征提取方法[J]. 計算機(jī)科學(xué), 2015, 42(9): 159-164)

    [7]Xuan Jifeng, Jiang He, Ren Zhilei, et al. Developer prioritization in bug repositories[C] //Proc of IEEE ICSE’07. Piscataway, NJ: IEEE, 2012: 25-35

    [8]Lü Linyuan, Zhang Yicheng, Yeung C H, et al. Leaders in social networks, the delicious case[J]. PloS One, 2011, 6(6): e21202

    [9]Hassan A E, Xie Tao. Software intelligence: The future of mining software engineering data[C] //Proc of the 10th ACM FSE/SDP Workshop on Future of Software Engineering Research. New York: ACM, 2010: 161-166

    [10]Eunjoo L E E, Chisu W U. A survey on mining software repositories[J]. IEICE Trans on Information and Systems, 2012, 95(5): 1384-1406

    [11]Wang Feiyue. Publication and impact: A bibliographic analysis[J]. IEEE Trans on Intelligent Transportation Systems, 2010, 11(2): 250-250

    [12]Li Linjing, Li Xin, Li Zhenjiang, et al. A bibliographic analysis of the IEEE Transactions on Intelligent Transportation Systems literature[J]. IEEE Trans on Intelligent Transportation Systems, 2010, 11(2): 251-255

    [13]Heilig L, Voβ S. A scientometric analysis of cloud computing literature[J]. IEEE Trans on Cloud Computing, 2014, 2(3): 266-278

    [14]Park D H, Kim H K, Choi I Y, et al. A literature review and classification of recommender systems research[J]. Expert Systems with Applications, 2012, 39(11): 10059-10072

    [15]Li Linjing, Li Xin, Cheng Changjian, et al. Research collaboration and ITS topic evolution: 10 years at T-ITS[J]. IEEE Trans on Intelligent Transportation Systems, 2010, 11(3): 517-523

    [16]Xu Xiujuan, Wang Wei, Liu Yu, et al. A bibliographic analysis and collaboration patterns of IEEE Transactions on Intelligent Transportation Systems between 2000 and 2015[J]. IEEE Trans on Intelligent Transportation Systems, 2016, 17(8): 2238-2247

    [17]Lindsey D. Production and citation measures in the sociology of science: The problem of multiple authorship[J]. Social Studies of Science, 1980, 10(2): 145-162

    [18]Ward P L. Foundations of Library and Information Science[M]. New York: Anmol Publications, 2006: 3287-3292

    [19]Holsapple C W, Johnson L E, Manakyan H, et al. Business computing research journals: A normalized citation analysis[J]. Journal of Management Information Systems, 2015, 11(1): 131-140

    [20]Borgatti S P. Netdraw network visualization[R/OL]. Cambridge: Analytic Technologies, 2002 [2016-08-01]. http://www.analytictech.com/netdraw/netdraw.htm

    [21]Podgurski A, Leon D, Francis P, et al. Automated support for classifying software failure reports[C] //Proc of IEEE ICSE’03. Piscataway, NJ: IEEE, 2003: 465-475

    [22]Dang Yingnong, Wu Rongxin, Zhang Hongyu, et al. ReBucket: A method for clustering duplicate crash reports based on call stack similarity[C] //Proc of IEEE ICSE’12. Piscataway, NJ: IEEE, 2012: 1084-1093

    [23]Kim S H, Zimmermann T, Nagappan N. Crash graphs: An aggregated view of multiple crashes to improve crash triage[C] //Proc of the 41st IEEE/IFIP Int Conf on Dependable Systems & Networks (DSN). Piscataway, NJ: IEEE, 2011: 486-493

    [24]Zimmermann T, Nagappan N. Predicting defects using network analysis on dependency graphs[C] //Proc of ACM ICSE’08. New York: ACM, 2008: 531-540

    [25]Chang R Y, Podgurski A, Yang J. Discovering neglected conditions in software by mining dependence graphs[J]. IEEE Trans on Software Engineering, 2008, 34(5): 579-596

    [26]Runeson P, Alexandersson M, Nyholm O. Detection of duplicate defect reports using natural language processing[C] //Proc of IEEE ICSE’07. Piscataway, NJ: IEEE, 2007: 499-510

    [27]Wang Xiaoyin, Zhang Lu, Xie Tao, et al. An approach to detecting duplicate bug reports using natural language and execution information[C] //Proc of ACM ICSE’08. New York: ACM, 2008: 461-470

    [28]Nguyen A T, Lo D, Nguyen T N, et al. Duplicate bug report detection with a combination of information retrieval and topic modeling[C] //Proc of IEEE ASE’12. Piscataway, NJ: IEEE, 2012: 70-79

    [29]Sun Chengnian, Lo D, Wang Xiaoyin, et al. A discriminative model approach for accurate duplicate bug report retrieval[C] //Proc of ACM ICSE’10. New York: ACM, 2010: 45-54

    [30]Tang Shaohu, Li Zhengxi, Chen Dewang, et al. Theme classification and analysis of core articles published in IEEE Transactions on Intelligent Transportation Systems from 2010 to 2013[J]. IEEE Trans on Intelligent Transportation Systems, 2014, 15(6): 2710-2719

    [31]Hacohenkerner Y. Automatic extraction of keywords from abstracts[C] //Proc of the 7th Int Conf on Knowledge-Based and Intelligent Information and Engineering Systems. Berlin, Springer, 2003: 843-849

    [32]OSCAR. The public-access stop word list[EB/OL]. 2016 [2016-10-22]. http://oscar-lab.org/chn/resource.htm

    [33]Hirsch J E. An index to quantify an individual's scientific research output [J]. Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(46): 16559-16572

    [34]Alcaide G G, Gómez M C, Zurián J C V, et al. Scientific literature by Spanish authors on the analysis of citations and impact factor in biomedicine (1981—2005) [J]. Revista Espaola De Documentación Científica, 2008, 31(3): 344-365

    [35]Oppenheim C. Using the H-index to rank influential British researchers in information science and librarianship[J]. Journal of the American Society for Information Science & Technology, 2007, 58(2): 297-301

    [36]Bornmann L, Daniel H. What do we know about the h index? [J]. Journal of the American Society for Information Science & Technology, 2007, 58(9): 1381-1385

    [37]Alonso S, Cabrerizo F J, Herrera-Viedma E, et al. H-index: A review focused in its variants, computation and standardization for different scientific fields[J]. Journal of Informetrics, 2009, 3(4): 273-289

    [38]Serenko A, Bontis N. Meta-review of knowledge management and intellectual capital literature: Citation impact and research productivity rankings[J]. Knowledge and Process Management, 2004, 11(3): 185-198

    [39] Cheng C H, Holsapple C W, Lee A. Citation-based journal rankings for AI research: A business perspective[J]. AI Magazine, 1996, 17(2): 87-97

    [40]Girvan M, Newman M E J. Community structure in social and biological networks[J]. Proceedings of the National Academy of Sciences, 2002, 99(12): 7821-7826

    [41]Clauset A, Newman M E J, Moore C. Finding community structure in very large networks[J]. Physical Review E, 2004, 70(6): 066111

    Jiang He, born in 1980. PhD, Professor and PhD supervisor at the School of Software, Dalian University of Technology, China. Member of the China Computer Federation and the ACM. His main research interests include search based software engineering, software testing and mining software repositories.

    Chen Xin, born in 1987. PhD candidate. His main research interests include software testing and mining software repositories, etc.

    Zhang Jingxuan, born in 1988. PhD candidate. His main research interests include mining software repositories and API document analysis, etc.

    Han Xuejiao, born in 1993. Master candidate. Her main research interest is mining software repositories.

    Xu Xiujuan, born in 1978. PhD and assistant professor at the School of Software, Dalian University of Technology, China. Her main research interests include applications of data mining, intelligent transportation systems, recommender systems, and social network.

    Mining Software Repositories: Contributors and Hot Topics

    Jiang He, Chen Xin, Zhang Jingxuan, Han Xuejiao, and Xu Xiujuan

    (School of Software, Dalian University of Technology, Dalian, Liaoning 116024)

    Software updates and evolves continuously over time, software repositories accumulate massive data. How to effectively collect, organize, and make use of these data has become a key problem in software engineering. Mining Software Repositories (MSR) aim to mine useful knowledge contained in complex and diversified data to improve the quality and productivity of software. Although some studies have elaborately summarized the background, history, and prospects about MSR, existing studies do not present systematically the most influential author, institution, and country as well as the major research topics and their transitions over time. Therefore, this study combines the existing classical publication analysis frameworks and algorithms to analyze the relationships among publications related to MSR, and presents some important domain knowledge for researchers in detail. To effectively tackle this task, we construct a framework named MSR Publication Analysis Framework (MSR-PAF). MSR-PAF consists of three components which can be used to create a dataset for the study, conduct a bibliography analysis, and implement a collaboration pattern analysis, respectively. The results of the bibliography analysis show that the most productive author, institution, and country are Ahmed E. Hassan, University of Victoria, and USA, respectively. The most frequent keyword is software maintenance and the most influential author is Abram Hindle. In addition, the results of the collaboration pattern analysis show that Abram Hindle is the most active author, and open source project and software maintenance are the most popular research topics.

    publication analysis; collaboration pattern analysis; data mining; mining software repositories; big data

    2016-08-24;

    2016-10-24

    國家自然科學(xué)基金項目(61370144);教育部新世紀(jì)優(yōu)秀人才支持計劃基金項目(NCET-13-0073) This work was supported by the National Natural Science Foundation of China (61370144) and the Program for New Century Excellent Talents in University of Ministry of Education of China (NCET-13-0073).

    TP311

    猜你喜歡
    影響力次數(shù)論文
    機(jī)場航站樓年雷擊次數(shù)計算
    2020年,我國汽車召回次數(shù)同比減少10.8%,召回數(shù)量同比增長3.9%
    商用汽車(2021年4期)2021-10-13 07:16:02
    一類無界算子的二次數(shù)值域和譜
    天才影響力
    NBA特刊(2018年14期)2018-08-13 08:51:40
    黃艷:最深遠(yuǎn)的影響力
    依據(jù)“次數(shù)”求概率
    3.15消協(xié)三十年十大影響力事件
    傳媒不可估量的影響力
    人間(2015年21期)2015-03-11 15:24:39
    下期論文摘要預(yù)登
    下期論文摘要預(yù)登
    纯流量卡能插随身wifi吗| 久热这里只有精品99| 日韩熟女老妇一区二区性免费视频| 狂野欧美激情性bbbbbb| 狂野欧美激情性xxxx| 考比视频在线观看| 777久久人妻少妇嫩草av网站| 日韩不卡一区二区三区视频在线| 在线看a的网站| 一本一本久久a久久精品综合妖精| 精品视频人人做人人爽| 黑人巨大精品欧美一区二区蜜桃| 久久久精品区二区三区| 精品亚洲成a人片在线观看| 国产一区有黄有色的免费视频| 久久精品熟女亚洲av麻豆精品| 国产毛片在线视频| 免费观看av网站的网址| 久久久久精品久久久久真实原创| 国产一区亚洲一区在线观看| 国产免费视频播放在线视频| 日韩一区二区三区影片| 久久久久精品久久久久真实原创| 两个人看的免费小视频| 婷婷色av中文字幕| 两个人免费观看高清视频| 亚洲国产日韩一区二区| 精品亚洲成国产av| 日韩 欧美 亚洲 中文字幕| 99国产精品免费福利视频| 波野结衣二区三区在线| 天天操日日干夜夜撸| 别揉我奶头~嗯~啊~动态视频 | 男女之事视频高清在线观看 | 国产一区二区激情短视频 | 在线观看www视频免费| 久久久久久人人人人人| 日韩欧美一区视频在线观看| 90打野战视频偷拍视频| 国产一区二区三区av在线| 日本猛色少妇xxxxx猛交久久| 久久综合国产亚洲精品| 最近2019中文字幕mv第一页| 国产野战对白在线观看| 99国产精品免费福利视频| 美女脱内裤让男人舔精品视频| 这个男人来自地球电影免费观看 | 国产片特级美女逼逼视频| 久久人人爽人人片av| 国产野战对白在线观看| 人人妻人人澡人人爽人人夜夜| 国产福利在线免费观看视频| 菩萨蛮人人尽说江南好唐韦庄| 一级片'在线观看视频| 亚洲色图综合在线观看| 国产精品免费视频内射| 伊人久久国产一区二区| 看十八女毛片水多多多| 欧美精品人与动牲交sv欧美| 久久这里只有精品19| 亚洲国产欧美在线一区| 精品一区二区三区av网在线观看 | 欧美国产精品va在线观看不卡| 免费看av在线观看网站| 欧美在线黄色| 精品人妻熟女毛片av久久网站| 色网站视频免费| 在线观看免费日韩欧美大片| 国产男人的电影天堂91| 午夜免费鲁丝| 又黄又粗又硬又大视频| 丰满饥渴人妻一区二区三| 国产爽快片一区二区三区| 久久毛片免费看一区二区三区| 亚洲中文av在线| 电影成人av| 免费在线观看黄色视频的| 国产高清国产精品国产三级| av一本久久久久| 亚洲精品国产av成人精品| 97人妻天天添夜夜摸| 如何舔出高潮| 午夜福利,免费看| 亚洲国产精品一区二区三区在线| 国产国语露脸激情在线看| 国产成人啪精品午夜网站| 一本久久精品| 精品人妻一区二区三区麻豆| 波野结衣二区三区在线| 久久久久精品久久久久真实原创| 国产1区2区3区精品| 国产 精品1| 五月天丁香电影| 亚洲av成人不卡在线观看播放网 | 亚洲精品成人av观看孕妇| 成人手机av| 欧美精品一区二区大全| 成人亚洲欧美一区二区av| 免费观看av网站的网址| 国产一区二区激情短视频 | 哪个播放器可以免费观看大片| 又大又爽又粗| 大香蕉久久成人网| 大香蕉久久成人网| 制服诱惑二区| 又大又爽又粗| 伊人亚洲综合成人网| 天堂中文最新版在线下载| 精品国产乱码久久久久久男人| 久久久亚洲精品成人影院| 亚洲免费av在线视频| 最近中文字幕高清免费大全6| 国产精品久久久久久精品电影小说| 飞空精品影院首页| 乱人伦中国视频| 男人添女人高潮全过程视频| 女性生殖器流出的白浆| av福利片在线| 综合色丁香网| 啦啦啦啦在线视频资源| 午夜福利,免费看| 精品国产乱码久久久久久男人| 午夜免费观看性视频| 日韩,欧美,国产一区二区三区| 日本午夜av视频| 啦啦啦视频在线资源免费观看| 国产日韩欧美视频二区| 国产av一区二区精品久久| 久久人妻熟女aⅴ| 亚洲国产av新网站| 2021少妇久久久久久久久久久| 999精品在线视频| 巨乳人妻的诱惑在线观看| 亚洲第一av免费看| 成人免费观看视频高清| 人人妻人人澡人人看| 久久久久久久久免费视频了| 在线观看www视频免费| 亚洲人成网站在线观看播放| 欧美亚洲 丝袜 人妻 在线| 亚洲美女视频黄频| 女人爽到高潮嗷嗷叫在线视频| 啦啦啦啦在线视频资源| 久久鲁丝午夜福利片| 午夜日本视频在线| 亚洲av电影在线观看一区二区三区| 女人爽到高潮嗷嗷叫在线视频| 日韩制服丝袜自拍偷拍| 欧美最新免费一区二区三区| 男人操女人黄网站| 啦啦啦视频在线资源免费观看| 性色av一级| 午夜福利一区二区在线看| 国产福利在线免费观看视频| 激情五月婷婷亚洲| 日韩一区二区三区影片| 午夜福利一区二区在线看| av网站免费在线观看视频| 又粗又硬又长又爽又黄的视频| 人妻人人澡人人爽人人| 天天影视国产精品| 欧美精品人与动牲交sv欧美| 日本vs欧美在线观看视频| xxxhd国产人妻xxx| 狠狠精品人妻久久久久久综合| 亚洲成av片中文字幕在线观看| 成人手机av| 9色porny在线观看| 欧美人与性动交α欧美软件| 国产日韩欧美亚洲二区| 中文字幕人妻丝袜制服| 一区二区av电影网| 亚洲欧美清纯卡通| 久久狼人影院| 99精国产麻豆久久婷婷| 日韩av免费高清视频| 美国免费a级毛片| 国产亚洲精品第一综合不卡| 亚洲国产精品一区二区三区在线| 国产亚洲欧美精品永久| 国产精品一区二区精品视频观看| 久久亚洲国产成人精品v| 视频在线观看一区二区三区| 国产精品人妻久久久影院| 精品少妇久久久久久888优播| 9热在线视频观看99| 日韩一区二区视频免费看| 精品国产乱码久久久久久男人| 女人精品久久久久毛片| 美国免费a级毛片| 亚洲成人免费av在线播放| 看免费成人av毛片| 99久久精品国产亚洲精品| 18禁裸乳无遮挡动漫免费视频| 丝袜脚勾引网站| av在线app专区| 香蕉丝袜av| 国产麻豆69| 久久青草综合色| 91精品伊人久久大香线蕉| 建设人人有责人人尽责人人享有的| 亚洲视频免费观看视频| 日本一区二区免费在线视频| 天天躁日日躁夜夜躁夜夜| 嫩草影视91久久| 成人免费观看视频高清| 777米奇影视久久| 女性被躁到高潮视频| 日日啪夜夜爽| 黑丝袜美女国产一区| 亚洲av欧美aⅴ国产| 2018国产大陆天天弄谢| 亚洲欧美日韩另类电影网站| 午夜福利视频在线观看免费| 最黄视频免费看| 狠狠婷婷综合久久久久久88av| 日韩av不卡免费在线播放| 亚洲av日韩精品久久久久久密 | 天天操日日干夜夜撸| 国产精品一国产av| 丰满乱子伦码专区| 不卡av一区二区三区| 悠悠久久av| 国产免费又黄又爽又色| 在线天堂中文资源库| 精品酒店卫生间| 天堂中文最新版在线下载| 免费观看人在逋| 天天添夜夜摸| 国产高清不卡午夜福利| 最新的欧美精品一区二区| 欧美日韩亚洲综合一区二区三区_| 日韩av不卡免费在线播放| 99热网站在线观看| av一本久久久久| 精品少妇久久久久久888优播| 欧美国产精品va在线观看不卡| 91精品伊人久久大香线蕉| 久久99热这里只频精品6学生| 叶爱在线成人免费视频播放| 校园人妻丝袜中文字幕| 成人午夜精彩视频在线观看| 最近最新中文字幕免费大全7| 国产黄色视频一区二区在线观看| 亚洲精品一二三| 婷婷色综合大香蕉| 高清不卡的av网站| 欧美成人精品欧美一级黄| 久久亚洲国产成人精品v| 免费观看a级毛片全部| 精品少妇久久久久久888优播| 国产欧美日韩一区二区三区在线| 久久鲁丝午夜福利片| 制服诱惑二区| 亚洲,一卡二卡三卡| 美女视频免费永久观看网站| 九草在线视频观看| 性少妇av在线| 热99国产精品久久久久久7| 欧美97在线视频| 欧美日韩亚洲综合一区二区三区_| 国产av码专区亚洲av| 大香蕉久久网| 中文欧美无线码| 一本色道久久久久久精品综合| 久久精品国产综合久久久| 国产亚洲av片在线观看秒播厂| 色网站视频免费| 免费久久久久久久精品成人欧美视频| 丰满饥渴人妻一区二区三| 欧美在线黄色| 国产福利在线免费观看视频| 欧美日韩视频高清一区二区三区二| 黑人巨大精品欧美一区二区蜜桃| av网站免费在线观看视频| 激情五月婷婷亚洲| 精品亚洲乱码少妇综合久久| 亚洲激情五月婷婷啪啪| 亚洲精品av麻豆狂野| 女人高潮潮喷娇喘18禁视频| 久久天躁狠狠躁夜夜2o2o | 大话2 男鬼变身卡| 免费观看性生交大片5| 午夜福利视频在线观看免费| 欧美日韩综合久久久久久| 大片电影免费在线观看免费| 18禁观看日本| 国产一卡二卡三卡精品 | 啦啦啦中文免费视频观看日本| 狠狠精品人妻久久久久久综合| 肉色欧美久久久久久久蜜桃| 国产国语露脸激情在线看| 一本大道久久a久久精品| 久久狼人影院| 操出白浆在线播放| 亚洲国产欧美网| 亚洲精品久久成人aⅴ小说| 男人操女人黄网站| 99九九在线精品视频| 欧美黑人精品巨大| 欧美亚洲 丝袜 人妻 在线| 爱豆传媒免费全集在线观看| 久久久久久免费高清国产稀缺| 国产在线视频一区二区| 免费高清在线观看视频在线观看| 日韩成人av中文字幕在线观看| 久热爱精品视频在线9| 日韩,欧美,国产一区二区三区| 黄片无遮挡物在线观看| 午夜91福利影院| 国产野战对白在线观看| videosex国产| 国产片内射在线| 成年人午夜在线观看视频| 国产日韩欧美在线精品| 9191精品国产免费久久| 久久久久精品国产欧美久久久 | 国产极品粉嫩免费观看在线| 如日韩欧美国产精品一区二区三区| 国产人伦9x9x在线观看| 国语对白做爰xxxⅹ性视频网站| 咕卡用的链子| 午夜福利视频在线观看免费| 91成人精品电影| 老司机影院毛片| 人成视频在线观看免费观看| e午夜精品久久久久久久| 久久性视频一级片| 中文字幕色久视频| 91精品伊人久久大香线蕉| 亚洲精品国产区一区二| 久久亚洲国产成人精品v| 人体艺术视频欧美日本| 少妇被粗大的猛进出69影院| 婷婷成人精品国产| 国产爽快片一区二区三区| 亚洲精品一二三| 1024视频免费在线观看| 国产欧美日韩综合在线一区二区| 悠悠久久av| 久久久国产一区二区| 2018国产大陆天天弄谢| 精品国产国语对白av| 精品一区在线观看国产| 免费在线观看视频国产中文字幕亚洲 | 亚洲国产精品成人久久小说| 一级爰片在线观看| 天天添夜夜摸| 七月丁香在线播放| 2021少妇久久久久久久久久久| 精品亚洲乱码少妇综合久久| 人妻一区二区av| 美女大奶头黄色视频| 啦啦啦啦在线视频资源| 国产免费又黄又爽又色| 18禁国产床啪视频网站| 国产精品久久久人人做人人爽| 亚洲七黄色美女视频| 国产成人欧美在线观看 | 国产熟女欧美一区二区| 婷婷色综合大香蕉| 啦啦啦中文免费视频观看日本| 美女视频免费永久观看网站| 国产精品久久久人人做人人爽| 老司机影院毛片| 国产成人欧美在线观看 | 精品一区二区三区av网在线观看 | 亚洲人成电影观看| 91老司机精品| 天天躁夜夜躁狠狠躁躁| 国产精品一区二区在线观看99| 91aial.com中文字幕在线观看| 天美传媒精品一区二区| tube8黄色片| 欧美激情 高清一区二区三区| 少妇被粗大的猛进出69影院| 黑丝袜美女国产一区| 成人18禁高潮啪啪吃奶动态图| 九九爱精品视频在线观看| 视频在线观看一区二区三区| 亚洲美女黄色视频免费看| 国产一区二区激情短视频 | 成人手机av| 亚洲av国产av综合av卡| 少妇猛男粗大的猛烈进出视频| 国产又爽黄色视频| 看非洲黑人一级黄片| 毛片一级片免费看久久久久| 成人18禁高潮啪啪吃奶动态图| 欧美亚洲日本最大视频资源| 黄色视频不卡| av一本久久久久| 在线观看免费视频网站a站| 色精品久久人妻99蜜桃| 婷婷色综合www| 黄片小视频在线播放| 99香蕉大伊视频| 午夜91福利影院| 如何舔出高潮| 免费黄网站久久成人精品| 亚洲精品自拍成人| 成人18禁高潮啪啪吃奶动态图| 啦啦啦在线观看免费高清www| 热re99久久精品国产66热6| 日韩熟女老妇一区二区性免费视频| 国产男人的电影天堂91| 国产乱人偷精品视频| 波多野结衣一区麻豆| 日本爱情动作片www.在线观看| 新久久久久国产一级毛片| 国产极品天堂在线| av不卡在线播放| 国产av码专区亚洲av| 久久韩国三级中文字幕| 欧美人与善性xxx| 亚洲欧洲日产国产| 黑人巨大精品欧美一区二区蜜桃| 母亲3免费完整高清在线观看| 王馨瑶露胸无遮挡在线观看| 久久毛片免费看一区二区三区| 中文精品一卡2卡3卡4更新| 久久人人97超碰香蕉20202| 国产日韩欧美视频二区| av网站在线播放免费| 亚洲精品中文字幕在线视频| 亚洲少妇的诱惑av| 99久久人妻综合| 国产在线视频一区二区| 性少妇av在线| 一边摸一边抽搐一进一出视频| 亚洲成av片中文字幕在线观看| 桃花免费在线播放| 三上悠亚av全集在线观看| 大香蕉久久成人网| 亚洲欧美中文字幕日韩二区| 日韩熟女老妇一区二区性免费视频| 青青草视频在线视频观看| 欧美黑人精品巨大| 成年女人毛片免费观看观看9 | 国产成人精品久久久久久| 亚洲国产欧美网| 在线天堂中文资源库| 久久热在线av| 久热这里只有精品99| 人人妻人人澡人人看| 亚洲精品中文字幕在线视频| 午夜日本视频在线| 亚洲国产精品成人久久小说| 免费观看av网站的网址| 热re99久久国产66热| 国产一区二区三区综合在线观看| 亚洲国产最新在线播放| 亚洲欧美一区二区三区黑人| 一边摸一边抽搐一进一出视频| 日韩大码丰满熟妇| 欧美 日韩 精品 国产| 少妇人妻久久综合中文| 秋霞伦理黄片| 日本爱情动作片www.在线观看| 亚洲人成77777在线视频| 中文字幕精品免费在线观看视频| 亚洲激情五月婷婷啪啪| 在线亚洲精品国产二区图片欧美| 18禁裸乳无遮挡动漫免费视频| 午夜福利乱码中文字幕| 久久久久久久精品精品| 亚洲成人av在线免费| 日本欧美国产在线视频| 又大又爽又粗| 自线自在国产av| 18禁裸乳无遮挡动漫免费视频| 80岁老熟妇乱子伦牲交| 啦啦啦在线免费观看视频4| 国产男女超爽视频在线观看| 水蜜桃什么品种好| 亚洲色图 男人天堂 中文字幕| 伊人久久国产一区二区| 多毛熟女@视频| 国产探花极品一区二区| 99九九在线精品视频| 男的添女的下面高潮视频| 建设人人有责人人尽责人人享有的| 99热国产这里只有精品6| 国产精品麻豆人妻色哟哟久久| 伦理电影免费视频| 岛国毛片在线播放| 五月天丁香电影| 亚洲精品久久久久久婷婷小说| 欧美成人精品欧美一级黄| 日韩大片免费观看网站| 亚洲欧美成人精品一区二区| 国产成人免费无遮挡视频| 51午夜福利影视在线观看| 久久久久国产精品人妻一区二区| 久久久久精品久久久久真实原创| 亚洲国产看品久久| 人人澡人人妻人| 国产精品一区二区在线观看99| 9热在线视频观看99| 成人手机av| 国产精品蜜桃在线观看| 国产男人的电影天堂91| 十八禁网站网址无遮挡| av不卡在线播放| 91国产中文字幕| 高清在线视频一区二区三区| 国产亚洲最大av| 岛国毛片在线播放| 久久久久网色| 大香蕉久久成人网| 国产成人欧美| 少妇的丰满在线观看| 欧美激情 高清一区二区三区| 日本爱情动作片www.在线观看| av.在线天堂| 一区二区三区激情视频| 国产成人91sexporn| h视频一区二区三区| 日本av手机在线免费观看| 99国产综合亚洲精品| 精品少妇一区二区三区视频日本电影 | 精品一区在线观看国产| 久久久久久久久久久免费av| 国产精品一区二区精品视频观看| 视频区图区小说| 秋霞伦理黄片| 男男h啪啪无遮挡| 亚洲国产欧美一区二区综合| 久久久久久人人人人人| 亚洲国产中文字幕在线视频| 伦理电影大哥的女人| 国产精品嫩草影院av在线观看| 亚洲色图 男人天堂 中文字幕| 国产一区有黄有色的免费视频| 久久久久久久久免费视频了| 黄频高清免费视频| 999精品在线视频| 亚洲国产欧美在线一区| 在线观看免费视频网站a站| 啦啦啦视频在线资源免费观看| 交换朋友夫妻互换小说| 女的被弄到高潮叫床怎么办| 各种免费的搞黄视频| 宅男免费午夜| 中文字幕精品免费在线观看视频| 日本av免费视频播放| 一级爰片在线观看| 久久精品久久精品一区二区三区| 欧美在线一区亚洲| 自线自在国产av| www.熟女人妻精品国产| 黄色视频不卡| 欧美精品亚洲一区二区| 极品人妻少妇av视频| 亚洲精华国产精华液的使用体验| 一级毛片我不卡| 国产极品天堂在线| 波多野结衣av一区二区av| 国产成人av激情在线播放| 亚洲七黄色美女视频| 久久久久久久大尺度免费视频| 啦啦啦在线观看免费高清www| 九草在线视频观看| 狂野欧美激情性bbbbbb| av片东京热男人的天堂| 1024香蕉在线观看| 免费在线观看视频国产中文字幕亚洲 | 亚洲第一青青草原| 2021少妇久久久久久久久久久| 日本午夜av视频| 秋霞伦理黄片| 欧美日韩国产mv在线观看视频| 日韩av不卡免费在线播放| 日日啪夜夜爽| 精品一区二区三区av网在线观看 | 精品少妇内射三级| 十八禁人妻一区二区| 欧美av亚洲av综合av国产av | 女人久久www免费人成看片| 黄色视频在线播放观看不卡| 亚洲av成人精品一二三区| 亚洲成人国产一区在线观看 | 精品国产一区二区三区四区第35| 久久青草综合色| 天天操日日干夜夜撸| 亚洲伊人色综图| 久久综合国产亚洲精品| 成人毛片60女人毛片免费| 纯流量卡能插随身wifi吗| √禁漫天堂资源中文www| 精品国产一区二区三区久久久樱花| 超碰97精品在线观看| 美女扒开内裤让男人捅视频| 欧美最新免费一区二区三区| 啦啦啦啦在线视频资源| 免费久久久久久久精品成人欧美视频| 夫妻性生交免费视频一级片| 亚洲欧美日韩另类电影网站| 日韩制服骚丝袜av| 欧美黑人欧美精品刺激| 9热在线视频观看99| 日本vs欧美在线观看视频| 尾随美女入室| 亚洲国产精品成人久久小说| 少妇人妻久久综合中文| 国产探花极品一区二区| 久热爱精品视频在线9| 成人国语在线视频| 不卡视频在线观看欧美| 热99国产精品久久久久久7| 午夜av观看不卡| h视频一区二区三区| 99久久99久久久精品蜜桃| 国产 一区精品| 久久精品aⅴ一区二区三区四区|