• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      移動(dòng)應(yīng)用評論挖掘研究綜述

      2021-01-23 21:27:45張季康樂樂李博
      知識管理論壇 2021年6期
      關(guān)鍵詞:移動(dòng)應(yīng)用

      張季 康樂樂 李博

      摘要:[目的/意義]用戶評論有助于開發(fā)者實(shí)現(xiàn)移動(dòng)應(yīng)用創(chuàng)新,通過對移動(dòng)應(yīng)用評論挖掘相關(guān)文獻(xiàn)進(jìn)行歸納總結(jié),為移動(dòng)應(yīng)用開發(fā)和評論挖掘提供借鑒。[方法/過程]利用文本分析方法,將移動(dòng)應(yīng)用評論挖掘相關(guān)研究歸納為評論分類、評論聚類和評論特征抽取3個(gè)關(guān)鍵主題,并基于此框架闡述該領(lǐng)域的發(fā)展?fàn)顩r。[結(jié)果/結(jié)論]研究得出:評論分類方法已開始從機(jī)器學(xué)習(xí)向深度學(xué)習(xí)演變;評論聚類主要使用K-Means和DBSCAN;特征抽取仍以評論的顯式特征為主。未來,移動(dòng)應(yīng)用評論挖掘仍有3個(gè)問題值得探究,分別是領(lǐng)域依賴性、多源信息融合以及評論價(jià)值評估。

      關(guān)鍵詞:移動(dòng)應(yīng)用? ? 評論挖掘? ? 評論分類? ? 評論聚類? ?特征抽取

      分類號:TP391.1

      引用格式:張季, 康樂樂, 李博. 移動(dòng)應(yīng)用評論挖掘研究綜述[J/OL]. 知識管理論壇, 2021, 6(6): 339-350[引用日期]. http://www.kmf.ac.cn/p/266/.

      1? 引言

      隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展和移動(dòng)設(shè)備的普及,移動(dòng)應(yīng)用(簡稱APP)已經(jīng)成為日常生活中不可或缺的一部分。自蘋果公司2008年7月份發(fā)布App Store、谷歌公司2008年10月份推出Android Market(2012年更名為Google Play Store)之后,移動(dòng)應(yīng)用如雨后春筍般涌現(xiàn)出來。經(jīng)過10多年的發(fā)展,Google Play Store已有超過345萬款應(yīng)用,Apple App Store也有近220萬款應(yīng)用[1],這些應(yīng)用從社交媒體到新聞資訊、從商務(wù)辦公到娛樂消遣、從醫(yī)療健康到學(xué)習(xí)教育、從在線購物到金融理財(cái),涵蓋了人們生活中的眾多場景。2020年,受新冠肺炎疫情的影響,人們使用移動(dòng)設(shè)備的習(xí)慣向前推進(jìn)了2-3年,移動(dòng)應(yīng)用下載量達(dá)到了2 180億次,每個(gè)用戶日均使用移動(dòng)設(shè)備的時(shí)長超過了4小時(shí)[2]。

      移動(dòng)應(yīng)用的巨大需求量給APP開發(fā)者帶來無限機(jī)遇的同時(shí),也給開發(fā)者帶來了巨大的挑戰(zhàn)。第一,移動(dòng)應(yīng)用商店具有明顯的開放性特征[3]。在商店中,關(guān)于某一應(yīng)用的功能描述、用戶評論、更新文檔等都是公開可見的。這意味著應(yīng)用一旦發(fā)布,就面臨著被模仿甚至被抄襲的風(fēng)險(xiǎn)。第二,需求分析具有典型的階段性特征。應(yīng)用程序都是針對當(dāng)時(shí)的需求開發(fā)的,但在與移動(dòng)應(yīng)用交互的過程中,用戶會(huì)不斷產(chǎn)生新的需求。第三,市場競爭異常激烈。在特定的細(xì)分市場上,功能高度相似的應(yīng)用少則數(shù)款、多則數(shù)十款,用戶可以輕易地從一款A(yù)PP轉(zhuǎn)移到另一款A(yù)PP[4]。

      對于移動(dòng)應(yīng)用而言,創(chuàng)新一直以來都被認(rèn)為是獲得競爭優(yōu)勢的關(guān)鍵來源[5-6]。根據(jù)新穎程度,創(chuàng)新可分為突破式創(chuàng)新和漸進(jìn)式創(chuàng)新[7]。突破式創(chuàng)新是設(shè)計(jì)一個(gè)全新的產(chǎn)品或提出產(chǎn)品設(shè)計(jì)的新方法,是從0到1的過程;漸進(jìn)式創(chuàng)新是對現(xiàn)有產(chǎn)品進(jìn)行持續(xù)不斷的迭代優(yōu)化,是從1到N的過程。移動(dòng)應(yīng)用創(chuàng)新更多的是從1到N的過程,即對APP進(jìn)行長期的維護(hù)和改進(jìn)。不同于實(shí)體產(chǎn)品的創(chuàng)新,移動(dòng)應(yīng)用創(chuàng)新迭代非???,如Google Play中的應(yīng)用平均13天更新一次[8]。要在如此頻繁更新的情況下獲得不錯(cuò)的市場績效,開發(fā)者需要及時(shí)地從用戶那里收集反饋。用戶創(chuàng)新理論最先由希普爾發(fā)現(xiàn)并提出,該理論認(rèn)為在某些行業(yè)或領(lǐng)域往往是用戶而不是生產(chǎn)商提出具有創(chuàng)意的產(chǎn)品或服務(wù)[9]。所以,這些生產(chǎn)商要從傳統(tǒng)的以自己為中心的創(chuàng)新轉(zhuǎn)向以用戶為中心的創(chuàng)新,要為用戶提供平臺(tái)以激發(fā)他們的創(chuàng)造力[10]。

      移動(dòng)應(yīng)用商店的出現(xiàn)不僅為用戶打造了一個(gè)絕佳的反饋平臺(tái),而且為開發(fā)者提供一個(gè)汲取知識的創(chuàng)新平臺(tái)。應(yīng)用商店允許用戶以數(shù)字星級(從1星到5星)和開放式文本的形式發(fā)表評論[11],其中文本通常由標(biāo)題和正文組成。在開發(fā)應(yīng)用新版本時(shí),開發(fā)者平均會(huì)使用50%的信息性評論[12]。所謂信息性評論,是對提高APP質(zhì)量或用戶體驗(yàn)有潛在幫助的評論。然而,對開發(fā)者來說,從評論中快速篩選出信息性評論并不容易,主要原因有:①評論數(shù)量大,增長速度快。評論數(shù)量隨著時(shí)間的推移會(huì)越積越多,Google Play Store中一些熱門應(yīng)用每天會(huì)收到500多條評論[13],人工審閱耗時(shí)耗力。②信息性評論大約只占總評論數(shù)的三分之一[14]。也就是說,評論中包含大量的虛假評論、不相關(guān)的評論以及非評論等垃圾評論[15]。③評論文本是有噪聲的。用戶撰寫的文本常常不符合語法,存在拼寫錯(cuò)誤、縮寫、表情包,缺少或亂加標(biāo)點(diǎn)符號[16]。④不同于其他評論(如新聞評論、圖書評論、影視評論),移動(dòng)應(yīng)用評論具有強(qiáng)時(shí)效性和高價(jià)值性,用戶針對某一版本發(fā)表的功能錯(cuò)誤、程序崩潰等評論,若開發(fā)者及時(shí)響應(yīng),將極大地增強(qiáng)用戶的身份認(rèn)同和使用體驗(yàn)。因此,諸多學(xué)者致力于探索如何自動(dòng)從海量的、非結(jié)構(gòu)化的、非正式的評論文本中挖掘有價(jià)值的信息,然后將其納入軟件開發(fā)環(huán)節(jié),以促進(jìn)移動(dòng)應(yīng)用的迭代創(chuàng)新。

      學(xué)界圍繞移動(dòng)應(yīng)用評論挖掘取得了眾多的研究成果,已有學(xué)者對此進(jìn)行了系統(tǒng)性綜述。N. Genc-Nayebi和A. Abran[17]從評論挖掘技術(shù)、領(lǐng)域依賴、評論有用性、垃圾評論識別和軟件特征提取5個(gè)方面展開敘述,揭示了評論挖掘的主要研究問題。但是,該綜述的分類體系較為分散,并且由于文獻(xiàn)量不足難以對評論有用性和垃圾評論識別進(jìn)行全面客觀的述評。M. Tavakoli等[18]針對評論挖掘技術(shù)和工具進(jìn)行綜述,將評論挖掘技術(shù)分為有監(jiān)督的機(jī)器學(xué)習(xí)技術(shù)、自然語言處理技術(shù)和特征提取技術(shù),并羅列了當(dāng)時(shí)的評論挖掘工具。然而,其缺乏對評論挖掘技術(shù)更有深度和廣度的分析和歸納。鑒于評論挖掘在移動(dòng)應(yīng)用創(chuàng)新領(lǐng)域具有重要的意義,且近幾年APP評論挖掘方法已經(jīng)有了新的進(jìn)展,所以有必要重新梳理相關(guān)文獻(xiàn)。

      本文主要貢獻(xiàn)如下:①篩選出利用用戶評論驅(qū)動(dòng)APP創(chuàng)新的相關(guān)文獻(xiàn);②利用文本分析方法,將相關(guān)研究歸納為評論分類、評論聚類和特征抽取三大類,以期明確該領(lǐng)域的發(fā)展現(xiàn)狀;③從領(lǐng)域依賴性、多源信息融合以及評論價(jià)值評估3個(gè)方面進(jìn)行展望,為未來的研究提供參考。

      2? 數(shù)據(jù)來源和研究框架

      2.1? 數(shù)據(jù)來源

      本研究英文論文選取Web of Science核心數(shù)據(jù)集中的SCI-E、SSCI、CPCI作為數(shù)據(jù)來源。在增加每個(gè)術(shù)語可能的同義詞以及對檢索結(jié)果分析的基礎(chǔ)上,確定的檢索式為(TS=(“user reviews$” or “consumer review$” or “user feedback” or “user comment$”) and TS= (“mobile app$” or “mobile application$” or “app store$” or “app market$”)) or (TS = (“app review$” or “application review$”)),語言類型為English,時(shí)間跨度為2009-2020年,文獻(xiàn)類型選擇article、review和proceedings paper。然后,篩選出與移動(dòng)應(yīng)用創(chuàng)新相關(guān)的評論挖掘文章共54篇文獻(xiàn)作為研究樣本。中文論文選擇中國知網(wǎng)全文數(shù)據(jù)庫中的核心期刊作為數(shù)據(jù)來源,檢索式為(su=(‘用戶評論 + ‘用戶反饋+用戶評價(jià)) and (‘移動(dòng)應(yīng)用+應(yīng)用程序+應(yīng)用商店+應(yīng)用市場+app)) or (su=app評論 + ‘應(yīng)用評論),時(shí)間跨度為2009-2020年。同樣,篩選出與移動(dòng)應(yīng)用創(chuàng)新相關(guān)的評論挖掘文章,整理得到13篇文獻(xiàn)。綜合67篇中英文文獻(xiàn),對用戶評論驅(qū)動(dòng)APP創(chuàng)新的研究進(jìn)行系統(tǒng)總結(jié)。

      2.2? 研究框架

      能夠表達(dá)論文核心內(nèi)容的關(guān)鍵詞或主題詞的詞頻分布可用來研究某一領(lǐng)域的發(fā)展現(xiàn)狀[19]。筆者利用CiteSpace V[20]從54篇英文文獻(xiàn)的標(biāo)題、摘要、關(guān)鍵詞、補(bǔ)充關(guān)鍵詞中提取名詞性短語,一共抽取了226個(gè)名詞性短語。作者對統(tǒng)計(jì)結(jié)果作進(jìn)一步處理:①刪除檢索詞以及與檢索詞表達(dá)相同含義的短語(如mobile app reviews);②把表達(dá)相同主題的短語進(jìn)行歸并;③保留頻次大于3的主題,并將主題按頻次由大到小排列,如表1所示:

      3? 評論挖掘

      3.1? 評論分類

      評論分類的目的不僅是要識別出有價(jià)值的評論,而且要對評論類型進(jìn)行更細(xì)致的劃分。通過對Apple應(yīng)用商店中528條評論的人工分析,D. Pagano和W. Maalej將其分為17個(gè)類別[22],其中大約一半的類別被認(rèn)為與移動(dòng)應(yīng)用創(chuàng)新相關(guān)[23-24],如錯(cuò)誤報(bào)告、功能請求和功能缺陷等。H. Khalid更加關(guān)注負(fù)面評論,從20個(gè)iOS應(yīng)用的6 390條一星或兩星的評論中人工區(qū)分出12種類型的用戶抱怨,其中功能錯(cuò)誤、附加功能請求和程序崩潰等類型對開發(fā)者優(yōu)化APP至關(guān)重要[25]。基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的評論分類能夠從評論中迅速識別出對開發(fā)者有用的評論類型,克服了人工分類耗時(shí)長、主觀性強(qiáng)等缺陷。

      3.1.1? 基于機(jī)器學(xué)習(xí)的評論分類

      移動(dòng)應(yīng)用評論分類的關(guān)鍵流程如圖2所示。從圖中可以看出,機(jī)器學(xué)習(xí)需要人為構(gòu)建特征,有意義的特征會(huì)顯著提高分類算法的性能。移動(dòng)應(yīng)用評論的特征可以分為語言特征和外部特征(見表2)。外部特征是指評論文本內(nèi)容以外的屬性,而語言特征主要包括n-grams、詞性、情感。在進(jìn)行評論分類時(shí),主要利用語言特征,輔以評論元數(shù)據(jù)。常用的評論分類算法包括樸素貝葉斯(Na?ve Bayes,NB)、K-近鄰(K-Nearest Neighbor,KNN)、支持向量機(jī)(Support Vector Machine,SVM)、決策樹(Decision Tree,DT)、邏輯回歸(Logistic Regression,LR)。

      與單獨(dú)使用文本分析、自然語言處理、情感分析和評論元數(shù)據(jù)相比,結(jié)合它們會(huì)取得更好的結(jié)果[24, 26]。W. Maalej和H. Nabil[27]進(jìn)行了一系列實(shí)驗(yàn)來比較簡單字符串匹配、詞袋模型、自然語言處理(去除停用詞和詞形還原)、評論元數(shù)據(jù)和情感分析技術(shù)的準(zhǔn)確率。研究發(fā)現(xiàn),僅靠元數(shù)據(jù)會(huì)導(dǎo)致分類準(zhǔn)確率很低,當(dāng)與自然語言處理技術(shù)相結(jié)合時(shí),分類準(zhǔn)確率在70%-95%之間,召回率在80%-90%之間。在所有的實(shí)驗(yàn)中,多個(gè)二類分類器比多類分類器更準(zhǔn)確地預(yù)測評論類型。次年,W. Maalej等[28]進(jìn)一步探索,將元數(shù)據(jù)與詞袋模型、自然語言處理(尤其是二元語法和詞形還原)結(jié)合時(shí),所有評論分類的準(zhǔn)確率可達(dá)88%-92%,召回率高達(dá)90-99%。

      由于有監(jiān)督的方法需要人工標(biāo)注訓(xùn)練數(shù)據(jù),這個(gè)過程會(huì)花費(fèi)大量的時(shí)間。所以在不影響準(zhǔn)確性的情況下,主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)也受到相關(guān)學(xué)者的關(guān)注。雖然主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)都用到了未標(biāo)注的數(shù)據(jù),但二者的學(xué)習(xí)方式不同。主動(dòng)學(xué)習(xí)是從未標(biāo)注的數(shù)據(jù)中選擇最易判斷錯(cuò)誤的樣本交由專家標(biāo)注,從而最小化訓(xùn)練評論分類器所需的人力,與隨機(jī)選擇的訓(xùn)練數(shù)據(jù)集相比,主動(dòng)學(xué)習(xí)在多個(gè)場景下顯著提高了預(yù)測的準(zhǔn)確率[29]。然而,半監(jiān)督學(xué)習(xí)是選擇最不易判斷錯(cuò)誤的樣本加入已標(biāo)注數(shù)據(jù)。胡天媛等[30]綜合分析用戶評論的內(nèi)容和句式結(jié)構(gòu)的特點(diǎn),采用半監(jiān)督自學(xué)習(xí)的方式,基于有限數(shù)量和類型的評論種子,通過循環(huán)的方式自動(dòng)挖掘出體現(xiàn)使用反饋的APP軟件用戶評論。為了有效控制用于貶低目標(biāo)應(yīng)用或操縱應(yīng)用排名的虛假評論,D. J. He等[31]提出了一種基于PU學(xué)習(xí)(Positive-unlabeled learning)和行為密度(behavior density)的方法來檢測虛假評論。

      還有學(xué)者采用集成學(xué)習(xí)方法,以期通過聚合多個(gè)弱監(jiān)督模型得到一個(gè)強(qiáng)監(jiān)督模型。集成學(xué)習(xí)算法主要有兩種:Bagging和Boosting。通過將樸素貝葉斯、決策樹、支持向量機(jī)、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等不同的算法以不同的集成學(xué)習(xí)算法集成起來,大多數(shù)情況下,集成學(xué)習(xí)的性能優(yōu)于單個(gè)模型[23, 32]。

      上述研究依賴于評論的文本屬性,這通常會(huì)產(chǎn)生高維模型,并可能導(dǎo)致過擬合問題。因此,N. Jha和A. Mahmoud[33]使用語義框架將用戶評論分類為用戶需求、錯(cuò)誤報(bào)告和其他,結(jié)果表明,語義框架有助于生成更低維、更準(zhǔn)確的模型。但是,在評論摘要任務(wù)中,基于文本生成的摘要比基于框架生成的摘要更全面[34]。

      3.1.2? 基于深度學(xué)習(xí)的評論分類

      深度學(xué)習(xí)相較于機(jī)器學(xué)習(xí)沒有顯式的特征構(gòu)建過程,目前已經(jīng)被廣泛應(yīng)用于自然語言處理問題,并在文本分類任務(wù)中取得了很好的效果。王瑩等[35]從功能性需求與非功能性需求兩個(gè)維度出發(fā),對用戶評論進(jìn)行軟件需求挖掘,采用TextCNN、TextRNN和Transformer3種深度學(xué)習(xí)方法,實(shí)驗(yàn)結(jié)果顯著優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。同樣,A. Li等[36]提出一種基于圖卷積網(wǎng)絡(luò)的大規(guī)模反垃圾評論模型,該模型集成了同構(gòu)圖和異構(gòu)圖來描述局部上下文和全局上下文,線上評估和線下性能都驗(yàn)證了該方法優(yōu)于利用評論信息、用戶特征和商品特征的基線模型。通常來說,深度學(xué)習(xí)在大量訓(xùn)練數(shù)據(jù)的情況下會(huì)有更好的表現(xiàn),但在小規(guī)模的訓(xùn)練數(shù)據(jù)上可能并不能取得預(yù)期的效果。例如,C. Stanik等[37]使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法就獲得了與卷積神經(jīng)網(wǎng)絡(luò)相當(dāng)?shù)慕Y(jié)果。當(dāng)然,更復(fù)雜的模型也意味著更高的時(shí)間成本。

      最后,移動(dòng)應(yīng)用評論分類往往牽涉訓(xùn)練數(shù)據(jù)類別分布不平衡的問題,這會(huì)造成分類器決策邊界偏移,從而在實(shí)際應(yīng)用中效果不佳?,F(xiàn)有文獻(xiàn)主要采用兩種方式:①用代價(jià)敏感的學(xué)習(xí)方法來緩解不平衡數(shù)據(jù)的影響[38-39],即對不同類型的誤分類設(shè)置不同的代價(jià);②使用重采樣技術(shù)來處理不平衡的類[40-41],即對數(shù)量多的類進(jìn)行欠采樣(也稱為“下采樣”)、數(shù)量少的類進(jìn)行過采樣(也稱為“上采樣”)。

      3.2? 評論聚類

      評論分類是根據(jù)預(yù)定義的類別給評論分配標(biāo)簽,而評論聚類是將相似且沒有預(yù)先劃定類別的評論聚在一起。典型的聚類算法有K-Means和DBSCAN,其中K-Means是基于形心的聚類,而DBSCAN是基于密度的聚類。張莉曼等[42]在Word2vec詞向量模型的基礎(chǔ)上,結(jié)合Canopy和K-Means對評論聚類,即通過Canopy得到聚類簇?cái)?shù),再運(yùn)用K-Means得到聚類結(jié)果,該方法有效識別并聚合了用戶需求。不同于廣泛使用的K-Means,DBSCAN可以自動(dòng)確定聚類簇的個(gè)數(shù),而不需要預(yù)先指定。因此,這種方法也受到了學(xué)者的關(guān)注。L. Villarroel等[4]采用DBSCAN算法對錯(cuò)誤報(bào)告、新功能建議兩種類型的評論進(jìn)行聚類,并分別針對這兩種類型的聚類簇執(zhí)行優(yōu)先級排序。在此基礎(chǔ)上,S. Scalabrino等[43]對評論進(jìn)行了更細(xì)粒度的分類,增加了4類非功能性需求:安全問題報(bào)告、性能問題報(bào)告、過度能耗報(bào)告和可用性改進(jìn)請求。不過,K-Means和DBSCAN在移動(dòng)應(yīng)用評論數(shù)據(jù)集上的優(yōu)劣有待進(jìn)一步研究。

      3.3? 特征抽取

      雖然評論分類或評論聚類可以從大量的評論文本中挖掘高價(jià)值的評論,但后續(xù)仍需開發(fā)者人工分析才能知道用戶喜歡或討厭的具體是哪些特征。為了解決這個(gè)問題,學(xué)者們提出了多種方法以高效地抽取APP特征,進(jìn)而可以分析用戶對這些APP特征的情感。筆者結(jié)合APP評論中特征抽取的研究現(xiàn)狀,參照B. Liu對屬性抽取方法的分類[44],將相關(guān)文獻(xiàn)劃分為4類:基于頻率、基于句法分析、基于監(jiān)督學(xué)習(xí)和基于主題模型的特征抽取。

      3.3.1? 基于頻率的特征抽取

      基于頻率的特征抽取通常先利用ICTCLAS、jieba、Standford Parser等自然語言處理工具進(jìn)行詞性標(biāo)注,然后從標(biāo)注好的語料中提取出名詞、動(dòng)詞等,最后保留大于設(shè)定閾值的詞作為候選特征[44]。P. M. Vu等[45]從原始評論中提取所有的名詞和動(dòng)詞作為關(guān)鍵詞,根據(jù)評論星級和出現(xiàn)頻率對關(guān)鍵詞進(jìn)行排序,以便開發(fā)者查找與所需關(guān)鍵詞最相關(guān)的評論。不過,單個(gè)詞語只能淺顯、零散地表達(dá)用戶觀點(diǎn),而短語可以提供更完整的信息。于是,P. M. Vu等[46]使用詞性組合來提取用戶評論中的短語,根據(jù)短語之間的相似性度量對短語進(jìn)行分組,排序并監(jiān)測這些分組的動(dòng)態(tài)變化,從而幫助開發(fā)者獲取主要的用戶觀點(diǎn)。

      為了從評論中挖掘出用戶高頻反饋的特征,不少學(xué)者使用關(guān)聯(lián)分析。這一方法的基本假設(shè)是:用戶在評價(jià)APP特征時(shí),用詞是比較一致的[47]。因此,那些頻繁出現(xiàn)的名詞或動(dòng)詞很可能就是APP特征。為了提高特征挖掘的效果,呂宏玉等[48]先利用基于句式匹配和情感傾向識別出特征請求評論,然后通過Apriori關(guān)聯(lián)規(guī)則挖掘算法提取軟件特征。與之不同,文濤等[49]利用Apriori算法提取特征后,針對每一條評論語句需要進(jìn)一步識別出其中包含的<特征詞, 觀點(diǎn)詞>對。鑒于傳統(tǒng)的頻繁項(xiàng)集挖掘算法(如Apriori)計(jì)算量大且難以擴(kuò)展,C. Gao等[50]采用Eclat算法快速獲得所有頻率大于支持度閾值的候選短語。

      3.3.2? 基于句法分析的特征抽取

      觀點(diǎn)詞和觀點(diǎn)評價(jià)對象之間的評價(jià)或修飾關(guān)系往往能夠通過句法關(guān)系來表征,而句法分析可以識別這些關(guān)系[44],從而實(shí)現(xiàn)特征的抽取。句法分析從語法的角度分析詞語之間的關(guān)系,包括句法結(jié)構(gòu)分析和依存關(guān)系分析。Z. Peng等[51]使用Stanford Parser從評論的依存關(guān)系分析中提取動(dòng)名詞短語(動(dòng)詞—名詞)和名詞短語(名詞—名詞或形容詞—名詞),然后基于短語與主題之間的相關(guān)性,確定作為功能請求的短語。考慮到APP評論描述的內(nèi)容總是與場景相關(guān),D. Sun等[52]利用評論的短語結(jié)構(gòu)樹和依存關(guān)系提取核心關(guān)注(kernel concern),并為每個(gè)核心關(guān)注構(gòu)建聚合場景模型,幫助需求分析人員更完整、更準(zhǔn)確地理解用戶的真實(shí)意圖。

      3.3.3? 基于監(jiān)督學(xué)習(xí)的特征抽取

      特征抽取任務(wù)可以轉(zhuǎn)化為序列標(biāo)注任務(wù),當(dāng)前主要的序列標(biāo)注算法有隱馬爾可夫模型(Hidden Markov Model,HMM)和條件隨機(jī)場(Conditional random field,CRF)。CRF對HMM進(jìn)行了改進(jìn),打破了HMM與實(shí)際問題不符的兩個(gè)基本假設(shè)——齊次馬爾可夫性假設(shè)和觀測獨(dú)立性假設(shè)。因此,CRF在特征抽取任務(wù)中的表現(xiàn)更為出色,也更為常用[53]。崔建苓等[54]提出基于本體和CRF融合的特征提取方法,并將深度學(xué)習(xí)Recursive Autoencoder應(yīng)用于情感分析,最后形成<特征,話題,情感詞,句子,極性>的五元組,結(jié)果表明RERM(Requirement Elicitation method based on Review Mining)對潛在軟件需求類型分類的效果良好,比ASUM(Aspect and Sentiment Unification Model) [55]提供了更多有價(jià)值的信息。

      3.3.4? 基于主題模型的特征抽取

      主題模型是一種生成概率模型,其目標(biāo)是從文檔集合中挖掘出其潛藏的主題[56]。當(dāng)前APP評論挖掘中應(yīng)用最廣泛的主題模型是由D. M. Blei提出的潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)。LDA主題模型利用不同文檔中觀測到的詞來推斷文檔的主題分布及主題中詞的分布[57]。王欣研等[58]通過LDA獲取用戶評論主題詞并運(yùn)用Glove詞向量相似性得到主題語義關(guān)聯(lián),然后構(gòu)建出語義關(guān)聯(lián)主題圖譜,從而為開發(fā)者高效獲取用戶需求提供了新的思路和方法。近年來,學(xué)者們也提出了許多LDA的變體模型用于評論挖掘,如動(dòng)態(tài)LDA[59]、自適應(yīng)在線LDA[60]、E-LDA[61]等。

      除了普遍使用的LDA及其變體模型外,ASUM[55]、非負(fù)矩陣分解[62]等主題模型也會(huì)被采用。另外,還有部分學(xué)者對比了不同主題模型的效果。E. Suprayogi等[63]比較了LDA和非負(fù)矩陣分解,從主題連貫性來看,非負(fù)矩陣分解的表現(xiàn)更好。C. Gao等[64]比較了潛在語義索引、LDA、隨機(jī)投影、非負(fù)矩陣分解和基于吉布斯抽樣的LDA模型,最終基于吉布斯抽樣的LDA模型取得了與AR-Miner(App Review Miner)[14]相當(dāng)?shù)拿新剩?shí)現(xiàn)了動(dòng)態(tài)跟蹤排名靠前的評論所反映的主要主題。

      現(xiàn)有的主題模型大多基于LDA和概率潛在語義分析,但是這些主題模型對短文本的表現(xiàn)不佳,因?yàn)槎涛谋緯?huì)造成數(shù)據(jù)稀疏、難以識別歧義詞含義等問題[65]。為此,M. A. Hadi和F. H. Frad[66]提出了自適應(yīng)在線Biterm主題模型,有效緩解了詞語共現(xiàn)模式稀疏的問題,可以從APP評論中抽取出更連貫、更高區(qū)分度的主題。

      4? 總結(jié)與展望

      移動(dòng)應(yīng)用商店匯集了大量用戶對APP的使用體驗(yàn)和建議,而這些反饋是開發(fā)者取得競爭優(yōu)勢的重要抓手,因?yàn)橛脩粼u論中包含功能缺陷、功能請求等有利于開發(fā)者優(yōu)化APP、提升用戶體驗(yàn)的信息。筆者從評論分類、評論挖掘、特征抽取3個(gè)方面對相關(guān)的文獻(xiàn)進(jìn)行系統(tǒng)性梳理。首先,基于監(jiān)督學(xué)習(xí)的評論分類仍是主流,但評論分類方法已經(jīng)開始從機(jī)器學(xué)習(xí)向深度學(xué)習(xí)演變,深度學(xué)習(xí)方法在評論分類任務(wù)中的效果往往優(yōu)于機(jī)器學(xué)習(xí)方法。其次,評論聚類通常作為評論分類的后續(xù)步驟,因?yàn)樘囟悇e中的評論數(shù)量可能有數(shù)百條,通過聚類可以進(jìn)一步降低開發(fā)者獲取信息所付出的時(shí)間和精力。聚類算法有很多,但現(xiàn)有研究還沒有比較不同聚類算法或算法的不同設(shè)置在移動(dòng)應(yīng)用評論數(shù)據(jù)集上的性能優(yōu)劣。最后,有關(guān)特征抽取的文獻(xiàn)主要集中在移動(dòng)應(yīng)用評論顯式特征的挖掘,主題模型能夠在一定程度上解決隱式特征抽取問題,但還需要專門針對APP評論隱式特征抽取進(jìn)行研究。

      未來,移動(dòng)應(yīng)用評論挖掘還需要深入研究的問題主要有:

      (1)領(lǐng)域依賴性。在不同類別的應(yīng)用中,詞語會(huì)呈現(xiàn)出不同的含義,語言模式也有所不同,這使得大多數(shù)研究僅適用于特定的實(shí)驗(yàn)環(huán)境。例如,T. Johann等[67]提出的特征提取方法SAFE(a Simple Approach for Feature Extraction),通過人工分析應(yīng)用頁面和評論,確定了18個(gè)詞性模式和5種句子模式,并用這些模式來提取應(yīng)用頁面和評論的特征。該方法對于頁面維護(hù)良好的Google Drive,精度為87%;對于評估的10個(gè)應(yīng)用程序,平均精度為56%。然而,F(xiàn). A. Shah等[68]將SAFE用于8個(gè)不同的數(shù)據(jù)集(6個(gè)APP評論數(shù)據(jù)集、1個(gè)筆記本電腦評論數(shù)據(jù)集和1個(gè)餐廳評論數(shù)據(jù)集)獲得的平均精度遠(yuǎn)低于論文中報(bào)告的性能。因而,APP評論挖掘中如何實(shí)現(xiàn)領(lǐng)域遷移是一個(gè)具有挑戰(zhàn)的研究方向。

      (2)多源信息融合。一方面,不同應(yīng)用商店的管理策略和用戶群體存在顯著的差異,使得即使是同一APP在不同應(yīng)用商店中的用戶反饋也會(huì)有所不同[69];另一方面,開發(fā)者不僅需要了解自身應(yīng)用的優(yōu)點(diǎn)和缺點(diǎn),還要時(shí)刻關(guān)注競爭應(yīng)用的長處和不足。因此,需要整合不同應(yīng)用商店的用戶反饋以及競爭應(yīng)用的評論、產(chǎn)品描述和更新文檔。除了從應(yīng)用商店挖掘信息外,還可以收集APP運(yùn)行時(shí)的數(shù)據(jù)。將應(yīng)用商店數(shù)據(jù)和APP運(yùn)行數(shù)據(jù)融合在一起,可以更全面地反映移動(dòng)應(yīng)用的狀態(tài),更準(zhǔn)確地把握用戶的需求。

      (3)評論價(jià)值評估。移動(dòng)應(yīng)用評論的質(zhì)量參差不齊,有用評論少、低價(jià)值評論多。因此,高效的評論價(jià)值評估對于APP開發(fā)具有積極的現(xiàn)實(shí)意義。當(dāng)前大多數(shù)研究尚未考慮到,APP評論價(jià)值的評估不僅僅是一個(gè)技術(shù)性問題,更是一個(gè)理論性問題。需要構(gòu)建合適的價(jià)值評估體系,從多個(gè)角度對移動(dòng)應(yīng)用評論進(jìn)行分析。具體而言,可以從評論的信息價(jià)值、時(shí)間價(jià)值、創(chuàng)新價(jià)值等多個(gè)維度,對移動(dòng)應(yīng)用評論進(jìn)行恰當(dāng)?shù)脑u估,以最大限度地挖掘評論的價(jià)值,更好地推動(dòng)APP評論挖掘的演化。

      參考文獻(xiàn):

      猜你喜歡
      移動(dòng)應(yīng)用
      T學(xué)校公共設(shè)施便捷報(bào)修平臺(tái)的移動(dòng)應(yīng)用研究
      東方教育(2016年18期)2017-01-16 16:42:44
      云計(jì)算環(huán)境下的微課移動(dòng)云平臺(tái)設(shè)計(jì)
      大數(shù)據(jù)時(shí)代下免費(fèi)手機(jī)軟件盈利模式探討
      基于APICloud的“校園健身達(dá)人”APP設(shè)計(jì)與實(shí)現(xiàn)
      基于Android平臺(tái)的教學(xué)應(yīng)用系統(tǒng)研究
      基于PhoneGap技術(shù)的跨平臺(tái)移動(dòng)應(yīng)用開發(fā)探討
      智能手機(jī)移動(dòng)應(yīng)用交互框架研究
      戲劇之家(2016年11期)2016-06-22 13:24:35
      基于iOS的校園電子地圖的研究與實(shí)現(xiàn)
      移動(dòng)天氣系統(tǒng)UI設(shè)計(jì)
      移動(dòng)互聯(lián)網(wǎng)在防汛工作中的應(yīng)用
      科技視界(2016年4期)2016-02-22 08:53:41
      闵行区| 辽阳市| 四平市| 灵台县| 钟祥市| 金堂县| 大理市| 南溪县| 手游| 涟水县| 北流市| 黄山市| 昌邑市| 榆社县| 大厂| 连平县| 洪湖市| 宣化县| 马关县| 景东| 东乡| 宁津县| 顺平县| 吉林市| 沧州市| 舟山市| 霍州市| 洛隆县| 开封县| 宜阳县| 那坡县| 大方县| 岳阳市| 黄山市| 广宁县| 东港市| 习水县| 揭东县| 麻江县| 五家渠市| 牟定县|