• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中文微博情感詞提?。?N-Gram為特征的分類方法

    2016-05-03 13:12:25劉德喜聶建云劉曉華萬常選廖國瓊
    中文信息學(xué)報(bào) 2016年4期
    關(guān)鍵詞:極性詞典分類

    劉德喜,聶建云,張 晶,劉曉華,萬常選,廖國瓊

    (1. 江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,江西 南昌 330013;2. 蒙特利爾大學(xué) 計(jì)算機(jī)科學(xué)與運(yùn)籌學(xué)系,蒙特利爾 加拿大 H3C3J7;3. 華南理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣東 廣州 510641)

    中文微博情感詞提?。?N-Gram為特征的分類方法

    劉德喜1,聶建云2,張 晶3,劉曉華2,萬常選1,廖國瓊1

    (1. 江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,江西 南昌 330013;2. 蒙特利爾大學(xué) 計(jì)算機(jī)科學(xué)與運(yùn)籌學(xué)系,蒙特利爾 加拿大 H3C3J7;3. 華南理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣東 廣州 510641)

    情感詞典是文本情感分析的基礎(chǔ)資源,但采用手工方式構(gòu)建工作量大,且覆蓋有限。一種可行的途徑是從新情感詞傳播的重要媒介-微博數(shù)據(jù)-中自動(dòng)抽取情感詞。該文以COAE 2014評(píng)測任務(wù)3提供的中文微博數(shù)據(jù)為統(tǒng)計(jì)對(duì)象,發(fā)現(xiàn)傳統(tǒng)的基于共現(xiàn)的方法,如點(diǎn)互信息等,對(duì)中文微博數(shù)據(jù)中的新情感詞發(fā)現(xiàn)是無效的。為此,設(shè)計(jì)一組基于上下文詞匯的分類特征,即N-Gram特征,以刻畫情感詞的用詞環(huán)境和用詞模式,并以已知情感詞為訓(xùn)練數(shù)據(jù)訓(xùn)練分類器,對(duì)候選情感詞進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,該方法較傳統(tǒng)基于共現(xiàn)的方法要好。實(shí)驗(yàn)還發(fā)現(xiàn),與英語不同的是,中文情感詞通常會(huì)以名詞詞性出現(xiàn),而基于共現(xiàn)的方法無法有效地區(qū)分該類情感詞,這是造成其失效的主要原因,而該文提出的分類特征能解決這一問題。

    情感詞提??;中文微博;分類方法;N-Gram特征

    1 引言

    文本情感傾向性分析是對(duì)信息發(fā)布者的態(tài)度(或稱觀點(diǎn)、情感)進(jìn)行分析,廣泛應(yīng)用于輿情監(jiān)督、產(chǎn)品評(píng)論分析等領(lǐng)域,近些年持續(xù)成為自然語言處理領(lǐng)域研究的熱點(diǎn)問題之一。構(gòu)建一部覆蓋廣、質(zhì)量高的情感詞典是文本情感傾向性分析的基礎(chǔ),因?yàn)楹芏喾椒ㄖ苯踊蜷g接地基于文本中出現(xiàn)的情感詞來判斷文本的情感傾向性。

    盡管手工方式構(gòu)建的情感詞典比較準(zhǔn)確,但代價(jià)大,得到的情感詞典覆蓋面不夠,并且針對(duì)領(lǐng)域相關(guān)的情感詞,還需要相應(yīng)的領(lǐng)域知識(shí)。特別是隨著Web 2.0和移動(dòng)設(shè)備的普及,用戶在互聯(lián)網(wǎng)上陳述觀點(diǎn)、發(fā)布評(píng)論、表達(dá)情感更便捷、更頻繁,使得網(wǎng)絡(luò)新詞的更新和傳播日益迅速,其中就有很多新詞是帶有情感傾向性的,例如,“給力”、“吐槽”、“白富美”、“飄紅”(用于描述股票呈漲勢(shì))等。這些新詞并未在現(xiàn)有的同義詞典等詞典資源中出現(xiàn),因此其情感傾向性很難用基于詞典的方法獲取。

    新浪、Twitter等作為互聯(lián)網(wǎng)用戶發(fā)泄情緒、表達(dá)情感、發(fā)布、接收和傳播觀點(diǎn)的微博平臺(tái),擁有數(shù)以億計(jì)的用戶,是新情感詞的重要來源之一。自動(dòng)抽取新情感詞并判斷它們的極性近年來也得到了一些學(xué)者的關(guān)注,但仍然面臨著巨大挑戰(zhàn),特別是對(duì)于中文微博數(shù)據(jù)。這些挑戰(zhàn)具體表現(xiàn)在:

    (1) 微博數(shù)據(jù)主題復(fù)雜。與從商品評(píng)價(jià)中抽取情感詞不同,大量微博數(shù)據(jù)不是針對(duì)一種或幾種產(chǎn)品的評(píng)價(jià),而是包括產(chǎn)品評(píng)價(jià)、時(shí)事評(píng)論、生活瑣事、心情表達(dá)、商家廣告等復(fù)雜多樣主題,導(dǎo)致很多研究較早、較成熟的用于商品評(píng)價(jià)情感分析的方法無法直接用于微博數(shù)據(jù)。

    (2) 微博數(shù)據(jù)不規(guī)范,語法分析困難。經(jīng)典的基于規(guī)則的新情感詞抽取方法通常需要利用語法分析的結(jié)果,然而微博數(shù)據(jù)不規(guī)范的表達(dá)使得語法分析準(zhǔn)確率嚴(yán)重下降,阻礙了基于規(guī)則的方法在微博數(shù)據(jù)上的運(yùn)用。

    (3) 中文情感詞詞性分布廣。經(jīng)典的新情感詞抽取方法大都以形容詞、動(dòng)詞、副詞作為候選新情感詞。然而對(duì)于中文數(shù)據(jù),很多情感詞是以名詞詞性出現(xiàn)在句子中。例如,“這款手機(jī)是垃圾”中的“垃圾”。如果不考慮名詞,會(huì)丟失大量新情感詞,如果考慮名詞,又會(huì)引入大量噪音,因?yàn)榻^大部分的名詞并非情感詞。

    (4) 共現(xiàn)的情感詞之間極性相互矛盾情況嚴(yán)重。相比Twitter微博長度140個(gè)字符的要求,新浪等中文微博長度上限為140個(gè)漢字,可以表達(dá)的內(nèi)容非常豐富。因此,同一微博中出現(xiàn)多個(gè)極性不同的情感詞的現(xiàn)象非常普遍。因此,經(jīng)典的新情感詞識(shí)別中"共現(xiàn)的兩個(gè)情感詞極性相同"這一假設(shè)不再成立。

    鑒于從中文微博數(shù)據(jù)中抽取新情感詞所面臨的挑戰(zhàn),COAE 2014新增一項(xiàng)任務(wù)(任務(wù)3),要求參賽系統(tǒng)從千萬級(jí)規(guī)模的中文微博數(shù)據(jù)中抽取不在給定通用詞典中的新情感詞,并標(biāo)出這些情感詞的極性?;贑OAE 2014任務(wù)3提供的數(shù)據(jù),本文分析了中文微博中情感詞的分布特征,充分利用已有的情感詞典資源和微博數(shù)據(jù)量大的特點(diǎn),提出基于分類的中文微博新情感詞抽取方法NGC (N-Gram based Classification)。NGC將候選情感詞擴(kuò)大到名詞詞性上,并從(候選)情感詞上下文詞匯中抽取用于刻畫情感詞用詞環(huán)境和用詞模式的特征。與基于共現(xiàn)的點(diǎn)互信息-Pointwise Mutual Information (PMI)等方法相比,NGC方法效果更好,在COAE 2014的評(píng)測中也顯示了很強(qiáng)的競爭力。

    本文的主要貢獻(xiàn)包括: (1)通過比較詳盡的統(tǒng)計(jì)結(jié)果分析了中文微博中情感詞的分布特點(diǎn)(第三節(jié)),發(fā)現(xiàn)在中文微博中,大量情感詞以名詞形式出現(xiàn),共現(xiàn)的情感詞極性矛盾現(xiàn)象比較普遍,并且點(diǎn)互信息等共現(xiàn)特征無法區(qū)分情感詞與非情感詞,致使以共現(xiàn)為基礎(chǔ)的各類經(jīng)典情感詞識(shí)別方法在中文微博上失效。據(jù)我們了解,目前還沒有文獻(xiàn)涉及這些基礎(chǔ)的分析工作。(2)針對(duì)中文微博中情感詞分布的特點(diǎn),提出基于分類的中文微博新情感詞抽取算法NGC (第四節(jié))。盡管有文獻(xiàn)采用分類的方法抽取情感詞,但其處理對(duì)象多為表述規(guī)范的Wordnet或網(wǎng)頁數(shù)據(jù),亦或商品評(píng)論數(shù)據(jù),候選情感詞多為形容詞,有些方法還需要以句法分析的結(jié)果為特征。NGC將名詞也納入候選情感詞,選擇的特征可以刻畫蘊(yùn)含在數(shù)據(jù)集中的情感詞用詞環(huán)境和用詞模式,無需句法分析,簡單有效,適合主題復(fù)雜多樣且表達(dá)不規(guī)范的中文文本。(3) 除參與COAE 2014的評(píng)測外,另外設(shè)計(jì)了多組實(shí)驗(yàn),并從平均精度和Bpref兩個(gè)指標(biāo)評(píng)價(jià)和分析了NGC方法的有效性。

    2 相關(guān)工作

    對(duì)文本情感分析的研究成果比較豐富[1-3],包括對(duì)產(chǎn)品評(píng)論及評(píng)論對(duì)象(又被稱為特征)的情感極性判斷、微博情感極性的判斷、情感摘要等。在對(duì)文本進(jìn)行情感分析時(shí),情感詞典通常扮演著重要的角色[4-5],因此,如何自動(dòng)從數(shù)據(jù)集中抽取情感詞并判斷其極性受到研究者的重視,除了在理論和方法上取得大量成果外,也產(chǎn)生了不少用于情感分析的情感詞典,如SentiWordNet*http://sentiwordnet.isti.cnr.it/,MPQA*http://mpqa.cs.pitt.edu/等。

    情感詞典的自動(dòng)構(gòu)建方法可歸為以下五類,它們所需要的資源和針對(duì)的對(duì)象不盡相同。

    利用詞匯或語法規(guī)則。該類方法的基本依據(jù)是共現(xiàn)的兩個(gè)情感詞之間通常存在一些顯式規(guī)則。例如,Hatzivassiloglou等[6]認(rèn)為,用“and”或“but”等詞匯連接起來的兩個(gè)形容詞的極性存在關(guān)聯(lián)性,因此,在其中一個(gè)極性已知的情況下,利用邏輯回歸來預(yù)測另一個(gè),逐漸擴(kuò)展情感詞匯。該類方法的不足是比較明顯的,因?yàn)楹芏嗲闆r下共現(xiàn)的形容詞間并沒有顯示的規(guī)則存在,并且對(duì)于中文文本,這種規(guī)則更加模糊。

    計(jì)算候選詞與已知情感詞的相似性。這類方法假設(shè)同極性的情感詞之間相似性高,極性相異的情感詞之間相似性小,而無極性的詞與正、負(fù)極性的情感詞之間相似性相當(dāng)。因此,給定一個(gè)較小規(guī)模的情感詞典,對(duì)于候選詞,計(jì)算它與情感詞典中正、負(fù)極性情感詞的相似性之差。差值越大,該候選詞是情感詞的可能性越大。相似性的計(jì)算時(shí),有基于共現(xiàn)的PMI[7-9]、基于上下文的相似度[10]、基于詞匯在Wordnet中的語義距離[11]等。該類方法簡單有效,通用性強(qiáng),針對(duì)的數(shù)據(jù)可以是Wordnet這樣的詞典資源[12]、商品的評(píng)論集合[10]、網(wǎng)頁數(shù)據(jù)[8]、或者用戶發(fā)布的微博數(shù)據(jù)[9]等。這類方法在英文文本上表現(xiàn)良好,因?yàn)橛⑽闹写蠖家孕稳菰~、動(dòng)詞、副詞為候選情感詞,但在下一節(jié)的統(tǒng)計(jì)分析中我們發(fā)現(xiàn),當(dāng)把目標(biāo)轉(zhuǎn)向中文微博這類數(shù)據(jù)時(shí),名詞的引入所帶來的噪聲,很難僅用共現(xiàn)等相似度計(jì)算的方法來消除。

    利用情感極性在詞匯圖中的傳播。該類方法通常構(gòu)建以詞匯為節(jié)點(diǎn)、以詞匯之間關(guān)系(如相似性、共現(xiàn)等)為邊的圖,從人工選擇的少量種子情感詞節(jié)點(diǎn)出發(fā),通過圖中的邊將極性逐漸傳播到候選詞匯,以此決定候選詞匯的情感極性。這類方法類似于計(jì)算候選詞與已知情感詞的相似性,只是基于詞匯圖的方法不單可以考察候選詞與已知情感詞之間的直接聯(lián)系,還通過圖的形式考察它們之間的間接聯(lián)系。盡管構(gòu)建圖時(shí)連接兩節(jié)點(diǎn)的邊的權(quán)重計(jì)算方法不同,情感極性傳播方式也不相同,但該類方法大都基于Wordnet中的詞條及對(duì)詞條的解釋來構(gòu)建圖[13-16],候選詞的選擇及數(shù)據(jù)的規(guī)模非常有限。Velikovich等[17]沒有考慮候選詞的詞性,通過不到400個(gè)種子情感詞,從40億Web面頁中抽取了約18萬新情感詞(短語),目的是將這些新情感詞用于文本的情感分類,這與構(gòu)建情感詞典的任務(wù)是不同的,因?yàn)楸M管得到的新情感詞規(guī)模是參考情感詞典WordNet LP的30余倍,其對(duì)WordNet LP中情感詞的召回不到50%。此外,有助于情感分類的詞并不一定就是情感詞,例如,在COAE 2014微博情感分類數(shù)據(jù)集中,大部分關(guān)于“蒙?!钡奈⒉┒际秦?fù)面的,因此“蒙?!币辉~有助于微博的情感分類,但它卻不是情感詞。Peng等[18]充分利用了Wordnet詞典資源和社交媒體數(shù)據(jù),但其候選情感詞依然是社交媒體數(shù)據(jù)中的形容詞。

    情感詞和情感對(duì)象協(xié)同抽取。該類方法假定情感詞和情感對(duì)象(特征)之間存在修飾與被修飾的關(guān)系,因此可將情感詞的抽取與情感對(duì)象的抽取結(jié)合起來,協(xié)同抽取[19-22]。該類方法主要針對(duì)評(píng)論數(shù)據(jù),其情感表達(dá)的對(duì)象比較明確。但這類方法并不適合微博數(shù)據(jù),因?yàn)槲⒉?shù)據(jù)充滿噪聲,很多句子無情感,只是陳述事實(shí),或者情感并不針對(duì)某一對(duì)象,只是表達(dá)某一種心情,并未對(duì)人、事或物進(jìn)行評(píng)論。

    將候選詞極性識(shí)別視為分類問題。該類方法視候選詞可能屬于三個(gè)類別: 正向極性、負(fù)向極性、無極性,然后利用已有的種子詞典,或者候選詞所在文檔的極性,對(duì)候選詞進(jìn)行分類。這類方法大部分是對(duì)Wordnet中的詞條或同義詞集作情感極性分類,以Wordnet的同義詞集[23]或?qū)υ~的注釋[24]為特征。也有以用戶對(duì)產(chǎn)品的打分為訓(xùn)練目標(biāo),對(duì)產(chǎn)品評(píng)論中的候選詞極進(jìn)行判別,目標(biāo)是使得利用判別結(jié)果對(duì)產(chǎn)品的打分與用戶打分盡量一致[25]。

    本文的思想與Esuli等[24]比較相近,文獻(xiàn)[24]是針對(duì)Wordnet數(shù)據(jù),利用對(duì)詞的注解(gloss)作為特征進(jìn)行分類。但針對(duì)中文微博數(shù)據(jù),選擇什么特征進(jìn)行分類還需要有豐富的實(shí)驗(yàn)數(shù)據(jù)作為支撐。另外,文獻(xiàn)[24]的實(shí)驗(yàn)結(jié)果顯示,形容詞和副詞被分類為情感詞的頻率遠(yuǎn)遠(yuǎn)超過動(dòng)詞和名詞,分別為39.66%,35.7% 和11.04%,9.98%,因此很多文獻(xiàn)不考慮名詞性的情感詞。我們?cè)谟⑽膖weet數(shù)據(jù)上的統(tǒng)計(jì)發(fā)現(xiàn),不考慮名詞仍可以覆蓋85%以上的英文情感詞,但中文微博中這個(gè)比例卻不到60%。最核心的區(qū)間在于,在文獻(xiàn)[24]中,候選情感詞都是Wordnet詞典中的詞條,對(duì)詞的解釋比較規(guī)范,同義或反義等意義相關(guān)的詞的解釋有很多相似之處。然而這些特點(diǎn)在中文微博數(shù)據(jù)中并不存在,這給新情感詞發(fā)現(xiàn)帶來更大難度。

    Wiebe等[26-27]從Wall Street Journal數(shù)據(jù)集中抽取主觀詞(情感詞),但僅考慮形容詞為候選情感詞,要求候選詞所在的句子是主觀句,并且需要對(duì)句子進(jìn)行語法分析。Riloff等[28]抽取帶有主觀傾向的名詞,其中用到的關(guān)鍵特征“候選詞的詞干”是不適合中文的。與本文從中文微博中抽取新情感詞類似,Volkova[29]從英文Twitter中抽取新情感詞。首先根據(jù)種子情感詞判斷tweet的極性,再考察候選詞與各極性的tweet的共現(xiàn)關(guān)系,判斷候選詞的極性,每次生成數(shù)個(gè)情感詞,不斷擴(kuò)展。該方法假設(shè)共現(xiàn)在相同tweet中的情感詞極性相同,極性不同的情感詞不會(huì)共現(xiàn)在同一tweet中,這與第三節(jié)在中文微博上的統(tǒng)計(jì)分析不符。

    基于微博數(shù)據(jù)集自動(dòng)構(gòu)建中文情感詞典的文獻(xiàn)并不多見。Xu等[30]采用基于詞匯圖的方法構(gòu)建中文情感詞典,圖中的節(jié)點(diǎn)來自同義詞林、漢語詞典和《人民日?qǐng)?bào)》數(shù)據(jù)集,候選情感詞限定于形容詞、成詞和習(xí)慣用詞,不考慮名詞。Du等[31]通過已知領(lǐng)域的情感詞典構(gòu)建新領(lǐng)域的情感詞典,除了需要極性標(biāo)注的文檔集外,仍然只考慮了中文評(píng)論數(shù)據(jù)中的形容詞、副詞及形容詞-名詞短語。當(dāng)考慮名詞為候選詞性時(shí),文章的基本假設(shè)“出現(xiàn)在很多正(負(fù))極性文檔中的候選詞極性為正(負(fù))”就不再成立了。例如,對(duì)“蒙?!钡脑u(píng)論多是負(fù)向的,但“蒙?!北旧聿荒茏鳛榍楦性~。同樣地,文獻(xiàn)[32]分析了名詞屬性的產(chǎn)品可能蘊(yùn)含情感,但這些產(chǎn)品不能作為情感詞。

    以上方法存在一些共性,通常規(guī)定候選情感詞為形容詞,也有部分考慮動(dòng)詞或副詞等,這對(duì)中文新情感詞的抽取是不夠的。另外,已有文獻(xiàn)中對(duì)新情感詞的評(píng)測通常是間接的,即考察新情感詞對(duì)文本情感分類的影響,但如前面例子所述,這與新情感詞抽取的任務(wù)還是有區(qū)別的。再者,這些方法通常假設(shè)已知的情感詞典規(guī)模為數(shù)十或上百條,通過多次迭代或傳播,逐步擴(kuò)展(propagation)。雖然這一方法能找出一些情感性較強(qiáng)的詞,但它們很多時(shí)候都已經(jīng)被人工納入了相對(duì)大的情感詞典,用它來發(fā)現(xiàn)情感詞典不包含的新情感詞就困難很多。實(shí)際應(yīng)用中我們發(fā)現(xiàn),不論英語還是中文,都已經(jīng)存在多部規(guī)模過萬的情感詞典。如何充分利用這樣的資源去發(fā)現(xiàn)新情感詞是一個(gè)有意義的工作,這也正是本文的研究內(nèi)容。

    3 特征分析

    本節(jié)以COAE 2014 任務(wù)3提供的中文微博數(shù)據(jù)集COAET3Corpus*http://pan.baidu.com/s/1nCafe為數(shù)據(jù)源,以大連理工大學(xué)發(fā)布的情感詞典DUTSD*http://ir.dlut.edu.cn/EmotionOntologyDownload.aspx[33]為統(tǒng)計(jì)對(duì)象,分析情感詞在中文微博中的詞性分布、情感詞之間的點(diǎn)互信息、Dice系數(shù)和Jaccard系數(shù),以及共現(xiàn)在同一微博中的情感詞的極性差異等,主要目的是分析經(jīng)典的、用于英文微博或產(chǎn)品評(píng)論的新情感詞提取方法中所采用的一些特征是否同樣適用于中文微博。

    3.1 數(shù)據(jù)準(zhǔn)備

    中文微博數(shù)據(jù)集 COAET3Corpus包含9 999 626條中文微博,不是針對(duì)某一種或多種產(chǎn)品評(píng)論的集合,而是包含廣告、個(gè)人評(píng)論、日常心情傾述、生活瑣事記錄等,是真實(shí)微博的一個(gè)縮影。該數(shù)據(jù)集只包含微博內(nèi)容,不含諸如作者、發(fā)布時(shí)間等信息。對(duì)該數(shù)據(jù)集,首先利用中國科學(xué)院ICTCLAS2013*http://ictclas.nlpir.org分詞工具進(jìn)行分詞和詞性標(biāo)注,再用Stanford的NLP工具CoreNLP*http://nlp.stanford.edu/software/corenlp.shtml對(duì)切分后的微博進(jìn)行詞性標(biāo)。選擇ICTCLAS2013進(jìn)行分詞的原因是,該工具考慮了中文微博的一些特點(diǎn),并且可以發(fā)現(xiàn)并標(biāo)注新詞。

    情感詞典 情感詞典基于DUTSD,并根據(jù)任務(wù)需要進(jìn)行一些必要的過濾。過濾規(guī)則: (1) COAE任務(wù)3要求從中文微博中發(fā)現(xiàn)新情感詞并判斷它的極性,極性強(qiáng)且無歧義的情感詞應(yīng)該是首選,因此,實(shí)驗(yàn)中去掉DUTSD中有極性歧義(不同詞性或不同場合時(shí)極性不一致)的情感詞及情感極性標(biāo)為“0”的情感詞;(2) 沒有出現(xiàn)在COAET3Corpus中的情感詞對(duì)本節(jié)的統(tǒng)計(jì)和后面的分類學(xué)習(xí)沒有幫助,無需保留;(3)考慮到微博分詞時(shí)不太可能把一個(gè)較長的短語或句子劃分為一個(gè)詞,因此,去掉長度超過四的情感詞或短語;(4) 很少在COAET3Corpus中出現(xiàn)的情感詞,其統(tǒng)計(jì)意義不明顯,因此去掉文檔頻率(每條微博視為一個(gè)文檔)小于三的情感詞。通過上述四條過濾規(guī)則過濾后的情感詞典稱為DUTSD-,包含情感詞10 681條,其中正、負(fù)極性分別為5 476條和5 205條。盡管DUTSD-無法涵蓋所有的情感詞,但大多數(shù)常用的情感詞都被納入,因此DUTSD-包含的情感詞的分布能大致反映所有情感詞的分布。

    3.2 情感詞的詞性分布

    在DUTSD-中,情感詞的詞性分布如表1所示。其中idiom(慣用語)的比例最大,但無論是 ICTCLAS2013還是CoreNLP,都將該類詞標(biāo)為其他的詞性。另外,同一個(gè)詞,在不同的句子中也可能會(huì)標(biāo)為不同的詞性。

    表1 情感詞詞性在DUTSD中的分布

    表2和表3分別是DUTSD-中的情感詞在COAET3Corpus中的詞性分布,其中NS和PS分別表示標(biāo)注為某種詞性的情感詞的總數(shù)(以K為單位)及其所占總情感詞的比例,NT表示標(biāo)為該詞性的全部詞數(shù),包含其他不在情感詞典中的詞。需要說明的是,由于一個(gè)情感詞在數(shù)據(jù)集中可能會(huì)以不同的詞性出現(xiàn), 因此, 表2和表3中的總詞數(shù)大于DUTSD-中的總詞數(shù)。表2和表3顯示,有40%以

    上的情感詞在中文微博中以名詞詞性(ICTCLAS2013標(biāo)為{“n”,“nl”,“nr”,“nz”,“nr2”,“n_new”, “ns”}或CoreNLP標(biāo)為{“NN”, “NR”, “NT”})出現(xiàn)過??紤]到部分情感詞會(huì)以多種不同的詞性出現(xiàn)在數(shù)據(jù)集中,我們統(tǒng)計(jì)了那些只以名詞詞性出現(xiàn)的情感詞,發(fā)現(xiàn)在英文tweets*英文微博數(shù)據(jù)來自文獻(xiàn)[29]提供的1M tweet ids,下載后得到991 248條tweets,用Stanford CoreNLP進(jìn)行詞性標(biāo)。中,只以名詞詞性出現(xiàn)過的情感詞占情感詞典MPQA*本文在統(tǒng)計(jì)時(shí),采用MPQA中主觀性強(qiáng)的詞為情感詞,如果是名詞則添加其復(fù)數(shù)形式,如果是動(dòng)詞、形容詞或副詞,則添加其曲折變化形式,并且只考慮那些在數(shù)據(jù)集中出現(xiàn)的情感詞。的15%,但在中文微博COAET3Corpus中,該比例高達(dá)40%。此外,tweets中以動(dòng)詞、形容詞或副詞出現(xiàn)過的情感詞占84%,但COAET3Corpu中這一比例只有56%。結(jié)合文獻(xiàn)[24]的實(shí)驗(yàn)結(jié)果,即英文中被分類為情感詞的頻率依次是形容詞、副詞、動(dòng)詞和名詞,在綜合考慮精度和召回率的情況下,在從英文微博中抽取新情感詞時(shí)僅考慮動(dòng)詞、形容詞和副詞是合理的。但從中文微博中抽取新情感詞時(shí),考慮名詞則非常必要。

    表2 COAET3Corpus中情感詞詞性分布- ICTCLAS2013標(biāo)注

    表3 COAET3Corpus中情感詞詞性分布-CoreNLP標(biāo)注

    然而,如果將所有名詞全部作為候選情感詞,又會(huì)引入大量的噪音,因?yàn)榇罅勘粯?biāo)為名詞的詞并非情感詞。例如,在ICTCLAS2013標(biāo)注結(jié)果中,48.38K個(gè)詞標(biāo)注為“n”,但僅有4.7K個(gè)是DUTSD-中的情感詞,而CoreNLP標(biāo)注的比較粗糙,8.25K個(gè)標(biāo)為“NN”的情感詞散布在335.90K個(gè)詞中。

    3.3 情感詞的共現(xiàn)分析

    諸如基于PMI及詞匯圖的方法大都假設(shè)情感詞與情感詞之間有較高的共現(xiàn),并且同一微博中,情感詞的極性是一致的?;诖思僭O(shè),然后通過已知的種子情感詞,擴(kuò)展得到新情感詞。COAET3Corpus中情感詞在微博中共現(xiàn)的情況如表4所示。

    表4顯示,在COAET3Corpus中,超過36%的微博中沒有包含DUTSD-中的情感詞,包含兩個(gè)以上情感詞的微博數(shù)也僅為36%。當(dāng)然,情感詞典越大, 出現(xiàn)多個(gè)情感詞的微博 數(shù)會(huì)越多。但當(dāng)考察那

    表4 COAET3Corpus中情感詞的共現(xiàn)統(tǒng)計(jì)

    些有多個(gè)情感詞共現(xiàn)的微博時(shí),有近40% (14.15/36.09)的微博中出現(xiàn)的情感詞極性是沖突的。進(jìn)一步的統(tǒng)計(jì)顯示,對(duì)于DUTSD-中的10 681條情感詞,有10 669條與其他的情感詞在同一條微博中共現(xiàn)過,其中,有10 604條與相同極性的情感詞共現(xiàn)過,而10 482與不同極性的情感詞共現(xiàn)過。

    從上面的分析可以看出,共現(xiàn)在同一條微博中的多個(gè)情感詞的極性并不完全一致。為了進(jìn)一步考察這種不一致性的統(tǒng)計(jì)特性,本文對(duì)情感詞之間的PMI、Dice系數(shù)及Jaccard系數(shù)的平均值進(jìn)行了分析,如表5所示。其中“+”,“-”分別代表正、負(fù)向極性的情感詞,“0”表示非情感詞。此處的非情感詞是用所有不在DUTSD-中且標(biāo)注為名詞的詞表示,盡管其中還包括一些潛在的待發(fā)現(xiàn)的情感詞,但表2和表3顯示,絕大多數(shù)這類詞并非情感詞。

    表5顯示,負(fù)向情感詞之間的PMI,Dice系數(shù)和Jaccard系數(shù)明顯高于該指標(biāo)在其他極性詞之間的值。然而,正向情感詞之間、負(fù)向情感詞與正向情感詞之間、以及非情感詞與正向情感詞之間的PMI、Dice系數(shù)和Jaccard系數(shù)區(qū)別不大。因此,可以推測,用PMI、Dice系數(shù)和Jaccard系數(shù)并不能很好地評(píng)估潛在的正向情感詞,進(jìn)而影響到整個(gè)情感詞的抽取,特別是采用Propagation方法時(shí),極性的錯(cuò)誤判斷會(huì)傳播給后續(xù)的抽取過程。

    此外,當(dāng)把名詞作為候選情感詞時(shí),這些名詞與已知情感詞的PMI,Dice系數(shù)和Jaccard系數(shù)并不低于這些指標(biāo)在情感詞之間的值。例如,非情感詞與正向情感詞之間的PMI為3.25,反而高于正向情感詞之間的PMI (2.47)。因此,與正向情感詞共現(xiàn)較高的更可能是非情感詞(特別是名詞),而非潛在的正向情感詞。當(dāng)然,名詞與負(fù)向情感詞也存在較強(qiáng)的共現(xiàn),因此,在實(shí)際計(jì)算候選情感詞的極性時(shí),需要考慮候選情感詞與正、負(fù)向情感詞共現(xiàn)之間的差異,但可以肯定的是,名詞的加入,勢(shì)必帶來更多的噪聲。

    表5 情感詞間的PMI、Dice系數(shù)和Jaccard系數(shù)

    4 NGC算法

    4.1 動(dòng)機(jī)

    3.2節(jié)和3.3節(jié)的分析表明,從中文微博中抽取新情感詞時(shí),不能僅考慮形容詞、動(dòng)詞、副詞等,名詞也有必要作為候選情感詞。另外,經(jīng)典的基于共現(xiàn)的新情感詞發(fā)現(xiàn)方法對(duì)于中文也不完全適用。原因之一是共現(xiàn)的情感詞極性存在大量矛盾;其二是引入名詞后,增加了大量的噪聲,使得基于共現(xiàn)的思路不再有效。

    在從中文微博中抽取新情感詞時(shí),兩個(gè)資源的價(jià)值應(yīng)該得到充分的利用,包括現(xiàn)有的情感詞典和數(shù)億計(jì)的微博數(shù)據(jù)。基于詞匯圖的方法和基于Propagation的方法通常是從數(shù)十條或上百條情感詞典出發(fā),通過極性傳播或多次迭代,逐步擴(kuò)展得到新情感詞,適用于已知情感詞極少的情況。然而,目前已有的中文情感詞典非常豐富,除前面提到的DUTSD-外,還有清華大學(xué)的THUSD*http://www.datatang.com/data/44522、知網(wǎng)的HNSD*http://www.keenage.com/html/c_bulletin_2007.htm、臺(tái)灣大學(xué)的NTUSD*http://nlg18.csie.ntu.edu.tw:8080/opinion/pub1.html等多部情感詞典資源,規(guī)模都在萬條左右,為基于機(jī)器學(xué)習(xí)的方法抽取新情感詞奠定了良好的基礎(chǔ)。此外,微博數(shù)據(jù)量大,可以為新情感詞的學(xué)習(xí)提供大量的訓(xùn)練樣本。因此,基于機(jī)器學(xué)習(xí)的新情感詞提取方法是比較適合中文微博數(shù)據(jù)的。

    根據(jù)以上分析,本文提出以N-Gram為特征的分類方法NGC,該方法以已知情感詞為訓(xùn)練樣本,以情感詞上下文的N-Gram為特征,訓(xùn)練SVM分類器,對(duì)候選情感詞進(jìn)行分類,并統(tǒng)計(jì)分類結(jié)果,得到新情感詞。需要說明的是,本文的主要目的是在統(tǒng)計(jì)中文微博中情感詞分布的基礎(chǔ)上,探索一種適合從中文微博中抽取新情感詞的方法-基于分類思想。我們相信,采用優(yōu)化的特征對(duì)分類更有利,但探索這些特征是另一項(xiàng)復(fù)雜的工作,我們將其放在后續(xù)的研究任務(wù)中,而本文在分類時(shí),僅采用了非常簡化的特征。盡管分類特征簡單,但仍較經(jīng)典的基于共現(xiàn)的新情感詞抽取方法要好。

    4.2 分類特征

    盡管有文獻(xiàn)將詞、詞性、依存關(guān)系等豐富的特征用于情感詞提取[26],但考慮到中文微博的不規(guī)范性,本文除了將詞性用于候選情感詞的初步過濾外,分類特征只取決于微博中所含的詞,不依賴其他語言處理工具。為簡化問題并突出本文的思想,對(duì)微博中的詞和標(biāo)記都不做任何進(jìn)一步的處理。

    上下文是判斷一個(gè)詞是否是情感詞、以及確定其情感極性的重要依據(jù),本文采用的分類特征基于以下三個(gè)假設(shè):

    假設(shè)1 上下文中所用的詞匯越一致,候選詞的情感傾向性也越接近。例如,表6文檔DOC458072中的“給力”和DOC76210文檔中的“到位”的上下文都是“太……了”。

    假設(shè)2 上下文中所含的詞匯位置不同,候選詞的情感傾向性也不同。例如,文檔DOC458318中非情感詞“感覺”和情感詞“孤獨(dú)”,左右窗口為1時(shí),兩詞上下文相同,即{“很”,“,”},但它們與(候選)情感詞的相對(duì)位置不同。此外,只考慮上下文用詞與(候選)情感詞前后關(guān)系是不夠的,還需要考慮上下文用詞之間的位置關(guān)系,例如,{“是”,“只”}在DOC113527中“有”和DOC76691中“徒勞”的前面,但前者用“是只”,后者用“只是”。

    假設(shè)3 上下文的用詞模式越一致,候選詞的情感傾向性越接近。例如,DOC458318中的“孤獨(dú)”、DOC76691中的“糟糕”、DOC76872中的“不適”,其上下文中都存在“感覺*&”這種用詞模式,其中“*”為任意詞,“&”為(候選)情感詞。另外,“浪漫”、“孤獨(dú)”和“糟糕”有相同用詞模式“很&”,盡管它們的極性不同,但它們之間也有共性,即都是情感詞。顯然,假設(shè)2和假設(shè)3也可以捕捉到否定和修辭等對(duì)情感極性識(shí)別至關(guān)重要的信息。

    表6 來自COAET3Corpus的微博樣本

    基于上述三個(gè)假設(shè),使用公式(1)所示的N-Gram為特征,使得這些特征不僅包含上下文中的詞,還包括詞之間的序及用詞模式。對(duì)于微博s=,設(shè)ti為情感詞或候選新情感詞,ti特征F(ti)表示為式(1)。

    (1)

    其中,n是可調(diào)節(jié)參數(shù), “*”表示此處為任意詞或標(biāo)點(diǎn)。例如,當(dāng)n=2時(shí),表6微博DOC458072中“給力”的特征為:F(“給力”)={“太_&”,“。_太_&”,“&_了”,“&_了_哈哈”,“。_*_&”,“&_*_哈哈”}。

    盡管公式(1)基本滿足了上述三種假設(shè),但仍然存在極性判斷錯(cuò)誤的可能性,因此,還需要利用微博數(shù)據(jù)量大的特征,在分類結(jié)束后對(duì)分類結(jié)果進(jìn)行投票計(jì)分并排序。例如,利用投票,如果在多數(shù)情況下將“孤獨(dú)”分類為負(fù)向情感詞,則最終認(rèn)定“孤獨(dú)”的情感傾向?yàn)樨?fù),并且將其分類為“有情感”的比例越大,認(rèn)為其“有情感”的可能性越大。

    我們有理由相信,恰當(dāng)?shù)念A(yù)處理和更加豐富的上下文詞匯特征會(huì)改善分類的效果。例如,將標(biāo)點(diǎn)符號(hào)“?!薄埃薄?;”等視為同一種標(biāo)記、利用依存分析考慮長距離依賴、挖掘和解釋更有效的用詞模式等。此外,融合其他用于中文微博情感分類的特征也可能提高新情感詞提取的效果,這是我們將來的主要工作之一。

    4.3 算法

    NGC算法主要包括以下六步。

    Step 1 構(gòu)建情感詞詞典SD和非情感詞詞典NSD。通過以下兩個(gè)假設(shè)來構(gòu)建情感詞典和非情感詞典: (1)情感詞要求沒有歧義,本文選用DUTSD-作為情感詞典;(2)所有可能存在情感的詞、以及未登錄詞都不應(yīng)該作為非情感詞,本文用公式(2)來構(gòu)建非情感詞詞典。

    NSD = CommonDict-MixSD

    (2)

    其中CommonDict是一個(gè)通用的詞典,包含情感詞及非情感詞,本文選用COAE任務(wù)3提供的通用詞典;混合情感詞典MixSD(共38 445條)中,DUTSD、HNSD、THSD、NTUSD分別為來自大連理工大學(xué)、知網(wǎng)、清華大學(xué)、臺(tái)灣大學(xué)的情感詞典,新浪微博表情符號(hào)為部分標(biāo)注過的符號(hào),如“[c傷心]”標(biāo)注為負(fù)極性情感詞。

    Step 2 對(duì)中文微博數(shù)據(jù)集進(jìn)行分詞和詞性標(biāo)注。本文選擇ICTCLAS2013作分詞及詞性標(biāo)注。

    Step 3 根據(jù)SD和NSD構(gòu)建訓(xùn)練樣本。對(duì)于來自微博s的詞t,如果t∈ SD,則t的標(biāo)簽為t在SD中的極性,"+1"表示情感傾向?yàn)檎?-1"表示情感傾向?yàn)樨?fù);如果t∈ NSD,則t的標(biāo)簽為"0"。t的特征如公式(1)所示。

    相比情感詞,數(shù)據(jù)集中更多的是非情感詞,這導(dǎo)致樣本分布嚴(yán)重失衡。設(shè)被貼上標(biāo)簽“0”的樣本數(shù)為C0,為平衡樣本分布,本文隨機(jī)選擇βC0個(gè)樣本參與訓(xùn)練,其中參數(shù)0<β<1。

    Step 4 抽取候選新情感詞。微博數(shù)據(jù)集中所有未通過step 3貼上標(biāo)簽的詞,如果滿足以下條件,則被視為候選新情感詞,參與后續(xù)的分類過程: (1)詞長在2至4之間;(2)文檔頻率大于等于3;(3)被標(biāo)注的詞性屬于指定的候選詞性集合POS。作為對(duì)比,本文在實(shí)驗(yàn)部分考慮了不同的候選詞性對(duì)新情感詞提取的影響。

    Step 5 訓(xùn)練分類器并對(duì)候選新情感詞分類。利用Step 3得到的樣本訓(xùn)練SVM分類器,并對(duì)候選新情感詞進(jìn)行分類。本文選擇libleaner 1.94*http://www.csie.ntu.edu.tw/~cjlin/liblinear/完成訓(xùn)練與分類任務(wù),訓(xùn)練參數(shù)設(shè)置為: “-s 4 -e 0.1”。

    (3)

    其中參數(shù)α為用于調(diào)節(jié)正向與負(fù)向情感詞樣本不均導(dǎo)致的分類偏差(在COAET3Corpus中,正負(fù)極性樣本比例為3.5∶1),本文在實(shí)驗(yàn)的基礎(chǔ)上設(shè)置其值為2.5。該分值大于0,表示情感傾向性為正,小于0,表示傾向性為負(fù),其絕對(duì)值越大,表示對(duì)該詞情感傾向性的劃分越可信。在返回結(jié)果時(shí),去掉Score值為0的候選詞,并對(duì)剩余的候選新情感詞按Score的絕對(duì)值排序(不限制返回結(jié)果的個(gè)數(shù))。

    5 實(shí)驗(yàn)分析

    除參與COAE 2014 任務(wù)3評(píng)測外,本節(jié)組織了更詳細(xì)的實(shí)驗(yàn)、評(píng)測和分析。中文微博數(shù)據(jù)集選用COAET3Corpus,情感詞詞典SD和非情感詞詞典NSD來自第四節(jié)的Step 1。將SD均分為兩份SDTrain和SDTest,分別用于訓(xùn)練和測試。

    5.1 評(píng)測方法

    以SDTest為理想結(jié)果,采用兩組評(píng)測指標(biāo),Bpref[34]以及插值后11點(diǎn)平均精度AP。選擇Bpref作為評(píng)測指標(biāo)的原因在于,對(duì)于新情感詞發(fā)現(xiàn)任務(wù),"理想"的新情感詞詞典SDTest規(guī)模非常有限,不在SDTest及NSD中的詞未必不是新情感詞。因此,對(duì)于這些不能確定是否為情感詞的部分,Bpref不將它們納入考慮范圍。此外,Bpref還考慮了新情感詞在返回結(jié)果中的位置,越靠前越好。然而,如果返回大量不在SDTest及NSD中的非情感詞,Bpref同樣無法檢測到,但AP指標(biāo)可以探測到。因此,結(jié)合Bpref和AP是必要的。實(shí)驗(yàn)觀察到召回為0時(shí)的精度極易受到首個(gè)返回詞是否來自SDTest的影響,波動(dòng)較大,超出了該詞對(duì)整個(gè)評(píng)測結(jié)果的影響,因此本文中的AP不考慮召回為0時(shí)的情況。另外,評(píng)測結(jié)果是將SD進(jìn)行三次均分,然后進(jìn)行三次訓(xùn)練、測試得到的結(jié)果的平均值。

    5.2 結(jié)果與分析

    按照第三節(jié)的分析,除形容詞外,名詞作為候選新情感詞是必要的。為了驗(yàn)證該假設(shè),本文對(duì)比了四組候選新情感詞的詞性集合,分別為:

    PosAll = 全部詞性集合,即所有詞都作為候選情感詞。

    PosAVDN = {n, vl, a, v, vn, vi, an, nl, z, al, ad, d, b, dl, vd, bl },即根據(jù)表2中統(tǒng)計(jì)的情感詞詞性分布,從最頻繁的詞性開始依次選取,直到覆蓋98%以上的情感詞為止。

    PosAVD = { vl, a, v, vn, vi, an, z, al, ad, d, b, dl, vd, bl },即去掉PosAVDN中的名詞。

    PosA = {a, an, al, ad},即只保留PosAVDN中的形容詞。

    實(shí)驗(yàn)結(jié)果如表7所示。其中PMI,Dice,Jaccard為文獻(xiàn)[9]采用的情感詞識(shí)別方法;Bpref和AP不考慮極性判斷是否正確,只看新情感詞是否在情感詞詞典中;而Bpref_PN和AP_PN要求新情感詞的極性判斷也要正確;Bprf_P和AP_P表示對(duì)正向新情感詞的評(píng)測結(jié)果,Bprf_N和AP_N表示對(duì)負(fù)向情感詞的評(píng)測結(jié)果。

    表7顯示,不論是基于共現(xiàn)的PMI,Dice,Jaccard方法,還是基于分類的NGC方法,將名詞加入候選情感詞集合中,結(jié)果的Bpref和AP值都更高。相比PosADVN,PosAll將全部詞作為候選情感詞,其AP得分遠(yuǎn)低于PosADVN的得分。對(duì)于NGC方法,那些不在情感詞典或非情感詞典中的詞,由于極性無法判斷因此被Bpref忽略,所以Bpref值并沒明顯下降。但進(jìn)一步觀察NGC在PosAll上的返回結(jié)果發(fā)現(xiàn),的確有大量形如“贏美食卷”“美顏之”“秋冬里”之類的難以定性的詞(或者根本不能稱之為詞),但在Bpref和AP指標(biāo)上仍高于PMI等基于共現(xiàn)的方法。這一方面說明了NGC相比PMI的優(yōu)勢(shì)依然存在,另一方面也體現(xiàn)了增加候選詞的確給新情感詞的抽取帶來挑戰(zhàn)。

    表7 情感詞抽取結(jié)果評(píng)測

    表7同時(shí)也顯示,如果只考慮形容詞,經(jīng)典的基于共現(xiàn)的方法與NGC方法效果是相當(dāng)?shù)模o明顯差異。但考慮更多候選詞性后,NGC方法遠(yuǎn)好于基于共現(xiàn)的方法。

    在3.3節(jié)中提到,在中文微博中,負(fù)極性的情感詞之間的PMI、Dice系數(shù)和Jaccard系數(shù)要明顯高于這些指標(biāo)在其他類型詞之間的值,說明負(fù)極性情感詞之間的共現(xiàn)更強(qiáng)烈,從而使得負(fù)極性的新情感詞更容易被抽取,這與表7中的評(píng)測結(jié)果是一致的: 當(dāng)情感詞不局限在形容詞時(shí),Jaccard和Dice方法對(duì)負(fù)極性新情感詞抽取結(jié)果的得分都明顯高于對(duì)正極性新情感詞的抽取。另外,當(dāng)候選詞僅為形容詞時(shí),由于其中的負(fù)向情感詞太少使得召回率無法達(dá)到0.1,導(dǎo)致相應(yīng)的AP_N得分為0。

    Bpref和AP體現(xiàn)了各種方法的總體效果,而圖1展示了基于共現(xiàn)的方法PMI與基于分類的方法NGC在不同候選詞性上的11點(diǎn)精度插值曲線。

    圖1 11點(diǎn)精度插值曲線: PMI vs. NGC (β=0.2, n=4)

    圖1顯示,基于共現(xiàn)的PMI方法可以比較準(zhǔn)確地判斷一個(gè)形容詞是否是情感詞,但隨著更多詞性的候選情感詞加入,這種準(zhǔn)確性越來越低。另外,當(dāng)只考慮形容詞為候選情感詞時(shí),召回率為0時(shí)精度(插值后)非常高,說明對(duì)排名靠前的這些形容詞的情感傾向性判斷是非常準(zhǔn)確的。這從另一個(gè)側(cè)面說明,如果只考慮形容詞,基于共現(xiàn)及Propagation的英文新情感詞發(fā)現(xiàn)方法不僅對(duì)英文有效,對(duì)中文也同樣有效。對(duì)比圖1中NGC方法與PMI方法在不同詞性上的表現(xiàn),結(jié)論是,無論是否考慮名詞詞性,NGC方法不僅在召回率為0時(shí)的精度比較高,并且在召回率較高時(shí),發(fā)現(xiàn)新情感詞的精確度遠(yuǎn)遠(yuǎn)高于PMI方法。

    圖2顯示了平衡非情感詞樣本的參數(shù)β對(duì)新情感詞抽取效果的影響。當(dāng)β=0.2左右時(shí),訓(xùn)練數(shù)據(jù)中標(biāo)簽為“0”的樣本約占總樣本數(shù)量的70%。之所以減少非情感詞的樣本數(shù)量,目的在于將更多的候選情感詞分類到正、負(fù)極性集合中,然后再采用投票的辦法對(duì)其打分。如果太多的候選詞都被分類為無極性,則對(duì)這部分詞的投票打分結(jié)果都為0,無區(qū)分性。當(dāng)然,標(biāo)簽為“0”的樣本也不能過少,否則會(huì)影響到分類的準(zhǔn)確性。

    圖2 參數(shù)β對(duì)NGC的影響(PosADVN, n=4)

    圖3 參數(shù)n對(duì)NGC的影響(PosADVN,β=0.2)

    圖3給出了N-Gram特征中參數(shù)n的影響??梢钥闯?,當(dāng)n從2增加到3時(shí),新情感詞的抽取效果明顯提高。如果n繼續(xù)增加到4時(shí),盡管有改善,但效果已不明顯。也就是說,如果僅以定長窗口為上下文,窗口大小設(shè)定為3就比較合適了。當(dāng)然,如4.2節(jié)所述,基于語法分析結(jié)果的長距離依賴是否有效,還有待進(jìn)一步探討。

    4.2節(jié)中給出了用于確定NGC分類特征的三個(gè)假設(shè),作為對(duì)比,圖4中給出了特征選擇對(duì)新情感詞抽取的效果。其中UGC只考慮假設(shè)1,以上下文中的一元(unigram)信息為特征,即FUGC(ti) = {ti-n,…,ti-1,ti+1,…,ti+n};UGCL同時(shí)指定一元信息位于候選(情感詞)的前或者后,即FUGC(ti)= {ti-n_&, ...,ti_&, &_ti+1, ..., &_ti+n};NGCL考慮上下文的用詞及詞匯位置,但不考慮其中的用詞模式,即:FNGC-L(ti) = {ti-1_&,&_ti+1,

    ti-2_ti-1_&,&_ti+1_ti+2, …,ti-n_..._ti-1_&,&_ti+1_..._ti+n};NGC+UGCL除采用式NGC在公式(1)中的特征外,增加了UGCL的特征,因?yàn)閁GCL中的特征可以看成是另一種用詞模式。很顯然,只考慮上下文中的unigram是不夠的,但考慮unigram位于(候選)情感詞的前或后是有幫助的。僅用(候選)情感詞前后N-Gram的NGCL效果已經(jīng)比較理想,增加用詞模式后的NGC的確可以進(jìn)一步改善抽取效果,但并不意味著越多的用詞模式(NGC+UGCL)就會(huì)越好。

    圖4 不同詞匯特征對(duì)分類的影響(β=0.2, n=4)

    5.3 COAE 2014 任務(wù)3評(píng)測結(jié)果

    COAE 2014任務(wù)3要求從COAET3Corpus中選擇不出現(xiàn)在CommonDict詞典中的新情感詞一萬條,26支參賽系統(tǒng)中排名前十的評(píng)測結(jié)果如表8所示。我們提交的兩個(gè)系統(tǒng)中,UdeM-t3-1是采用NGC算法。由于該任務(wù)要求提交的新情感詞不在給定詞典CommonDict中即可,因此,作為UdeM-t3-1的參照,在UdeM-t3-2中,先從混合情感詞典MixSD中選擇出現(xiàn)在COAET3Corpus中但不在CommonDict中的詞8 246條作為新情感詞,不足的1 754 條再根據(jù)Score值從NGC算法得到的結(jié)果中選取。對(duì)于MixSD中存在極性歧義的情感詞(在同一情感詞典或不同的情感詞典中標(biāo)注的極性不同),其情感極性為情感詞所在微博中,極性最強(qiáng)的那條微博的極性。微博的極性則用libleaner的線性回歸

    表8 COAE 2014任務(wù)3中排名前十的參賽系統(tǒng)及評(píng)測結(jié)果

    方法,在COAE 2013*http://ccir2013.sxu.edu.cn/COAE.aspx和NLP&CC 2012*http://tcci.ccf.org.cn/conference/2013/pages/page04_tdata.html提供的微博情感分類數(shù)據(jù)集上訓(xùn)練得到。

    表8顯示,盡管UdeM-t3-2從已知的混合詞典中選取了8 000余詞條,但如果不考慮極性,僅從情感詞的召回和精度看,F(xiàn)值只有0.168 0,而最好系統(tǒng)的F值也僅為0.207 0。一個(gè)可能的原因是,微博中的情感詞遠(yuǎn)不止10 000條,這樣盡管所提交結(jié)果中的80%詞條來自已知的情感詞典,但它與參考答案給出的情感詞相互覆蓋率仍然很低。普遍較低的F值也說明從中文微博中提取新情感詞是一項(xiàng)具極具挑戰(zhàn)性的任務(wù)。另外,采用NGC方法的Ude-M-t3-1 與UdeM-t3-2的評(píng)測結(jié)果并沒有明顯的差距,這反映出NCG方法的性能接近直接從已知情感詞典中選擇情感詞的效果,其在整個(gè)參賽系統(tǒng)中也表現(xiàn)出很強(qiáng)的競爭力。

    6 結(jié)論與展望

    由于在輿情分析和產(chǎn)品評(píng)論分析等領(lǐng)域有著重要的應(yīng)用價(jià)值,文本情感分析近年來受到國內(nèi)外學(xué)術(shù)界和企業(yè)界的普遍關(guān)注。情感詞典作為文本情感分析的重要資源,需要覆蓋全、更新快、標(biāo)注準(zhǔn)。人工構(gòu)建情感詞典盡管標(biāo)注準(zhǔn)確,但覆蓋有限,更新困難,特別在Web 2.0環(huán)境下,新情感詞層出不窮、傳播迅速,因此,需要采用自動(dòng)或半自動(dòng)的方式從各種網(wǎng)絡(luò)數(shù)據(jù)中抽取新情感詞,而微博就是可用于新情感詞抽取的重要網(wǎng)絡(luò)數(shù)據(jù)之一。

    本文利用手工構(gòu)建的情感詞典,分析了中文微博數(shù)據(jù)中情感詞分布的特點(diǎn),包括其情感詞的詞性分布、情感詞共現(xiàn)情況、共現(xiàn)的情感詞間極性沖突情況,以及這些特點(diǎn)給新情感詞抽取帶來的挑戰(zhàn)?;谝陨戏治?,提出了基于分類的新情感詞抽取方法NGC。NGC充分利用已有的情感詞典資源和微博數(shù)據(jù)量大的特點(diǎn),將候選情感詞擴(kuò)大到名詞詞性上,并以已知情感詞或候選情感詞上下文的N-Gram組合為特征,訓(xùn)練SVM分類器并對(duì)候選情感詞進(jìn)行分類,最后再采用投票的方式確定情感詞的極性及該極性的可信度。在AP和Bpref兩個(gè)指標(biāo)上的評(píng)測結(jié)果都顯示,考慮名詞對(duì)中文微博新情感詞抽取是必要的??紤]名詞意味著加入了大量的非情感詞作為候選,加大了抽取的難度。實(shí)驗(yàn)結(jié)果顯示,考慮名詞后,NGC方法比基于共現(xiàn)的PMI等方法更有效,其在COAE 2014 任務(wù)3中也表現(xiàn)出很強(qiáng)的競爭力。

    目前,NGC采用的特征非常簡單,僅考慮了已知情感詞和候選情感詞定長窗口內(nèi)的上下文,并且沒有做任何進(jìn)一步的處理。對(duì)于中文新情感詞的抽取,還有哪些特征可以利用,這些特征在中英文等不同語種上有何異同,在微博或新聞?lì)悢?shù)據(jù)上有何異同,都值得我們進(jìn)一步探討。此外,分詞是從中文微博中抽取新情感詞需要克服的一大障礙,在COAE 2014任務(wù)3提供的參考答案中,有正負(fù)極性的詞條共3 468個(gè),其中2 469個(gè)都沒有被ICTCLAS2013正確分詞。

    [1] Pang B, L Lee. Opinion Mining and Sentiment Analysis[J]. Foundations and Trends in Information Retrieval. 2008, 2(1-2): 1-135.

    [2] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報(bào), 2010,21(8): 1834-1848.

    [3] Liu B. Sentiment Analysis and Opinion Mining. Morgan & Claypool. 2012.

    [4] Jiang L, et al. Target-dependent Twitter sentiment classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics: Portland, Oregon. 2011: 151-160.

    [5] Bravo-Marquez F, M Mendoza, B Poblete. Combining strengths, emotions and polarities for boosting Twitter sentiment analysis[C]//Proceedings of the Second International Workshop on Issues of Sentiment Discovery and Opinion Mining. ACM: Chicago, Illinois. 2013: 1-9.

    [6] Hatzivassiloglou V, K R McKeown. Predicting the semantic orientation of adjectives[C]//Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics: Madrid, Spain. 1997: 174-181.

    [7] Turney P D, M L Littman. Measuring praise and criticism: Inference of semantic orientation from association[J] Acm Transaction on Information System. 2003, 21(4): 315-346.

    [8] Kaji N, M Kitsuregawa. Building Lexicon for Sentiment Analysis from Massive Collection of HTML Documents[C]//Proceedings of EMNLP-CoNLL. 2007: 1075-1083.

    [9] Feng S, et al. Is Twitter A Better Corpus for Measuring Sentiment Similarity?[C]//Proceedings of EMNLP2013. 2013: 897-902.

    [10] Yu H, Z H Deng, S Li. Identifying Sentiment Words Using an Optimization-based Model without Seed Words[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2013: 855-859.

    [11] Kamps J, et al. Using wordnet to measure semantic orientations of adjectives[C]//Proceedings of 4th International Conference on Language Resources and Evaluation. 2004: 1115-1118.

    [12] Andreevskaia A, S Bergler. Mining WordNet for a Fuzzy Sentiment: Sentiment Tag Extraction from WordNet Glosses[C]//Proceedings of EACL. 2006: 209-215.

    [13] Rao D, D Ravichandran. Semi-supervised polarity lexicon induction[C]//Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics: Athens, Greece. 2009: 675-682.

    [14] Esuli A, F Sebastiani. Pageranking wordnet synsets: An application to opinion mining[C]//Proceedings of ACL. 2007: 442-431.

    [15] Hassan A, D Radev. Identifying text polarity using random walks[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics: Uppsala, Sweden. 2010: 395-403.

    [16] Hassan A, et al. Identifying the semantic orientation of foreign words[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers-Volume 2. Association for Computational Linguistics: Portland, Oregon. 2011: 592-597.

    [17] Velikovich L, et al. The viability of web-derived polarity lexicons, in Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics: Los Angeles, California. 2010: 777-785.

    [18] Peng W, D H Park. Generate adjective sentiment dictionary for social media sentiment analysis using constrained nonnegative matrix factorization[C]//Proceedings of ICWSM. 2011.

    [19] Qiu G, et al. Expanding Domain Sentiment Lexicon through Double Propagation[C]//Proceedings of IJCAI. 2009: 1199-1204.

    [20] Zhao W X, et al. Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics: Cambridge, Massachusetts.2010:56-65.

    [21] Lazaridou A, I Titov, C Sporleder. A bayesian model for joint unsupervised induction of sentiment, aspect and discourse representations[C]//Proceedings of ACL. 2013: 1630-1639.

    [22] Xu L, et al. Walk and learn: a two-stage approach for opinion words and opinion targets co-extraction[C]//Proceedings of the 22nd international conference on World Wide Web companion. International World Wide Web Conferences Steering Committee: Rio de Janeiro, Brazil. 2013: 95-96.

    [23] Kim S-M, E Hovy. Determining the sentiment of opinions[C]//Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics: Geneva, Switzerland. 2004: 1367-1373.

    [24] Esuli A, F Sebastiani. Sentiwordnet: A publicly available lexical resource for opinion mining[C]//Proceedings of LREC. 2006.

    [25] Mohtarami M, M Lan, C L Tan. Probabilistic Sense Sentiment Similarity through Hidden Emotions[C]//Proceedings of The 51st Annual Meeting of the Association for Computational Linguistics.2013:983-992.

    [26] Wiebe J. Learning subjective adjectives from corpora[C]//Proceedings of AAAI/IAAI. 2000: 735-740.

    [27] Hatzivassiloglou V, J M Wiebe. Effects of adjective orientation and gradability on sentence subjectivity[C]//Proceedings of the 18th conference on Computational linguistics-Volume 1. Association for Computational Linguistics. 2000: 299-305.

    [28] Riloff E, J Wiebe, T Wilson. Learning subjective nouns using extraction pattern bootstrapping[C]//Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL 2003-Volume 4. Association for Computational Linguistics: Edmonton, Canada. 2003: 25-32.

    [29] Volkova S, T Wilson, D Yarowsky. Exploring sentiment in social media: Bootstrapping subjectivity clues from multilingual twitter streams[C]//Proceedings of Association for Computational Linguistics (ACL). 2013: 505-510.

    [30] Xu G, X Meng, H Wang. Build Chinese emotion lexicons using a graph-based algorithm and multiple resources[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics: Beijing, China. 2010: 1209-1217.

    [31]DuW,etal.Adaptinginformationbottleneckmethodforautomaticconstructionofdomain-orientedsentimentlexicon[C]//Proceedingsofthe3rdACMInternationalConferenceonWebSearchandDataMining.ACM:NewYork,NewYork,USA. 2010: 111-120.

    [32]ZhangL,BLiu.Identifyingnounproductfeaturesthatimplyopinions[C]//Proceedingsofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies:shortpapers-Volume2.AssociationforComputationalLinguistics:Portland,Oregon. 2011: 575-580.

    [33] 徐琳宏,等. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008. 27(2): 180-185.

    [34]BuckleyC,EMVoorhees.Retrievalevaluationwithincompleteinformation[C]//Proceedingsofthe27thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval. 2004: 25-32.

    Extracting Sentimental Lexicons from Chinese Microblog: a Classification Method using N-Gram Features

    LIU Dexi1, NIE Jianyun2, ZHANG Jing3, LIU Xiaohua2, WAN Changxuan1, LIAO Guoqiong1

    (1. School of Information Technology, Jiangxi University of Finance and Economics, Nanchang, Jiangxi 330013, China;2. Department of Computer Science and Operations Research, University of Montreal, Montreal, H3C3J7,Canada;3. School of Computer Science and Engineering, South China University of Technology, Guangzhou, Guangdong 510641, China)

    Sentimental analysis heavily relies on resources such as sentimental dictionaries. However, it is difficult to manually build such resources with a satisfactory coverage. A promising avenue is to automatically extract sentimental lexicons from microblog data. In this paper, we target the problem of identifying new sentimental words in a Chinese microblog collection provided at COAE 2014. We observe that traditional measures based on co-occurrences, such as pointwise mutual information, are not effective in determining new sentimental words. Therefore, we propose a group of context-based features, N-Gram features, for classification, which can capture the lexical surroundings and lexical patterns of sentimental words. Then, a classifier trained on the known sentimental words is employed to classify the candidate words. We will show that this method works better than the traditional approaches. In addition, we also observe that, different from English, many sentimental words in Chinese are nouns, which cannot be discriminated using co-occurrence-based measures, but can be better determined by our classification method.

    sentimental lexicon extracting; Chinese microblog; classification method; N-Gram features

    劉德喜(1975—),博士,教授,主要研究領(lǐng)域?yàn)樯鐣?huì)媒體處理、信息檢索、自然語言處理等。E-mail:dexi.liu@163.com聶建云(1963—),博士,教授,主要研究領(lǐng)域?yàn)樾畔z索、自然語言處理等。E-mail:nie@iro.umontreal.ca張晶(1973—),博士,講師,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:zhjing@scut.edu.cn

    1003-0077(2016)04-0193-13

    2014-09-15 定稿日期: 2015-03-20

    國家自然科學(xué)基金(61363039, 61173146, 61363010);國家社會(huì)科學(xué)基金(12CTQ042)

    TP391

    A

    猜你喜歡
    極性詞典分類
    分類算一算
    米沃什詞典
    文苑(2019年24期)2020-01-06 12:06:50
    跟蹤導(dǎo)練(四)
    分類討論求坐標(biāo)
    數(shù)據(jù)分析中的分類討論
    評(píng)《現(xiàn)代漢語詞典》(第6版)
    教你一招:數(shù)的分類
    詞典例證翻譯標(biāo)準(zhǔn)探索
    表用無極性RS485應(yīng)用技術(shù)探討
    一種新型的雙極性脈沖電流源
    全区人妻精品视频| 三级男女做爰猛烈吃奶摸视频| 看非洲黑人一级黄片| 亚洲精品乱码久久久久久按摩| 成人综合一区亚洲| 国产亚洲av嫩草精品影院| 亚洲av福利一区| 久久精品夜夜夜夜夜久久蜜豆| 最近中文字幕2019免费版| 亚洲四区av| 嫩草影院入口| 国产亚洲最大av| 在线天堂最新版资源| 亚洲精品一二三| 午夜精品国产一区二区电影 | 午夜福利成人在线免费观看| 麻豆乱淫一区二区| 禁无遮挡网站| 性插视频无遮挡在线免费观看| 搡老乐熟女国产| 亚洲熟妇中文字幕五十中出| 国产精品av视频在线免费观看| 久久久午夜欧美精品| 亚洲欧美精品自产自拍| 永久网站在线| 一本一本综合久久| av在线天堂中文字幕| 久久99蜜桃精品久久| 国产色婷婷99| 精品久久久精品久久久| 亚洲国产欧美在线一区| 精品国产一区二区三区久久久樱花 | 美女大奶头视频| 日本免费在线观看一区| 国产探花极品一区二区| 国产日韩欧美在线精品| 国产v大片淫在线免费观看| 国产精品国产三级国产专区5o| 能在线免费观看的黄片| 亚州av有码| 国产黄色免费在线视频| 天天一区二区日本电影三级| 极品少妇高潮喷水抽搐| 欧美成人一区二区免费高清观看| 婷婷色麻豆天堂久久| 久久久久久久久久久免费av| 波多野结衣巨乳人妻| 丝瓜视频免费看黄片| 干丝袜人妻中文字幕| 国产老妇伦熟女老妇高清| 国产av国产精品国产| 免费电影在线观看免费观看| 欧美三级亚洲精品| 国产精品人妻久久久久久| 亚洲天堂国产精品一区在线| 插阴视频在线观看视频| 日韩成人av中文字幕在线观看| 777米奇影视久久| 亚洲自偷自拍三级| 亚洲自偷自拍三级| 国产成人免费观看mmmm| 免费电影在线观看免费观看| 亚洲精品色激情综合| 免费av毛片视频| 人人妻人人澡欧美一区二区| 看免费成人av毛片| 国产伦精品一区二区三区四那| 天堂网av新在线| 久久久久久久亚洲中文字幕| 午夜福利成人在线免费观看| 91精品国产九色| 国产单亲对白刺激| 国产视频内射| 久久精品国产亚洲网站| 麻豆成人午夜福利视频| 99久国产av精品国产电影| 亚洲四区av| 午夜精品在线福利| 在现免费观看毛片| 最近的中文字幕免费完整| 亚洲欧美中文字幕日韩二区| xxx大片免费视频| 成年女人看的毛片在线观看| 国产又色又爽无遮挡免| 熟妇人妻不卡中文字幕| 在线 av 中文字幕| 日韩伦理黄色片| 色综合色国产| 欧美+日韩+精品| 天堂av国产一区二区熟女人妻| 最近最新中文字幕大全电影3| 高清在线视频一区二区三区| 欧美成人午夜免费资源| 国产在线一区二区三区精| 亚洲精品国产av蜜桃| 国产综合懂色| 成人午夜精彩视频在线观看| 欧美变态另类bdsm刘玥| 国产淫语在线视频| 麻豆成人av视频| a级一级毛片免费在线观看| 中文字幕久久专区| 亚洲av在线观看美女高潮| 国产人妻一区二区三区在| 国产精品久久视频播放| 一夜夜www| 男女下面进入的视频免费午夜| 人妻制服诱惑在线中文字幕| 欧美变态另类bdsm刘玥| 国产日韩欧美在线精品| 国产一区有黄有色的免费视频 | 伊人久久国产一区二区| 午夜精品国产一区二区电影 | 99热网站在线观看| 亚洲怡红院男人天堂| 亚洲国产av新网站| 在线免费观看的www视频| 欧美性感艳星| 国产视频首页在线观看| 97在线视频观看| 亚洲国产精品成人综合色| 精品久久久精品久久久| 亚洲精品日本国产第一区| 能在线免费观看的黄片| 免费看日本二区| 蜜桃亚洲精品一区二区三区| 内地一区二区视频在线| 一级爰片在线观看| 国产精品麻豆人妻色哟哟久久 | 五月伊人婷婷丁香| 哪个播放器可以免费观看大片| 日本猛色少妇xxxxx猛交久久| 免费大片18禁| 日韩成人av中文字幕在线观看| 最近中文字幕高清免费大全6| 欧美xxxx黑人xx丫x性爽| 国产久久久一区二区三区| 免费av观看视频| 伊人久久精品亚洲午夜| 国产高清不卡午夜福利| 日韩欧美 国产精品| av在线观看视频网站免费| 日产精品乱码卡一卡2卡三| 人人妻人人澡欧美一区二区| 男女下面进入的视频免费午夜| 国产精品av视频在线免费观看| 在线观看一区二区三区| 国产 亚洲一区二区三区 | 国产精品国产三级专区第一集| 只有这里有精品99| 草草在线视频免费看| 亚洲国产欧美在线一区| 午夜激情久久久久久久| 黑人高潮一二区| 欧美日韩精品成人综合77777| 国产 一区精品| 自拍偷自拍亚洲精品老妇| 91午夜精品亚洲一区二区三区| 精品一区二区三区人妻视频| av天堂中文字幕网| 国产毛片a区久久久久| 黄色配什么色好看| 日本熟妇午夜| 成人高潮视频无遮挡免费网站| 少妇的逼水好多| 成人午夜精彩视频在线观看| 午夜免费观看性视频| 联通29元200g的流量卡| 免费观看精品视频网站| 成年女人在线观看亚洲视频 | 十八禁国产超污无遮挡网站| 中文字幕制服av| 久久精品国产亚洲av天美| 精品久久久久久久久久久久久| 可以在线观看毛片的网站| www.av在线官网国产| 我的老师免费观看完整版| 亚洲精品视频女| 婷婷六月久久综合丁香| 日韩av免费高清视频| 国产精品久久久久久av不卡| 色综合站精品国产| 搡老乐熟女国产| 插阴视频在线观看视频| 欧美成人精品欧美一级黄| 成人美女网站在线观看视频| 不卡视频在线观看欧美| av在线蜜桃| 哪个播放器可以免费观看大片| 亚洲精品乱久久久久久| 嫩草影院精品99| 午夜福利视频1000在线观看| 国产69精品久久久久777片| 久久久a久久爽久久v久久| 欧美日本视频| 国产精品一区二区性色av| 国产 一区精品| 亚洲av一区综合| 国产视频内射| 亚洲精品一区蜜桃| 久久人人爽人人片av| 观看免费一级毛片| 黄色一级大片看看| 久久久久精品久久久久真实原创| 搡老妇女老女人老熟妇| 熟女电影av网| 波野结衣二区三区在线| 国产精品无大码| 精品久久久久久久久av| 午夜亚洲福利在线播放| 国产淫片久久久久久久久| 精品99又大又爽又粗少妇毛片| 欧美一级a爱片免费观看看| 搞女人的毛片| 亚洲第一区二区三区不卡| 五月伊人婷婷丁香| 亚洲最大成人av| 18禁在线无遮挡免费观看视频| 亚洲综合精品二区| 非洲黑人性xxxx精品又粗又长| 精品久久久久久久久久久久久| 国产成人午夜福利电影在线观看| 国内精品一区二区在线观看| 老司机影院毛片| 天天躁夜夜躁狠狠久久av| 亚洲自拍偷在线| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 欧美成人午夜免费资源| 看黄色毛片网站| 久久久久国产网址| 欧美日韩一区二区视频在线观看视频在线 | 免费看美女性在线毛片视频| 一级毛片我不卡| 插阴视频在线观看视频| 精品人妻熟女av久视频| 内地一区二区视频在线| 欧美高清成人免费视频www| 免费大片黄手机在线观看| 国产白丝娇喘喷水9色精品| 欧美xxⅹ黑人| 国产亚洲5aaaaa淫片| 97人妻精品一区二区三区麻豆| 久久99热这里只有精品18| 又粗又硬又长又爽又黄的视频| 欧美性猛交╳xxx乱大交人| 天天躁日日操中文字幕| 午夜精品在线福利| 成年免费大片在线观看| 蜜桃久久精品国产亚洲av| 国产日韩欧美在线精品| 中国美白少妇内射xxxbb| .国产精品久久| 在线观看av片永久免费下载| 97人妻精品一区二区三区麻豆| 一级毛片 在线播放| 亚洲最大成人av| 亚洲婷婷狠狠爱综合网| 久99久视频精品免费| 国产人妻一区二区三区在| 内地一区二区视频在线| 大香蕉久久网| 精品人妻视频免费看| 嫩草影院精品99| 国产人妻一区二区三区在| 九九爱精品视频在线观看| 少妇的逼水好多| 日本黄大片高清| www.色视频.com| 一个人观看的视频www高清免费观看| 久久99热6这里只有精品| 免费观看精品视频网站| 亚洲在线自拍视频| 少妇熟女aⅴ在线视频| 亚洲成人精品中文字幕电影| 久久99热这里只有精品18| 久久久久久国产a免费观看| 性插视频无遮挡在线免费观看| 日韩一区二区三区影片| 在线观看人妻少妇| 久久久久久久久久人人人人人人| 看非洲黑人一级黄片| 天美传媒精品一区二区| 亚洲成人一二三区av| 尾随美女入室| 你懂的网址亚洲精品在线观看| 看非洲黑人一级黄片| 视频中文字幕在线观看| 啦啦啦啦在线视频资源| 天堂影院成人在线观看| 少妇熟女aⅴ在线视频| 精品人妻视频免费看| 亚洲18禁久久av| 免费看av在线观看网站| 精品国内亚洲2022精品成人| 国产免费福利视频在线观看| 日日撸夜夜添| 欧美成人一区二区免费高清观看| 日本黄色片子视频| 观看免费一级毛片| 少妇熟女aⅴ在线视频| 22中文网久久字幕| 亚洲综合色惰| 超碰av人人做人人爽久久| 老司机影院成人| 久久精品国产亚洲av天美| 一级毛片黄色毛片免费观看视频| 国产精品人妻久久久影院| 国产精品一区www在线观看| 搞女人的毛片| 97人妻精品一区二区三区麻豆| 亚洲18禁久久av| 嫩草影院入口| 男人狂女人下面高潮的视频| 一级毛片aaaaaa免费看小| 看十八女毛片水多多多| 国产三级在线视频| 有码 亚洲区| 日本一二三区视频观看| 久久久久久久国产电影| 亚洲精华国产精华液的使用体验| 永久网站在线| 少妇人妻一区二区三区视频| 男女边吃奶边做爰视频| 插阴视频在线观看视频| 欧美极品一区二区三区四区| 18+在线观看网站| 亚洲精品日韩在线中文字幕| 777米奇影视久久| 婷婷色综合www| 日本一本二区三区精品| 一区二区三区高清视频在线| 一级毛片电影观看| 麻豆乱淫一区二区| 久久精品国产亚洲av涩爱| 精华霜和精华液先用哪个| 噜噜噜噜噜久久久久久91| 嫩草影院入口| videos熟女内射| 亚洲欧美精品自产自拍| 午夜激情久久久久久久| 国产精品美女特级片免费视频播放器| 免费黄频网站在线观看国产| 尾随美女入室| 亚洲精品久久久久久婷婷小说| 久久久精品94久久精品| 亚洲精品成人av观看孕妇| 免费人成在线观看视频色| 永久网站在线| 日韩伦理黄色片| 日韩成人av中文字幕在线观看| 三级毛片av免费| 久久久久久久久中文| 人人妻人人澡欧美一区二区| 我要看日韩黄色一级片| 国产一级毛片在线| 成年版毛片免费区| 亚洲精品成人久久久久久| 免费看美女性在线毛片视频| 免费看日本二区| 久久鲁丝午夜福利片| 亚洲乱码一区二区免费版| 视频中文字幕在线观看| 国产一级毛片在线| 国产午夜精品一二区理论片| 边亲边吃奶的免费视频| 国产精品爽爽va在线观看网站| 三级国产精品片| 内射极品少妇av片p| 久久精品国产自在天天线| 在线观看美女被高潮喷水网站| 秋霞在线观看毛片| 久久久久久久久中文| 国产乱人视频| 亚洲精品色激情综合| 日本一二三区视频观看| 国产色爽女视频免费观看| 插逼视频在线观看| 99久久中文字幕三级久久日本| 成人无遮挡网站| 老师上课跳d突然被开到最大视频| 久久久久久久久久人人人人人人| 婷婷六月久久综合丁香| 一个人观看的视频www高清免费观看| 中文字幕制服av| 看十八女毛片水多多多| 亚洲美女视频黄频| 久久午夜福利片| 老师上课跳d突然被开到最大视频| 人体艺术视频欧美日本| 欧美精品国产亚洲| 日本欧美国产在线视频| 午夜免费观看性视频| 人人妻人人澡欧美一区二区| 国产精品女同一区二区软件| 久久久久久久大尺度免费视频| 熟女电影av网| 美女黄网站色视频| 国产亚洲精品久久久com| 啦啦啦韩国在线观看视频| 亚洲欧美日韩无卡精品| 亚洲国产最新在线播放| 80岁老熟妇乱子伦牲交| 黄片wwwwww| 午夜福利视频1000在线观看| 国产激情偷乱视频一区二区| 亚洲精品视频女| 一级二级三级毛片免费看| 免费黄网站久久成人精品| 国产免费福利视频在线观看| 欧美bdsm另类| 五月玫瑰六月丁香| 美女cb高潮喷水在线观看| 十八禁国产超污无遮挡网站| 人体艺术视频欧美日本| 男女边摸边吃奶| 一个人免费在线观看电影| 日韩亚洲欧美综合| 午夜免费观看性视频| 精华霜和精华液先用哪个| 亚洲高清免费不卡视频| videos熟女内射| 日韩欧美 国产精品| 国国产精品蜜臀av免费| 熟女人妻精品中文字幕| 亚洲人成网站在线观看播放| 国产一区二区在线观看日韩| 老司机影院成人| 国产成人一区二区在线| 亚洲精品,欧美精品| 免费观看性生交大片5| 成人美女网站在线观看视频| 国产午夜精品久久久久久一区二区三区| 国产精品久久视频播放| 80岁老熟妇乱子伦牲交| 看非洲黑人一级黄片| 久久99热这里只频精品6学生| 丝瓜视频免费看黄片| 国产成人精品久久久久久| 亚洲国产欧美人成| 中文字幕人妻熟人妻熟丝袜美| 久久国产乱子免费精品| 熟女人妻精品中文字幕| 日韩成人伦理影院| 成人国产麻豆网| 久久国内精品自在自线图片| 午夜视频国产福利| 国产精品无大码| 国模一区二区三区四区视频| 免费观看精品视频网站| 久久久亚洲精品成人影院| 日本av手机在线免费观看| 精品人妻一区二区三区麻豆| 欧美精品一区二区大全| 观看美女的网站| videos熟女内射| 国产乱人偷精品视频| 日韩,欧美,国产一区二区三区| 久久精品久久久久久噜噜老黄| 国产麻豆成人av免费视频| 波野结衣二区三区在线| 国产欧美另类精品又又久久亚洲欧美| 韩国av在线不卡| 国产老妇女一区| 超碰av人人做人人爽久久| 国产成人a区在线观看| 亚洲自拍偷在线| 日韩亚洲欧美综合| 一个人看的www免费观看视频| 一级a做视频免费观看| 18禁动态无遮挡网站| 日本黄大片高清| 两个人视频免费观看高清| 午夜免费男女啪啪视频观看| 亚洲精品色激情综合| 欧美 日韩 精品 国产| 精品酒店卫生间| 精品久久久久久久久亚洲| 禁无遮挡网站| 看免费成人av毛片| 综合色av麻豆| 国产成人aa在线观看| 成人一区二区视频在线观看| 人人妻人人澡欧美一区二区| av一本久久久久| 国产一级毛片在线| 国产永久视频网站| 美女内射精品一级片tv| 日韩电影二区| 又大又黄又爽视频免费| 韩国av在线不卡| 免费观看在线日韩| 欧美zozozo另类| 久久精品熟女亚洲av麻豆精品 | 久久精品国产自在天天线| 三级毛片av免费| 午夜福利网站1000一区二区三区| 午夜福利视频精品| 精品少妇黑人巨大在线播放| 久久精品综合一区二区三区| 免费黄频网站在线观看国产| 欧美bdsm另类| 啦啦啦啦在线视频资源| 精品一区二区三区人妻视频| 最近中文字幕高清免费大全6| 久久久久久久亚洲中文字幕| 少妇被粗大猛烈的视频| 精品人妻熟女av久视频| 国产精品1区2区在线观看.| 精品一区在线观看国产| 男女那种视频在线观看| 男人舔女人下体高潮全视频| 久久久久性生活片| 成人毛片60女人毛片免费| 亚洲国产精品成人综合色| 久久久久免费精品人妻一区二区| 国产国拍精品亚洲av在线观看| 日本三级黄在线观看| 欧美日韩在线观看h| 97精品久久久久久久久久精品| 免费观看av网站的网址| 日本爱情动作片www.在线观看| 国产午夜精品一二区理论片| 日韩三级伦理在线观看| 高清毛片免费看| 国产一区二区三区av在线| 97精品久久久久久久久久精品| 亚洲欧美精品自产自拍| 亚洲高清免费不卡视频| 国产成人精品福利久久| 最近视频中文字幕2019在线8| 欧美潮喷喷水| 亚洲精品乱久久久久久| 国产精品蜜桃在线观看| 人妻夜夜爽99麻豆av| 欧美激情在线99| 成人美女网站在线观看视频| 日韩欧美精品v在线| 在线免费观看不下载黄p国产| 黄色日韩在线| 听说在线观看完整版免费高清| 国产欧美日韩精品一区二区| 婷婷色综合大香蕉| 亚洲欧美中文字幕日韩二区| 国产精品久久久久久久电影| 偷拍熟女少妇极品色| 亚洲在线自拍视频| 精品国产三级普通话版| 午夜激情福利司机影院| 大话2 男鬼变身卡| 国模一区二区三区四区视频| 国产探花在线观看一区二区| 国产 亚洲一区二区三区 | 国产av国产精品国产| 伦精品一区二区三区| 搡老乐熟女国产| 啦啦啦韩国在线观看视频| 免费不卡的大黄色大毛片视频在线观看 | 久久久a久久爽久久v久久| 国内精品宾馆在线| 精品不卡国产一区二区三区| 亚洲婷婷狠狠爱综合网| 亚洲色图av天堂| 女人十人毛片免费观看3o分钟| 久久久久免费精品人妻一区二区| 色综合站精品国产| 秋霞伦理黄片| 日本猛色少妇xxxxx猛交久久| 一级毛片aaaaaa免费看小| 床上黄色一级片| 成人欧美大片| 精品久久久久久久久av| 久久久久久久久久久丰满| 亚洲怡红院男人天堂| 九九爱精品视频在线观看| 久久精品国产自在天天线| 欧美 日韩 精品 国产| 欧美bdsm另类| 18禁动态无遮挡网站| 五月伊人婷婷丁香| 国产久久久一区二区三区| 色综合亚洲欧美另类图片| 伊人久久国产一区二区| 99热网站在线观看| 中文字幕免费在线视频6| 黄片wwwwww| 精品久久久久久成人av| 少妇丰满av| 亚洲av电影不卡..在线观看| 黄片wwwwww| 亚洲av不卡在线观看| av国产免费在线观看| 特大巨黑吊av在线直播| 免费观看a级毛片全部| 久热久热在线精品观看| 美女大奶头视频| 久热久热在线精品观看| 美女大奶头视频| 国产精品蜜桃在线观看| 亚洲成人中文字幕在线播放| 韩国高清视频一区二区三区| 亚洲精品久久久久久婷婷小说| 免费黄色在线免费观看| 国产女主播在线喷水免费视频网站 | 在线观看免费高清a一片| 网址你懂的国产日韩在线| 大片免费播放器 马上看| 久久久久久久久久久免费av| 深爱激情五月婷婷| 青春草视频在线免费观看| 亚洲欧洲国产日韩| 极品少妇高潮喷水抽搐| 亚洲18禁久久av| 天堂av国产一区二区熟女人妻| 激情五月婷婷亚洲| 国产伦理片在线播放av一区|