王萬良,潘 蒙
(浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310023)
基于多特征的視頻關(guān)聯(lián)文本關(guān)鍵詞提取方法
王萬良,潘 蒙
(浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310023)
針對(duì)互聯(lián)網(wǎng)多媒體視頻數(shù)量的爆炸式增長導(dǎo)致快速獲取視頻的內(nèi)容變得非常困難問題,提出了一種基于多特征的關(guān)鍵詞提取算法TFL-WS算法.通過分析視頻包含豐富的相關(guān)文本信息的特點(diǎn),建立了基于改進(jìn)TF和多特征的候選詞權(quán)重計(jì)算公式,該公式將候選詞的統(tǒng)計(jì)特征與位置權(quán)重動(dòng)態(tài)結(jié)合起來,并考慮候選詞的詞性、詞跨度等屬性,借助擴(kuò)展的同義詞詞林來提取關(guān)鍵詞,通過提取到的關(guān)鍵詞來表述視頻的內(nèi)容信息.實(shí)驗(yàn)結(jié)果表明:改進(jìn)后的算法所提取的關(guān)鍵詞效果更好,在準(zhǔn)確率和召回率方面都有一定的提升,并且能夠很好的表示視頻的內(nèi)容.
關(guān)鍵詞提??;視頻內(nèi)容;TF;特征詞權(quán)重
隨著互聯(lián)網(wǎng)的快速發(fā)展以及國務(wù)院對(duì)三網(wǎng)融合的大力推進(jìn),網(wǎng)絡(luò)中的多媒體業(yè)務(wù)得到了高速增長.面對(duì)互聯(lián)網(wǎng)視頻的爆炸式增長,由于目前多采用人工標(biāo)注的方法對(duì)視頻內(nèi)容進(jìn)行標(biāo)注,這種方式存在人為主觀因素,同時(shí)視頻內(nèi)容的自動(dòng)獲取和監(jiān)管也面臨嚴(yán)峻的挑戰(zhàn).因此,通過大量分析互聯(lián)網(wǎng)視頻內(nèi)容的特點(diǎn),發(fā)現(xiàn)視頻本身包含了豐富的文本信息,通過獲取這些文本信息并提取關(guān)鍵詞,從而能夠快速獲得視頻內(nèi)容概要,進(jìn)而可以得到視頻內(nèi)容.
目前,關(guān)鍵詞提取算法主要分為4類:1) 基于統(tǒng)計(jì)的方法,主要通過詞語的統(tǒng)計(jì)信息來提取文檔的關(guān)鍵詞,這種方法相對(duì)簡(jiǎn)單,并且無需訓(xùn)練集,其中典型的算法有TF,TF-IDF[1-2]和PAT-tree等,李靜月等[3]考慮將文本結(jié)構(gòu)和詞性等屬性結(jié)合詞頻來提取關(guān)鍵字,從而提高算法的提取精度;2) 基于機(jī)器學(xué)習(xí)的方法,如KEA[4],SVM[5]和神經(jīng)網(wǎng)絡(luò)[6]等,這類方法將關(guān)鍵詞提取問題轉(zhuǎn)化為分類問題,從而提取文檔關(guān)鍵詞,白曉雷等[6]在研究和抽取詞語特征的基礎(chǔ)上,提出網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù)式子和詞語特征表達(dá)式來構(gòu)建網(wǎng)絡(luò),實(shí)現(xiàn)關(guān)鍵詞抽??;3) 基于語義的方法[7],這種方法將語義特征融合到提取過程中以提高算法性能,王立霞等[8]構(gòu)建詞語語義相似度網(wǎng)絡(luò),將詞語的語義特征應(yīng)用于關(guān)鍵詞提取中;4) 基于復(fù)雜網(wǎng)絡(luò)的方法[9-10],這類方法是根據(jù)文本特征詞之間的關(guān)系構(gòu)建文本的復(fù)雜網(wǎng)絡(luò)模型,提取網(wǎng)絡(luò)中重要的結(jié)點(diǎn)作為關(guān)鍵詞,謝鳳宏等[10]提出基于加權(quán)復(fù)雜網(wǎng)絡(luò)的提取算法,其根據(jù)候選項(xiàng)間的關(guān)系構(gòu)建復(fù)雜網(wǎng)絡(luò),通過加權(quán)系數(shù)來計(jì)算候選項(xiàng)權(quán)重值.本研究提出的關(guān)鍵詞提取算法針對(duì)的是視頻關(guān)聯(lián)文本信息,且是從單個(gè)視頻關(guān)聯(lián)文本信息中直接提取關(guān)鍵詞.
視頻包含了豐富的關(guān)聯(lián)文本信息,包括標(biāo)題、內(nèi)嵌文字和評(píng)論等,這些文本信息是與視頻內(nèi)容直接相關(guān)的,因此提取這些文本信息的關(guān)鍵詞可以表示視頻的內(nèi)容.但爬取的文本信息不能直接分析,因?yàn)槠渲性u(píng)論包含了一些沒用的垃圾評(píng)論,這些評(píng)論如果沒有被過濾掉,將直接影響關(guān)鍵詞提取的準(zhǔn)確性,因此需要對(duì)初始文本進(jìn)行預(yù)處理后才能用于關(guān)鍵詞提取.針對(duì)獲取到的視頻文本內(nèi)容格式與傳統(tǒng)的中文分詞所分析的文檔有所不同,故將視頻的標(biāo)題、內(nèi)嵌文字、有效評(píng)論三部分作為一個(gè)文檔進(jìn)行處理.同時(shí)利用垃圾評(píng)論過濾方法來過濾掉無效評(píng)論,以提高視頻文本信息對(duì)于視頻內(nèi)容描述的準(zhǔn)確性.
首先采用基于規(guī)則的過濾方法對(duì)垃圾評(píng)論進(jìn)行過濾.其基本思想是設(shè)置一些過濾規(guī)則,對(duì)于符合其中的一條或多條的評(píng)論,判定為垃圾評(píng)論,將其過濾掉.規(guī)則如下:
1) 過濾短評(píng)論.通過大量分析評(píng)論發(fā)現(xiàn),長度較短的評(píng)論對(duì)于視頻內(nèi)容的分析沒有參考價(jià)值,并且多數(shù)是與視頻內(nèi)容無關(guān)的,因此當(dāng)一條評(píng)論的長度小于6~8個(gè)字節(jié),判定為垃圾評(píng)論.
2) 定義一個(gè)垃圾關(guān)鍵詞詞庫.典型的垃圾評(píng)論中一般包含廣告鏈接、QQ號(hào)、電話號(hào)碼以及網(wǎng)絡(luò)常用語等垃圾詞語,因此通過分析建立一個(gè)垃圾關(guān)鍵詞詞庫,如果評(píng)論中出現(xiàn)一條或多條垃圾評(píng)論關(guān)鍵詞,則判定其為垃圾評(píng)論.
3) 去除重復(fù)評(píng)論.評(píng)論集一般會(huì)出現(xiàn)多條重復(fù)的評(píng)論,因此過濾掉重復(fù)的評(píng)論,只保留其中的一條作為有效評(píng)論.
4) 非規(guī)則字符.設(shè)置一個(gè)閾值,如果一個(gè)評(píng)論中的非規(guī)則字符的占比超過這個(gè)閾值,即將其判定為垃圾評(píng)論.
在預(yù)處理過程中,利用數(shù)據(jù)結(jié)構(gòu)表示詞語的相關(guān)統(tǒng)計(jì)數(shù)據(jù).使用四元組
在垃圾評(píng)論過濾的基礎(chǔ)之上,根據(jù)視頻關(guān)聯(lián)文本信息的結(jié)構(gòu)和特點(diǎn),結(jié)合定義的數(shù)據(jù)結(jié)構(gòu),對(duì)視頻關(guān)聯(lián)文本的具體預(yù)處理步驟如下:
步驟1 輸入視頻關(guān)聯(lián)文本信息.
步驟2 利用基于規(guī)則的過濾方法對(duì)垃圾評(píng)論進(jìn)行過濾,從而得到有效的評(píng)論信息.
步驟3 對(duì)經(jīng)過垃圾評(píng)論過濾后的視頻關(guān)聯(lián)文本信息進(jìn)行中文分詞.
步驟4 去除停用詞.根據(jù)給定的停用詞表對(duì)停用詞進(jìn)行過濾.
步驟5 詞性過濾.對(duì)語氣助詞、連接詞、副詞、介詞等不能很好反映視頻文本信息并且對(duì)關(guān)鍵詞提取結(jié)果的準(zhǔn)確性有影響的詞性過濾掉.
步驟6 統(tǒng)計(jì)詞在各部分出現(xiàn)的詞頻以及出現(xiàn)的部分?jǐn)?shù),得到四元組
步驟7 輸出預(yù)處理后的文本統(tǒng)計(jì)信息.
傳統(tǒng)的基于統(tǒng)計(jì)的關(guān)鍵詞提取算法如TF和TF-IDF算法只是簡(jiǎn)單的從統(tǒng)計(jì)學(xué)的角度進(jìn)行分析,并沒有考慮到候選詞的特征屬性以及候選詞在文檔中分布的情況,所以關(guān)鍵詞提取的準(zhǔn)確性不是很好.因此,考慮視頻關(guān)聯(lián)文本的特點(diǎn),以及在詞頻統(tǒng)計(jì)的基礎(chǔ)之上,結(jié)合候選詞的位置、詞性以及詞跨度等屬性進(jìn)行定量分析.
2.1 候選詞詞性選擇
文檔經(jīng)過分詞系統(tǒng)分詞操作后,會(huì)出現(xiàn)很多如“而”、“其”、“且”、“與”、“之”等詞,如果不考慮詞性而只從統(tǒng)計(jì)角度分析的話,那么這些詞很有可能被提取為關(guān)鍵詞,然而這些詞對(duì)文檔并沒有任何意義,因此,必須將這些詞過濾掉.
系統(tǒng)經(jīng)過分詞后的結(jié)果包括候選詞及其詞性,格式為“候選詞/詞性”.Hulth[11]認(rèn)為將名詞短語作為候選詞進(jìn)行關(guān)鍵詞提取,將名詞短語作為關(guān)鍵詞提取比直接從分詞結(jié)果直接提取效果更好.同時(shí)結(jié)合ICTCLAS 2015分詞系統(tǒng)的特點(diǎn)和分詞后的結(jié)果,將選擇名詞、名詞詞組以及動(dòng)名詞作為候選詞,考慮到這些詞性更能準(zhǔn)確的表述視頻的內(nèi)容.
同時(shí),對(duì)于一個(gè)對(duì)象,不同的人、不同的時(shí)間可能會(huì)有不同的描述,這就出現(xiàn)了同義詞的情況,如果不合并同義詞,那么將會(huì)影響關(guān)鍵詞提取的結(jié)果,比如“魯迅”和“周樹人”是兩個(gè)詞,而這兩個(gè)詞指的是同一個(gè)人,因此有必要將人名、機(jī)構(gòu)名等短語,只考慮這些詞的詞性而不考慮詞性的變化,以提高關(guān)鍵詞提取的準(zhǔn)確性.
2.2 候選詞權(quán)重計(jì)算
候選詞權(quán)重計(jì)算是整個(gè)關(guān)鍵詞提取算法中最重要的一步,其作用是計(jì)算選取的詞相關(guān)的特征權(quán)重,得到候選詞的權(quán)重結(jié)果,以便獲取關(guān)鍵詞.
1)候選詞的頻率和位置特征.詞頻(TF)是一種統(tǒng)計(jì)方法,表示候選詞在一篇文檔中的次數(shù),其公式為
(1)
式中:分子為候選詞在文本中出現(xiàn)的次數(shù);分母為文本中所有詞出現(xiàn)的次數(shù)總和.然而候選詞頻率的計(jì)算公式中并沒有考慮候選詞所在的位置對(duì)候選關(guān)鍵詞提取的影響,對(duì)于一篇文章而言,在首段和尾段出現(xiàn)的候選詞更能表示文章的內(nèi)容,因此也更應(yīng)該賦予更高的權(quán)重.同理,對(duì)于視頻相關(guān)文本而言,可以分為三部分:標(biāo)題、內(nèi)嵌字幕以及有效評(píng)論,標(biāo)題中的候選詞是最能反映視頻的內(nèi)容,內(nèi)嵌字幕次之,評(píng)論信息相對(duì)表示能力更弱,因此必須對(duì)各個(gè)部分賦予不同的權(quán)重,這樣提取的關(guān)鍵詞才能更加準(zhǔn)確.
根據(jù)上面?zhèn)鹘y(tǒng)詞頻統(tǒng)計(jì)方式的缺點(diǎn),將詞頻(TF)和位置兩個(gè)詞特征動(dòng)態(tài)結(jié)合起來,在計(jì)算各部分的候選詞詞頻的同時(shí)就考慮位置權(quán)重對(duì)候選詞的影響,然后對(duì)三部分的統(tǒng)計(jì)結(jié)果進(jìn)行累加.因此改進(jìn)了之前的詞頻公式,改進(jìn)后的公式為
(2)
其中:tfi為候選項(xiàng)w在第i部分中出現(xiàn)的頻率,候選項(xiàng)在每部分的出現(xiàn)頻率用式(1)計(jì)算;pi為候選詞在第i部分中的位置權(quán)重值,pi對(duì)應(yīng)的取值為
(3)
其中:pi的取值參照文獻(xiàn)[12].p1為候選詞在標(biāo)題部分出現(xiàn)的位置權(quán)值;p2為候選詞在內(nèi)嵌字幕部分出現(xiàn)的位置權(quán)值;p3為候選詞在有效評(píng)論部分出現(xiàn)的位置權(quán)值.
2)詞跨度權(quán)值.對(duì)于一個(gè)文檔而言,一個(gè)候選詞可能只出現(xiàn)在某一部分,也可能在多個(gè)部分都有出現(xiàn).因?yàn)楹蜻x關(guān)鍵詞所跨部分越多,其更能反映該文檔的內(nèi)容,也更能概括視頻的內(nèi)容,因此其越適合提取作為關(guān)鍵詞.因此,在計(jì)算候選詞的權(quán)值上也考慮了詞跨度屬性,相應(yīng)的詞跨度權(quán)值計(jì)算式為
(4)
其中:sw為候選詞w在視頻文本文檔中出現(xiàn)的部分?jǐn)?shù);s為視頻文本文檔的部分總數(shù),取值為3.
2.3 改進(jìn)后的算法
綜合上面詞性選擇和詞相關(guān)特征的權(quán)重計(jì)算,最終得到的改進(jìn)的關(guān)鍵詞提取權(quán)值計(jì)算公式為
(5)
式(5)計(jì)算出的結(jié)果為候選詞的綜合權(quán)值.對(duì)于任意一篇視頻文本文檔,經(jīng)過預(yù)處理操作后,計(jì)算文檔中各候選詞的權(quán)重值,并對(duì)候選詞權(quán)重值的計(jì)算結(jié)果進(jìn)行排序,選擇前K個(gè)候選詞作為該文檔的內(nèi)容,以描述該文檔對(duì)應(yīng)的視頻的內(nèi)容.
對(duì)于改進(jìn)后的算法,首先對(duì)于候選詞的詞性,直接選擇能表述視頻文本內(nèi)容的詞性作為候選項(xiàng),減少不必要的統(tǒng)計(jì)計(jì)算;然后將候選項(xiàng)的詞頻和位置屬性動(dòng)態(tài)結(jié)合起來,每個(gè)候選項(xiàng)在每部分統(tǒng)計(jì)詞頻后都將其和位置權(quán)重值進(jìn)行計(jì)算,所有部分都統(tǒng)計(jì)結(jié)束才是候選項(xiàng)這兩個(gè)屬性的加權(quán)權(quán)重值,這種動(dòng)態(tài)結(jié)合的方式更能體現(xiàn)位置權(quán)重值的特性;最后在統(tǒng)計(jì)詞頻的同時(shí)記錄候選項(xiàng)的跨度值,將在多個(gè)部分出現(xiàn)的候選項(xiàng)賦予更高的權(quán)重值.
2.4 算法流程
關(guān)鍵詞提取的流程圖如圖1所示.
圖1 關(guān)鍵詞提取流程圖Fig.1 Keyword extraction flow chart
關(guān)鍵詞提取流程主要分為兩個(gè)部分:
1)視頻相關(guān)文本預(yù)處理.采用第一部分的預(yù)處理方法來處理數(shù)據(jù)集.
2)關(guān)鍵詞權(quán)重計(jì)算和排序.根據(jù)預(yù)處理得到的文本,運(yùn)用改進(jìn)后的算法,對(duì)候選詞的權(quán)重值進(jìn)行計(jì)算,得到帶有權(quán)重值的候選詞后再進(jìn)行排序,最后獲得關(guān)鍵詞.
根據(jù)上面的描述,視頻文本文檔關(guān)鍵詞提取算法可描述為:
輸入:視頻關(guān)聯(lián)文本D.
輸出:D的前K個(gè)關(guān)鍵詞.
步驟1 對(duì)視頻關(guān)聯(lián)文本D進(jìn)行預(yù)處理操作,得到候選項(xiàng)的特征值及其統(tǒng)計(jì)結(jié)果.
步驟2 根據(jù)式(2,3)計(jì)算候選詞的TFL值.
步驟3 根據(jù)式(4)計(jì)算候選值的跨度權(quán)值WS值.
步驟4 根據(jù)式(5)得到候選詞的綜合權(quán)重值,對(duì)帶有權(quán)重值的候選詞進(jìn)行排序,取前K個(gè)候選詞作為該視頻關(guān)聯(lián)文本的內(nèi)容.
改進(jìn)后的算法是針對(duì)單個(gè)視頻關(guān)聯(lián)文本,即無需訓(xùn)練集就可以從單個(gè)視頻關(guān)聯(lián)文本中提取出關(guān)鍵詞,而不需掃描整個(gè)待處理視頻關(guān)聯(lián)文本集,因此算法的時(shí)間復(fù)雜度為O(N),所以在時(shí)間效率上更優(yōu).
3.1 實(shí)驗(yàn)數(shù)據(jù)
為了驗(yàn)證關(guān)鍵詞提取算法TFL-WS的有效性,在優(yōu)酷、愛奇藝等國內(nèi)知名視頻網(wǎng)站隨機(jī)抽取500個(gè)視頻,并獲取其頁面的相關(guān)文本信息,將其作為獲取關(guān)鍵詞的實(shí)驗(yàn)數(shù)據(jù)集.同時(shí),實(shí)驗(yàn)中使用的實(shí)現(xiàn)語言為Java,由于分詞是算法的基礎(chǔ),分詞的好壞將直接影響到關(guān)鍵詞的獲取準(zhǔn)確性,因此,實(shí)驗(yàn)中采用中科院的ICTCLAS 2015分詞系統(tǒng)對(duì)數(shù)據(jù)集進(jìn)行分詞.
3.2 評(píng)價(jià)方法
一般提取算法的評(píng)價(jià)標(biāo)準(zhǔn)都是將結(jié)果和人工標(biāo)注好的進(jìn)行對(duì)比.因此,實(shí)驗(yàn)也采用準(zhǔn)確率、召回率和F1測(cè)試值來評(píng)價(jià)實(shí)驗(yàn)結(jié)果.
1)準(zhǔn)確率(Precision)指人工抽取和自動(dòng)抽取都判定為關(guān)鍵詞的數(shù)目與自動(dòng)抽取為關(guān)鍵詞數(shù)目的比值,其反映了關(guān)鍵詞提取的準(zhǔn)確率.其計(jì)算公式為
(6)
2)召回率(Recall)指人工抽取和自動(dòng)抽取都判定為關(guān)鍵詞的數(shù)目與人工抽取為關(guān)鍵詞數(shù)目的比值,其反映了關(guān)鍵詞提取系統(tǒng)發(fā)現(xiàn)關(guān)鍵詞的能力.其計(jì)算公式為
(7)
3)F1測(cè)試值(F1-Measure)是Precision和Recall的調(diào)和平均值.其計(jì)算公式為
(8)
其中:A為人工提取和自動(dòng)提取都被判為關(guān)鍵詞的個(gè)數(shù);B為人工提取為非關(guān)鍵詞而自動(dòng)提取為關(guān)鍵詞的個(gè)數(shù);C為人工提取為關(guān)鍵詞而自動(dòng)提取為非關(guān)鍵詞的個(gè)數(shù).
3.3 實(shí)驗(yàn)結(jié)果分析
對(duì)于數(shù)據(jù)集進(jìn)行人工標(biāo)注關(guān)鍵詞,每篇的關(guān)鍵詞個(gè)數(shù)設(shè)置在5~10個(gè)之間,算法提取時(shí)默認(rèn)抽取10個(gè)關(guān)鍵詞.郭建波等[13]提出的TF-WF算法同樣應(yīng)用于單個(gè)文本文檔,因此該實(shí)驗(yàn)選取傳統(tǒng)的TF-IDF算法、TF-WF算法與改進(jìn)后的算法TFL-WS作對(duì)比,實(shí)驗(yàn)數(shù)據(jù)表明算法TFL-WS在提取效果上更好.
圖2 準(zhǔn)確率Fig.2 Precision
圖3 召回率Fig.3 Recall
圖4 F1測(cè)試值Fig.4 F1 test values
圖2~4為傳統(tǒng)的TF-IDF算法、算法TF-WF和算法TFL-WS的實(shí)驗(yàn)結(jié)果對(duì)比圖,根據(jù)實(shí)驗(yàn)結(jié)果可以得出本研究提出的改進(jìn)算法在這三個(gè)方面都有明顯的提升.由于傳統(tǒng)的TF-IDF算法僅考慮了候選詞的統(tǒng)計(jì)信息,因此其性能相對(duì)是最差的,而TF-WF算法在詞頻的基礎(chǔ)上考慮了候選詞首次出現(xiàn)的位置,然而如果一個(gè)詞在開頭出現(xiàn)過但后面卻再也沒出現(xiàn)過,那么這個(gè)候選項(xiàng)有可能不是關(guān)鍵詞,而如果通過詞跨度屬性,即如果候選詞在幾部分都出現(xiàn)過,這樣的詞會(huì)更有可能是關(guān)鍵詞,因此改進(jìn)后的算法在準(zhǔn)確率、召回率以及F1評(píng)價(jià)指標(biāo)上效果都更好.
同時(shí),為了做對(duì)比實(shí)驗(yàn),將關(guān)鍵詞提取的個(gè)數(shù)分別設(shè)置為5個(gè),8個(gè)和10個(gè),然后將TFL-WS算法與傳統(tǒng)的TF-IDF算法以及TF-WF算法作對(duì)比.
表1 實(shí)驗(yàn)結(jié)果對(duì)比
從表1中可以看出:當(dāng)設(shè)置關(guān)鍵詞提取的個(gè)數(shù)不同時(shí),算法TFL-WS在準(zhǔn)確率和召回率上都要優(yōu)于傳統(tǒng)的TF-IDF算法和TF-WF算法,說明改進(jìn)后算法的穩(wěn)定性.由于在統(tǒng)計(jì)詞頻的同時(shí),動(dòng)態(tài)結(jié)合候選詞所在的位置賦予不同的權(quán)重值,同時(shí)將詞性和詞跨度考慮在內(nèi),因此改進(jìn)后的算法更加有效.
針對(duì)視頻內(nèi)容快速獲取及監(jiān)管的問題,結(jié)合關(guān)鍵詞提取技術(shù)對(duì)視頻內(nèi)容進(jìn)行分析,考慮視頻文本信息的特點(diǎn)以及候選詞的詞性特征,在此基礎(chǔ)上將候選詞位置權(quán)值和詞頻相結(jié)合以改進(jìn)傳統(tǒng)的TF公式,并結(jié)合詞性、詞跨度等特征,定義了一個(gè)基于多特征的關(guān)鍵詞提取公式.實(shí)驗(yàn)結(jié)果表明,TFL-WS算法在性能上比傳統(tǒng)的TF-IDF算法等更好,也能很好地描述視頻的內(nèi)容.當(dāng)然,該方法也有一些不足和需要改進(jìn)的地方.對(duì)于未登錄詞的識(shí)別問題,因?yàn)榛ヂ?lián)網(wǎng)的快速發(fā)展,使得每天都會(huì)有大量新的詞語產(chǎn)生,而現(xiàn)有的分詞詞典無法實(shí)時(shí)更新這些詞語,使得新出現(xiàn)的詞無法在分詞過程中被正確切分,從而導(dǎo)致關(guān)鍵詞提取算法無法提取這些表達(dá)視頻文本文檔的新詞,這些也是今后進(jìn)一步研究的地方.
[1] TURNEY P D. Learning algorithms for keyphrase extraction[J].Information retrieval,2000,2(4):303-336.
[2] EL-BELTAGY S R, RAFEA A. KP-Miner:a keyphrase extraction system for English and Arabic documents[J]. Information systems,2009,34(1):132-144.
[3] 李靜月,李培峰,朱巧明.一種改進(jìn)的TFIDF網(wǎng)頁關(guān)鍵詞提取方法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(5):25-27.
[4] JONES S, PAYNTER G W. Human evaluation of kea, an automatic keyphrasing system[J]. Jcdl,2001(1):148-156.
[5] LOPEZ P, ROMARY L. HUMB: automatic key term extraction from scientific articles in GROBID[C] //Proceedings of the 5th International Workshop on Semantic Evaluation. Uppsala, Sweden: ACM,2010:248-251.
[6] 白曉雷,黃廣君,段建輝.一種基于BP神經(jīng)網(wǎng)絡(luò)的關(guān)鍵詞抽取方法[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(7):808-811.
[7] 劉端陽,王良芳.基于語義詞典和詞匯鏈的關(guān)鍵詞提取算法[J].浙江工業(yè)大學(xué)學(xué)報(bào),2013,41(5):545-551.
[8] 王立霞,淮曉永.基于語義的中文文本關(guān)鍵詞提取算法[J].計(jì)算機(jī)工程,2012,38(1):1-4.
[9] 劉通.基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取算法研究[J].計(jì)算機(jī)應(yīng)用研究,2016(2):365-369.
[10] 謝鳳宏,張大為,黃丹,等.基于加權(quán)復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取[J].系統(tǒng)科學(xué)與數(shù)學(xué),2010,30(11):1592-1596.
[11] HULTH A. Improved automatic keyword extraction given more linguistic knowledge[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing Association for Computational Linguistics. Stroudsburg: Association for Computational linguistics,2003:216-223.
[12] 羅繁明,楊海深.大數(shù)據(jù)時(shí)代基于統(tǒng)計(jì)特征的情報(bào)關(guān)鍵詞提取方法[J].情報(bào)資料工作,2013,34(3):19-20.
[13] 郭建波,謝飛.基于多特征的關(guān)鍵詞抽取算法[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(9):1215-1219.
An keyword extraction approach from video associated text based on multiple features
WANG Wanliang, PAN Meng
(College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China)
The explosive growth of multimedia video on the Internet leads to access the content of the video more and more difficulty, a keyword extraction algorithm TFL-WS based on multiple features is proposed in this paper. Through analyzing the characteristics of the video which contains abundant related text information, a word weight calculation formula which is based on improved TF and multiple features is established. The statistical characteristic of candidate words and location weight arecombined dynamically in this formula. Considering the part of speech, word span of candidate words, expanded synonym dictionary is used to extract keywords. So the content of the video information can be expressed by the key words. The experimental result shows that the improved algorithm of extracting the keywords has a better result. It has some improvement in the precision and recall rates, and it can represent the video content much better.
keyword extraction; video content; TF; term weight
(責(zé)任編輯:劉 巖)
2016-03-24
國家“十二五”科技支撐計(jì)劃項(xiàng)目(2012BAD10B01);浙江省重大科技專項(xiàng)項(xiàng)目(2013C01113)
王萬良(1957—),男,江蘇高郵人,教授,博士,研究方向?yàn)槿斯ぶ悄芎蛢?yōu)化調(diào)度,E-mail:zjutwwl@zjut.edu.cn.
TP181
A
1006-4303(2017)01-0014-05