徐 靜,楊小平
(1.中華女子學(xué)院 計(jì)算機(jī)系,北京 100101; 2.中國(guó)人民大學(xué) 信息學(xué)院,北京 100872)(*通信作者電子郵箱xujingtyt@126.com)
網(wǎng)絡(luò)的快速發(fā)展使得Web成為人們獲取信息的重要來(lái)源。面對(duì)日益增長(zhǎng)的網(wǎng)頁(yè)數(shù)量,人們已不再滿足于從Web上獲取大量相關(guān)信息,而是希望能得到高質(zhì)量、高可用性的Web信息。由于Web的開(kāi)放性,使得Web信息本身具有海量、數(shù)據(jù)多來(lái)源、主題動(dòng)態(tài)變化等特征,而這些特征引起的數(shù)據(jù)時(shí)效性問(wèn)題是當(dāng)前大數(shù)據(jù)時(shí)代下Web信息質(zhì)量管理所關(guān)注的重要內(nèi)容之一。
Web信息時(shí)效性是指Web站點(diǎn)發(fā)布的信息在某一特定時(shí)間內(nèi)具有的價(jià)值和效應(yīng),它包含兩個(gè)方面的內(nèi)容:一是Web信息發(fā)布的及時(shí)性,及時(shí)性是指從事實(shí)發(fā)生到實(shí)時(shí)信息發(fā)布的時(shí)間距離,通常情況下,時(shí)間距離越短,說(shuō)明Web信息更新越及時(shí);二是指Web信息所描述的客觀事實(shí)內(nèi)容的新鮮性,內(nèi)容新鮮性是指能夠?yàn)槿藗兲峁┬碌男畔⒒蛐畔l(fā)展的新情況。在信息時(shí)代的背景下,Web站點(diǎn)發(fā)布的大量信息是否能夠反映當(dāng)前關(guān)注的熱點(diǎn),是否能夠及時(shí)發(fā)布事件的最新進(jìn)展情況,對(duì)Web站點(diǎn)的可用性有重大影響。
在大數(shù)據(jù)時(shí)代下,數(shù)據(jù)質(zhì)量問(wèn)題受到極大關(guān)注,而數(shù)據(jù)質(zhì)量的各個(gè)維度中,時(shí)效性問(wèn)題是影響數(shù)據(jù)可用性的重要因素之一。時(shí)效性差的數(shù)據(jù)會(huì)對(duì)企業(yè)決策和人們的日常生活產(chǎn)生許多不利影響,這使得判定數(shù)據(jù)的時(shí)效性成為必要。
當(dāng)前的時(shí)效性判定研究大致分為兩類:一是基于時(shí)間戳的時(shí)效性判定[1-2],這類方法要求每個(gè)待判定的值都具備完整可用的時(shí)間戳,但在實(shí)際的應(yīng)用數(shù)據(jù)庫(kù)中,往往會(huì)缺失一些有效、精確的時(shí)間戳; 二是基于規(guī)則的時(shí)效性判定[3-4],這類方法借助由領(lǐng)域知識(shí)得到的規(guī)則判斷同一實(shí)體的不同屬性值的時(shí)序關(guān)系,從而判定數(shù)據(jù)的時(shí)效性,這種方法無(wú)法判定某個(gè)值在給定的時(shí)間點(diǎn)是否失效。由此看來(lái),當(dāng)前數(shù)據(jù)質(zhì)量領(lǐng)域?qū)τ跁r(shí)效性的判定研究已經(jīng)有一些不同角度的較為成型的理論和方法,但受到Web信息這種半結(jié)構(gòu)化數(shù)據(jù)的制約,當(dāng)前的方法還不能完全應(yīng)用于Web信息的時(shí)效性判定。
目前,針對(duì)Web信息時(shí)效性的相關(guān)工作都集中在對(duì)Web上的新聞發(fā)布時(shí)間的抽取研究[5-6]:文獻(xiàn)[7]通過(guò)從新聞搜索引擎返回的每個(gè)新聞片段中自動(dòng)抽取其發(fā)布時(shí)間,以幫助判別兩個(gè)新聞內(nèi)容是否指的是同一個(gè)事件;文獻(xiàn)[8]為了準(zhǔn)確提取互聯(lián)網(wǎng)上信息報(bào)道的最早發(fā)布時(shí)間,提出鏈接分析法和多拷貝聯(lián)合推斷法以提高計(jì)算精度;文獻(xiàn)[9]針對(duì)網(wǎng)頁(yè)更新時(shí)間不穩(wěn)定以至于較難預(yù)測(cè)新聞報(bào)道的更新時(shí)間的問(wèn)題,提出了一個(gè)綜合預(yù)測(cè)方法,即結(jié)合指數(shù)平滑法和樸素貝葉斯模型對(duì)新聞的更新時(shí)間進(jìn)行預(yù)測(cè)。上述方法都側(cè)重于信息報(bào)道的最早發(fā)布或更新時(shí)間的抽取,這種評(píng)價(jià)方法過(guò)于單一且不夠充分衡量信息的時(shí)效性。由于對(duì)Web信息內(nèi)容中的事件屬性特征提取及事件發(fā)展演化研究得不充分,使得目前還沒(méi)有研究從語(yǔ)義內(nèi)容上去考慮報(bào)道所描述的客觀事實(shí)的發(fā)生時(shí)間的時(shí)效性。
本文在利用條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)模型識(shí)別主題線索句的基礎(chǔ)上,以時(shí)間詞為線索特征,從大量主題線索句集合中提取隱含的多條線索,并得到與Web信息相關(guān)的同一主題的線索發(fā)展趨勢(shì)[10]。利用線索發(fā)展趨勢(shì)推斷的主題線索時(shí)間區(qū)間能夠估計(jì)該Web信息的有效區(qū)間,將每個(gè)時(shí)間與相應(yīng)的線索關(guān)聯(lián)起來(lái),形成一個(gè)有邏輯關(guān)系的時(shí)間-線索片段。在此基礎(chǔ)上,結(jié)合Web信息的發(fā)布時(shí)間、核心事件發(fā)生時(shí)間,對(duì)其內(nèi)容時(shí)效性進(jìn)行自動(dòng)化評(píng)價(jià)。
Web信息時(shí)效性評(píng)價(jià)模型需要經(jīng)過(guò)文本內(nèi)容預(yù)處理、時(shí)間-線索集提取、時(shí)效性區(qū)間計(jì)算和內(nèi)容時(shí)效性評(píng)估幾個(gè)步驟完成。圖1給出了內(nèi)容時(shí)效性評(píng)估方法的具體流程。
圖1 Web信息時(shí)效性評(píng)估框架
首先對(duì)從網(wǎng)絡(luò)上抽取到的新聞頁(yè)面進(jìn)行預(yù)處理,主要包括新聞標(biāo)題、正文內(nèi)容的提取,并對(duì)正文內(nèi)容進(jìn)行中文分詞、詞性標(biāo)注、句子切分等。
對(duì)于一個(gè)新聞專題,該專題有一組相關(guān)新聞文章,將一篇網(wǎng)絡(luò)新聞的正文看成是一篇文檔,可以表示成一個(gè)觀測(cè)到的句子序列S=(s1,s2,…,si,…,sm),m為句子的個(gè)數(shù),將觀測(cè)序列中的相關(guān)特征(包括文本基本特征、詞典特征和語(yǔ)義特征)加入到CRF模型中,產(chǎn)生可識(shí)別主題線索句的標(biāo)注序列。
利用條件隨機(jī)場(chǎng)(CRF)模型識(shí)別出每篇新聞文章的主題線索句,在此基礎(chǔ)上提取與主題相關(guān)的時(shí)間-線索集合。線索中最重要的部分是時(shí)間。主題線索句中的實(shí)詞(可稱為線索關(guān)鍵詞)在語(yǔ)義上也可表示線索與新聞主題的相關(guān)度, 因此,一條線索可以用與線索相關(guān)的時(shí)間和關(guān)鍵詞來(lái)表示。
考慮到主題相關(guān)的網(wǎng)絡(luò)新聞可能會(huì)被抽取出相似的主題線索句,進(jìn)而形成冗余的線索, 因此,要將時(shí)間上一致、語(yǔ)義上相近的線索進(jìn)行分析及合并處理。對(duì)于任意兩條線索,當(dāng)Δt=ti-ti-1≤(tn-t1)/n時(shí),采用歐氏距離對(duì)線索間的相似度進(jìn)行計(jì)算:
(1)
其中:ti為線索OCi對(duì)應(yīng)的時(shí)間,即該線索的發(fā)生時(shí)間,當(dāng)任意兩條線索的時(shí)間間隔小于平均時(shí)間間隔時(shí),對(duì)這兩條線索間的語(yǔ)義相似度進(jìn)行計(jì)算;cωij表示線索OCi中的實(shí)詞wj的權(quán)重值。當(dāng)dist(OCi,OCj)小于閾值α?xí)r,認(rèn)為兩條線索OCi和OCj是相似的,可以對(duì)這兩條線索進(jìn)行合并處理。
對(duì)于構(gòu)建好的時(shí)間-線索集按照時(shí)間先后進(jìn)行排序,并根據(jù)時(shí)間順序得到了該新聞的線索發(fā)展脈絡(luò)。為了更好地表征每條線索與主題的相關(guān)程度,利用線索的發(fā)生時(shí)間和其強(qiáng)度來(lái)表示主題線索的發(fā)展趨勢(shì),線索的強(qiáng)度由每一條線索上所包含的關(guān)鍵詞權(quán)重平均值以及該線索來(lái)源的文本數(shù)量決定。線索OCi的強(qiáng)度VCi的計(jì)算公式如下:
(2)
其中:k為線索語(yǔ)義合并后剩下的線索個(gè)數(shù);di表示線索OCi的來(lái)源文本數(shù)量,即該線索是經(jīng)過(guò)多少條候選線索合并而成的。
Web信息的時(shí)效性從兩個(gè)方面進(jìn)行評(píng)價(jià):一是判斷此Web信息的主題內(nèi)容發(fā)生時(shí)間在有效區(qū)間的相對(duì)位置; 二是判斷此Web信息的發(fā)布時(shí)間距離有效區(qū)間的時(shí)間長(zhǎng)度。信息具有時(shí)效性的時(shí)間區(qū)間,稱為有效區(qū)間。一般地,處在該區(qū)間的Web信息內(nèi)容是較新穎的。
利用與Web信息主題相關(guān)的線索發(fā)展脈絡(luò)可以獲得整個(gè)主題的線索時(shí)間區(qū)間{ct1,ct2,…,ctn},由此可知主題線索的最早發(fā)生時(shí)間為ct1,主題線索的最終結(jié)束時(shí)間為ctn,圖2給出了主題線索的時(shí)間軸。
圖2 主題線索時(shí)間軸
根據(jù)內(nèi)容時(shí)效性的評(píng)價(jià)準(zhǔn)則,將Web信息時(shí)效性評(píng)估結(jié)果分為以下3種情況:
1)發(fā)布不及時(shí)且內(nèi)容新鮮度不好,即該Web信息的有效區(qū)間(et1,etm)處于主題線索時(shí)間軸的初始位置,說(shuō)明Web信息描述的客觀事實(shí)是不新鮮的;而且發(fā)布時(shí)間pt和有效區(qū)間的距離較遠(yuǎn),說(shuō)明Web信息發(fā)布不及時(shí)。這種情況屬于圖2中的情況1。
2)發(fā)布及時(shí)但內(nèi)容新鮮度不好,即該Web信息的有效區(qū)間(et1,etm)處于主題線索時(shí)間軸的初始或中間位置,說(shuō)明Web信息描述的客觀事實(shí)是不新鮮的;但是發(fā)布時(shí)間pt和有效區(qū)間的距離較近,說(shuō)明Web信息發(fā)布及時(shí)。這種情況屬于圖2中的情況2。
3)發(fā)布及時(shí)且內(nèi)容較新鮮的,即該Web信息的有效區(qū)間(et1,etm)處于主題線索時(shí)間軸的靠后或結(jié)束位置,說(shuō)明Web信息描述的客觀事實(shí)是較新鮮的;而且發(fā)布時(shí)間pt和有效區(qū)間的距離較近,說(shuō)明Web信息發(fā)布及時(shí)。這種情況屬于圖2中的情況3。
通過(guò)借助區(qū)間估計(jì)理論,在主題線索時(shí)間軸上確定Web信息的有效區(qū)間。根據(jù)線索時(shí)間區(qū)間{ct1,ct2,…,ctn},確定θ1=θ1(ct1,ct2,…,ctn),θ2=θ2(ct1,ct2,…,ctn),其中θ1<θ2,[θ1,θ2]為Web信息有效區(qū)間。設(shè)θ是Web信息主題線索中的一個(gè)中心線索時(shí)間,若存在[θ1,θ2],對(duì)于給定的0<α<1,若滿足P{θ1≤θ≤θ2}=1-α,稱[θ1,θ2]是θ的置信度為1-α的有效區(qū)間,θ1和θ2分別為有效區(qū)間的時(shí)間下限和時(shí)間上限,1-α為置信度。一般地,認(rèn)為Web信息的中心線索必然落在主題線索時(shí)間區(qū)間內(nèi),因此給定置信度1-α=0.95。
(3)
則:
1-α
(4)
借助2.3節(jié)的方法,可以得到與Web信息同一主題的整個(gè)線索發(fā)展情況,因此就可獲得整個(gè)主題的線索時(shí)間區(qū)間{ct1,ct2,…,ctn},而Web信息的有效區(qū)間必定是被包含在這個(gè)時(shí)間區(qū)間中的。對(duì)于Web信息的時(shí)效性,可以從兩個(gè)方面進(jìn)行衡量:一是Web信息發(fā)布的及時(shí)性,判斷此Web信息的發(fā)布時(shí)間距離有效區(qū)間的時(shí)間長(zhǎng)度,一般情況下,這個(gè)時(shí)間距離越短,說(shuō)明Web信息更新越及時(shí);二是Web信息內(nèi)容的新鮮性,判斷此Web信息的中心線索在主題線索時(shí)間區(qū)間中的相對(duì)位置。
為了獲得Web信息的中心線索,通過(guò)計(jì)算Web信息有效區(qū)間中的每一條線索與主題線索發(fā)展趨勢(shì)中每條線索的語(yǔ)義距離。在計(jì)算語(yǔ)義距離的過(guò)程中,選取文本相似度和時(shí)間差兩個(gè)維度計(jì)算語(yǔ)義距離。一般來(lái)說(shuō),選取語(yǔ)義上與Web信息比較相關(guān),時(shí)間差也較小的主題線索。采用歐幾里得距離函數(shù)來(lái)計(jì)算線索間的語(yǔ)義距離CD:
(5)
其中:Δs=(1-s)表示W(wǎng)eb信息線索間的差距,s為線索之間的相似度,Δt2表示時(shí)間差值,ω表示權(quán)重系數(shù)??梢钥闯鯟D越小,線索之間的語(yǔ)義距離越小,線索之間的關(guān)聯(lián)程度也就越大。
將關(guān)聯(lián)程度最大的線索作為Web信息的中心線索,從Web信息有效區(qū)間中找到中心線索及其對(duì)應(yīng)的時(shí)間,并利用式(6)對(duì)Web信息時(shí)效性參考值進(jìn)行計(jì)算:
(6)
其中:ctn表示線索時(shí)間區(qū)間的結(jié)束時(shí)間,ct1表示線索時(shí)間區(qū)間的開(kāi)始時(shí)間;eti表示中心線索的發(fā)生時(shí)間,etm表示W(wǎng)eb信息有效區(qū)間的結(jié)束時(shí)間,pt表示W(wǎng)eb信息的發(fā)布時(shí)間。
通過(guò)上述方法對(duì)Web信息內(nèi)容時(shí)效性進(jìn)行量化,并根據(jù)量化后的參考值給Web信息內(nèi)容時(shí)效性進(jìn)行評(píng)價(jià):
1)當(dāng)0.8≤V(t)≤1,認(rèn)為Web信息時(shí)效性良好,不僅描述的客觀事實(shí)內(nèi)容較新鮮,發(fā)布也很及時(shí)。
2)當(dāng)0.5≤V(t)<0.8,認(rèn)為Web信息時(shí)效性中等,雖然描述的客觀事實(shí)內(nèi)容新鮮度不好,但能夠發(fā)布及時(shí)。
3)當(dāng)0≤V(t)<0.5,認(rèn)為Web信息時(shí)效性較差,不僅描述的客觀事實(shí)內(nèi)容不新鮮,且發(fā)布也不及時(shí)。
Web信息內(nèi)容時(shí)效性評(píng)估方法以構(gòu)建自動(dòng)生成Web信息有效區(qū)間為核心,利用線索發(fā)展趨勢(shì)推斷的主題線索時(shí)間區(qū)間估計(jì)該Web信息的有效區(qū)間,結(jié)合Web信息的發(fā)布時(shí)間和核心事件發(fā)生時(shí)間對(duì)其內(nèi)容時(shí)效性進(jìn)行定量分析。依據(jù)提出的Web信息時(shí)效性等級(jí)劃分規(guī)則,對(duì)所有正確提取文本內(nèi)容的Web信息進(jìn)行分級(jí),最后獲得總體評(píng)價(jià)效果。
為了驗(yàn)證本文算法的有效性,從新浪新聞、網(wǎng)易新聞、新華報(bào)業(yè)網(wǎng)、廣西新聞網(wǎng)和首都之窗5個(gè)網(wǎng)站隨機(jī)抽取了共10 889個(gè)網(wǎng)頁(yè)作為實(shí)驗(yàn)語(yǔ)料,進(jìn)行Web信息內(nèi)容時(shí)效性驗(yàn)證。
由于人工標(biāo)注的局限性,僅對(duì)新浪新聞、網(wǎng)易新聞中的專題新聞“人民幣匯率持續(xù)貶值”“烏克蘭局勢(shì)動(dòng)蕩”“四川雅安7.0級(jí)地震”“敘利亞局勢(shì)持續(xù)動(dòng)蕩”以及首都之窗“2018高考”共5個(gè)主題2 720篇新聞進(jìn)行主題線索句識(shí)別的實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)前先手工標(biāo)注出這些新聞的主題線索句,且實(shí)驗(yàn)中假設(shè)這些標(biāo)注全部為正確標(biāo)注。將所有語(yǔ)料分為兩部分,其中2 040篇作為訓(xùn)練語(yǔ)料,其余680篇作為測(cè)試數(shù)據(jù)集合。在數(shù)據(jù)預(yù)處理部分對(duì)文本分詞、詞性標(biāo)注等使用了中國(guó)科學(xué)院的分詞工具ICTCLAS,并運(yùn)用 CRF++v0.53進(jìn)行主題線索句的識(shí)別。
對(duì)于識(shí)別性能進(jìn)行評(píng)測(cè)時(shí),采用準(zhǔn)確率(P)、召回率(R)、綜合指標(biāo)F1值(F1)三個(gè)指標(biāo)來(lái)進(jìn)行評(píng)價(jià)。在訓(xùn)練CRF模型進(jìn)行主題線索句識(shí)別時(shí),選用了多個(gè)特征組合的復(fù)合特征模板。為了驗(yàn)證CRF模型識(shí)別主題線索句的有效性,以文獻(xiàn)[11]為baseline,baseline的方法是結(jié)合中文新聞句子的詞頻、長(zhǎng)度、位置以及與標(biāo)題的相似度等特征計(jì)算句子的重要性,并進(jìn)一步提取出新聞的主題句。表1給出了本文方法和文獻(xiàn)[11]方法的對(duì)比情況。
表1 兩種方法在不同主題語(yǔ)料下的實(shí)驗(yàn)結(jié)果對(duì)比
為了獲取內(nèi)容新鮮度和發(fā)布及時(shí)性兩個(gè)指標(biāo)對(duì)于Web信息時(shí)效性評(píng)價(jià)的影響大小,對(duì)影響因子α和β的值作了不同的設(shè)置并進(jìn)行實(shí)驗(yàn)驗(yàn)證。由于之前沒(méi)有其他工作給出針對(duì)Web信息時(shí)效性評(píng)價(jià)的算法,所以本節(jié)實(shí)驗(yàn)中對(duì)篩選出的時(shí)效性較差的網(wǎng)頁(yè)進(jìn)行人工對(duì)比驗(yàn)證。表2是當(dāng)內(nèi)容新鮮度和發(fā)布及時(shí)性的影響因子在不同設(shè)置下的對(duì)比結(jié)果,采用準(zhǔn)確率(P)、召回率(R)、綜合指標(biāo)F1值(F1)三個(gè)指標(biāo)來(lái)進(jìn)行評(píng)價(jià)。
表2 不同影響因子時(shí)實(shí)驗(yàn)結(jié)果對(duì)比
通過(guò)上述實(shí)驗(yàn),可以認(rèn)為內(nèi)容新鮮度和發(fā)布及時(shí)性對(duì)于Web信息時(shí)效性評(píng)估具有同樣重要的作用,因此在后面實(shí)驗(yàn)中設(shè)定α=β=0.5。
對(duì)新浪新聞、網(wǎng)易新聞、新華報(bào)業(yè)網(wǎng)、廣西新聞網(wǎng)和首都之窗5個(gè)網(wǎng)站隨機(jī)抽取的網(wǎng)頁(yè)進(jìn)行內(nèi)容時(shí)效性驗(yàn)證,評(píng)估結(jié)果如表3所示。
表3 網(wǎng)站時(shí)效性評(píng)估結(jié)果
根據(jù)實(shí)驗(yàn)結(jié)果得到的時(shí)效性良好(指位于0.8~1.0區(qū)間)的Web信息所占的數(shù)量比對(duì)評(píng)價(jià)量化值進(jìn)行等級(jí)劃分,見(jiàn)表4。
表4 內(nèi)容時(shí)效性評(píng)價(jià)等級(jí)劃分
從實(shí)驗(yàn)結(jié)果可以看出這5個(gè)網(wǎng)站中有9 583個(gè)網(wǎng)頁(yè)新聞的內(nèi)容時(shí)效性良好,占正確評(píng)估新聞總數(shù)的87%, 這是因?yàn)閷?shí)驗(yàn)選擇的大部分新聞是來(lái)自專業(yè)的新聞發(fā)布網(wǎng)站和知名門戶網(wǎng)站,這些網(wǎng)站的新聞發(fā)布和更新都比較及時(shí),能夠準(zhǔn)確地反映當(dāng)前社會(huì)關(guān)注熱點(diǎn)和事件的最新發(fā)展情況。而時(shí)效性為0的新聞網(wǎng)頁(yè)有379個(gè),占總數(shù)的3.5%,這是由于選取了首都之窗網(wǎng)站中教育培訓(xùn)欄目下的321條新聞作為部分語(yǔ)料,而該欄目下的很多新聞都是未及時(shí)更新的,有些甚至是5年前的新聞,故時(shí)效性很差,導(dǎo)致時(shí)效性為0的網(wǎng)頁(yè)所占的總體比例稍大??傮w來(lái)說(shuō),得到的評(píng)估結(jié)果符合先前估計(jì)和實(shí)際的情況,基本能夠正確反映網(wǎng)頁(yè)新聞及其發(fā)布網(wǎng)站的時(shí)效性狀況。
從評(píng)估結(jié)果來(lái)看,專業(yè)新聞網(wǎng)站如新華報(bào)業(yè),新聞信息的時(shí)效性最好,網(wǎng)站發(fā)布的新聞基本為當(dāng)前關(guān)注的熱點(diǎn)。主流的門戶網(wǎng)站如新浪網(wǎng)和網(wǎng)易提供的新聞時(shí)效性良好,絕大多數(shù)網(wǎng)頁(yè)都有很好的時(shí)效性,能夠?yàn)橛脩籼峁狳c(diǎn)新聞和有效信息。中小型新聞網(wǎng)站如廣西新聞網(wǎng)則有讓人滿意的時(shí)效性,這類網(wǎng)站可以為用戶提供時(shí)事熱點(diǎn)新聞,但又存在著一些沒(méi)有及時(shí)更新的新聞,在一定程度上影響了網(wǎng)站的整體時(shí)效性等級(jí),進(jìn)而影響其Web可用性。政府類網(wǎng)站如首都之窗,則時(shí)效性較差,網(wǎng)站上存在的過(guò)時(shí)信息很多,同時(shí)還有很多無(wú)效鏈接; 這些問(wèn)題嚴(yán)重影響了Web可用性,導(dǎo)致用戶使用電子政務(wù)網(wǎng)站的意愿不強(qiáng)。
本文針對(duì)Web站點(diǎn)發(fā)布的信息時(shí)效性進(jìn)行研究,提出了一種基于線索特征的Web信息時(shí)效性評(píng)價(jià)方法,解決了目前無(wú)法從語(yǔ)義上去判斷Web上發(fā)布的信息報(bào)道的時(shí)效性問(wèn)題。實(shí)驗(yàn)結(jié)果表明該方法能對(duì)Web信息內(nèi)容的時(shí)效特征進(jìn)行評(píng)估,能夠有效評(píng)價(jià)Web信息的價(jià)值,為提高Web可用性作出相應(yīng)指導(dǎo)。但是仍有需要進(jìn)一步研究的地方,包括:1)在利用CRF模型識(shí)別主題線索句時(shí),要擴(kuò)大訓(xùn)練語(yǔ)料庫(kù)的規(guī)模,并進(jìn)一步完善語(yǔ)義特征,以改進(jìn)模型的效率,提高識(shí)別的準(zhǔn)確率;2)在語(yǔ)料選取上考慮收集多來(lái)源即多個(gè)網(wǎng)站上的Web信息,使時(shí)效性評(píng)價(jià)方法研究更加完善。