• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Web藏文文本資源挖掘與利用研究

    2015-04-25 08:24:08劉匯丹諾明花馬龍龍賀也平
    中文信息學(xué)報(bào) 2015年1期
    關(guān)鍵詞:藏文語(yǔ)料語(yǔ)料庫(kù)

    劉匯丹,諾明花,馬龍龍,吳 健,賀也平

    (1. 中國(guó)科學(xué)院 軟件研究所,北京 100190;2. 中國(guó)科學(xué)院大學(xué),北京 100049)

    ?

    Web藏文文本資源挖掘與利用研究

    劉匯丹1,2,諾明花1,2,馬龍龍1,吳 健1,賀也平1

    (1. 中國(guó)科學(xué)院 軟件研究所,北京 100190;2. 中國(guó)科學(xué)院大學(xué),北京 100049)

    該文結(jié)合鏈接分析技術(shù)和藏文編碼識(shí)別技術(shù),使用網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上藏文文本資源的挖掘,分析了Web藏文文本資源的分布情況。統(tǒng)計(jì)數(shù)據(jù)顯示,國(guó)內(nèi)藏文網(wǎng)站50%以上在青海?。患s87%的藏文網(wǎng)頁(yè)集中分布在31個(gè)大型網(wǎng)站中;人們正在逐步棄用舊有藏文編碼,使用Unicode編碼來(lái)制作網(wǎng)頁(yè)。利用HTML標(biāo)記、欄目歸屬、標(biāo)點(diǎn)符號(hào)等自然標(biāo)注信息對(duì)這些文本進(jìn)行抽取,可以構(gòu)建篇章語(yǔ)料和文本分類(lèi)語(yǔ)料,可以抽取互聯(lián)網(wǎng)藏文詞庫(kù),進(jìn)行詞頻統(tǒng)計(jì)和訓(xùn)練藏文語(yǔ)言模型,結(jié)合雙語(yǔ)詞典和搜索引擎技術(shù)抽取雙語(yǔ)平行語(yǔ)料。這些語(yǔ)料可用于藏文分詞、命名實(shí)體識(shí)別、信息檢索、統(tǒng)計(jì)機(jī)器翻譯等研究領(lǐng)域。

    Web; 語(yǔ)料;文本挖掘;信息抽取;藏文信息處理;中文信息處理

    1 引言

    互聯(lián)網(wǎng)海量的網(wǎng)頁(yè)為藏文語(yǔ)料庫(kù)建設(shè)提供了大量文本資源,為了對(duì)從互聯(lián)網(wǎng)提取藏文語(yǔ)料提供依據(jù),本文考察互聯(lián)網(wǎng)上Web藏文文本資源的分布情況,并分析其潛在的利用價(jià)值。

    本文接下來(lái)的部分首先介紹相關(guān)領(lǐng)域研究現(xiàn)狀,其次介紹結(jié)合鏈接分析技術(shù)和藏文編碼識(shí)別技術(shù)、使用網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上Web文本資源的挖掘的方法,然后介紹我們對(duì)現(xiàn)有Web藏文文本資源的分布情況的考察分析結(jié)果,之后對(duì)現(xiàn)有Web藏文文本在藏文自然語(yǔ)言處理研究中的潛在利用價(jià)值進(jìn)行分析,最后對(duì)全文進(jìn)行總結(jié)。

    2 研究現(xiàn)狀

    由于諸多客觀(guān)因素的制約,導(dǎo)致了藏文語(yǔ)料庫(kù)匱乏的現(xiàn)狀,僅有的語(yǔ)料資源規(guī)模也很小,國(guó)內(nèi)曾報(bào)道的藏文分詞語(yǔ)料庫(kù)大多只有千余句[1-4],最多的也只有萬(wàn)余句[5-6]。

    目前藏文語(yǔ)料的來(lái)源主要是政府文件、電子版書(shū)籍、報(bào)刊和部分源于互聯(lián)網(wǎng)上的文本,而在語(yǔ)料庫(kù)的建設(shè)和處理上大多依賴(lài)于人工方式[7-9]。這種原始語(yǔ)料庫(kù)的獲取方式大大限制了藏文語(yǔ)料庫(kù)尤其是漢藏雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)效率,不但制約了語(yǔ)料庫(kù)的規(guī)模,更難以達(dá)到時(shí)效性的要求。中國(guó)科學(xué)院軟件研究所從2009年7月份開(kāi)始從相關(guān)單位搜集整理漢藏雙語(yǔ)對(duì)照文本,歷時(shí)近3年,獲得的漢藏雙語(yǔ)對(duì)齊語(yǔ)料卻僅有約36萬(wàn)句對(duì),與期望值相去甚遠(yuǎn),由此,藏文語(yǔ)料庫(kù)建設(shè)的難度和成本可見(jiàn)一斑。

    與此同時(shí),相關(guān)人員開(kāi)始將目光轉(zhuǎn)向互聯(lián)網(wǎng),研究從藏文網(wǎng)頁(yè)獲取文本資源的方法[10-13]。然而,這些研究局限于對(duì)一定范圍內(nèi)的藏文網(wǎng)頁(yè)信息獲取。目前,互聯(lián)網(wǎng)網(wǎng)上有哪些藏文文本資源,它們存在的形式和分布狀況是怎樣的,可以用在藏文信息處理研究的哪些方面,等等,還未見(jiàn)有相關(guān)的報(bào)道。本文將通過(guò)對(duì)互聯(lián)網(wǎng)藏文文本資源的考察,回答這些問(wèn)題。

    3 研究方法

    在我們的研究工作中,我們首先開(kāi)發(fā)了一套“互聯(lián)網(wǎng)藏文文本資源挖掘系統(tǒng)”,采用鏈接分析的方法,利用網(wǎng)絡(luò)爬蟲(chóng)根據(jù)預(yù)先指定的種子URL集合從互聯(lián)網(wǎng)上采集網(wǎng)頁(yè),對(duì)網(wǎng)頁(yè)進(jìn)行編碼檢測(cè),根據(jù)檢測(cè)結(jié)果判斷頁(yè)面內(nèi)是否包含藏文文本,將包含藏文文本的網(wǎng)頁(yè)統(tǒng)一存放,并按照預(yù)先設(shè)定的方式組織管理。然后,由人工對(duì)采集到的藏文網(wǎng)頁(yè)進(jìn)行統(tǒng)一分析,考察其分布情況。我們的“互聯(lián)網(wǎng)藏文文本資源挖掘系統(tǒng)”的前端界面如圖1所示。

    圖1 互聯(lián)網(wǎng)藏文文本資源挖掘系統(tǒng)前端界面

    系統(tǒng)中主要用到了鏈接分析和藏文編碼檢測(cè)技術(shù),下面針對(duì)這兩方面的技術(shù)闡述我們的方法。

    3.1 基于鏈接分析的藏文網(wǎng)頁(yè)抓取

    首先,我們定義如下符號(hào):

    ?L(p): 頁(yè)面p中的所有超級(jí)鏈接指向的頁(yè)面集合;

    ?L(p,n): 與頁(yè)面p有n重鏈接關(guān)系的頁(yè)面集合,其中L(p, 0)= {p},L(p, 1)=L(p)。根據(jù)定義有:L(p,n)=L(L(p,n-1));

    ?L(S): 集合S中的所有頁(yè)面p中的所有超級(jí)鏈接指向的頁(yè)面集合。根據(jù)定義有:L(S)=∪L(p),其中p∈S;

    ?L(S,n): 與集合S中任意頁(yè)面p有N重鏈接關(guān)系的頁(yè)面集合,其中L(S, 0)=S,L(S, 1)=L(S)。根據(jù)定義有:L(S,n)=L(L(S,n-1)),同時(shí)L(S,n)= ∪L(p,n);

    ?HasTibetan(p): 頁(yè)面p中包含藏文文本;

    ?Host(p): 頁(yè)面p所在網(wǎng)站域名;

    我們選取部分眾所周知的藏文網(wǎng)站URL作為種子集合,通過(guò)鏈接分析技術(shù),抓取從種子URL網(wǎng)頁(yè)經(jīng)過(guò)不大于N重鏈接關(guān)系可以到達(dá)的網(wǎng)頁(yè),將其中的藏文網(wǎng)頁(yè)保存,并添加到藏文網(wǎng)頁(yè)集合P,然后將這些網(wǎng)頁(yè)所在網(wǎng)站的主機(jī)域名URL添加到種子集合中,如此循環(huán)。算法如下:

    算法1: 藏文網(wǎng)頁(yè)抓取算法 輸入: 迭代次數(shù)T,鏈接深度N輸出: 藏文網(wǎng)頁(yè)集合P算法描述:P←S0;fort=0toT

    forn=1toN

    if(n==1)

    forpsinSt

    L(St,1) ←∪L(ps)

    endfor

    else

    L(St,n) ←L(L(St,n-1) )

    endif

    forpinL(St,n)

    ifHasTibetan(p)

    St+1←St+Host(p);

    P←P+p;

    endif

    endfor

    endforendforreturnP;

    在于第t次迭代中,對(duì)于種子集合St中的每個(gè)頁(yè)面ps,抓取頁(yè)面并分析頁(yè)面獲得其中所有超級(jí)鏈接指向的頁(yè)面即L(ps),對(duì)所有的L(ps)求并集,得到L(St,1),對(duì)于L(St,1)中的每個(gè)頁(yè)面,判斷其是否藏文,若是則將其添加到藏文網(wǎng)頁(yè)集合P中,并將其對(duì)應(yīng)的網(wǎng)站URL添加到種子站點(diǎn);然后分析L(St,1)中的每個(gè)頁(yè)面,獲取其中所有超級(jí)鏈接指向的頁(yè)面即L(St,2)=L(L(St,1)),對(duì)L(p,2)中的每個(gè)頁(yè)面做同樣處理,直至達(dá)到鏈接深度N,并處理完L(p,N)中的所有頁(yè)面。因處理過(guò)程中改變了種子集合,所以需要進(jìn)行下一次迭代處理。理論上講,如果鏈接深度N足夠大,該算法能夠抓取互聯(lián)網(wǎng)上所有的藏文網(wǎng)頁(yè),迭代處理過(guò)程將在種子集合包含所有藏文網(wǎng)站之后停止。而實(shí)際上,隨著時(shí)間的變化,已處理過(guò)的藏文網(wǎng)站也會(huì)被更新,作為一個(gè)完善的持續(xù)服務(wù)的系統(tǒng)(例如,搜索引擎),應(yīng)該將迭代一直進(jìn)行下去。

    3.2 基于編碼識(shí)別的藏文網(wǎng)頁(yè)判斷

    在我們的研究中,采用藏文編碼識(shí)別的方法判斷一個(gè)網(wǎng)頁(yè)是否包含藏文文本。由于基于ISO 10646(等同Unicode)國(guó)際標(biāo)準(zhǔn)實(shí)現(xiàn)藏文支持需要實(shí)現(xiàn)藏文字符的垂直動(dòng)態(tài)組合,導(dǎo)致不少藏文軟件采用預(yù)組合的方式自定義一套藏文編碼字符集,而各個(gè)軟件之間又互不兼容,導(dǎo)致了藏文編碼“萬(wàn)馬奔騰”的局面。文獻(xiàn)[14]中按編碼所屬體系介紹了26種藏文編碼,提出了一種綜合使用藏文的音節(jié)點(diǎn)間距規(guī)律為特征、以藏文高頻音節(jié)為特征進(jìn)行藏文編碼識(shí)別的方法。事實(shí)上,由于各種藏文軟件在具體應(yīng)用領(lǐng)域的差異,并不是所有的編碼都被用于制作藏文網(wǎng)站(網(wǎng)頁(yè)),例如,方正編碼和華光編碼主要用于出版印刷行業(yè),而Tibetan Machine編碼對(duì)應(yīng)有用于Web的Tibetan Machine Web編碼。綜合各方面因素,我們判斷,可能用于網(wǎng)頁(yè)的藏文編碼主要包括: Unicode編碼(UTF-8或UTF-16)、同元編碼、班智達(dá)編碼、TCRC編碼、Tibetan Machine Web編碼、LTibetan編碼,除此之外,藏文拉丁轉(zhuǎn)寫(xiě)方案也可以視為一種藏文編碼。

    對(duì)于待識(shí)別編碼的網(wǎng)頁(yè)文本,進(jìn)行編碼識(shí)別的順序依次為: 班智達(dá)編碼、同元編碼、Unicode編碼UTF-8、Unicode編碼UTF-16、TCRC、Tibetan Machine Web、LTibetan、拉丁轉(zhuǎn)寫(xiě)。其中,對(duì)同元編碼和Unicode編碼的識(shí)別以音節(jié)點(diǎn)間距規(guī)律為特征,對(duì)其它編碼的識(shí)別以高頻音節(jié)的出現(xiàn)次數(shù)為特征。在判斷為不是某種編碼時(shí),進(jìn)行后續(xù)編碼的識(shí)別。具體的方法與文獻(xiàn)[13]本質(zhì)上相同,不再贅述。

    經(jīng)過(guò)對(duì)編碼識(shí)別結(jié)果的統(tǒng)計(jì),在已抓取的13萬(wàn)網(wǎng)頁(yè)中,編碼識(shí)別正確率為99.93%。同時(shí),編碼識(shí)別方法能夠?qū)⒅话瑯O短藏文文本的網(wǎng)頁(yè)召回,例如,http://zw.qh.gov.cn/zwqhgov/index.html 和http://www.tibetebook.com/help/HimalayaKeymap.htm兩個(gè)頁(yè)面中的中分別只包含不超過(guò)30個(gè)藏文音節(jié),說(shuō)明編碼識(shí)別的召回率是可以接受的。

    3.3 人工分析

    由于編碼識(shí)別不能保證完全正確,如果非藏文網(wǎng)站URL進(jìn)入到種子集合中,將會(huì)影響系統(tǒng)的效率。對(duì)所有新發(fā)現(xiàn)的藏文網(wǎng)站,在進(jìn)行人工確認(rèn)以后,我們的系統(tǒng)才將其加入到種子集合。其他的分析工作主要包含對(duì)采集到的藏文文本資源考察以及對(duì)其分布情況的統(tǒng)計(jì)分析。

    4 Web藏文文本資源分布情況

    我們的系統(tǒng)從2011年1月12日開(kāi)始運(yùn)行,中間經(jīng)過(guò)若干次的系統(tǒng)改進(jìn)和完善,至2012年4月13日止,收錄藏文網(wǎng)站URL共計(jì)165個(gè)。我們采用如下的規(guī)則作認(rèn)同處理。

    表1 包含1000以上網(wǎng)頁(yè)的藏文網(wǎng)站信息表

    ? 同一域名的不同表達(dá)形式要認(rèn)同,例如,http://gesar8.com 與http://www.gesar8.com 被認(rèn)為是同一個(gè)網(wǎng)站;

    ? 不同子域名不認(rèn)同,例如,http://blog.amdotibet.cn 與http://t.amdotibet.cn被認(rèn)為是兩個(gè)網(wǎng)站。

    ? 不同的域名不認(rèn)同,例如,http://ti.gzznews.com 和http://www.kbcmw.com都是"康巴傳媒網(wǎng)"的域名,但認(rèn)為是兩個(gè)網(wǎng)站。

    認(rèn)同之后,獲得網(wǎng)站共計(jì)150個(gè)。表1中列出了采集網(wǎng)頁(yè)數(shù)量在1 000以上的藏文網(wǎng)站的信息。

    4.1 藏文網(wǎng)站地域分布情況

    我們主要根據(jù)網(wǎng)站的主辦單位、頁(yè)面底部的電話(huà)區(qū)號(hào)、ICP備案地、域名及IP地址歸屬地來(lái)判斷各個(gè)網(wǎng)站所屬的區(qū)域,結(jié)果如圖2和圖3所示。個(gè)別網(wǎng)站因暫時(shí)不能訪(fǎng)問(wèn),而已采集到的數(shù)據(jù)太少而不能判斷,歸屬于“未知”類(lèi)別。從表2中可以看出,國(guó)內(nèi)網(wǎng)站共110個(gè),占73.33%,國(guó)外網(wǎng)站共35個(gè),占23.33%,另有5個(gè)網(wǎng)站未能確認(rèn)。國(guó)內(nèi)網(wǎng)站主要集中在北京、青海、西藏、四川、甘肅等地,其中青海省內(nèi)的藏文網(wǎng)站的數(shù)量遠(yuǎn)遠(yuǎn)大于其他各地,占國(guó)內(nèi)藏文網(wǎng)站的53.64%(圖4),占本系統(tǒng)收錄所有藏文網(wǎng)站的39.33%(表2)。國(guó)外藏文網(wǎng)站主要集中在美國(guó)和不丹。

    圖2 國(guó)內(nèi)藏文網(wǎng)站地域分布圖

    圖3 國(guó)外藏文網(wǎng)站地域分布圖

    圖4 國(guó)內(nèi)藏文網(wǎng)站地域分布比例圖

    表2 藏文網(wǎng)站地域分布情況

    4.2 藏文網(wǎng)站頁(yè)面數(shù)量分布情況

    圖5 頁(yè)面數(shù)量圖

    圖6 頁(yè)面數(shù)量分布圖

    圖7 頁(yè)面數(shù)量累加比例圖

    如圖5所示,藏文網(wǎng)站的網(wǎng)頁(yè)數(shù)量呈典型的長(zhǎng)尾分布,按頁(yè)面數(shù)量降序排列之后,按指數(shù)數(shù)列設(shè)定閾值進(jìn)行統(tǒng)計(jì),達(dá)到閾值的網(wǎng)站數(shù)量與包含的網(wǎng)頁(yè)數(shù)量呈對(duì)數(shù)線(xiàn)性分布(圖6),頁(yè)面數(shù)量在1 000以上的藏文網(wǎng)站共有31個(gè),這些網(wǎng)站的網(wǎng)頁(yè)數(shù)量占到了采集到的網(wǎng)頁(yè)總數(shù)的86.68%(圖7)。其中頁(yè)面數(shù)量在 10 000 以上的藏文網(wǎng)站共有3個(gè),各自包含的網(wǎng)頁(yè)數(shù)量都在總數(shù)的9%以上,3個(gè)網(wǎng)站的累計(jì)比例達(dá)到32.21%。前7個(gè)網(wǎng)站中的頁(yè)面數(shù)量接近網(wǎng)頁(yè)總數(shù)的一半,達(dá)到49.98%。其中中國(guó)西藏新聞網(wǎng)有 18 000 多藏文網(wǎng)頁(yè),占比13.79%,而人民網(wǎng)藏文版和中國(guó)共產(chǎn)黨新聞網(wǎng)藏文版都是由人民網(wǎng)主辦,如果視為同一網(wǎng)站,則其網(wǎng)頁(yè)占比達(dá)到14.11%,與中國(guó)西藏新聞網(wǎng)相當(dāng)。而中國(guó)西藏網(wǎng)藏文版的舊版新版多種編碼及多個(gè)域名(表1中未全部列出)合并計(jì)算,則其占比也達(dá)到10.16%。以上數(shù)據(jù)表明,藏文網(wǎng)絡(luò)文本資源的分布非常集中。

    4.3 Web藏文文本編碼使用情況

    如表3所示,目前Web頁(yè)面中仍在使用的藏文編碼有Unicode編碼(含國(guó)家標(biāo)準(zhǔn)擴(kuò)充集編碼)、同元編碼、班智達(dá)編碼和藏文的拉丁轉(zhuǎn)寫(xiě),暫時(shí)未發(fā)現(xiàn)其它編碼。其中Unicode編碼的藏文網(wǎng)站和網(wǎng)頁(yè)分別占比93.33%和82.48%,后者比例比前者低,是因?yàn)樽罱鼛啄晷鲁霈F(xiàn)的藏文網(wǎng)站都使用Unicode編碼,但使用其它編碼的網(wǎng)頁(yè)達(dá)到了一定的規(guī)模,新的網(wǎng)站在短時(shí)間內(nèi)難以超越;其次是同元編碼,占6.00%和16.78%,后者比前者高,說(shuō)明同元編碼曾經(jīng)被大量使用,網(wǎng)頁(yè)數(shù)量積累到了一定規(guī)模,但新的網(wǎng)站更傾向于用Unicode編碼。頁(yè)面數(shù)量在 1 000 以上的31個(gè)藏文網(wǎng)站中(表1),3個(gè)是同元編碼,其余28個(gè)都是Unicode編碼。

    表3 藏文網(wǎng)站和網(wǎng)頁(yè)使用藏文編碼情況

    *部分網(wǎng)站同時(shí)使用兩種編碼,計(jì)算網(wǎng)站總數(shù)時(shí)只算一個(gè)

    需要注意的是,部分網(wǎng)站存在同時(shí)使用兩種編碼的情況。其中,http://zw.tibet.cn和http://ti.tibet.cn 大部分使用同元編碼,但其中有少量網(wǎng)頁(yè)使用了Unicode編碼,他們都是“中國(guó)西藏網(wǎng)”的域名,但新版的網(wǎng)站(http://tb.tibet.cn)已經(jīng)改用Unicode編碼。西藏農(nóng)牧經(jīng)濟(jì)信息網(wǎng)舊版使用同元編碼,新版使用Unicode編碼。而使用藏文拉丁轉(zhuǎn)寫(xiě)的網(wǎng)站中一般也包含Unicode編碼的藏文文本。

    以上這些數(shù)據(jù)和事實(shí)表明,人們正在逐步地棄用以前自定義的藏文編碼,轉(zhuǎn)而使用Unicode編碼。

    4.4 Web藏文文本內(nèi)容分布情況

    我們的系統(tǒng)中采集到的藏文網(wǎng)站,從組織形式來(lái)看,既有普通網(wǎng)頁(yè),也有blog和wiki,甚至還出現(xiàn)了當(dāng)前最流行的微博;從內(nèi)容形式上來(lái)看,既有文字,又有圖片、音樂(lè)和視頻;從主辦方來(lái)看,既有新聞媒體和政府機(jī)構(gòu),也有寺院和企事業(yè)單位,甚至還出現(xiàn)了個(gè)人主辦網(wǎng)站的情況。下面根據(jù)網(wǎng)站主要功能分類(lèi)作簡(jiǎn)單介紹。

    新聞綜合類(lèi)網(wǎng)站一般包括與藏區(qū)有關(guān)的各方面的信息,包括新聞、政治、社會(huì)經(jīng)濟(jì)、語(yǔ)言文化、科技教育、宗教、文化藝術(shù)、旅游、環(huán)境、藏醫(yī)藏藥等。主要有: 中國(guó)西藏新聞網(wǎng)、人民網(wǎng)藏文版、中國(guó)藏族網(wǎng)通藏文版、中國(guó)西藏網(wǎng)、新華網(wǎng)西藏頻道、青海湖網(wǎng)、康巴傳媒網(wǎng)等。

    政府機(jī)關(guān)類(lèi)網(wǎng)站以宣傳各類(lèi)政策法規(guī)、介紹轄區(qū)政治經(jīng)濟(jì)等方面情況為主要內(nèi)容。主要有: 果洛藏族自治州人民政府網(wǎng)藏文版、西藏農(nóng)牧經(jīng)濟(jì)信息網(wǎng)藏文版、海西州人民政府政務(wù)網(wǎng)藏文版、青海天俊法院網(wǎng)等。

    教育類(lèi)網(wǎng)站以提供教育教學(xué)相關(guān)信息為主要內(nèi)容,主要有: 中國(guó)藏族教育網(wǎng)、中國(guó)藏族中學(xué)網(wǎng)、青海尖扎民族教育網(wǎng),以及西藏藏醫(yī)學(xué)院、年保玉則小學(xué)、西海民族寄校、多杰旦民族職業(yè)技術(shù)學(xué)校等網(wǎng)站。

    語(yǔ)言文化宗教類(lèi)網(wǎng)站以提供藏族傳統(tǒng)文化、宗教、藏醫(yī)學(xué)相關(guān)信息為主要內(nèi)容,主要有: 中國(guó)藏學(xué)網(wǎng)藏文版、西藏文化網(wǎng)藏文版、年保玉則文化中心、宗喀巴文化藝術(shù)研究網(wǎng)、中國(guó)格薩爾研究網(wǎng)、藏族民俗網(wǎng)、藏語(yǔ)言文字網(wǎng)、藏密文化網(wǎng)、喜馬拉雅苯教網(wǎng)、雍仲苯教網(wǎng)、醫(yī)學(xué)藏文網(wǎng)等。

    藏文信息技術(shù)和軟件類(lèi)網(wǎng)站以提供藏文軟件下載、介紹軟件使用方法、藏文信息技術(shù)推廣為主要內(nèi)容,包括: 藏文軟件園、藏文字體軟件音樂(lè)圖書(shū)中心、Dzongkha Linux、Tibetan and Himalayan Library等。部分網(wǎng)站提供在線(xiàn)電子詞典查詢(xún)服務(wù),例如,http://www.tsikzoe.net、http://dictionary.thlib.org。這些網(wǎng)站為藏文信息技術(shù)的推廣應(yīng)用做出了貢獻(xiàn),也在一定程度上反映了藏文信息技術(shù)發(fā)展的現(xiàn)狀。

    5 Web藏文文本資源的利用價(jià)值分析

    從自然語(yǔ)言處理的角度來(lái)看,Web是藏文語(yǔ)料的一個(gè)重要來(lái)源,既可作為單語(yǔ)語(yǔ)料使用,配合使用相關(guān)軟件工具,也可以從Web上提取雙語(yǔ)的藏文語(yǔ)料。

    Web藏文文本可以作為藏文單語(yǔ)語(yǔ)料的來(lái)源。雖然同漢語(yǔ)和英語(yǔ)相比,藏文的Web文本資源要少的多,但是作為一般的藏文自然語(yǔ)言處理的研究,現(xiàn)有的Web文本已經(jīng)具有一定的規(guī)模,能夠滿(mǎn)足作為基礎(chǔ)語(yǔ)料資源的需求。這些Web頁(yè)面中,絕大部分頁(yè)面都包含文章標(biāo)題和內(nèi)容,可以作為基本的篇章語(yǔ)料使用;藏文網(wǎng)頁(yè)所屬的欄目可以作為文本分類(lèi)的天然標(biāo)記使用,構(gòu)建分類(lèi)文本語(yǔ)料;部分網(wǎng)頁(yè)還提供作者、發(fā)布時(shí)間、稿件來(lái)源等信息,可以作為藏文命名實(shí)體識(shí)別的語(yǔ)料;根據(jù)網(wǎng)頁(yè)中的自然標(biāo)注信息如HTML標(biāo)記和標(biāo)點(diǎn)符號(hào)等[15],配合統(tǒng)計(jì)方法,可以從篇章語(yǔ)料中抽取互聯(lián)網(wǎng)藏文詞庫(kù),可以用于詞頻統(tǒng)計(jì)和訓(xùn)練藏文語(yǔ)言模型,這些作為基礎(chǔ)數(shù)據(jù)可以用于開(kāi)發(fā)以詞語(yǔ)(短語(yǔ))為單位支持連續(xù)輸入的藏文輸入法。這些基礎(chǔ)數(shù)據(jù)還可以用于藏文分詞、藏文信息檢索等研究任務(wù)。

    Web藏文文本可以作為藏文雙語(yǔ)語(yǔ)料的來(lái)源。藏文圣經(jīng)網(wǎng)提供的PDF格式文件中包含了段落對(duì)齊的漢藏雙語(yǔ)基督教《圣經(jīng)》文本。利用HTML的超級(jí)鏈接標(biāo)記“”中的TITLE等屬性可以從部分藏文網(wǎng)站(例如,http://nbyzsc.nbyzwhzx.com)提取漢藏對(duì)照詞語(yǔ)(短語(yǔ));部分網(wǎng)頁(yè)提供了雙語(yǔ)對(duì)照文本,如網(wǎng)站http://www.tibetebook.com的一個(gè)頁(yè)面提供了588條漢藏對(duì)照的各類(lèi)商店超市的名稱(chēng),可以用作命名實(shí)體識(shí)別的語(yǔ)料,也可以用作雙語(yǔ)平行語(yǔ)料。國(guó)內(nèi)新聞綜合類(lèi)藏文網(wǎng)站大多有對(duì)應(yīng)的漢文版甚至多語(yǔ)種版本,也可以作為雙語(yǔ)語(yǔ)料的來(lái)源。

    從上文的統(tǒng)計(jì)數(shù)據(jù)來(lái)看,Web藏文文本主要集中在部分大型網(wǎng)站,即使只提取20個(gè)網(wǎng)站的文本,也可獲得10萬(wàn)網(wǎng)頁(yè)的藏文語(yǔ)料,其分布的集中性為藏文文本的采集提供了方便。

    6 結(jié)束語(yǔ)

    語(yǔ)料是統(tǒng)計(jì)自然語(yǔ)言處理中必不可少的基礎(chǔ)素材,但是當(dāng)前藏文信息處理中存在嚴(yán)重的語(yǔ)料匱乏問(wèn)題,本文結(jié)合鏈接分析技術(shù)和藏文編碼識(shí)別技術(shù),使用網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上Web文本資源的挖掘,并配合人工方式,相對(duì)全面地考察分析了Web藏文文本資源的分布情況。根據(jù)我們的分析,首先,國(guó)內(nèi)藏文網(wǎng)站主要集中在我國(guó)北京、青海、西藏、四川、甘肅等省(市、區(qū)),其中50%以上在青海省。其次,現(xiàn)有藏文網(wǎng)站組織和內(nèi)容形式比較豐富,既有普通網(wǎng)頁(yè),也有blog和wiki,還出現(xiàn)了微博;從內(nèi)容形式上來(lái)看,既有文字,又有圖片、音樂(lè)和視頻;所提供的信息涉及新聞、政治、社會(huì)經(jīng)濟(jì)、語(yǔ)言文化、科技教育、宗教、文化藝術(shù)、旅游、環(huán)境、藏醫(yī)藏藥等各方面的內(nèi)容。再次,舊有的藏文編碼正在被逐步地棄用,人們轉(zhuǎn)而使用國(guó)際標(biāo)準(zhǔn)的Unicode編碼來(lái)制作Web頁(yè)面。最后、Web藏文文本資源分布比較集中,約87%的藏文網(wǎng)頁(yè)集中分布在31個(gè)大型網(wǎng)站中。

    我們同時(shí)研究了這些網(wǎng)絡(luò)文本資源對(duì)于藏文自然語(yǔ)言處理研究的潛在利用價(jià)值。Web藏文文本資源分布的集中性為文本采集加工提供了一定的方便。利用HTML標(biāo)記和標(biāo)點(diǎn)符號(hào)等自然標(biāo)注信息對(duì)這些文本進(jìn)行抽取,可以構(gòu)建篇章語(yǔ)料、文本分類(lèi)語(yǔ)料。配合統(tǒng)計(jì)方法,可以從篇章語(yǔ)料中抽取互聯(lián)網(wǎng)藏文詞庫(kù),可以用于詞頻統(tǒng)計(jì)和訓(xùn)練藏文語(yǔ)言模型,這些基礎(chǔ)數(shù)據(jù)還可以用于藏文分詞、命名實(shí)體識(shí)別、信息檢索等研究方向。同時(shí)還可以結(jié)合雙語(yǔ)詞典和搜索引擎技術(shù)抽取雙語(yǔ)平行語(yǔ)料,用于統(tǒng)計(jì)機(jī)器翻譯。

    在后續(xù)的研究中,我們將進(jìn)行有針對(duì)性的Web藏文文本資源采集和加工處理,為藏文自然語(yǔ)言處理的研究提供基礎(chǔ)的數(shù)據(jù)資源。

    [1] 陳玉忠,李保利,等. 基于格助詞和接續(xù)特征的藏文自動(dòng)分詞方案[J].語(yǔ)言文字應(yīng)用,2003,(2): 75-82.

    [2] 孫媛,羅桑強(qiáng)巴,楊銳,等. 藏語(yǔ)自動(dòng)分詞方案的設(shè)計(jì)[C]//第十二屆中國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集,2009.

    [3] Huidan Liu, Minghua Nuo, Longlong Ma, et al. Tibetan Word Segmentation as Syllable Tagging Using Conditional Random Fields[C]//Proceedings of the 25th Pacific Asia Conference on Language, Information and Computation.2011:168-177.

    [4] 劉匯丹,諾明花,趙維納,等. SegT: 一個(gè)實(shí)用的藏文分詞系統(tǒng)[J]. 中文信息學(xué)報(bào), 2012, 26(1):97-103.

    [5] 才智杰. 班智達(dá)藏文自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 青海師范大學(xué)民族師范學(xué)報(bào),2010,(2):75-77.

    [6] 孫萌,才智杰,姜文斌,等. 基于判別式分類(lèi)和重排序技術(shù)的藏文分詞[C]//第十三屆中國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集,2011.

    [7] 才讓加. 面向自然語(yǔ)言處理的大規(guī)模漢藏(藏漢)雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建技術(shù)研究[J].中文信息學(xué)報(bào),2011,25(6):157-161.

    [8] 才讓加. 藏語(yǔ)語(yǔ)料庫(kù)詞類(lèi)描述方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(4):146-148.

    [9] 才讓加. 藏語(yǔ)語(yǔ)料庫(kù)加工方法研究[J].計(jì)算機(jī)工程與應(yīng)用. 2011,47(6):142-143,150.

    [10] 陳琪,李永宏,于洪志,等. 藏文網(wǎng)頁(yè)抓取及編碼統(tǒng)一轉(zhuǎn)換的系統(tǒng)研究[J].西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,30(2):22-26.

    [11] 戴玉剛. 藏文網(wǎng)頁(yè)采集技術(shù)研究[C]//第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集.2007:527-535.

    [12] 珠杰,歐珠,格桑多吉等.基于DOM修剪的藏文Web信息提取[J].計(jì)算機(jī)工程,2008,34(24):58-60.

    [13] 李文博. 基于XML的藏文網(wǎng)頁(yè)的信息抽取與轉(zhuǎn)存技術(shù)研究[D].西北民族大學(xué)碩士學(xué)位論文,2006.

    [14] 劉匯丹,芮建武,吳健,等.藏文網(wǎng)頁(yè)的編碼識(shí)別與轉(zhuǎn)換[C]//中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議,2006:573-580.

    [15] 孫茂松.基于互聯(lián)網(wǎng)自然標(biāo)注資源的自然語(yǔ)言處理[J]. 中文信息學(xué)報(bào),2011,25(6):26-32.

    [16] 黃昌寧,李涓子.語(yǔ)料庫(kù)語(yǔ)言學(xué)[M]. 北京:商務(wù)印書(shū)館.2002.

    Mining Tibetan Web Text Resources and Its Application

    1,2, MA Longlong1, WU Jian1, HE Yeping1

    (1. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China;2. Graduate University of the Chinese Academy of Sciences, Beijing 100049, China)

    Based on link analysis and Tibetan encoding detection, this paper focuses on mining the Tibetan text resources over the internet with a crawler, and analyzes the distribution of Tibetan text. Statistical data shows that, more than 50% inland Tibetan web sites are hold by organizations in Qinghai province, and about 87% web pages belong to 31 large web sites. People prefer to use Unicode as the encoding of their new web pages rather than legacy encodings. It is practical to to extract Tibetan text from the pages with the natural tag information, such as HTML elements, column information and punctuations. The text can be used to build raw corpus, text classification corpus, and internet word/phrase corpus and so on. Word frequency statistics and language model can also be derived. In addition, some bilingual corpus can also be extracted.

    Web; corpus; text mining; information extraction; Tibetan information processing; Chinese information processing

    劉匯丹(1982—),博士,工程師,主要研究領(lǐng)域?yàn)椴僮飨到y(tǒng)中文信息處理、多語(yǔ)言信息處理。E?mail:huidan@iscas.a(chǎn)c.cn洪錦玲(1981—),碩士,工程師,主要研究領(lǐng)域?yàn)槎嗾Z(yǔ)言信息處理。E?mail:jinling@iscas.a(chǎn)c.cn諾明花(1981—),博士,助理研究員,主要研究領(lǐng)域?yàn)槎嗾Z(yǔ)言信息處理。E?mail:minghua@iscas.a(chǎn)c.cn

    1003-0077(2015)01-0170-08

    2012-04-16 定稿日期: 2012-06-26

    國(guó)家自然科學(xué)基金(61202219,61202220,61303165);中國(guó)科學(xué)院信息化專(zhuān)項(xiàng)經(jīng)費(fèi)資助(XXH12504-1-10)

    TP391

    A

    猜你喜歡
    藏文語(yǔ)料語(yǔ)料庫(kù)
    西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
    布達(dá)拉(2020年3期)2020-04-13 10:00:07
    《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
    黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
    西夏學(xué)(2019年1期)2019-02-10 06:22:34
    把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
    基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
    藏文音節(jié)字的頻次統(tǒng)計(jì)
    現(xiàn)代語(yǔ)境下的藏文報(bào)刊
    新聞傳播(2016年17期)2016-07-19 10:12:05
    華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
    基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
    《苗防備覽》中的湘西語(yǔ)料
    一个人免费在线观看的高清视频| 又黄又爽又免费观看的视频| 欧美日韩精品网址| 欧美在线一区亚洲| 午夜福利在线在线| 国产精品av视频在线免费观看| 久久精品综合一区二区三区| 午夜福利视频1000在线观看| 亚洲第一欧美日韩一区二区三区| 白带黄色成豆腐渣| 国产男靠女视频免费网站| 色噜噜av男人的天堂激情| 亚洲成人免费电影在线观看| 黄色片一级片一级黄色片| 国产91精品成人一区二区三区| 午夜日韩欧美国产| 亚洲av电影不卡..在线观看| 人人妻人人看人人澡| 三级男女做爰猛烈吃奶摸视频| 亚洲欧美精品综合一区二区三区| 久久精品国产99精品国产亚洲性色| 美女黄网站色视频| 欧美一区二区精品小视频在线| 国产精品乱码一区二三区的特点| 日韩精品中文字幕看吧| 99国产极品粉嫩在线观看| 久久久国产欧美日韩av| 一区二区三区高清视频在线| svipshipincom国产片| av超薄肉色丝袜交足视频| 九九热线精品视视频播放| 日韩欧美精品v在线| 亚洲真实伦在线观看| 中文字幕人成人乱码亚洲影| 亚洲电影在线观看av| cao死你这个sao货| 黄片小视频在线播放| 91字幕亚洲| 一区二区三区高清视频在线| av有码第一页| а√天堂www在线а√下载| 国产精品久久久久久人妻精品电影| 搞女人的毛片| 可以在线观看的亚洲视频| 99国产精品一区二区蜜桃av| 亚洲熟妇中文字幕五十中出| 精品乱码久久久久久99久播| av超薄肉色丝袜交足视频| 久久久精品国产亚洲av高清涩受| 亚洲成a人片在线一区二区| 久久亚洲真实| 国产成年人精品一区二区| 日本免费一区二区三区高清不卡| 久久久久久九九精品二区国产 | av中文乱码字幕在线| 变态另类丝袜制服| 91国产中文字幕| 制服人妻中文乱码| 老熟妇乱子伦视频在线观看| 女同久久另类99精品国产91| 在线十欧美十亚洲十日本专区| 欧美色欧美亚洲另类二区| 亚洲av日韩精品久久久久久密| 久久精品夜夜夜夜夜久久蜜豆 | 在线观看66精品国产| 熟女电影av网| 巨乳人妻的诱惑在线观看| 91成年电影在线观看| 老鸭窝网址在线观看| 亚洲色图 男人天堂 中文字幕| 69av精品久久久久久| 亚洲精品色激情综合| 一级a爱片免费观看的视频| av在线播放免费不卡| av国产免费在线观看| 18禁国产床啪视频网站| 日韩成人在线观看一区二区三区| 日韩欧美 国产精品| 最好的美女福利视频网| 亚洲国产精品999在线| 欧美乱码精品一区二区三区| 久久久久精品国产欧美久久久| 黄色片一级片一级黄色片| 最新在线观看一区二区三区| tocl精华| 日韩有码中文字幕| 法律面前人人平等表现在哪些方面| 两性午夜刺激爽爽歪歪视频在线观看 | 一区二区三区高清视频在线| av在线播放免费不卡| 亚洲自拍偷在线| 久久精品亚洲精品国产色婷小说| 国产人伦9x9x在线观看| 在线播放国产精品三级| 色尼玛亚洲综合影院| 久久久久久久午夜电影| 在线观看美女被高潮喷水网站 | 久久久国产成人精品二区| 非洲黑人性xxxx精品又粗又长| 宅男免费午夜| 国产成人欧美在线观看| 99久久精品国产亚洲精品| 国内精品久久久久久久电影| 国产激情久久老熟女| 国产99久久九九免费精品| 身体一侧抽搐| 两个人免费观看高清视频| 一二三四社区在线视频社区8| 中文字幕人成人乱码亚洲影| 国产av麻豆久久久久久久| 精品久久久久久成人av| 午夜久久久久精精品| 精品国产乱子伦一区二区三区| 别揉我奶头~嗯~啊~动态视频| 国产精品亚洲av一区麻豆| 国产熟女xx| 女人高潮潮喷娇喘18禁视频| 久久中文字幕一级| 日韩欧美在线二视频| netflix在线观看网站| 不卡av一区二区三区| 老司机福利观看| 久久中文字幕一级| 亚洲av成人av| 国产三级黄色录像| 日本免费a在线| 成人国语在线视频| 色综合婷婷激情| 久久精品91蜜桃| 亚洲国产精品999在线| 亚洲人成网站在线播放欧美日韩| 国产探花在线观看一区二区| 在线播放国产精品三级| 老司机午夜福利在线观看视频| 国内久久婷婷六月综合欲色啪| 在线观看66精品国产| 国产欧美日韩一区二区三| 午夜亚洲福利在线播放| 欧美日韩乱码在线| 欧美黄色片欧美黄色片| 中文字幕人妻丝袜一区二区| 久久久水蜜桃国产精品网| 欧美性猛交╳xxx乱大交人| 一本一本综合久久| 成人永久免费在线观看视频| 欧美+亚洲+日韩+国产| 精品乱码久久久久久99久播| 18禁美女被吸乳视频| 国产精品,欧美在线| 五月伊人婷婷丁香| 91麻豆精品激情在线观看国产| 黄色视频不卡| 香蕉av资源在线| 麻豆av在线久日| 国产成人av激情在线播放| 黄色 视频免费看| 亚洲人成77777在线视频| 国产av又大| 老司机福利观看| 亚洲国产中文字幕在线视频| 国产单亲对白刺激| 日韩欧美国产在线观看| 亚洲最大成人中文| 亚洲一区二区三区色噜噜| 亚洲中文字幕一区二区三区有码在线看 | 熟女少妇亚洲综合色aaa.| 国产亚洲欧美98| 男女之事视频高清在线观看| 亚洲精品中文字幕一二三四区| 亚洲av熟女| 国产黄色小视频在线观看| 亚洲熟妇熟女久久| 在线观看免费视频日本深夜| 无限看片的www在线观看| 成人一区二区视频在线观看| 最近最新中文字幕大全电影3| 制服人妻中文乱码| 亚洲va日本ⅴa欧美va伊人久久| 精品不卡国产一区二区三区| 久久亚洲精品不卡| 亚洲aⅴ乱码一区二区在线播放 | 欧美乱妇无乱码| 少妇被粗大的猛进出69影院| 欧美成人午夜精品| 老熟妇乱子伦视频在线观看| 黄色毛片三级朝国网站| 99国产精品一区二区三区| 女同久久另类99精品国产91| 琪琪午夜伦伦电影理论片6080| 热99re8久久精品国产| 夜夜躁狠狠躁天天躁| 18禁观看日本| 在线观看午夜福利视频| 久久伊人香网站| 久久久久久久久免费视频了| 中文字幕av在线有码专区| 国产单亲对白刺激| 99久久国产精品久久久| 亚洲精品久久国产高清桃花| 操出白浆在线播放| 99热6这里只有精品| 午夜福利成人在线免费观看| 亚洲最大成人中文| 亚洲成人中文字幕在线播放| 叶爱在线成人免费视频播放| 久久久国产成人免费| 日本一区二区免费在线视频| 久久午夜亚洲精品久久| 国内精品久久久久久久电影| 老司机福利观看| 法律面前人人平等表现在哪些方面| 99久久精品国产亚洲精品| 中文字幕高清在线视频| 久久精品夜夜夜夜夜久久蜜豆 | 国产av又大| 夜夜夜夜夜久久久久| 久久性视频一级片| 两性夫妻黄色片| 午夜福利视频1000在线观看| 大型av网站在线播放| tocl精华| 久久精品亚洲精品国产色婷小说| 97人妻精品一区二区三区麻豆| 久久久久久国产a免费观看| 少妇裸体淫交视频免费看高清 | 国产午夜精品久久久久久| 波多野结衣高清作品| 亚洲av电影在线进入| 国产成人精品久久二区二区91| 久久伊人香网站| 激情在线观看视频在线高清| 精品少妇一区二区三区视频日本电影| 丰满人妻熟妇乱又伦精品不卡| 亚洲色图 男人天堂 中文字幕| 99国产综合亚洲精品| av超薄肉色丝袜交足视频| 国产麻豆成人av免费视频| 九色国产91popny在线| 亚洲午夜精品一区,二区,三区| 夜夜看夜夜爽夜夜摸| 老司机在亚洲福利影院| 国产精品98久久久久久宅男小说| 亚洲人成网站在线播放欧美日韩| 男人舔奶头视频| 日韩欧美精品v在线| 亚洲精品中文字幕一二三四区| 97超级碰碰碰精品色视频在线观看| 日韩欧美国产在线观看| 亚洲在线自拍视频| 丁香六月欧美| 欧美乱色亚洲激情| 久久香蕉精品热| 又粗又爽又猛毛片免费看| 亚洲欧美日韩无卡精品| 久久久久久久久久黄片| 非洲黑人性xxxx精品又粗又长| 日本熟妇午夜| 亚洲精品色激情综合| 欧美成狂野欧美在线观看| 欧美乱码精品一区二区三区| 99国产极品粉嫩在线观看| 国产精品免费一区二区三区在线| 免费在线观看完整版高清| 九色成人免费人妻av| 日本免费a在线| 欧美人与性动交α欧美精品济南到| 国产精品亚洲av一区麻豆| 中文字幕高清在线视频| 亚洲国产精品999在线| 亚洲aⅴ乱码一区二区在线播放 | 国产精品香港三级国产av潘金莲| 欧美午夜高清在线| 色在线成人网| 1024香蕉在线观看| 夜夜爽天天搞| 美女扒开内裤让男人捅视频| 黄色毛片三级朝国网站| 真人做人爱边吃奶动态| 黄色成人免费大全| 亚洲av美国av| 亚洲免费av在线视频| av福利片在线观看| 少妇被粗大的猛进出69影院| 国产伦人伦偷精品视频| 国产成人影院久久av| 国模一区二区三区四区视频 | 日本黄色视频三级网站网址| 色哟哟哟哟哟哟| 国产私拍福利视频在线观看| 一本一本综合久久| 成人永久免费在线观看视频| 国产男靠女视频免费网站| 最近视频中文字幕2019在线8| 一夜夜www| 男人的好看免费观看在线视频 | 一本久久中文字幕| 最新在线观看一区二区三区| 久久久久久久久免费视频了| 全区人妻精品视频| 国产高清视频在线观看网站| 午夜精品在线福利| 两个人看的免费小视频| 国产精品1区2区在线观看.| 一二三四在线观看免费中文在| 国产av在哪里看| 欧美黄色片欧美黄色片| 一个人观看的视频www高清免费观看 | 国产av又大| 国产久久久一区二区三区| 超碰成人久久| 在线观看免费视频日本深夜| 全区人妻精品视频| 亚洲成人免费电影在线观看| 亚洲真实伦在线观看| 色综合站精品国产| 国产熟女午夜一区二区三区| 国产av一区在线观看免费| 国产午夜精品论理片| 中文亚洲av片在线观看爽| 一进一出抽搐gif免费好疼| 一区福利在线观看| 国产一区二区激情短视频| 久久午夜亚洲精品久久| 91大片在线观看| 免费看a级黄色片| 禁无遮挡网站| 熟妇人妻久久中文字幕3abv| 黄色视频,在线免费观看| xxx96com| 亚洲中文字幕一区二区三区有码在线看 | 少妇被粗大的猛进出69影院| 亚洲av成人av| 国模一区二区三区四区视频 | 99精品欧美一区二区三区四区| 麻豆av在线久日| 亚洲av片天天在线观看| 亚洲,欧美精品.| 伦理电影免费视频| 亚洲成人精品中文字幕电影| a在线观看视频网站| 99热这里只有精品一区 | 91在线观看av| 欧美不卡视频在线免费观看 | 啪啪无遮挡十八禁网站| x7x7x7水蜜桃| 一级毛片高清免费大全| 一区二区三区高清视频在线| 国模一区二区三区四区视频 | 很黄的视频免费| 91九色精品人成在线观看| 亚洲专区中文字幕在线| 国产欧美日韩一区二区三| 免费搜索国产男女视频| 男插女下体视频免费在线播放| a在线观看视频网站| 夜夜夜夜夜久久久久| 午夜日韩欧美国产| 2021天堂中文幕一二区在线观| 给我免费播放毛片高清在线观看| 在线十欧美十亚洲十日本专区| 亚洲国产欧美人成| 怎么达到女性高潮| 午夜福利高清视频| 亚洲熟妇中文字幕五十中出| 欧美zozozo另类| 女人被狂操c到高潮| 人妻丰满熟妇av一区二区三区| 天天一区二区日本电影三级| 国产99白浆流出| 久久中文看片网| 制服诱惑二区| 久久人妻av系列| 成人av一区二区三区在线看| 国产精品一及| 校园春色视频在线观看| 日韩欧美国产一区二区入口| 搡老妇女老女人老熟妇| 熟女少妇亚洲综合色aaa.| 国产精品98久久久久久宅男小说| 亚洲成人精品中文字幕电影| 欧美日韩中文字幕国产精品一区二区三区| 毛片女人毛片| 桃色一区二区三区在线观看| 亚洲av片天天在线观看| 久久久久亚洲av毛片大全| 亚洲九九香蕉| 久久久久久久久中文| 久久这里只有精品中国| www.www免费av| 久久国产精品人妻蜜桃| 我的老师免费观看完整版| 久久久久久国产a免费观看| 国产av又大| 亚洲av成人一区二区三| 日韩精品青青久久久久久| 在线免费观看的www视频| 亚洲熟妇中文字幕五十中出| 亚洲五月婷婷丁香| 伦理电影免费视频| 又紧又爽又黄一区二区| 最好的美女福利视频网| 国产精品久久视频播放| 777久久人妻少妇嫩草av网站| 欧美性猛交黑人性爽| 亚洲免费av在线视频| netflix在线观看网站| 99国产极品粉嫩在线观看| 他把我摸到了高潮在线观看| 精品国产乱码久久久久久男人| 午夜激情福利司机影院| 欧美日本视频| 在线观看一区二区三区| 一级片免费观看大全| 黑人欧美特级aaaaaa片| 免费av毛片视频| 法律面前人人平等表现在哪些方面| 日本五十路高清| 国产成人aa在线观看| 亚洲精品中文字幕在线视频| 一个人免费在线观看电影 | 国产一区二区激情短视频| 亚洲精品久久国产高清桃花| 国产又黄又爽又无遮挡在线| 超碰成人久久| 欧美黑人精品巨大| 叶爱在线成人免费视频播放| 亚洲欧美精品综合久久99| 精品日产1卡2卡| 亚洲av电影不卡..在线观看| 精品不卡国产一区二区三区| 精品国产乱码久久久久久男人| 亚洲国产精品久久男人天堂| 麻豆久久精品国产亚洲av| 国产高清视频在线观看网站| 99国产精品一区二区蜜桃av| 精品熟女少妇八av免费久了| 亚洲国产精品合色在线| 日韩欧美一区二区三区在线观看| 18禁裸乳无遮挡免费网站照片| 亚洲午夜理论影院| 久久精品aⅴ一区二区三区四区| 成人av在线播放网站| 日韩国内少妇激情av| 少妇人妻一区二区三区视频| 日韩大码丰满熟妇| 国产成人av激情在线播放| 久久精品91蜜桃| 国产精品爽爽va在线观看网站| 成人国语在线视频| 国产视频一区二区在线看| 中文字幕人妻丝袜一区二区| 给我免费播放毛片高清在线观看| 午夜久久久久精精品| 精品国产超薄肉色丝袜足j| 欧美av亚洲av综合av国产av| а√天堂www在线а√下载| e午夜精品久久久久久久| 麻豆一二三区av精品| 99re在线观看精品视频| 色精品久久人妻99蜜桃| 日韩精品中文字幕看吧| 男女视频在线观看网站免费 | 国产亚洲欧美在线一区二区| 国内精品久久久久精免费| 精品久久久久久久毛片微露脸| 在线国产一区二区在线| 俄罗斯特黄特色一大片| 亚洲欧美精品综合一区二区三区| 日韩大码丰满熟妇| 亚洲av成人不卡在线观看播放网| 亚洲欧美日韩高清专用| 欧美乱色亚洲激情| 国产私拍福利视频在线观看| 老司机午夜十八禁免费视频| 熟妇人妻久久中文字幕3abv| 中文字幕人成人乱码亚洲影| 久久久久久久精品吃奶| 制服人妻中文乱码| www.自偷自拍.com| 亚洲性夜色夜夜综合| 丰满人妻熟妇乱又伦精品不卡| www.自偷自拍.com| 两人在一起打扑克的视频| 亚洲乱码一区二区免费版| 亚洲成人久久爱视频| 成人av一区二区三区在线看| 国产精品 国内视频| 久久久久免费精品人妻一区二区| 精品国产美女av久久久久小说| 亚洲五月婷婷丁香| 国产激情欧美一区二区| 久久久久亚洲av毛片大全| 人成视频在线观看免费观看| 夜夜躁狠狠躁天天躁| 久久久久久人人人人人| 日韩av在线大香蕉| 精品国产亚洲在线| 99精品久久久久人妻精品| 国产黄片美女视频| 美女黄网站色视频| 亚洲五月婷婷丁香| 免费在线观看日本一区| 午夜福利在线在线| 亚洲国产欧洲综合997久久,| 成年免费大片在线观看| 国产99白浆流出| 亚洲精品国产精品久久久不卡| 美女 人体艺术 gogo| 亚洲 欧美 日韩 在线 免费| 成人午夜高清在线视频| 曰老女人黄片| 一级片免费观看大全| 国产高清视频在线播放一区| 欧美色欧美亚洲另类二区| 黄色女人牲交| 夜夜躁狠狠躁天天躁| 深夜精品福利| 一级毛片女人18水好多| 午夜免费观看网址| 99久久综合精品五月天人人| 国产精品国产高清国产av| 色综合亚洲欧美另类图片| 老司机午夜福利在线观看视频| 日本成人三级电影网站| 亚洲狠狠婷婷综合久久图片| 欧美国产日韩亚洲一区| 老司机在亚洲福利影院| 天天添夜夜摸| 亚洲欧美日韩高清在线视频| 啦啦啦免费观看视频1| 18禁黄网站禁片午夜丰满| 国产亚洲av高清不卡| 成在线人永久免费视频| 欧美 亚洲 国产 日韩一| 久久亚洲真实| 欧美日韩黄片免| 国产97色在线日韩免费| 欧美黑人精品巨大| 精品一区二区三区av网在线观看| 久久婷婷人人爽人人干人人爱| 少妇的丰满在线观看| 成人国产一区最新在线观看| 啪啪无遮挡十八禁网站| 怎么达到女性高潮| 身体一侧抽搐| 日韩av在线大香蕉| 中文字幕高清在线视频| 国产精品久久久久久精品电影| www.www免费av| 亚洲国产欧美网| 国产精品,欧美在线| 亚洲一区高清亚洲精品| 18禁观看日本| 欧美丝袜亚洲另类 | 精品国产乱子伦一区二区三区| 床上黄色一级片| 久久久久久久久免费视频了| 国产蜜桃级精品一区二区三区| 精品久久蜜臀av无| 久久久久久人人人人人| 欧美成人性av电影在线观看| 中文字幕最新亚洲高清| 一级a爱片免费观看的视频| 欧美日韩福利视频一区二区| 欧美不卡视频在线免费观看 | 嫁个100分男人电影在线观看| 亚洲午夜理论影院| 久久精品综合一区二区三区| 欧美乱色亚洲激情| 国产精品久久视频播放| 一区二区三区高清视频在线| 国产成人一区二区三区免费视频网站| 色综合亚洲欧美另类图片| 国产探花在线观看一区二区| 极品教师在线免费播放| 9191精品国产免费久久| 国产三级中文精品| 最近最新中文字幕大全免费视频| 久9热在线精品视频| 成年版毛片免费区| 午夜福利免费观看在线| 最近最新中文字幕大全电影3| 99精品欧美一区二区三区四区| 九色国产91popny在线| 国产欧美日韩精品亚洲av| 免费观看精品视频网站| 十八禁网站免费在线| 人妻丰满熟妇av一区二区三区| 国产午夜精品久久久久久| 亚洲成av人片在线播放无| 少妇裸体淫交视频免费看高清 | 免费在线观看影片大全网站| 在线观看美女被高潮喷水网站 | 国产av一区在线观看免费| 精品电影一区二区在线| 十八禁人妻一区二区| 手机成人av网站| 精品久久久久久久毛片微露脸| 亚洲午夜理论影院| 国产精品日韩av在线免费观看| 久久午夜综合久久蜜桃| 国产精品98久久久久久宅男小说| 亚洲人成77777在线视频| 真人做人爱边吃奶动态| 国产欧美日韩一区二区三| 成年女人毛片免费观看观看9| 亚洲免费av在线视频| 精品国产亚洲在线| 色精品久久人妻99蜜桃| 男女那种视频在线观看| 精品人妻1区二区| 1024视频免费在线观看| 欧美日本视频| 免费av毛片视频| 很黄的视频免费|