• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      網(wǎng)絡(luò)教育資源中的跨語言知識(shí)管理研究

      2017-04-12 14:11:06徐昊李慧君秦玥
      關(guān)鍵詞:文本挖掘知識(shí)管理

      徐昊+李慧君+秦玥

      摘 要:近年來,隨著互聯(lián)網(wǎng)與教育的不斷融合,以MOOC為代表的網(wǎng)絡(luò)教育平臺(tái)在世界范圍內(nèi)紛紛涌現(xiàn)。本文應(yīng)用文本數(shù)據(jù)的獲取與挖掘的技術(shù),對(duì)MOOC教育資源的跨語言知識(shí)管理方法進(jìn)行研究,最后實(shí)現(xiàn)知識(shí)點(diǎn)的跨語言檢索和學(xué)習(xí)筆記的推薦功能,對(duì)基于開放數(shù)據(jù)的跨語言教育資源共享平臺(tái)的構(gòu)建具有重要意義。

      關(guān)鍵詞:跨語言;知識(shí)管理;MOOC;文本挖掘

      G40-057

      大型開放式網(wǎng)絡(luò)課程(MOOC)自2011年上線以來就倍受人們矚目,它在時(shí)間和空間上拓展了教育的范圍,教學(xué)形式較為新穎,對(duì)學(xué)習(xí)者來說,MOOC可以激發(fā)他們的求知欲、學(xué)習(xí)積極性和自主性[1]。MOOC的優(yōu)勢在于便捷和開放,能提供課程的相關(guān)學(xué)習(xí)資源,如講義、筆記、學(xué)習(xí)小組、論壇等。還有一些英語課程配備了中文字幕,可以幫助中國學(xué)習(xí)者進(jìn)行學(xué)習(xí)。這些在一定程度上提高了學(xué)習(xí)者的學(xué)習(xí)效率,促使學(xué)習(xí)者更快融入在線學(xué)習(xí)中,最后完成整個(gè)課程。

      但是我們發(fā)現(xiàn),在線學(xué)習(xí)也存在一些不完善的地方。以學(xué)習(xí)資源中的筆記為例,筆記通常按照記錄時(shí)間順序顯示,還存在著很多與課程內(nèi)容無關(guān)的信息,這導(dǎo)致學(xué)習(xí)者不能查看某個(gè)知識(shí)點(diǎn)對(duì)應(yīng)的筆記,還會(huì)被無關(guān)信息打擾。而且課程中的中英文知識(shí)點(diǎn)之間的關(guān)聯(lián)也不能體現(xiàn)。為了改進(jìn)這些情況,讓MOOC平臺(tái)為學(xué)習(xí)者提供更好的用戶體驗(yàn),本文研究了如何通過文本挖掘技術(shù)和跨語言知識(shí)庫的構(gòu)建,管理MOOC學(xué)習(xí)資源中的知識(shí)。

      一、研究現(xiàn)狀和關(guān)鍵技術(shù)

      1.跨語言知識(shí)管理

      WordNet是由美國普林斯頓大學(xué)開發(fā)的大規(guī)模的匯總英語詞匯知識(shí)的在線資源庫。它是一個(gè)由普通的詞典內(nèi)容與計(jì)算機(jī)科學(xué)、心理學(xué)成功結(jié)合的基于認(rèn)知語言學(xué)的詞典,主要按照詞匯的意義而不是字母順序而組成的“詞匯網(wǎng)絡(luò)”[2]。經(jīng)過20年的研究工作的進(jìn)展,WordNet已經(jīng)發(fā)展成為國際上非常有影響的英語詞匯知識(shí)庫,為知識(shí)管理做出了卓越的貢獻(xiàn)。近年來,隨著單一語言知識(shí)庫的飛速發(fā)展和各語言信息多樣性的增加,跨語言知識(shí)管理以及規(guī)模性跨語言知識(shí)庫的建設(shè)將成為必然的趨勢,具有研究價(jià)值。UKC (Universal Knowledge Core) 就是這樣一個(gè)典型例子。

      UKC是一個(gè)由意大利特倫托大學(xué)開發(fā)的擴(kuò)展的多語種版的WordNet,包括幾十萬個(gè)概念。UKC扮演的角色是世界上所有的自然語言的中心樞紐,對(duì)于每種語言,都存在一個(gè)獨(dú)立的LKC (Local Knowledge Core)。每個(gè)LKC都有一個(gè)源語言(目前為英文)和一個(gè)目標(biāo)語言(世界上任何一種語言),可以獨(dú)立發(fā)展并且與UKC同步。事實(shí)上,LKC是一個(gè)本土化進(jìn)程,通過UKC,所有LKC可以均衡協(xié)作、互相使用,多種語言可以得到匹配。

      UKC的基本組成部分是詞語,義項(xiàng),同義詞集和概念[3]。它們的含義如下:同義詞集是一組擁有一個(gè)共有的含義的詞語;概念是可以表示一個(gè)同義詞集含義的一句描述性質(zhì)的話;義項(xiàng)是一個(gè)詞語的含義;注釋是一個(gè)同義詞集的簡短描述。此外,UKC中還有詞目和詞性這兩個(gè)

      元素。

      2.關(guān)鍵技術(shù)

      近半個(gè)世紀(jì)以來,隨著計(jì)算機(jī)技術(shù)的成熟與發(fā)展,人們的生活中大量產(chǎn)生著社交媒體中的文本數(shù)據(jù)、通訊數(shù)據(jù)、GPS位置信息、傳感器數(shù)據(jù)甚至還有圖片和視頻,信息的種類和數(shù)量有了爆炸式的增加。但是人們目前面臨的嚴(yán)峻的問題是數(shù)據(jù)豐富而信息貧乏,只是把海量數(shù)據(jù)存儲(chǔ)起來并不會(huì)帶來任何價(jià)值,還需要對(duì)其進(jìn)行分析,并從中獲得有用的信息[10]。數(shù)據(jù)分析基本上都經(jīng)歷了數(shù)據(jù)獲取、預(yù)處理(清洗)、選擇分析算法、展示結(jié)果、評(píng)估這一流程。本文的研究基于文本數(shù)據(jù)的處理與分析,包括文本數(shù)據(jù)的獲取、清洗、信息挖掘和數(shù)據(jù)可視化。

      獲取數(shù)據(jù)是數(shù)據(jù)挖掘的初始步驟。對(duì)分析者而言,外部數(shù)據(jù)比內(nèi)部數(shù)據(jù)更容易獲取,獲取外部數(shù)據(jù)可以通過搜索引擎、開放數(shù)據(jù)、在聚合數(shù)據(jù)平臺(tái)上購買或下載專業(yè)數(shù)據(jù)集、網(wǎng)絡(luò)爬蟲、調(diào)查問卷等方式。目前應(yīng)用較多的外部數(shù)據(jù)的采集方式的主要有兩種:商業(yè)化工具與網(wǎng)絡(luò)爬蟲,我們的研究就基于Python爬蟲程序來獲取網(wǎng)絡(luò)課程的筆記。

      文本挖掘是數(shù)據(jù)挖掘的一個(gè)分支,也是一個(gè)由機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)、自然語言處理等多種學(xué)科交叉而成的領(lǐng)域。顧名思義,就是從大量文本數(shù)據(jù)中抽取隱含的、未知、可能有用的信息,并對(duì)這些數(shù)據(jù)進(jìn)行分析,挖掘其中潛在的知識(shí)信息[4]。文本挖掘的數(shù)據(jù)主要是指非結(jié)構(gòu)化文檔和郵件、網(wǎng)頁內(nèi)容等半結(jié)構(gòu)化數(shù)據(jù),常見的算法有關(guān)聯(lián)規(guī)則算法,聚類算法 和分類算法。

      數(shù)據(jù)可視化是指將身居分析的結(jié)果以圖形或表格的形式展現(xiàn)出來,以便進(jìn)一步分析和報(bào)告數(shù)據(jù)的特征以及數(shù)據(jù)之間的關(guān)系。它的首要任務(wù)是準(zhǔn)確地展示和傳達(dá)數(shù)據(jù)所包含的信息,并用直觀、容易理解和操縱的方式呈現(xiàn)出來。它的基本流程是:將信息映射成可視形式,選擇合適的圖表,刪去不突出的對(duì)象或?qū)傩裕罱K呈現(xiàn)出關(guān)鍵屬性的明顯特征。

      二、跨語言知識(shí)管理的應(yīng)用

      我們研究的數(shù)據(jù)來自網(wǎng)易公開課中斯坦福大學(xué)開設(shè)的計(jì)算機(jī)系課程《機(jī)器學(xué)習(xí)》。首先使用Python爬蟲程序獲取最優(yōu)筆記內(nèi)容作為實(shí)驗(yàn)數(shù)據(jù),然后用R語言分析文本數(shù)據(jù)、提取關(guān)鍵詞,模仿UKC構(gòu)建跨語言知識(shí)庫,最后實(shí)現(xiàn)學(xué)習(xí)課程時(shí)對(duì)感興趣的知識(shí)點(diǎn)的查詢功能??缯Z言知識(shí)管理研究的流程如圖1所示。

      數(shù)據(jù)獲取與關(guān)鍵知識(shí)點(diǎn)提取

      首先,利用編寫的Python爬蟲程序從網(wǎng)易公開課的課程頁面獲取前30頁最優(yōu)筆記,獲得的數(shù)據(jù)保存成文本格式。

      關(guān)鍵知識(shí)點(diǎn)提取是研究的核心部分,是文本分析算法的具體實(shí)現(xiàn)部分,此部分使用R語言完成,步驟如下:

      第一步:讀入待處理的文件,對(duì)數(shù)據(jù)進(jìn)行清理和格式轉(zhuǎn)換之后,經(jīng)過排序,得到了共380條可用的筆記;

      第二步:由于課程講授是具有連續(xù)性的,而且為了方便統(tǒng)計(jì),這里人為地將筆記按每3分鐘為一段進(jìn)行分段統(tǒng)計(jì)。然后對(duì)文本進(jìn)行分詞,然后全部去除文本中包含的標(biāo)點(diǎn)、數(shù)字、多余的空格和停用詞,生成語料庫;

      猜你喜歡
      文本挖掘知識(shí)管理
      數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
      基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
      從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
      提升企業(yè)知識(shí)管理能力 增強(qiáng)企業(yè)的強(qiáng)勁發(fā)展態(tài)勢
      檔案管理與知識(shí)管理的關(guān)系研究
      大數(shù)據(jù)時(shí)代高校學(xué)生知識(shí)管理
      科技視界(2016年21期)2016-10-17 18:42:37
      慧眼識(shí)璞玉,妙手煉渾金
      我國高新技術(shù)企業(yè)實(shí)施知識(shí)管理的重要性研究
      仁怀市| 浪卡子县| 千阳县| 昌乐县| 梁平县| 潞城市| 泾川县| 邮箱| 罗城| 左权县| 齐齐哈尔市| 新宁县| 漳平市| 齐河县| 富宁县| 潞西市| 安龙县| 陆丰市| 乐昌市| 寿宁县| 瓦房店市| 景东| 绥江县| 太康县| 济阳县| 清水河县| 安国市| 黔西| 名山县| 临澧县| 铅山县| 格尔木市| 开江县| 华安县| 霍州市| 县级市| 福建省| 曲麻莱县| 浏阳市| 紫云| 安国市|