何 崢
(中國人民解放軍新疆軍區(qū)南疆軍區(qū)信息保障隊,新疆 喀什 844000)
云計算服務(wù)能由使用者本人選擇內(nèi)容和方式,以便更好地利用現(xiàn)有資源來學(xué)習(xí),除了能為學(xué)習(xí)者帶來便利外,還能降低教育管理的成本,使傳統(tǒng)教育模式發(fā)生改變。 如何融合網(wǎng)絡(luò)環(huán)境中的共享數(shù)據(jù),提升網(wǎng)絡(luò)學(xué)習(xí)的效率,強化信息資料之間的共享,成為當(dāng)前需要討論的問題。
網(wǎng)絡(luò)時代的到來雖然使人們能從網(wǎng)絡(luò)上獲得更多的信息,但是同時也讓信息愈發(fā)碎片化,而數(shù)據(jù)融合能夠有效解決該問題。 數(shù)據(jù)融合的目的在于對碎片化的信息,按照最終的目的與需求進行重新提取與融合,形成一個數(shù)據(jù)資源集合,以達到信息使用者所要達到的目的。 但在這一過程中,如果信息數(shù)據(jù)的標(biāo)準(zhǔn)傳輸模式出現(xiàn)差錯,就容易產(chǎn)生信息孤島問題。 網(wǎng)絡(luò)學(xué)習(xí)環(huán)境是孤島問題多發(fā)區(qū), 因此作為跨學(xué)科領(lǐng)域,數(shù)據(jù)融合需要考慮多種復(fù)雜因素,并且有必要建立信息標(biāo)準(zhǔn)體系,以防止數(shù)據(jù)共享過程出現(xiàn)問題。
大數(shù)據(jù)時代的數(shù)據(jù)融合是多方向的信息匯總,其中包括傳統(tǒng)科學(xué)和新興科學(xué), 傳統(tǒng)科學(xué)類目中主要包括數(shù)學(xué)、通信以及計算機網(wǎng)絡(luò),新興科學(xué)則主要包括機器學(xué)習(xí)、人工智能和在線溝通等項目。 在數(shù)據(jù)融合中,主要的技術(shù)有假設(shè)檢驗、聚類分析和機器學(xué)習(xí),用這些技術(shù)對數(shù)據(jù)庫進行分析,屬于決策級別融合。隨著互聯(lián)網(wǎng)的發(fā)展, 網(wǎng)絡(luò)學(xué)習(xí)環(huán)境的數(shù)據(jù)構(gòu)建主要用到同類與異類數(shù)據(jù)的融合。 同類與異類的融合能起到數(shù)據(jù)歸納的效果,進行有效信息的壓縮和聚集,在計算機數(shù)據(jù)系統(tǒng)中通常使用決策樹和神經(jīng)網(wǎng)絡(luò)法的方式來表示。
(1)需求定義。 需求定義也就是學(xué)習(xí)者線上學(xué)習(xí)的方向,即用戶需求,只有清楚定義要解決的問題,明確了方向才能提取出數(shù)據(jù)庫中能夠利用的數(shù)據(jù),從而建立基于有效的數(shù)據(jù)模型。
(2)數(shù)據(jù)預(yù)處理。 在進行數(shù)據(jù)分析之前,數(shù)據(jù)預(yù)處理是數(shù)據(jù)融合的關(guān)鍵步驟,因為數(shù)據(jù)庫中的數(shù)據(jù)類型是多種多樣的,用戶的需求確定以后,預(yù)處理就顯得更加重要。 數(shù)據(jù)預(yù)處理主要包括描述數(shù)據(jù)、清理垃圾數(shù)據(jù)、集成有效數(shù)據(jù)和變換有效數(shù)據(jù),只有通過預(yù)處理才能進行到下一步分析。
(3)深度理解。 深度理解的含義是深度挖掘數(shù)據(jù)需求,由于大數(shù)據(jù)時代的特性,以及用戶需求的多樣化,構(gòu)造網(wǎng)絡(luò)學(xué)習(xí)環(huán)境對數(shù)據(jù)融合分析有了更高的要求,不僅指浮于表面的數(shù)據(jù)內(nèi)容,還要針對被挖掘數(shù)據(jù)和分析特征模型把握演變的規(guī)律。
(4)計算模型。 由于傳統(tǒng)數(shù)據(jù)計算已經(jīng)與現(xiàn)代互聯(lián)網(wǎng)技術(shù)相適應(yīng),面對結(jié)構(gòu)復(fù)雜和類型多樣的信息數(shù)據(jù),需要構(gòu)建高效的數(shù)據(jù)計算模型,這也是進行數(shù)據(jù)產(chǎn)出的重要環(huán)節(jié)。 對用戶需求進行匯總、分析之后的精準(zhǔn)輸出,是數(shù)據(jù)融合的關(guān)鍵。
(1)優(yōu)化網(wǎng)絡(luò)學(xué)習(xí)環(huán)境。 很多用戶不信任互聯(lián)網(wǎng)環(huán)境的一個重要原因,是網(wǎng)絡(luò)學(xué)習(xí)環(huán)境不佳,除了信息種類比較復(fù)雜外,信息庫的數(shù)據(jù)也有不確定性。 因此,要改善數(shù)據(jù)融合現(xiàn)狀,避免信息孤島現(xiàn)象,首先要優(yōu)化網(wǎng)絡(luò)學(xué)習(xí)環(huán)境。
(2)提高數(shù)據(jù)融合技術(shù)水平。 數(shù)據(jù)融合需要從技術(shù)層面上提高,首先要進行人才培養(yǎng)。 為了更好地整合數(shù)據(jù), 必須培養(yǎng)有著互聯(lián)網(wǎng)整合技術(shù)的專業(yè)人才,專項培養(yǎng)人才,滲透規(guī)章法則,對相關(guān)人員進行質(zhì)量上的考核,嚴(yán)格把控人員技術(shù)水平,才能保障構(gòu)建優(yōu)質(zhì)的學(xué)習(xí)網(wǎng)絡(luò)環(huán)境,推動網(wǎng)絡(luò)環(huán)境的良性發(fā)展。
(3)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。 網(wǎng)絡(luò)異構(gòu)問題的產(chǎn)生,使優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)提上綱程。 其主要內(nèi)容有系統(tǒng)的優(yōu)化、課程的優(yōu)化2 項,歸根究底是對課程資源的優(yōu)化,并提高資源含金量,可以通過提高數(shù)據(jù)運維知識,辨別網(wǎng)絡(luò)結(jié)構(gòu)中不適用的、無效的信息,通過技術(shù)上的優(yōu)化升級才能改善現(xiàn)有網(wǎng)絡(luò)學(xué)習(xí)環(huán)境。
網(wǎng)絡(luò)學(xué)習(xí)需要一個健康的、科學(xué)的環(huán)境,因此除了凈化網(wǎng)絡(luò)環(huán)境, 還有精準(zhǔn)提煉信息資源這些要求。網(wǎng)絡(luò)學(xué)習(xí)中的信息資源是通過計算機為載體表現(xiàn)出的學(xué)習(xí)方式,在現(xiàn)階段主要在Web 平臺實現(xiàn),在網(wǎng)絡(luò)學(xué)習(xí)環(huán)境中,環(huán)境構(gòu)建的核心內(nèi)容有控制學(xué)習(xí)資源和遠(yuǎn)程教學(xué)管理2 種,除此之外,還有學(xué)習(xí)網(wǎng)站和網(wǎng)絡(luò)指導(dǎo)教師這種輔助方式。
網(wǎng)絡(luò)學(xué)習(xí)方式逐漸被教育領(lǐng)域中的眾多學(xué)習(xí)者認(rèn)可,彰顯了構(gòu)建科學(xué)學(xué)習(xí)環(huán)境的必要性。通過上文總結(jié)出的網(wǎng)絡(luò)融合步驟, 綜合考慮網(wǎng)絡(luò)學(xué)習(xí)環(huán)境構(gòu)建的地位,就能得出結(jié)論:通過數(shù)據(jù)融合的方式構(gòu)建出的網(wǎng)絡(luò)學(xué)習(xí)環(huán)境,將有利于教育和互聯(lián)網(wǎng)技術(shù)的進步。 目前,高速發(fā)展的互聯(lián)網(wǎng)環(huán)境使得傳統(tǒng)數(shù)據(jù)難以滿足用戶需求,一些“僵尸數(shù)據(jù)”與“信息孤島”的出現(xiàn),造成了不必要的資源浪費。針對這些冗余的數(shù)據(jù),需要結(jié)合云計算和人工智能技術(shù),提高數(shù)據(jù)計算模型的價值。
數(shù)據(jù)獲取的主要方式是平臺自行沉淀、 網(wǎng)絡(luò)抓取、合作共享、增值服務(wù)。 現(xiàn)如今,互聯(lián)網(wǎng)是各種跨學(xué)科數(shù)據(jù)的龐大數(shù)據(jù)庫, 這些數(shù)據(jù)經(jīng)過清洗和篩選后,可以進行下一步,歸納到網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)中,比方說書刊出版社的CRM 系統(tǒng)、Kindle 等閱讀軟件的App,從用戶習(xí)慣來沉淀、抓取用戶需求。 又或者可以在增值服務(wù)上下功夫, 在實體商品上附加網(wǎng)址和二維碼,進行軟推廣,起到數(shù)據(jù)的捕捉和需求的獲取。
第一時間獲取的數(shù)據(jù)有時雜亂、 重復(fù)和模糊,有這種冗余問題的存在,在實際運用中,數(shù)據(jù)預(yù)處理有必要升級變換。 變換的首要步驟就是數(shù)據(jù)清洗,通過清洗重復(fù)數(shù)據(jù)和填補空缺數(shù)據(jù), 提高數(shù)據(jù)的準(zhǔn)確性。常見的數(shù)據(jù)預(yù)處理方法有EM 最大期望法、MI 算法,等等,在清洗和填補之后將數(shù)據(jù)集成,集成的數(shù)據(jù)主要是異構(gòu)數(shù)據(jù)的合并與歸納,在合并與歸納期間還需要進行數(shù)據(jù)的變換,利用函數(shù)等方式,規(guī)避權(quán)重不平衡現(xiàn)象發(fā)生。 數(shù)據(jù)預(yù)處理在網(wǎng)絡(luò)學(xué)習(xí)環(huán)境中,主要是利用網(wǎng)絡(luò)爬蟲形成數(shù)據(jù)模型來完成的,具體表現(xiàn)為瀏覽器、學(xué)習(xí)軟件一類的平臺展現(xiàn)出的推送圖文。
數(shù)據(jù)轉(zhuǎn)換是經(jīng)過數(shù)據(jù)處理和數(shù)據(jù)分析得來的,常見的處理模型有 MapReduce、Dryad、Storm, 這些都是可以在復(fù)雜的數(shù)據(jù)庫環(huán)境中進行數(shù)據(jù)處理的模型,并且具有很高的準(zhǔn)確性。 現(xiàn)如今,數(shù)據(jù)轉(zhuǎn)換起到的作用不僅僅是將用戶的需求內(nèi)容呈現(xiàn)出來,還起到深度挖掘的作用,對流數(shù)據(jù)進行聚類,并且檢測異常。 近年來,快速地轉(zhuǎn)換數(shù)據(jù)越來越重要,所以,提高數(shù)據(jù)處理的實時性也勢在必行,這樣才能使處理模型有一個快速優(yōu)質(zhì)的應(yīng)用效果。
本文采用大數(shù)據(jù)時代為背景,列舉和分析網(wǎng)絡(luò)學(xué)習(xí)環(huán)境中數(shù)據(jù)融合的步驟,并且對目前數(shù)據(jù)融合的升級演變做了系統(tǒng)性總結(jié)。 研究重點在于網(wǎng)絡(luò)學(xué)習(xí)中,因用戶需求而進行的數(shù)據(jù)獲取、預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)模型計算流程是如何運作的。 在未來,數(shù)據(jù)融合的效率必然會更加高效便捷,實踐證明,只有通過升級每個細(xì)節(jié)步驟,準(zhǔn)確的數(shù)據(jù)產(chǎn)出,才能惠及大眾,避免學(xué)習(xí)行為與資源庫發(fā)生孤島效應(yīng),只有從技術(shù)上做出改進,才能讓網(wǎng)絡(luò)學(xué)習(xí)效率真正地得到提升。