張偉
(南京同仁醫(yī)院 信息部,江蘇南京 211102)
隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,互聯(lián)網(wǎng)應用逐漸得到普及,根據(jù)網(wǎng)絡用戶瀏覽記錄預測用戶興趣強度,從而推送帶有特定目標的網(wǎng)絡信息,目標定位在預測用戶興趣強度過程中起到了關鍵的作用,它需要確定網(wǎng)絡信息目標的種類,從而識別網(wǎng)絡信息目標的準確位置[1-2]。
目前,互聯(lián)網(wǎng)更新網(wǎng)絡信息的速度較快,豐富的網(wǎng)絡信息給人們?nèi)粘I顜砹撕芏啾憷?,但是網(wǎng)絡用戶搜索的信息內(nèi)容產(chǎn)生了不協(xié)調信息,該信息的出現(xiàn)給網(wǎng)絡信息目標的正常預測造成了嚴重的影響,因此,需要及時、準確地預測出網(wǎng)絡信息目標路徑[3-5]。
傳統(tǒng)的預測系統(tǒng)在預測網(wǎng)絡信息搜索目標時,預測信息目標不準確,預測效果較差,繪制的搜索目標路徑與真實目標路徑相差較大,目標定位無法準確識別出網(wǎng)絡信息搜索目標的位置。
基于以上傳統(tǒng)預測系統(tǒng)出現(xiàn)的問題,文中設計了一種基于文本挖掘的網(wǎng)絡信息搜索目標預測系統(tǒng),該系統(tǒng)采用了文本挖掘技術,能夠從海量的網(wǎng)絡信息中挖掘出潛在的、有利用價值的目標數(shù)據(jù),與此同時,該預測系統(tǒng)詳細設計了硬件和軟件,最后通過實驗驗證了所設計的基于文本挖掘的網(wǎng)絡信息搜索目標預測系統(tǒng)的有效性。
隨著計算機網(wǎng)絡的不斷發(fā)展,網(wǎng)絡信息的種類越來越多,所以文中在結合多個傳統(tǒng)預測系統(tǒng)硬件的基礎上,設計了一個全新的硬件系統(tǒng),系統(tǒng)硬件架構如圖1 所示。
圖1 系統(tǒng)硬件架構
由圖1 可知,系統(tǒng)硬件架構的主要核心器件包括采集器、處理器、存儲器和傳輸器。
文中預測系統(tǒng)的采集器芯片內(nèi)部含有2 路輸出信號、1.8 V 的外圍電壓基準和一個8 位的串行接口。芯片在采集網(wǎng)絡數(shù)據(jù)時,功耗只有40 mW,當采集器處于節(jié)電模式時,芯片運行的功耗為20 μW,采集芯片內(nèi)部還設置了多通道的選擇器,可選擇網(wǎng)絡信息的不同目標路徑,采集器外圍設置了數(shù)據(jù)傳輸器,該傳輸器可以快速傳輸網(wǎng)絡信息數(shù)據(jù),傳輸速率最高可達到512 Mbps。由于采集器芯片功耗較低,所以采集器選擇普通蓄電池為其供電,電壓控制在1.8~3.3 V,電流為1.2~1.8 mA。當電壓為1.8 V 時,由采集芯片對網(wǎng)絡目標數(shù)據(jù)進行等間隔采樣,并將采樣結果通過高速并行接口傳輸?shù)讲杉鞯膬?nèi)部緩存器中,由內(nèi)部緩存器完成數(shù)據(jù)緩存,并將數(shù)據(jù)打包,通過USB 接口將打包完的數(shù)據(jù)傳輸?shù)街骺赜嬎銠C上進行數(shù)據(jù)處理[6-7]。該款采集器上還設置了4 路RS-232 接口,作用是將網(wǎng)絡信息數(shù)據(jù)和搜索目標數(shù)據(jù)中轉到主控機上。采集器內(nèi)部結構如圖2 所示。
圖2 采集器內(nèi)部結構
文中設計的處理器芯片選用TI 公司最新推出的TD172B23 芯片,該芯片處理網(wǎng)絡數(shù)據(jù)的能力較強,芯片內(nèi)部含有4 種處理器內(nèi)核,分別為1A-2000、3A-4000、5A-5000 和7A-3000,這些處理器內(nèi)核全都是以GS446 架構設計而成的,在設計GS446 架構時參考了其他品牌的處理器架構,與其他處理器架構相比設置了更多的參數(shù)[8-10]。處理器內(nèi)部時鐘芯片如圖3 所示。
圖3 處理器內(nèi)部時鐘芯片
處理器外圍電路電壓最高能達到4.8 V,最低為1.8 V,主要為處理器整個器件供電,外圍電流最高為2.8 A,最低為1.2 A,在處理器處于節(jié)電模式時,電壓和電流分別為2.2 V、1.4 A。該處理器定點和浮點的分值與其他處理器相比優(yōu)勢更大,在處理器正常工作狀態(tài)下,需要系統(tǒng)內(nèi)存和網(wǎng)絡寬帶對其進行輔助,在調試系統(tǒng)內(nèi)存和網(wǎng)絡寬帶時,根據(jù)處理器的工作狀態(tài)確定調試次數(shù)[11-12]。
文中預測系統(tǒng)的存儲器芯片選擇的是TU 公司生產(chǎn)的TDYEBI663 芯片,該芯片可以高效、快速地處理信息數(shù)據(jù),功耗較低。存儲器的存儲原理是將緩存設置在主控機和存儲單元之間,主控機訪問速度與CPU 相比更慢,滿足不了快速訪問的要求,所以在存儲器正常工作的情況下,不會訪問主控機[13-14]。將采集器采集到的網(wǎng)絡信息復制并粘貼在主存儲器上,以便在下一次訪問時可以直接訪問主存儲器,省略了訪問CPU 的環(huán)節(jié),這樣的設計可以在一定程度上提升系統(tǒng)運行和存儲速度。通過主存儲器的存儲容量判斷CPU 的訪問能力,存儲器的結構如圖4 所示。
圖4 存儲器結構
由圖4 可知,文中設計的存儲器主要以數(shù)字為單位,對采集到的網(wǎng)絡數(shù)據(jù)進行存儲,這樣可以增加主存儲器的存儲空間,在交換網(wǎng)絡不協(xié)調信息時,可以采用字塊形式對不協(xié)調網(wǎng)絡數(shù)據(jù)進行存儲[15]。
預測系統(tǒng)的傳輸器芯片選擇TD 公司生產(chǎn)的MT1860B 芯片,在傳輸網(wǎng)絡信息數(shù)據(jù)時,傳輸介質使用4 類以上7 類以下的CAJ 總線,對網(wǎng)絡圖像信息、音頻信息、視頻信息、彩色圖像和彩色視頻信息進行實時傳輸,并且可分別與傳輸器的CPU、主傳輸器結合使用,三者結合使用的結果是產(chǎn)生不同的傳輸距離。與傳輸器的CPU 結合使用,傳輸距離可以達到1 400 m,與主傳輸器結合使用,傳輸距離可以達到1 600 m,根據(jù)網(wǎng)絡信息的數(shù)量和不協(xié)調信息的種類調節(jié)發(fā)生器和接收器,將視頻信號的傳輸距離調整到1 200~1 500 m,以滿足實際傳輸?shù)男枰?,使傳輸器的抗干擾能力達到最佳[16]。為了保證傳輸器的正常工作,傳輸器外圍電路的電壓最高為9.2 V,最低為3.3 V,電流最高為4.2 A,最低為1.2 A。傳輸器電路如圖5 所示。
圖5 傳輸器電路
文本挖掘是指使用數(shù)據(jù)挖掘技術,從海量的文本數(shù)據(jù)中提取有利用價值的信息數(shù)據(jù),這些信息數(shù)據(jù)與原始數(shù)據(jù)可能存在著內(nèi)在聯(lián)系和相似的發(fā)展趨勢,并具有某種特定規(guī)律,從信息數(shù)據(jù)中可以抽取全新、可利用、有效的數(shù)據(jù)模式,利用這些全新的數(shù)據(jù)模式更高效地組織文本信息。文中設計的網(wǎng)絡信息搜索目標預測系統(tǒng)采用了文本挖掘技術,利用文本挖掘中的文本摘要、結構分析和數(shù)據(jù)演變將網(wǎng)絡用戶搜索的信息內(nèi)容進行系統(tǒng)分類,抽取網(wǎng)絡信息中的不協(xié)調信息,對目標定位進行檢索,幫助預測系統(tǒng)分析文本信息中的關鍵信息。
根據(jù)設計的基于文本挖掘的網(wǎng)絡信息搜索目標預測系統(tǒng)硬件結構,文中對軟件進行了設計,軟件流程如圖6 所示。
圖6 系統(tǒng)軟件流程
文中研究的基于文本挖掘的網(wǎng)絡信息搜索目標預測系統(tǒng)軟件流程主要通過以下3 方面來進行,具體步驟如下:
1)提取關鍵的網(wǎng)絡信息。網(wǎng)絡用戶搜索的網(wǎng)絡信息數(shù)量巨大,信息種類繁多且復雜,在傳輸時很容易混在一起,如果在某一時間段內(nèi)同時進行預測,會極大地降低預測結果的效率,無法準確預測網(wǎng)絡用戶的真正需求。所以在預測網(wǎng)絡信息搜索目標時,首先要提取關鍵的網(wǎng)絡信息,采用聚類技術抽取目標掩碼,識別候選框,對用戶搜索的數(shù)據(jù)進行篩選和提取,更新抽取完的目標掩碼,將更新結果放在文本信息中,降低提取的難度。由于網(wǎng)絡的傳輸層具有較高的復雜性,為滿足其需求,需要不斷更新目標掩碼,加強對網(wǎng)絡的刷新,在對關鍵網(wǎng)絡信息進行提取和分析時,需要實時記錄提取和分析的時間,以完成設定的提取目標。
2)篩選目標信息。把網(wǎng)絡信息搜索目標進行迭代分類,從而獲得首次分類完的階段性目標信息,如果目標信息中出現(xiàn)了不協(xié)調信息,則將不協(xié)調信息存放在候選框的右下角和左下角,如果目標信息中沒有產(chǎn)生不協(xié)調信息,則利用迭代分類把首次信息篩選結果存放在候選框的左上角和右上角,在進行二次篩選時,把中心目標信息移動至候選框的邊緣,以便隨時對其進行最后一次的信息篩選。在最后篩選目標信息時,控制分類和篩選的時間,爭取以最短的時間得到最終的目標信息,同時必須保證結果的準確性以及篩選的及時性。
3)得到用戶搜索的網(wǎng)絡信息。采用由粗到精的方式找到特定的網(wǎng)絡信息,用戶搜索的信息內(nèi)容可分成多個方面,不同方面定位的角度不同,根據(jù)中心內(nèi)容分析目標信息的邊緣信息,中心目標信息在候選框的邊緣進行移動時,會與邊緣信息發(fā)生重疊,通過重疊信息可以精準預測目標信息的位置。傳統(tǒng)軟件在預測網(wǎng)絡信息搜索目標時,只能采用基于密度的檢測方法,文中通過迭代分類使不同方面的網(wǎng)絡信息呈現(xiàn)松散狀態(tài),以提高網(wǎng)絡信息搜索目標的準確性。
為了驗證基于文本挖掘的網(wǎng)絡信息搜索目標預測系統(tǒng)的有效性,文中采用了文本挖掘的方式,與傳統(tǒng)預測系統(tǒng)進行實驗對比,驗證其有效性。
根據(jù)傳統(tǒng)預測系統(tǒng)和文中預測系統(tǒng)的實際預測效果,記錄兩種系統(tǒng)預測結果的準確率,圖7 為傳統(tǒng)預測系統(tǒng)和文中設計的預測系統(tǒng)在對網(wǎng)絡信息搜索目標進行預測時,得到的目標信息與真實目標信息的準確率對比結果。
圖7 準確率實驗結果
由圖7 可知,兩個預測系統(tǒng)同時對網(wǎng)絡信息搜索目標進行分類預測,但得到的預測結果大不相同,傳統(tǒng)預測系統(tǒng)對目標信息預測的準確率為70%,而文中設計的預測系統(tǒng)對目標信息預測的準確率為88%,比傳統(tǒng)系統(tǒng)高了18%,說明文中設計的預測系統(tǒng)對目標信息的預測準確率更高。
預測時間實驗結果如表1 所示。
表1 預測時間實驗結果
根據(jù)表1 可知,文中提出的文本挖掘網(wǎng)絡信息預測系統(tǒng)預測耗時遠遠小于傳統(tǒng)系統(tǒng),預測能力更好。
傳統(tǒng)的預測系統(tǒng)預測不協(xié)調信息數(shù)據(jù)的能力較低,能力值僅為0.1,與標準能力值1.5 相差很多,而文中設計的預測系統(tǒng)預測不協(xié)調信息數(shù)據(jù)的能力強,能力值達到1.8,比標準能力值高0.3,雖然傳統(tǒng)的預測系統(tǒng)和文中設計的預測系統(tǒng)都能預測網(wǎng)絡信息搜索目標,但是傳統(tǒng)預測系統(tǒng)預測效果差,預測結果的準確率遠遠低于文中設計的預測系統(tǒng),且預測性能較差,所以文中設計的基于文本挖掘的網(wǎng)絡信息搜索目標預測系統(tǒng)優(yōu)于傳統(tǒng)預測系統(tǒng),預測效果更佳,有效性和可行性更高。
文中設計了基于文本挖掘的網(wǎng)絡信息搜索目標預測系統(tǒng),該預測系統(tǒng)采用了文本挖掘技術,利用其較好的網(wǎng)絡數(shù)據(jù)提取能力,從海量的網(wǎng)絡信息數(shù)據(jù)中提取出目標數(shù)據(jù),節(jié)省了提取時間。在預測系統(tǒng)硬件方面,文中設計了采集器、處理器、存儲器、傳輸器,為預測系統(tǒng)提供了有力的硬件支撐,在預測系統(tǒng)軟件方面,闡述了文本挖掘的工作原理以及軟件流程,最后通過實驗驗證了文中設計的基于文本挖掘的網(wǎng)絡信息搜索目標預測系統(tǒng)的有效性,預測效果更優(yōu)于傳統(tǒng)系統(tǒng),具有較高的有效性和可行性。