范萍
(陜西職業(yè)技術學院 陜西 西安710038)
基于電子商務時代的中文字典數(shù)據(jù)庫生成設計
范萍
(陜西職業(yè)技術學院 陜西 西安710038)
近幾年,隨著網(wǎng)絡技術的發(fā)展,人們逐漸進入電子商務時代,在網(wǎng)絡環(huán)境下必須注意發(fā)展電子字典經(jīng)濟,拓展中文字典智能化功能。中文字典在設計的過程中每個屬性都需要手工識別、計算和生成到漢子數(shù)據(jù)庫中,給系統(tǒng)帶來較大的麻煩。而進行較好的數(shù)據(jù)庫生成設計能夠解決數(shù)據(jù)庫生成困難等問題,提高工作效率。本文基于電子商務環(huán)境分析中文字典數(shù)據(jù)庫生成設計,采用數(shù)據(jù)庫生成算法結合其實現(xiàn)方式,得出中文字典數(shù)據(jù)庫生成設計步驟實施證明這種方法能夠將系統(tǒng)處理效率可達到50%以上。
電子商務;中文字典數(shù)據(jù)庫;生成設計
信息技術迅速發(fā)展,帶動我國各行各業(yè)經(jīng)濟的發(fā)展。中文信息處理技術發(fā)展迅速,這種技術主要是利用計算機對漢語信息進行有效的處理,但是由于漢字屬性比較復雜,而這些漢字字典又是中文字典中必不可少的因素,在分析、計算的過程中容易出現(xiàn)錯誤,降低工作效率。而在電子商務環(huán)境下,信息技術的應用能夠通過對已有工具、技術的應用和分析,利用漢字信息的生產(chǎn)算法解決問題,從而能夠有效提高工作效率。文中主要分析的是中文字典數(shù)據(jù)庫生成設計方法。
中文字典數(shù)據(jù)庫系統(tǒng)采用的是典型的Mediated系統(tǒng)提攜結構,引入數(shù)據(jù)字典后的數(shù)據(jù)庫結構如圖1所示。數(shù)據(jù)集成系統(tǒng)一般主要通過中介模式將各個部分的數(shù)據(jù)源的數(shù)據(jù)集成起來,而整個系統(tǒng)的數(shù)據(jù)仍然存儲在各個局部數(shù)據(jù)源中,通過包裝器對數(shù)據(jù)進行轉換[1-3]。用戶在利用數(shù)據(jù)庫進行數(shù)據(jù)查詢的過程中能根據(jù)局部數(shù)據(jù)源模式進行一系列的查詢,引入本體層以后,中介器將對用戶的查詢進行分析,并提取有效信息進行查詢,并將查詢結果反饋到中介器中重新組合查詢,并對每個數(shù)據(jù)庫進行結果數(shù)據(jù)分析,將符合數(shù)據(jù)可使用要求的信息反饋出現(xiàn),解決數(shù)據(jù)源數(shù)據(jù)更新問題,降低系統(tǒng)工作效率[4-5]。
圖1 系統(tǒng)結構框架圖
2.1 數(shù)據(jù)庫生成思路
在電子商務時代,電子字典數(shù)據(jù)庫生成以后,必須將其匯總到總數(shù)據(jù)庫中進行統(tǒng)一的分析,以便能夠更好的生成中文字典數(shù)據(jù)庫。目前,我國數(shù)據(jù)庫技術已經(jīng)相當成熟,下一步的主要進度是將生成的數(shù)據(jù)庫進行進一步的分析和研究,重視數(shù)據(jù)庫本身的發(fā)展。由于漢字的復雜性,需要大量的手術操作技術,如果自動生成一些部分的數(shù)據(jù),可能會使系統(tǒng)建立生成更加具有效率。一般情況下,在電子詞典中漢字要素包含:簡體字、ID、拼音、聲調、內碼、偏旁、筆劃、注釋以及拼音等[6-7]。而在電子字典數(shù)據(jù)庫的開發(fā)中,要注意Windows程序開發(fā)難度分析,而操作系統(tǒng)的提供的應用程序接口直接關系著程序開發(fā)的難易程度。
2.2 GB2312字庫全集的生成
GB2312編碼是我國漢字信息專用編碼,收錄的漢字信息比較多,比如字母、簡體化漢字等圖形字符,中文字典的漢字收集數(shù)量比較龐大,能夠達到6763個漢字收集數(shù),中文字典字庫中的所有漢字字均按照區(qū)位分步法進行分析,可以將她們分為A1-FF區(qū)進而位,然后生成中文字典字庫文件,生成字庫的主要代碼如下:
3.1 數(shù)據(jù)庫維護設計
在電子商務環(huán)境發(fā)展下,中文字典的基礎數(shù)據(jù)庫形式為SMART軟件核心構成部位,其是該軟件中的一個重要字典,它的主要數(shù)據(jù)結構字段見表1。從表1中我們可以看出車站代碼和電報略碼均具有唯一性,能夠用于記錄數(shù)據(jù),如果將電報簡碼作為主鍵處理,根據(jù)不同的需求,車站名稱和站名簡稱兩個字段用于顯示和報表;根據(jù)輸入方式的不同,設置不同的輸入碼處理方式,并且將拼音略碼和電報略碼的用于標明字典或其他字典關系,車站等級主要用于標記車站所述范圍,起始有效期和終止有效期主要用于數(shù)據(jù)有局限性的字典[9-10]。處理這些關鍵技術以外,為了提高字典訪問下來,還要按照站名略碼及車站名稱建立多個索引。字典的維護與一個普通表的形式滅有太大的區(qū)別,但是SMRAT系統(tǒng)中這種字典一般數(shù)據(jù)數(shù)據(jù)字典,必須有專用軟件進行專門的維護和管理[11]。另外,還要注意基礎字典本身在建立過程中漢字的輸入只能在Windows操作系統(tǒng)提供的中文輸入法中進行。
表1 字典Station主要數(shù)據(jù)結構
3.2 數(shù)據(jù)庫查詢模塊設計
在電子商務數(shù)據(jù)分析環(huán)境下,數(shù)據(jù)字典存儲在服務器中,能夠在前臺應用中采用用嵌入式SQL語句進行數(shù)據(jù)查詢,這種數(shù)據(jù)查詢功能的實現(xiàn)一般在存儲過程中實現(xiàn)[12-13]。在數(shù)據(jù)庫生成系統(tǒng)實際應用中擦用數(shù)據(jù)緩沖技術實現(xiàn)數(shù)據(jù)查詢。此技術實現(xiàn)的方法首先是在本地設置一個高速數(shù)據(jù)緩沖區(qū),進行數(shù)據(jù)檢索的過程中首先判定數(shù)據(jù)是否在緩沖區(qū),然后根據(jù)具體情況在緩沖區(qū)實施數(shù)據(jù)檢索。這種檢索方法能夠有效減少服務器下端數(shù)據(jù)數(shù)量,提高工作效率。同時能夠減少與服務器的交互次數(shù),改善服務器性能[14]。
3.3 字典表自定義數(shù)據(jù)錄入模塊設計
數(shù)據(jù)錄入模塊的主要設計思路是根據(jù)后臺數(shù)據(jù)維護程序利用字典表進行數(shù)據(jù)錄入程序設計思路的構想,是設計實現(xiàn)步驟如下:首先編寫數(shù)據(jù)字典查詢所用的存儲過程代碼,并在數(shù)據(jù)庫中建立該存儲過程[15];其次在窗口設計窗組件中用于顯示查詢結構集,能夠直接選用上面的存儲過程作為數(shù)據(jù)源,并指定用戶輸入碼為被動參數(shù),然后在應用程序界面設置一個名為Sle-station-name的單行編輯器組件用于顯示站名,而后再設計一個名為sle shortcode單行編輯器組件用于輸入站名略碼;而后為事件編寫腳本:dw_dictiotmryretrieve(sleshortcode text);最后利用自定義的輸入碼進行字段輸入分析。
中文電子字典的實現(xiàn)主要包含核心技術和檢索效率等方面的設計,首先我們應該考慮的是如何生成和維護數(shù)據(jù)庫,另一個需要我們考慮的問題是如何快速有的對數(shù)據(jù)進行檢索。數(shù)據(jù)庫的生產(chǎn)方法采用的是轉換算法[16],漢字之間的一一對應關系可以通過API編程獲得。同時利用記事本和IE生成漢字CB2312編碼及其之間的對應關系表。
4.1 字符映射表的讀取
字符映射表程序的主要功能是漢字編碼與漢字之間的映射表,在高級查看分組里按照偏旁部首排序方法和拼音分類排序方法列出字符映射表。在映射表中利用光鍵盤單機S鍵,將漢字編碼選擇到“復制字符”文本中,將所選擇的的漢字復制到剪貼板里。上述操作手術操作可以實現(xiàn),編程模擬也可以實現(xiàn),首先準確的找到字符映射表,及其控件,通過WindWindow函數(shù)找到字符映射表,這些窗口會記錄下需要發(fā)送的消息。找到所需窗口以后,查找窗口中的空間,通過編寫函數(shù)中文字典中字符映射表的讀取,而后根據(jù)一定的條件尋找字符映射表的控件,找到以后應用GetClassName讀取字符映射表的類名。然后進行代碼分析,具體的分析過程不再敘述,經(jīng)過代碼分析后升本文本格式控制,并保存好臨時文件,并將這些信息在兩個窗口之間連續(xù)轉換,而后進行信息延時處理,再分析窗口設置問題,以便能夠更好的設置字符映射分析和讀取。另外,拼音、偏旁的讀取方法和字符映射表的讀取方式比較相似,在這里我們就不再一一詳細說明。
4.2 Unicode的讀取
在中文字典數(shù)據(jù)庫生成設計中Unicode的讀取比偏旁讀取更簡單,用戶只需要找到CharGridWClass類窗口后連續(xù)發(fā)送右移消息。并將這些消息保存生成漢字就可以是想其正確讀取。Unicode讀取方式也有和偏旁讀取不同的地方,比如Unicode讀取只需要對漢字或該漢字的Unicode碼進行對應關系的分析,成員設計的順序并沒有那么重要。這個設計要點的實現(xiàn)比較容易,主要是因為字符映射表中的漢字表排列的順序往往是根據(jù)Unicode碼順序實施的詳細排列,所以,我們在進一步分析的過程中僅僅需要知道一個漢字的Unicode碼就能夠將其他漢字的編碼推算預測出來[17]。同時在讀取的過程中為了提高效率,可以手工選擇字符集,然后利用漢字“一”實現(xiàn)中文字符的查找,同時相關人員要在程序修改方面制定漢字“一”的編碼,這樣有利于中文字符的編寫,我們在分析的過程中將漢字編碼設置為16進制4E00,在讀取的過程中每次讀到漢字“一”后編碼會自動加一,這樣就能夠實現(xiàn)中文字典的自動化程序管理和讀取。
在電子商務環(huán)境下,數(shù)據(jù)分析技術迅速發(fā)展,漢字數(shù)據(jù)庫體系結構分析直接關系著中文電子字典數(shù)據(jù)庫生成情況。在實際操作中往往由于換這妮子數(shù)據(jù)庫信息量比較大,數(shù)據(jù)分析結構復雜等因素,降低工作效率,為了解決以上問題,必須實現(xiàn)中文字典數(shù)據(jù)庫生成設計模式,解決漢字錄入困難、工作效率低等問題,根據(jù)各種模塊的設計和實現(xiàn),提高中文字典數(shù)據(jù)庫生成效率和質量。緩解數(shù)據(jù)庫生成中遇到的各種問題,并在字典數(shù)據(jù)庫中實現(xiàn)其價值。
[1]徐尤南.大型數(shù)據(jù)字典在客戶/服務器環(huán)境下的應用[J].計算機工程,2001,27(7):161-163,169.
[2]杜根遠,李瑞民,苗放,等.中文電子字典數(shù)據(jù)庫生成算法研究[J].計算機工程與設計,2009,30(17):4134-4137.
[3]王艷.族性結構的計算機輔助標引及結構詞典的建立[D].大連:大連理工大學,2006.
[4]蔡冬林.基于ACCESS數(shù)據(jù)庫的船舶動力裝置故障診斷專家系統(tǒng)[D].上海:上海海事大學,2004.
[5]張海江.Android平臺下手機資源搜索系統(tǒng)的研究與設計[D].金華:浙江師范大學,2013.
[6]劉國峰.面向關系數(shù)據(jù)庫的模式匹配方法研究[D].哈爾濱:哈爾濱工程大學,2013.
[7]馬麗艷,郭子平,程慧芬等.數(shù)據(jù)庫英文字段的中文顯示研究[J].計算機應用與軟件,2007,24(4):168-170.
[8]侯筱婷,蘇變萍,魯萍,等.建設法規(guī)政策知識庫智能化查詢分析與設計[J].微電子學與計算機,2012(6):176-177.
[9]TUCK N,SHERWOOD T,CALDER B,et a1.Deterministic memory-efficient string matching algorithms for intrusiondetection[C].IEEE INFOCOM 2004,2004:333-340.
[10]杜旭,邱慶哲,黃建.基于FPGA的字符串匹配算法[J].微電子學與計算機,2010,25(3):91-94.
[11]孫春風,馮徑,王占豐.基于本體數(shù)據(jù)字典的異構數(shù)據(jù)庫集成方法[J].計算機與信息技術,2008,36(11):1-4.
[12]黃洋.基于SSH架構與本體的異構數(shù)據(jù)集成技術研究[D].北京:北京郵電大學,2015.
[13]何麗.支持復雜產(chǎn)品快速設計的網(wǎng)絡化零件資源庫系統(tǒng)研究[D].烏魯木齊:新疆大學,2013.
[14]馬永恒.異構數(shù)據(jù)庫集成技術在港航信息資源庫開發(fā)中的應用研究[D].武漢:武漢理工大學,2005.
[15]高潔羽.一個通用電子貨架的設計與實現(xiàn)[D].蘇州:蘇州大學,2004.
[16]董冬,喬江暉,朱成亮,等.淺談液體火箭發(fā)動機試驗數(shù)據(jù)入庫解析技術[J].火箭推進,2015(4):105.
[17]陳文麗,馬軍強,楊思鋒,等.基于FIG-SVR的姿控發(fā)動機推力校準斜率預測[J].火箭推進,2015(3):103.
Chinese Dictionary database is generated based on the age of electronic commerce
FAN Ping
(Shaanxi Vocational and Technical College,Xi’an 710038,China)
In recent years,with the development of network technology,people gradually into the age of electronic commerce,in a network environment must pay attention to the development of electronic dictionaries economy,expanding Chinese dictionary intelligent features.Chinese dictionary in the design process need to manually identify each attribute,calculate and generate the database to man,to the system to bring greater trouble.It performed better database generation database designed to solve difficult issues such as generation,improve work efficiency.This article is generated based on analysis of Chinese ecommerce environment dictionary database,using the database generation algorithm combined with its implementation,draw Chinese Dictionary database generation design procedure of this method is proved to be able to handle the system efficiency can reach 50%or more.
E-commerce;chinese dictionary database;generating design
TN99
A
1674-6236(2016)24-0105-03
2016-02-22 稿件編號:201602100
范 萍(1988—),女,山西晉中人,碩士,助教。研究方向:語言文字學。