中圖分類號(hào):G271 文獻(xiàn)標(biāo)識(shí)碼:A
引言
房地產(chǎn)檔案類型較多,劃分標(biāo)準(zhǔn)比較復(fù)雜,可按照用途、交易類型、產(chǎn)權(quán)性質(zhì)及項(xiàng)目等標(biāo)準(zhǔn)劃分。運(yùn)用檔案的數(shù)字化分類管理技術(shù),為用戶提供管理、索引及查詢的工具,保障了用戶的檔案信息提取效率和質(zhì)量。數(shù)字化檔案管理通過電子檔案的形式展現(xiàn),但在檔案經(jīng)過文字提取后,常出現(xiàn)句子不連貫的問題,且主題索引方法缺乏規(guī)范性,存在主題詞冗余的現(xiàn)象。如何在數(shù)字化檔案分類管理中解決實(shí)際問題,滿足高效分類管理的基本要求是需要重點(diǎn)研究的內(nèi)容。
一、房地產(chǎn)檔案數(shù)字化分類管理技術(shù)基礎(chǔ)
1.知識(shí)圖譜構(gòu)建
知識(shí)圖譜可將大量的概念性及關(guān)系元素圖形化,呈現(xiàn)知識(shí)的本質(zhì)特征。在房地產(chǎn)檔案分類管理中,可用知識(shí)圖譜將檔案性質(zhì)、內(nèi)容結(jié)構(gòu)化。實(shí)現(xiàn)對(duì)不同類型檔案的關(guān)系體系構(gòu)建,將不同用途的房地產(chǎn)檔案按照地理區(qū)域、交易類型及產(chǎn)權(quán)性質(zhì)進(jìn)一步劃分。知識(shí)圖譜為三元結(jié)構(gòu),由節(jié)點(diǎn)、邊及數(shù)據(jù)組合而成,節(jié)點(diǎn)主要表示實(shí)體概念,邊用于表示關(guān)系屬性,數(shù)據(jù)表示元素的屬性值。具體知識(shí)圖譜的結(jié)構(gòu)如下:
公式中的G表示知識(shí)圖譜結(jié)構(gòu),N表示實(shí)體集合,R表示關(guān)系集合,S表示數(shù)集合。N、R、S分別表示不同集合內(nèi)的數(shù)據(jù)。在整個(gè)圖譜結(jié)構(gòu)中,由數(shù)據(jù)層和模式層組成,前者用于存儲(chǔ)數(shù)據(jù),后者用于描述事實(shí)。利用知識(shí)圖譜,能夠?qū)崿F(xiàn)對(duì)房地產(chǎn)檔案的科學(xué)分類管理,描述和定義不同類型檔案的屬性和內(nèi)在邏輯關(guān)系,具體知識(shí)圖
譜構(gòu)建結(jié)構(gòu)如圖1。
2.深度學(xué)習(xí)模型構(gòu)建
深度學(xué)習(xí)模型可用于大量的文本數(shù)據(jù)處理,對(duì)房地產(chǎn)方案展開分類和識(shí)別處理。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的領(lǐng)域,由多個(gè)神經(jīng)元組成,建立學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)模型由輸入層、隱藏層及輸出層組成,具有自動(dòng)學(xué)習(xí)特征,可用于處理大量非線性關(guān)系數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下:
卷積神經(jīng)網(wǎng)絡(luò)可對(duì)大量的數(shù)據(jù)實(shí)行卷積和池化處理,提取檔案數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu)特征,得到更有價(jià)值的信息,使得檔案分類管理更加準(zhǔn)確。卷積層是提取輸入數(shù)據(jù)的關(guān)鍵,采用卷積運(yùn)算的方式提取輸入數(shù)據(jù)的特征。池化層通過對(duì)數(shù)據(jù)的降維處理,實(shí)現(xiàn)模型的擬合處理。全連接層主要用于特征的非線性組合,輸出最終的預(yù)測(cè)結(jié)果,具體各層級(jí)的公式如下:
公式中的x11和 x12 分別表示卷積層和池化層的輸出,1表示網(wǎng)絡(luò)層數(shù), x 表示輸出結(jié)果, w 表示卷積核參數(shù),b表示偏置向,w表示權(quán)重, β 表示偏置。
二、房地產(chǎn)檔案數(shù)字化分類管理技術(shù)應(yīng)用
1.檔案分類提取
(1)文字識(shí)別與預(yù)處理。在房地產(chǎn)檔案中包含大量的符號(hào)、圖形、數(shù)字及文字等信息,其中大量的文字?jǐn)?shù)據(jù)信息呈現(xiàn)顛倒的特征。在數(shù)字化檔案分類前,需要完成預(yù)處理的過程,即將檔案中的文字內(nèi)容經(jīng)過解析、清洗及分詞等處理后,完成預(yù)處理過程。檔案格式包括PDF和圖片等,使用開源工具提取檔案數(shù)據(jù)中的文字,得到文字結(jié)果。清洗是指將文字格式轉(zhuǎn)化,刪除句子中的標(biāo)點(diǎn)、公式及長串?dāng)?shù)字等,剔除特殊字符后,得到標(biāo)準(zhǔn)化的文字集。分詞是對(duì)檔案中的文字分割,將文字分詞處理后得到詞集。而后采用去停用詞的方式,將檔案中的語氣詞、連接詞等去除,得到具有實(shí)際語義的詞集,生成檔案信息。
(2)文字語義特征提取。在檔案分類管理過程中,需要使用具有代表性的文本特征完成分類的過程。經(jīng)過文字提取、預(yù)處理后,能夠得到文本特征,使得檔案分類的精度和效率得以保障。經(jīng)過文字識(shí)別和預(yù)處理后,生成詞集內(nèi)的可用信息數(shù)量比較少,需使用TextRank算法,完成對(duì)檔案文本特征的提取,該算法能夠判斷詞與詞之間的關(guān)系,調(diào)整檔案文本中的詞間距,得到最佳語義特征的文本。按照TextRank算法的權(quán)重劃分,表示表意詞集,隨后實(shí)施效用指標(biāo)的計(jì)算,并將效用指標(biāo)添加到候選特征詞列表中,遍歷完成后,實(shí)現(xiàn)文本特征的提取過程。該算法使用貢獻(xiàn)關(guān)系構(gòu)建節(jié)點(diǎn)邊,在共現(xiàn)窗口的特定長度范圍內(nèi),詞節(jié)點(diǎn)邊形成,對(duì)于范圍內(nèi)的任意詞,使用效用指標(biāo)計(jì)算,具體公式如下:
公式中的V表示節(jié)點(diǎn)表示詞,Vi表示節(jié)點(diǎn)指向,d表示阻尼系數(shù),Wij表示節(jié)點(diǎn)Vi和Vj之間的相似度,Wi表示效用指標(biāo)內(nèi)的任意詞,S表示效用指標(biāo),In表示節(jié)點(diǎn)集合,out表示指向節(jié)點(diǎn)集合,k表示文本至終點(diǎn)關(guān)鍵詞。在效用指標(biāo)計(jì)算過程中,將w詞作為效用指標(biāo),添加到候選特征詞之中。利用阻尼系數(shù),能夠表示詞之間的相互影響和關(guān)聯(lián)程度。
(3)文字語義特征拓展。使用TextRank算法完成文字語義特征提取之后,由于考慮部分檔案中的文字類型比較少,在對(duì)其分類處理的過程中,無法從稀疏的特征準(zhǔn)確提取和分類。因此,使用知識(shí)圖譜開展語義特征的拓展,即文本特征詞數(shù)量在6個(gè)以下時(shí),需要使用分類技術(shù)對(duì)檔案自動(dòng)分類管理,并使用語義特征拓展功能,完成文檔分類的過程。提取后的檔案文本特征使用KW(S) O= {kw1, kw2...kwk 表示,特征提取完成后,在對(duì)應(yīng)的知識(shí)圖譜中找到實(shí)體結(jié)合,每個(gè)關(guān)鍵詞可查詢。在此期間,使用實(shí)體消歧算法,從可查詢的實(shí)體結(jié)合中選擇適合的實(shí)體特征,補(bǔ)充和加入詞集中,從相似度的角度出發(fā)實(shí)行消除處理。在該算法應(yīng)用過程中,建立關(guān)鍵詞候選集,將集合中的實(shí)體短文本展開分詞、去停留詞處理,具體公式如下:
C
集合中的Eij表示實(shí)體,w表示關(guān)鍵詞,p表示關(guān)鍵詞的數(shù)量。在遍歷所有實(shí)體之后,得到關(guān)鍵詞kw的上下文詞集。在整個(gè)過程中,候選實(shí)體的數(shù)量為n個(gè),得到候選上下文詞集后,采用相似度計(jì)算的方式,按照相似程度從上至下完成排序的過程。在相似度計(jì)算期間,將原本的詞集轉(zhuǎn)化為向量結(jié)合,通過向量計(jì)算后,將相似度最大的詞集作為目標(biāo),使用實(shí)體消歧算法,完成最終的計(jì)算過程。再將上下文詞集拼接處理,即完成文字語義特征的拓展。例如,在房地產(chǎn)的票據(jù)電子檔案分類過程中,將其分為購房相關(guān)票據(jù)(房款發(fā)票、契稅發(fā)票等);租賃相關(guān)票據(jù)(租金收據(jù)、租賃押金收據(jù)等);物業(yè)相關(guān)票據(jù)(物業(yè)費(fèi)發(fā)票、水電費(fèi)收據(jù)等);裝修相關(guān)票據(jù)(裝修費(fèi)用發(fā)票、材料購買收據(jù)等);維修相關(guān)票據(jù)(維修費(fèi)用發(fā)票、零部件購買收據(jù)等),經(jīng)過拓展處理后的檔案分類準(zhǔn)確率達(dá)到 97.5% 以上。
2.電子檔案分類
(1)BERT預(yù)訓(xùn)練。在檔案分類管理期間,基于深度學(xué)習(xí)的檔案數(shù)字化分類技術(shù),在處理語義復(fù)雜且包含多個(gè)文字區(qū)域的檔案時(shí),往往面臨多個(gè)相似詞匯表達(dá)和語義信息不清晰的情況。在檔案分類管理期間,可采用基于規(guī)則的數(shù)據(jù)抽取方式,建立語言模型,以對(duì)其文字信息進(jìn)行分類與提取。BERT預(yù)訓(xùn)練模型具有詞遮蔽和下一句預(yù)測(cè)功能,在語言遮蔽任務(wù)中,隨機(jī)選取文字處理并在檔案中將文字上下文預(yù)測(cè),生成最佳字符完成填空。按照標(biāo)準(zhǔn),在字符隨機(jī)覆蓋過程中,選擇 15% 的文字實(shí)施處理,將 80% 的文字mask處理, 10% 完成任意替換,保持10% 的文字不變。在預(yù)訓(xùn)練中,將替換的任意字作為條件預(yù)測(cè),并采用文字糾錯(cuò)的方式,開展模型的處理。在BERT模型中,對(duì)不同自然語言實(shí)施處理,采用微調(diào)的方式增加處理的效果,并不需要改變核心模塊,原本具有實(shí)際意義的詞經(jīng)過分詞處理后,分割成為若干個(gè)字。但在預(yù)訓(xùn)練過程中,分割后原本的語義可能會(huì)被破壞,需要改進(jìn)原本的BERT模型,改變?cè)谀P椭性镜膍ask隨機(jī)機(jī)制,將實(shí)體級(jí)別的mask引入模型中,采用相近詞替換的方式展開訓(xùn)練,使得電子檔案分類模型能夠更深層次地掌握文本信息,理順檔案之中的實(shí)體關(guān)系,減少訓(xùn)練的差距。
(2)分類模型構(gòu)建。分類模型主要利用ProBERT和DPCNN構(gòu)建,ProBERT是一種基于Transformer架構(gòu)的預(yù)訓(xùn)練語言模型。在電子檔案分類任務(wù)中,它的優(yōu)勢(shì)在于能夠捕捉文本中的長距離依賴關(guān)系和語義表示。該算法通過在大規(guī)模文本上的預(yù)訓(xùn)練,ProBERT學(xué)習(xí)到了通用的語言知識(shí)和模式,為特定的電子檔案分類任務(wù)提供有價(jià)值的特征表示。DPCNN(DeepPyramidConvolutionalNeuralNetwork)是一種深度卷積神經(jīng)網(wǎng)絡(luò)。在處理文本分類任務(wù)時(shí),該算法通過不斷增加卷積核的大小來獲取不同尺度的文本特征,并且利用殘差連接來解決深度網(wǎng)絡(luò)中的梯度消失問題。經(jīng)過改進(jìn)后的mask機(jī)制,使得模型的語義理解能力得到極大程度的提升。在整個(gè)分類模型中,可將其分為輸入層、映射層、提取層和分類層。輸入層負(fù)責(zé)對(duì)數(shù)字化檔案展開預(yù)處理,經(jīng)過清洗、去除無用信息后,使得檔案文本語義明確。特征映射層主要負(fù)責(zé)實(shí)現(xiàn)文字到向量之間的映射和轉(zhuǎn)化,將房地產(chǎn)檔案中的非結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)化為處理方便的詞向量,并使用工具完成文本數(shù)據(jù)的分割處理。在映射處理過程中,考慮到序列關(guān)系,將位置信息映射到模型中,具體文本語義表征如下:
公式中的Ep用于表示位置向量,Et用于表示文本向量,Ef用于表示語義表征,D表示函數(shù)的正則化,LN表示函數(shù)的歸一化處理。經(jīng)過特征映射層后,生成靜態(tài)向量序列,將特征向量輸入提取層后,利用模型特征提取,并對(duì)其實(shí)施強(qiáng)化,使得原本的向量序列動(dòng)態(tài)化。在語義信息提取后,完成檔案分類任務(wù)。
3.電子檔案規(guī)范化主題分類索引
(1)主題詞本體庫構(gòu)建。在電子檔案的分類管理中,存在與主題不相關(guān)的噪聲關(guān)鍵詞,數(shù)量較少的分類詞不會(huì)對(duì)分類結(jié)果產(chǎn)生影響。主題詞本體庫的構(gòu)建是核心,主題詞表由存在關(guān)系的術(shù)語組成。在檔案的數(shù)字化分類管理過程中,共計(jì)將主題詞分為三個(gè)級(jí)別,一級(jí)主題詞直接描述,二級(jí)主題詞是對(duì)描述的細(xì)化,三級(jí)主題詞為補(bǔ)充主題詞。主題詞構(gòu)建使用Protege工具構(gòu)建,以O(shè)WL的形式表示。在構(gòu)建過程中,使用英文表示實(shí)體URI便于讀取。主題詞庫內(nèi)的每個(gè)詞匯均添加標(biāo)簽并使用中文表示。一級(jí)主題詞包括房產(chǎn)開發(fā)、房產(chǎn)交易、房產(chǎn)產(chǎn)權(quán)、房產(chǎn)抵押以及房產(chǎn)租賃等,二級(jí)主題詞包括買賣流程、合同簽訂、價(jià)格評(píng)估、稅費(fèi)繳納以及過戶手續(xù)等,三級(jí)主題詞包括合同條款、違約責(zé)任、補(bǔ)充協(xié)議、格式合同以及合同效力等內(nèi)容。在主題詞本題庫的詞匯分類過程中,主要依據(jù)《中國分類主題詞表》和《中國檔案主題詞表》的文件規(guī)范進(jìn)行輸入,從而獲得標(biāo)準(zhǔn)化的主題詞。
(2)分層標(biāo)引方法。主題詞的分層標(biāo)引算法應(yīng)用,使得整個(gè)主題詞的分類層次結(jié)構(gòu)更加合理,用戶的檔案檢索和查詢效果更強(qiáng),為檔案的數(shù)字化分類管理提供更加清晰的數(shù)據(jù)結(jié)構(gòu)。具體主題標(biāo)引算法流程如下:
主題標(biāo)引的核心是檔案的預(yù)處理,即改變?cè)镜臋n案存儲(chǔ)格式,便于計(jì)算機(jī)設(shè)備讀取。該過程需要經(jīng)過OCR識(shí)別、文本清洗及去停用詞的方式,得到文本A,并提取關(guān)鍵詞,生成集合。得到關(guān)鍵詞結(jié)合之后,能夠在一定程度上反映檔案的主題信息,但無法直接用于分類任務(wù)中。將關(guān)鍵詞經(jīng)過降噪處理后,采用分層選取的方式,能夠得到三級(jí)主題詞下的檔案主題詞,經(jīng)過標(biāo)引評(píng)價(jià)后,完成主題標(biāo)引。在房地產(chǎn)檔案的數(shù)字化分類管理中,詳細(xì)閱讀和理解房地產(chǎn)檔案的內(nèi)容,根據(jù)檔案所涉及的主要業(yè)務(wù)領(lǐng)域、關(guān)鍵信息和重要概念分層。例如,將與土地相關(guān)的標(biāo)引在一個(gè)層次,與房屋建筑相關(guān)的標(biāo)引在另一個(gè)層次。在此過程中,需要參考已有的房地產(chǎn)分類標(biāo)準(zhǔn)和規(guī)范,如國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn),將主題詞對(duì)應(yīng)到相應(yīng)的層次結(jié)構(gòu)中。
三、結(jié)論
綜上所述,數(shù)字化技術(shù)在房地產(chǎn)檔案管理中的運(yùn)用實(shí)現(xiàn)了電子檔案的自動(dòng)分類、自動(dòng)標(biāo)引。本文將文字語義特征提取方法 ?+ 知識(shí)圖譜運(yùn)用到特征提取中,完成電子檔案的分類任務(wù),并利用BERT預(yù)訓(xùn)練模型,完成電子檔案的分類工作,使得分類更加標(biāo)準(zhǔn)、科學(xué)。在分類索引上,研究提出了基于主題詞表的規(guī)范化主題標(biāo)引方法,有效地保障了房地產(chǎn)檔案分類管理的規(guī)范性和準(zhǔn)確性,提升了檔案分類質(zhì)量。
參考文獻(xiàn):
[1]袁媛.數(shù)字化時(shí)代房地產(chǎn)檔案管理的持續(xù)性策略研究[J].山西檔案,2024(07):163-166.
[2]宿廷,張蕾,劉晶,等.內(nèi)蒙古自治區(qū)住房和城鄉(xiāng)建設(shè)檔案數(shù)字化建設(shè)與應(yīng)用[J].中國建設(shè)信息化,2024(01):47-49.
[3]袁媛.數(shù)字環(huán)境下檔案服務(wù)民生的模式創(chuàng)新——以房地產(chǎn)檔案為例[J].山西檔案,2024(01):186-188.
[4]苗長青.信息化背景下房地產(chǎn)檔案信息化管理存在的問題及對(duì)策[J].住宅與房地產(chǎn),2023(24):110-112.
[5]李國強(qiáng).“互聯(lián)網(wǎng) + 政務(wù)服務(wù)”背景下房地產(chǎn)檔案數(shù)字化管理的探索與應(yīng)用一一以日照市智慧房產(chǎn)信息化建設(shè)應(yīng)用為例[J].中國建設(shè)信息化,2022(21):53-55.作者單位:微山縣住房保障和房地產(chǎn)發(fā)展事務(wù)中心