許學(xué)研 湯斯鵬 池鴻源
摘? 要:受到報(bào)裝關(guān)鍵詞匹配程度的影響,對(duì)于報(bào)裝地址的稽核智能化處理存在不足?;诖耍岢隽嘶谡Z(yǔ)義識(shí)別的自動(dòng)化家寬報(bào)裝地址稽核方法。通過(guò)構(gòu)建語(yǔ)義識(shí)別自動(dòng)化模型,獲取到家寬報(bào)裝地址的識(shí)別概率分類(lèi);改進(jìn)清查寬帶資源方式,明確報(bào)裝小區(qū)的單元信息與寬帶資源能力;基于語(yǔ)義識(shí)別算法計(jì)算泛化相似詞,實(shí)現(xiàn)自動(dòng)化家寬報(bào)裝地址的稽核目標(biāo)。實(shí)驗(yàn)證明,該稽核方法隨著寬帶網(wǎng)絡(luò)節(jié)點(diǎn)通信半徑的不斷增加,地址稽核的分配成功率更高。
關(guān)鍵詞:語(yǔ)義識(shí)別;自動(dòng)化;家寬;報(bào)裝;地址;稽核
中圖分類(lèi)號(hào):TP391.4? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)19-0151-03
Automatic Home Broadband Reported Installation Address Audit Method Based on Semantic Recognition
XU Xueyan, TANG Sipeng, CHI Hongyuan
(AI Application and Innovation Center of China Mobile Communications Group Guangdong Co., Ltd., Shantou? 515041, China)
Abstract: Affected by the matching degree of reported installation keywords, there are deficiencies in the audit intelligent processing of reported installation addresses. Based on this, an automatic home broadband reported installation address audit method based on semantic recognition is proposed. By constructing the semantic recognition automatic model, the recognition probability classification of home broadband reported installation address is obtained; improve the way of checking broadband resources, and clarify the unit information and broadband resource capability of the reported installation community; based on the semantic recognition algorithm, the generalized similar words are calculated to realize the audit goal of automatic home broadband reported installation address. Experiments show that with the increasing communication radius of broadband network nodes, the allocation success rate of address audit is higher and higher.
Keywords: semantic recognition; automation; home broadband; apply for installation; address; audit
0? 引? 言
家裝寬帶的報(bào)裝地址稽核方法是滿足用戶需求的重要渠道,由自動(dòng)化家寬報(bào)裝人員建立的安裝服務(wù)工作的重要載體。傳統(tǒng)的地址稽核模式,稽核結(jié)果的形式存在一定的差異,受到稽核人員與報(bào)裝業(yè)務(wù)種類(lèi)的影響,對(duì)于自動(dòng)化家寬報(bào)裝地址的稽核具有一定的不可控性[1]。在稽核家寬地址時(shí),受到報(bào)裝關(guān)鍵詞匹配程度的影響,對(duì)于報(bào)裝地址的稽核智能化處理存在不足[2]。語(yǔ)義識(shí)別處理技術(shù)通過(guò)自動(dòng)判定家寬報(bào)裝地址,對(duì)于地址進(jìn)行智能化分析處理,基于統(tǒng)一化標(biāo)準(zhǔn)要求,實(shí)現(xiàn)集人工與智能相協(xié)調(diào)的稽核檢查方案[3]。采用同義詞相似度計(jì)算的方式,將家寬報(bào)裝地址的關(guān)鍵詞與標(biāo)準(zhǔn)要求中的關(guān)鍵詞進(jìn)行相似度類(lèi)比。語(yǔ)義識(shí)別技術(shù)可以實(shí)現(xiàn)關(guān)鍵詞語(yǔ)義相似度計(jì)算與識(shí)別的目標(biāo)。在語(yǔ)義識(shí)別的自動(dòng)化家寬報(bào)裝地址的稽核中,通過(guò)片段模式分級(jí),逐級(jí)分解網(wǎng)絡(luò)地址的結(jié)構(gòu),通過(guò)邊界識(shí)別與地址分類(lèi),使地名與網(wǎng)絡(luò)結(jié)構(gòu)的名稱識(shí)別F1值達(dá)到總體識(shí)別結(jié)果的95%以上。在稽核過(guò)程中,語(yǔ)義識(shí)別的自動(dòng)化稽核方法屬于垂直行業(yè)屬性,以龐大的網(wǎng)絡(luò)工單為稽核對(duì)象,以工單的文字內(nèi)容進(jìn)行特征性關(guān)鍵詞提取,基于語(yǔ)義自動(dòng)化識(shí)別與語(yǔ)義泛化技術(shù),輸出地址稽核的相似程度與工單的合規(guī)置信度數(shù)值,智能化識(shí)別升級(jí)家裝寬帶的報(bào)裝地址,完善傳統(tǒng)稽核方法關(guān)鍵詞識(shí)別方面的不足。
綜上所示,本文提出了基于語(yǔ)義識(shí)別的自動(dòng)化家寬報(bào)裝地址稽核方法,基于相似度算法與語(yǔ)義識(shí)別算法,構(gòu)建集自動(dòng)化與智能化融合的關(guān)鍵詞識(shí)別機(jī)制,實(shí)現(xiàn)報(bào)裝地址的快速稽核目標(biāo)。
1? 基于語(yǔ)義識(shí)別的自動(dòng)化家寬報(bào)裝地址稽核方法設(shè)計(jì)
1.1? 構(gòu)建語(yǔ)義識(shí)別自動(dòng)化模型
在設(shè)計(jì)語(yǔ)義識(shí)別的自動(dòng)化家寬報(bào)裝地址稽核方法中,首先,本文采用了語(yǔ)義識(shí)別分詞工具,自動(dòng)化分詞處理基礎(chǔ)關(guān)鍵詞,綜合大量的工單數(shù)據(jù),選擇深度gram神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)鍵詞的向量訓(xùn)練。在選用分詞工具時(shí),綜合考慮相似度的距離與CRF算法,進(jìn)行報(bào)裝地址的關(guān)鍵語(yǔ)義信息自動(dòng)化識(shí)別。
根據(jù)報(bào)裝地址工單的標(biāo)準(zhǔn)化內(nèi)容規(guī)定,明確稽核方法的主要關(guān)注目標(biāo),以及對(duì)于稽核處理結(jié)果的滿意程度與回訪結(jié)果。在稽核中,工作人員填寫(xiě)的處理本文,利用自動(dòng)化稽核原則,對(duì)家寬地址的特征詞進(jìn)行標(biāo)注,要求關(guān)鍵詞與特征詞涵蓋語(yǔ)義識(shí)別的全部特征。
隨機(jī)篩選報(bào)裝地址的EOMS訓(xùn)練語(yǔ)料,通過(guò)分詞軟件對(duì)報(bào)裝地址的關(guān)鍵詞進(jìn)行分詞預(yù)處理,將自動(dòng)化家寬報(bào)裝地址語(yǔ)句分解為多個(gè)單詞的形式。統(tǒng)一化處理關(guān)鍵詞詞頻,獲取到報(bào)裝地址語(yǔ)料的關(guān)鍵詞出現(xiàn)次數(shù)。篩選出語(yǔ)料中的所有頻率較低的單詞,保留頻率較高單詞,綜合處理合并為訓(xùn)練語(yǔ)料語(yǔ)義分析模型。在模型中加入相似度計(jì)算文本[4],建立在語(yǔ)義層次上方,計(jì)算寬帶報(bào)裝地址關(guān)鍵詞的相似程度,構(gòu)建語(yǔ)義識(shí)別自動(dòng)化模型主要依據(jù)word2Vec算法,word2Vec算法是神經(jīng)網(wǎng)絡(luò)算法中的一種,包含輸入層、報(bào)裝地址稽核隱藏層與識(shí)別結(jié)果輸出層。模型通過(guò)預(yù)測(cè)識(shí)別結(jié)果的關(guān)鍵詞與搜索詞,在當(dāng)前提示詞的指引下,完成家寬報(bào)裝地址的具體預(yù)測(cè)識(shí)別。
在家寬報(bào)裝地址的數(shù)據(jù)信息量較少時(shí),以向量模型的訓(xùn)練詞為構(gòu)建的核心內(nèi)容;在數(shù)據(jù)信息量較多時(shí),使用CBOW模型原則的訓(xùn)練詞作為模型的主導(dǎo)向量,基于識(shí)別模型的工單原始數(shù)據(jù)處理經(jīng)驗(yàn),選擇適當(dāng)?shù)挠?xùn)練詞構(gòu)建模型。分批次地劃分模型的迭代過(guò)程,在語(yǔ)義識(shí)別自動(dòng)化模型的基礎(chǔ)上,進(jìn)行模型的自適應(yīng)度訓(xùn)練。設(shè)置取詞窗口的預(yù)測(cè)數(shù)據(jù)為k,則識(shí)別關(guān)鍵詞訓(xùn)練的單詞為Wt,設(shè)置模型的整體結(jié)構(gòu)中存在一定數(shù)量的關(guān)鍵詞,家寬報(bào)裝地址的一維向量隨之改變,將訓(xùn)練模型中所有向量輸入到模型中。關(guān)鍵詞經(jīng)過(guò)模型中的隱藏層,優(yōu)化分解處理后流經(jīng)輸出層。
在報(bào)裝地址的稽核預(yù)測(cè)時(shí),自動(dòng)化識(shí)別模型的隱藏層向量與輸出層的權(quán)重,經(jīng)過(guò)語(yǔ)義識(shí)別軟件的變換作用,最終獲取到家寬報(bào)裝地址的識(shí)別概率分類(lèi)。
1.2? 改進(jìn)清查寬帶資源方式
基于上述構(gòu)建的語(yǔ)義識(shí)別自動(dòng)化模型,獲取到家寬報(bào)裝地址的識(shí)別概率分類(lèi),進(jìn)行寬帶資源的清查工作。傳統(tǒng)的寬帶清查方法主要以人工清查方式為主[5],在實(shí)施過(guò)程中具有一定的限制性。本文設(shè)計(jì)的清查寬帶方法以實(shí)現(xiàn)自動(dòng)化清查為核心目標(biāo),改善傳統(tǒng)清查資源方法的不足。
創(chuàng)建用戶的級(jí)別標(biāo)準(zhǔn)地址,建立寬帶資源數(shù)據(jù)庫(kù)腳本,利用關(guān)鍵詞搜索分析方法拆分寬帶安裝的標(biāo)準(zhǔn)地址。根據(jù)寬帶地址的省市清查人員統(tǒng)一整理數(shù)據(jù),明確無(wú)規(guī)定地址要求,提交給具體的省份地址維護(hù)人員,寬帶資源清查人員進(jìn)行統(tǒng)一的稽核驗(yàn)證入庫(kù),將拆分好的寬帶地址進(jìn)行綜合擴(kuò)展,將級(jí)數(shù)擴(kuò)展到具體的數(shù)據(jù)層次??刂萍覍拡?bào)裝地址的自動(dòng)集成設(shè)備,建立設(shè)備與具體安裝地址的綁定關(guān)系。建立統(tǒng)一標(biāo)準(zhǔn)的報(bào)裝地址庫(kù),如圖1所示。
圖1? 統(tǒng)一標(biāo)準(zhǔn)的家寬報(bào)裝地址庫(kù)結(jié)構(gòu)
如圖1所示,依據(jù)家寬地址標(biāo)準(zhǔn)分級(jí),建立報(bào)裝地址標(biāo)準(zhǔn)化清洗數(shù)據(jù)庫(kù),通過(guò)地址分級(jí)標(biāo)準(zhǔn)模型,采集報(bào)裝地址庫(kù)模板,定期稽核家寬報(bào)裝地址的準(zhǔn)確性,按照一定的計(jì)劃要求,分批次地完成報(bào)裝地址由清洗庫(kù)到正式地址庫(kù)的轉(zhuǎn)變。利用BSS/CBSS資源管理方式,接入集成設(shè)備,改進(jìn)寬帶地址管理的配套方式?;谒阉饕鎺?kù),創(chuàng)建全新的索引與報(bào)裝地址字段,將所有用戶的報(bào)裝地址數(shù)據(jù)錄入到搜索引擎庫(kù)中,實(shí)現(xiàn)統(tǒng)一標(biāo)準(zhǔn)化的自動(dòng)化家寬報(bào)裝地址庫(kù)的數(shù)據(jù)錄入工作。
依靠地圖搜索定位指定報(bào)裝地址的小區(qū)信息,根據(jù)地圖的定點(diǎn)選擇網(wǎng)址,匹配到報(bào)裝小區(qū)的網(wǎng)格,通過(guò)網(wǎng)格獲取小區(qū)的具體名稱與數(shù)據(jù)。再將網(wǎng)格小區(qū)的具體名稱輸入到搜索引擎庫(kù)中,定位具體的樓棟單元信息,連接資源能力信息接口,獲取樓棟單元寬帶的準(zhǔn)確資源信息。
改進(jìn)清查寬帶資源的方式,能夠有效地提高寬帶安裝業(yè)務(wù)辦理流程的簡(jiǎn)便性,減少報(bào)裝地址輸入查詢消耗的時(shí)間。通過(guò)標(biāo)準(zhǔn)統(tǒng)一的報(bào)裝地址庫(kù),自動(dòng)匹配報(bào)裝地址的結(jié)果,不需要輸入完整復(fù)雜的地址,輸入關(guān)鍵詞即可快速地定位報(bào)裝小區(qū)的樓棟單元信息與寬帶資源能力。
1.3? 基于語(yǔ)義識(shí)別算法計(jì)算泛化相似詞
通過(guò)改進(jìn)清查寬帶資源的方式,獲取到報(bào)裝地址小區(qū)樓棟單元的準(zhǔn)確寬帶資源信息,利用訓(xùn)練語(yǔ)句得到的單詞向量,結(jié)合語(yǔ)義識(shí)別算法[6],計(jì)算家寬報(bào)裝地址中的泛化相似詞。設(shè)置泛化相似詞的向量為A和B,向量A是[A1,A2,…,An],B是[B1,B2,…,Bn],余弦相似度計(jì)算公式為:
(1)
其中,n表示相似度常數(shù);i表示稽核地址關(guān)鍵詞分類(lèi),對(duì)于所有的稽核地址關(guān)鍵詞來(lái)說(shuō),計(jì)算與報(bào)裝地址庫(kù)相關(guān)的自動(dòng)識(shí)別相似度,根據(jù)余弦進(jìn)行排序,得到若干個(gè)關(guān)鍵字單詞,作為泛化相似詞。以ZigBee網(wǎng)絡(luò)路由算法為基礎(chǔ),設(shè)定寬帶協(xié)調(diào)器與路由節(jié)點(diǎn)的最大數(shù)量,計(jì)算分配報(bào)裝地址的空間,定義地址的偏移量函數(shù)。將本文構(gòu)建的語(yǔ)義識(shí)別自動(dòng)化模型中的節(jié)點(diǎn)進(jìn)行網(wǎng)絡(luò)地址分配,使得所有節(jié)點(diǎn)將地址模塊平均分配[7]。設(shè)置最大子節(jié)點(diǎn)數(shù)為Cmax;接入節(jié)點(diǎn)數(shù)為Rmax;寬帶網(wǎng)絡(luò)最大深度為L(zhǎng)max,寬帶網(wǎng)絡(luò)地址空間的計(jì)算公式為:
Cmax(d)=1+Cmax×(Lmax-d-1)? ? ? ? ? (2)
式中,d表示網(wǎng)絡(luò)通信節(jié)點(diǎn)的深度,如果寬帶網(wǎng)絡(luò)節(jié)點(diǎn)的計(jì)算結(jié)果為0時(shí),表明網(wǎng)絡(luò)寬帶通信地址在空間上沒(méi)有產(chǎn)生偏移量,能夠作為寬帶報(bào)裝的地址塊。如果計(jì)算結(jié)果大于0時(shí),表明其能夠作為寬帶報(bào)裝子節(jié)點(diǎn)接入互聯(lián)網(wǎng)并進(jìn)行報(bào)裝地址分配。
基于語(yǔ)義識(shí)別算法計(jì)算泛化相似詞能夠保證地址模塊的均勻分配,適用于家寬報(bào)裝以及其他的自組織網(wǎng)絡(luò),能夠在分配地址范圍內(nèi)連續(xù)分配寬帶報(bào)裝地址空間。設(shè)計(jì)算法的偽代碼為:
def LFM(user_items, F, N, alpha, lambda):
#初始化P矩陣
P = InitModel(user_items, F)
#開(kāi)始迭代
For step in range(0, N):
#從數(shù)據(jù)集中依次取出user以及該user喜歡的iterms集
for user, items in user_item.iterms():
#隨機(jī)抽樣,為user抽取與items數(shù)量相當(dāng)?shù)呢?fù)樣本,并將正負(fù)樣本合并,用于優(yōu)化計(jì)算
samples = RandSelectNegativeSamples(items)
#依次獲取item和user對(duì)該item的興趣度
for item, rui in samples.items():
#根據(jù)當(dāng)前參數(shù)計(jì)算誤差
eui = eui - Predict(user, item)
#優(yōu)化參數(shù)
for f in range(0, F):
P[user][f] += alpha * (eui * Q[f][item] - lambda * P[user][f])
#當(dāng)優(yōu)化到一定程度后,就需要放慢學(xué)習(xí)速率,慢慢地接近最優(yōu)值。
2? 實(shí)驗(yàn)分析
2.1? 實(shí)驗(yàn)準(zhǔn)備
為了驗(yàn)證本文提出的基于語(yǔ)義識(shí)別的自動(dòng)化家寬報(bào)裝稽核方法的有效性,本文進(jìn)行了如下實(shí)驗(yàn),通過(guò)稽核報(bào)裝地址的自動(dòng)測(cè)試,檢驗(yàn)語(yǔ)義識(shí)別自動(dòng)化稽核結(jié)果的準(zhǔn)確率與工單重派率指標(biāo)。本次實(shí)驗(yàn)選取遼寧省某EOMS無(wú)線寬帶網(wǎng)絡(luò)企業(yè),采集2 000張報(bào)裝工單作為實(shí)驗(yàn)的驗(yàn)證集,報(bào)裝工單中需包含語(yǔ)義識(shí)別的結(jié)構(gòu)化字段。保證實(shí)驗(yàn)的驗(yàn)證集來(lái)源的可靠性,使構(gòu)建的模型能夠適應(yīng)不同報(bào)裝地址的環(huán)境條件,實(shí)現(xiàn)報(bào)裝地址的廣泛覆蓋要求。設(shè)置寬帶網(wǎng)絡(luò)的覆蓋面積為500 m×500 m,在覆蓋范圍內(nèi)網(wǎng)絡(luò)節(jié)點(diǎn)具有不同的密度,設(shè)置N個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)隨機(jī)分布在報(bào)裝地址小區(qū)中,保證每個(gè)報(bào)裝地址環(huán)境中具有一個(gè)寬帶安裝協(xié)調(diào)器,并處于網(wǎng)絡(luò)覆蓋中心位置,固定語(yǔ)義識(shí)別自動(dòng)化模型的網(wǎng)絡(luò)深度為8,在網(wǎng)絡(luò)節(jié)點(diǎn)通信半徑與其他參數(shù)條件不變的情況下,觀察通信網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量對(duì)寬帶安裝地址分配的影響。連續(xù)進(jìn)行50次語(yǔ)義識(shí)別的自動(dòng)化地址稽核實(shí)驗(yàn),取實(shí)驗(yàn)結(jié)果的平均值作為稽核結(jié)果的實(shí)驗(yàn)參數(shù),如表1所示。
2.2? 結(jié)果分析
設(shè)置本文提出的基于語(yǔ)義識(shí)別的自動(dòng)化家寬報(bào)裝地址稽核方法為實(shí)驗(yàn)組,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)地址稽核方法為對(duì)照組,對(duì)比兩種稽核方法的分配成功率結(jié)果,如圖2所示。
如圖2所示,隨著寬帶網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量的不斷增加,本文提出的自動(dòng)化家寬報(bào)裝地址稽核方法的地址分配成功率上升的速度更快,寬帶節(jié)點(diǎn)的數(shù)量與寬帶節(jié)點(diǎn)通信半徑呈正相關(guān)變化,較傳統(tǒng)的地址稽核方法相比,地址分配成功率更加具有優(yōu)勢(shì)。
3? 結(jié)? 論
本文提出的基于語(yǔ)義識(shí)別的自動(dòng)化家寬報(bào)裝稽核方法,避免網(wǎng)絡(luò)寬帶安裝過(guò)程中產(chǎn)生孤立節(jié)點(diǎn),促進(jìn)報(bào)裝地址分配得更加靈活。傳統(tǒng)的地址稽核方法受到寬帶網(wǎng)絡(luò)節(jié)點(diǎn)不確定性的影響,在報(bào)裝地址稽核中消耗了大量的時(shí)間精力。本文提出的稽核方法,經(jīng)過(guò)實(shí)驗(yàn)證明,在寬帶網(wǎng)絡(luò)節(jié)點(diǎn)通信半徑的不斷增加下,家寬報(bào)裝地址的分配成功率更高,有效地提高了地址稽核的效率與成功率。然而,由于研究時(shí)間有限,本文提出的稽核方法在具體的實(shí)施過(guò)程中仍然存在一定的不足,在未來(lái)的研究中應(yīng)當(dāng)加以改進(jìn)。
參考文獻(xiàn):
[1] 黃堃,趙東明.電信運(yùn)營(yíng)商網(wǎng)絡(luò)投訴工單智能語(yǔ)義稽核技術(shù) [J].電信工程技術(shù)與標(biāo)準(zhǔn)化,2021,34(7):45-49.
[2] 韋芹余.IP地址精細(xì)化管理系統(tǒng)建設(shè)方案研究 [J].江蘇通信,2021,37(2):63-65.
[3] 李汶澍.基于微信公眾號(hào)的家庭寬帶智能裝機(jī)助手 [J].通信世界,2021(4):37-39.
[4] 田兆豐,王歌吟.基于ElasticSearch智能搜索引擎的寬帶線上選址平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn) [J].通信與信息技術(shù),2020(4):28+33+24.
[5] 王小峰.家庭寬帶光纖接入技術(shù)應(yīng)用與實(shí)現(xiàn) [J].中國(guó)新通信,2019,21(6):96-97.
[6] 李鐵堅(jiān).基于GIS的電信網(wǎng)絡(luò)資源的標(biāo)準(zhǔn)地址快速上圖方法研究 [J].通信電源技術(shù),2019,36(2):211-212.
[7] 陶軼,許錫明,房志輝,等.運(yùn)營(yíng)商基于QoE的家庭寬帶指標(biāo)感知體系 [J].現(xiàn)代電信科技,2017,47(4):68-73+78.
作者簡(jiǎn)介:許學(xué)研(1985.04—),男,漢族,廣東汕頭人,工程師,碩士研究生,研究方向:大數(shù)據(jù)建模、數(shù)據(jù)挖掘、人工智能算法建模。