張明媛,賀 凱,劉運鵠,周光毅
(1.大連理工大學建設工程學部,遼寧 大連 116024;2.中國建筑第八工程局有限公司東北分公司,遼寧 大連 116021)
建設工程項目的質(zhì)量安全水平對我國國民經(jīng)濟發(fā)展與人民生活幸福具有直接影響。由于建筑工程行業(yè)固有的危險性,質(zhì)量安全事故頻繁發(fā)生,使國家財產(chǎn)遭受巨大損失,人民生命安全遭受巨大威脅[1]。以2020年12月應急管理部公布的6起建筑施工領(lǐng)域質(zhì)量安全事故典型案例為例,6起事故共造成77人不幸身亡、68人受傷。建筑工程質(zhì)量問題是現(xiàn)今工程事故研究分析中的重要命題。因此,有必要深入研究建筑工程質(zhì)量。
GB 50300—2013《建筑工程施工質(zhì)量驗收規(guī)范》作為指導建設單位、施工單位、監(jiān)理單位等多個項目參與方完成工程驗收的規(guī)范性文件,從質(zhì)量驗收規(guī)范入手開展研究是有效減少工程質(zhì)量事故的基礎(chǔ),能從質(zhì)量監(jiān)管角度為建筑業(yè)高質(zhì)量發(fā)展做出貢獻[2]。建筑工程質(zhì)量管理在一定程度上能預防質(zhì)量事故的發(fā)生,但現(xiàn)有質(zhì)量驗收規(guī)范中的控制語句未經(jīng)過系統(tǒng)分類整理,如何從海量建筑信息中較為快速、準確地定位質(zhì)量問題產(chǎn)生原因,特別是,目前的質(zhì)量原因分析過程是由專家閱讀質(zhì)量報告的方式進行推斷,如何將這一人工過程進行自動化實現(xiàn),并將質(zhì)量表象問題與背后的施工技術(shù)方案進行對應,從施工源頭查找質(zhì)量問題產(chǎn)生原因,提高管理效率并及時為其他工程實施提供技術(shù)方案的優(yōu)化參考,保障施工質(zhì)量,避免施工問題發(fā)生,是當前建筑質(zhì)量管理領(lǐng)域所面臨的重要問題。
Zhang等提出基于自然語言處理與本體技術(shù)的信息轉(zhuǎn)換方法,即利用建立好的語義映射規(guī)則和沖突解決規(guī)則將建筑規(guī)范的部分章節(jié)轉(zhuǎn)換為可用于規(guī)范檢查的邏輯句子[3];Le等提出了基于規(guī)則的合同風險自動提取模型,并將其應用于建筑信息的檢索研究中[4];胡海盟利用自然語言處理技術(shù)對建筑工程質(zhì)量驗收規(guī)范進行預處理,并使用正則表達式完成抽取分析[5];胡云忠等基于本體,開發(fā)出工程質(zhì)量管理規(guī)范檢索系統(tǒng)[6];魏然等實現(xiàn)了自然語言設計規(guī)范條文向計算機語言的轉(zhuǎn)換,為建立基于BIM的建筑專業(yè)施工圖合規(guī)性自動審查系統(tǒng)奠定基礎(chǔ)[7]?,F(xiàn)有工程質(zhì)量自動化實現(xiàn)研究內(nèi)容具有以下共性:①一般自動化研究方法基于設計、施工圖紙合規(guī)性審查等展開,針對建筑工程質(zhì)量原因分析的自動化研究較少;②均圍繞建筑信息展開,各類自動化實現(xiàn)方法仍停留于理論研究層面,缺乏對實際工程中質(zhì)量檢查工作環(huán)節(jié)的指導。
為彌補工程質(zhì)量原因自動化分析研究應用的空白,本文結(jié)合Python等數(shù)據(jù)挖掘工具,構(gòu)建建筑工程施工質(zhì)量控制語句庫。結(jié)合實際工程質(zhì)量檢查報告文本文件,依據(jù)報告中質(zhì)量問題出現(xiàn)頻次及頻率,將梳理出的15類質(zhì)量問題表象集中劃分為滲漏、裂縫、外保溫問題3項子類,并通過實際工程項目施工質(zhì)量檢查情況,總結(jié)質(zhì)量問題表現(xiàn)形式,即質(zhì)量問題表象;建立問題表象-質(zhì)量控制語句對應關(guān)系,為后續(xù)自動化實現(xiàn)質(zhì)量文本分析提供關(guān)系模型。
為建立工程質(zhì)量問題產(chǎn)生原因與質(zhì)量問題表象的正確對應關(guān)系,本文邀請業(yè)內(nèi)技術(shù)質(zhì)量專家進行訪談,建立質(zhì)量控制語句與質(zhì)量問題表象關(guān)系庫。質(zhì)量問題的發(fā)生是由于未遵守某些質(zhì)量規(guī)范所表述的工作內(nèi)容。以從質(zhì)量規(guī)范中提取的質(zhì)量控制語句為基礎(chǔ),將質(zhì)量問題對應的技術(shù)措施分解到分部分項工程,既能明確質(zhì)量問題的產(chǎn)生原因,同時又能明確未來工程施工質(zhì)量管理工作中需重點加強監(jiān)管的細節(jié),從原因分析和操作控制兩方面共同提升工程質(zhì)量管理效率。技術(shù)路線如圖1所示。
圖1 技術(shù)路線
結(jié)合本文實際研究對象——混凝土結(jié)構(gòu)建筑工程,規(guī)范內(nèi)容的選擇以混凝土結(jié)構(gòu)分部分項工程為主。規(guī)范文檔不局限于GB(國家標準)正式文件,本文將GB/T(國家標準/推薦)、JGJ(建筑工程行業(yè)建設標準)、JGJ/T(建筑工程行業(yè)建設標準/推薦)也納入規(guī)范集的數(shù)據(jù)收集與建立過程。最終共選取GB 50204—2015《混凝土結(jié)構(gòu)工程施工質(zhì)量驗收規(guī)范》等35部相關(guān)工程規(guī)范,建立質(zhì)量驗收規(guī)范集。
由于獲取的建筑工程施工質(zhì)量驗收規(guī)范均為PDF格式,且包含計算機無法識別的水印及圖片信息,因此,需進行驗收規(guī)范文本格式轉(zhuǎn)換。同時為降低無關(guān)文字對文本處理精度的影響,在轉(zhuǎn)換過程中將英文摘要、英文目錄等信息人工刪除。經(jīng)高精確度的文本識別轉(zhuǎn)換后,各質(zhì)量規(guī)范條文轉(zhuǎn)變?yōu)橛嬎銠C可二次處理的TXT格式,為質(zhì)量驗收規(guī)范文本處理工作提供便利。
jieba中文分詞庫作為Python第三方中文分詞庫,利用中文分詞庫確定各漢字間的關(guān)聯(lián)程度,將關(guān)聯(lián)程度較大的漢字組成詞語,生成分詞結(jié)果。jieba分詞共支持3種分詞模式:精確模式、全模式、搜索引擎模式[8]。3種分詞模式特點及適用范圍如表1所示。
表1 3種分詞模式特點及適用范圍
精確模式能實現(xiàn)對語句最精確的切分且不存在冗余數(shù)據(jù),適用于高精度的文本分析工作,符合本文的文本處理要求。因此,使用jieba分詞精確模式,完成質(zhì)量驗收規(guī)范文本分詞操作。
停用詞是指在信息檢索過程中,為實現(xiàn)提高工作效率及節(jié)省存儲空間的目的,在對文本進行分析處理前過濾對文本內(nèi)容影響較小的字詞及符號等,被提前過濾掉的內(nèi)容稱為停用詞。
在通用的“哈爾濱工業(yè)大學停用詞庫”“四川大學機器學習實驗室停用詞庫”“百度停用詞表”等基礎(chǔ)上[9],根據(jù)實際需要,添加“建設工程、規(guī)劃”等建設領(lǐng)域通用但與質(zhì)量問題關(guān)聯(lián)度不高的詞匯,形成本研究使用的停用詞表,如表2所示。
表2 停用詞
在自然語言處理中,關(guān)鍵詞作為表述文本中心思想的詞語,常被用于檢索文本信息、文本系統(tǒng)分類等工作。關(guān)鍵詞提取是文本信息挖掘的領(lǐng)域分支,其對文本檢索、摘要生成、情感分析、文本聚類等研究提供便利。關(guān)鍵詞的精準與否將對規(guī)范語句處理效果產(chǎn)生直接影響。
從計算機算法角度來看,關(guān)鍵詞提取算法共分為兩類:有監(jiān)督關(guān)鍵詞提取算法、無監(jiān)督關(guān)鍵詞提取算法。有監(jiān)督關(guān)鍵詞提取算法需人工標注語料庫,通過訓練學習等多種方式判斷詞語的重要程度;無監(jiān)督關(guān)鍵詞提取算法無須以人工方式標注訓練集,提取效率高,但提取效果與有監(jiān)督算法相比較差。由于有監(jiān)督算法需耗費高昂的人工成本,因此,選擇適用性較強的無監(jiān)督關(guān)鍵詞提取算法。
TF-IDF作為常用的無監(jiān)督關(guān)鍵詞提取方法,基于統(tǒng)計學原理,將詞頻(TF)與逆向文件頻率(IDF)進行相乘,產(chǎn)生并保留高頻詞匯,從而獲取規(guī)范文本關(guān)鍵詞,具備操作簡單、詞頻統(tǒng)計嚴謹?shù)奶卣?。計算如?1)~(3)所示[10]:
(1)
(2)
TF-IDF=TFw·IDFw
(3)
該方法使用優(yōu)勢明顯,經(jīng)算法分析后,詞語的重要程度與出現(xiàn)次數(shù)成正比,與詞語在語料庫的出現(xiàn)頻率成反比,區(qū)分能力較強,適合文本分類。綜上,采用TF-IDF法提取質(zhì)量驗收規(guī)范文本關(guān)鍵詞,用于后續(xù)規(guī)范語句處理工作。
質(zhì)量驗收規(guī)范由大量質(zhì)量控制語句構(gòu)成,共同保障工程施工質(zhì)量。作為規(guī)范文本的核心內(nèi)容,在已獲取關(guān)鍵詞的基礎(chǔ)上,使用re正則表達式,實現(xiàn)控制語句提取。
正則表達式是對字符實現(xiàn)規(guī)則操作的邏輯公式,使用前需事先完成規(guī)則字符串的構(gòu)建。其能對1個或多個規(guī)則字符串進行文本搜索匹配,獲取用戶需要的文本內(nèi)容,具有邏輯性強、靈活度高、功能性好的特點。re模塊作為處理正則表達式的模塊,二者共同為質(zhì)量控制語句提取工作提供技術(shù)支撐。
目前,Python中常用處理正則表達式匹配的有search,split,sub,findall等函數(shù),具備實現(xiàn)字符串的查找匹配、分割、替換等功能。其中findall函數(shù)能在文本中獲取所有匹配的規(guī)則字符串,并以列表形式輸出對應結(jié)果。該函數(shù)工作原理正適用于提取質(zhì)量控制語句,因此使用re.findall完成質(zhì)量控制語句提取。
建筑工程施工工序包含大量分部工程,每個分部工程中又涵蓋了更為細致的分項工程。各分項工程的精確劃分直觀展現(xiàn)出建筑物施工技術(shù)流程,能使專業(yè)施工與管理人員更有針對性地完成工程施工與質(zhì)量驗收工作,保證建筑物施工質(zhì)量良好。
利用re正則表達式,將質(zhì)量控制語句依據(jù)分部分項工程進行分類梳理,為質(zhì)量問題分析提供便利,能實現(xiàn)質(zhì)量問題產(chǎn)生原因的快速分析。經(jīng)過對規(guī)范文本中的全部信息進行初步篩選,剔除與規(guī)范文本關(guān)鍵詞關(guān)聯(lián)度不高的語句,并在此基礎(chǔ)上對控制語句進行分項工程分類,形成質(zhì)量控制語句庫,有效減少質(zhì)量控制語句基數(shù)數(shù)量。將分類后的語句應用于后文專家訪談環(huán)節(jié),依據(jù)分項工程分類結(jié)果,專家可優(yōu)先對與質(zhì)量問題關(guān)聯(lián)度高的分項工程開展分析,提高原因分析工作效率與結(jié)果準確度。
混凝土結(jié)構(gòu)建筑主要承重構(gòu)件為鋼筋混凝土,具有堅固耐久、承重能力強、消耗建材少、投入成本低等特點,是當下最普遍且常用的建筑結(jié)構(gòu)形式[11]。鑒于混凝土結(jié)構(gòu)建筑的普適性與常見性,選擇混凝土結(jié)構(gòu)建筑開展質(zhì)量問題實證分析。
根據(jù)第1,2節(jié)所述方法,共選取35部工程規(guī)范建立質(zhì)量驗收規(guī)范集,使用Python 3.7編寫jieba分詞、去停用詞與TF-IDF關(guān)鍵詞提取方法的代碼。運行程序后總結(jié)提取出“混凝土、澆筑、鋼筋、施工、模板”5個文檔關(guān)鍵詞。
在獲取文檔關(guān)鍵詞的基礎(chǔ)上,編寫re正則表達式代碼實現(xiàn)質(zhì)量控制語句提取與分類操作。將質(zhì)量控制語句依據(jù)混凝土結(jié)構(gòu)分部工程進行分類,劃分為鋼筋工程、混凝土工程、模板工程、現(xiàn)澆結(jié)構(gòu)工程、預應力工程、裝配式結(jié)構(gòu)工程6項分項工程。
經(jīng)程序運行及結(jié)果整理,共提取質(zhì)量控制語句398條。其中,鋼筋工程83條,混凝土工程213條,模板工程66條,現(xiàn)澆結(jié)構(gòu)工程6條,預應力工程17條,裝配式工程13條,分類結(jié)果如表3所示。
表3 混凝土結(jié)構(gòu)建筑工程質(zhì)量控制語句分類結(jié)果
經(jīng)篩選后獲取的質(zhì)量控制語句存在數(shù)量過多、精度不高的缺陷,為進一步提高語句提取精度,利用文檔關(guān)鍵詞進行二次提取。以混凝土工程為例,第一次提取分類結(jié)果共獲取213條語句?;诖朔诸惤Y(jié)果,使用“澆筑、鋼筋、施工、模板”4個關(guān)鍵詞進行二次提取。
程序運行后,混凝土工程第二次語句分類結(jié)果共獲取136條語句,相較首次提取結(jié)果共計過濾77條語句,有效實現(xiàn)精度的提升。以此類推,分別對其余5項分項工程分類結(jié)果進行二次提取,共獲取241條語句。
上述操作能有效減少語句基數(shù)數(shù)量,建立的質(zhì)量控制語句庫實現(xiàn)了從繁雜的文本集中篩選出與規(guī)范文本關(guān)鍵詞關(guān)聯(lián)度較高的語句的目的。
選取37家工程單位的63份混凝土結(jié)構(gòu)建筑工程質(zhì)量問題報告作為分析樣本,運用統(tǒng)計學方法對其質(zhì)量問題完成初步分析,具體質(zhì)量問題及頻率統(tǒng)計如表4所示。
表4 混凝土結(jié)構(gòu)建筑工程質(zhì)量問題梳理及頻率統(tǒng)計
研究發(fā)現(xiàn),滲漏與裂縫問題在工程質(zhì)量問題中占比高達56%。滲漏與裂縫問題將對建筑物后期使用功能產(chǎn)生較大影響,作為工程質(zhì)量問題的頻發(fā)項目,需持續(xù)跟蹤檢查,加強質(zhì)量風險管理。
地下室是典型的混凝土結(jié)構(gòu)建筑工程。地下室常見的工程質(zhì)量問題集中在因混凝土結(jié)構(gòu)裂縫、接縫相關(guān)原因?qū)е碌臐B漏、裂縫。結(jié)合質(zhì)量檢查報告,匯總整理多個項目存在的地下室滲漏問題表現(xiàn)形式,如圖2所示。
圖2 混凝土結(jié)構(gòu)建筑工程質(zhì)量共性問題
以地下室滲漏問題為例,結(jié)合已建立的質(zhì)量驗收規(guī)范集,探討由于混凝土結(jié)構(gòu)存在裂縫、接縫等情況導致地下室產(chǎn)生滲漏問題的原因。邀請業(yè)內(nèi)5名技術(shù)質(zhì)量專家進行地下室滲漏質(zhì)量問題訪談,包括總工程師1名、質(zhì)量總監(jiān)2名、技術(shù)負責人2名。根據(jù)已建立的質(zhì)量控制語句庫,專家從中遴選出與地下室滲漏質(zhì)量問題產(chǎn)生關(guān)系最為密切的若干控制語句,將控制語句與質(zhì)量表象產(chǎn)生的背后原因建立關(guān)聯(lián)。至此,建立了一套地下室滲漏的“質(zhì)量控制語句(質(zhì)量規(guī)范)-質(zhì)量表象(滲漏)-質(zhì)量問題原因”的對應關(guān)系自動化檢測條目。根據(jù)專家訪談結(jié)果,地下室滲漏質(zhì)量問題可能由101項原因造成,如表5所示。
表5 地下室滲漏質(zhì)量問題產(chǎn)生原因
研究結(jié)果表明,地下室滲漏質(zhì)量問題的發(fā)生是多個分項工程因素共同作用的結(jié)果。其中,混凝土工程施工對地下室滲漏問題的影響最為顯著,從混凝土材料生產(chǎn)、運輸澆筑、現(xiàn)場施工管理、施工縫后澆帶留設、澆筑振搗養(yǎng)護及冬期施工等多角度出發(fā),共歸納70項具體原因。由于所選取的施工規(guī)范關(guān)注于混凝土主體結(jié)構(gòu)工程澆筑過程產(chǎn)生的裂縫,故對防水層等材料施工過程造成的裂縫暫未考慮。
1)以地下室滲漏為例進行質(zhì)量問題原因的文本分析研究,其他工程質(zhì)量問題原因分析過程與之相似。通過建立“質(zhì)量規(guī)范(質(zhì)量控制語句)→質(zhì)量問題表象→質(zhì)量問題原因→質(zhì)量控制(質(zhì)量保障規(guī)范技術(shù)措施)”這一閉環(huán)的自動化質(zhì)量分析框架,可形成工程質(zhì)量“表象-原因”關(guān)系庫,為最終真正實現(xiàn)大規(guī)模的基于人工智能的工程施工自動化質(zhì)量檢測、分析與預防提供基礎(chǔ)。
2)對比國內(nèi)同領(lǐng)域研究成果,胡云忠等基于本體,針對建筑質(zhì)量管理規(guī)范進行建模研究[6],在一定程度上完成規(guī)范文本整理工作,而本研究實現(xiàn)規(guī)范文本自動化處理,能夠在短時間內(nèi)篩選處理大量質(zhì)量驗收規(guī)范文本數(shù)據(jù),提升文本挖掘效率;潘杏等提出基于LDA的地鐵施工安全隱患排查要點挖掘方法[12],運用自然語言處理技術(shù)歸納整理出34項安全隱患要點,而本研究以地下室滲漏為例,總結(jié)6類101項潛在原因,分析結(jié)果更為全面,且與工程實際控制標準相關(guān),彌補實際工程質(zhì)量檢查環(huán)節(jié)應用的空白。
3)提出的研究方法框架,不僅適用于地下室滲漏質(zhì)量問題,同樣適用于建筑工程項目中其余質(zhì)量問題。借助計算機Python編程手段,實現(xiàn)大規(guī)模、自動化處理質(zhì)量規(guī)范文本,有效提高語句獲取效率。在此基礎(chǔ)上,探尋具體質(zhì)量問題與其誘發(fā)原因之間的關(guān)聯(lián),深入挖掘各質(zhì)量問題背后的潛在原因,將質(zhì)量管控提前至實施前期,避免或減少工程質(zhì)量問題帶來的損失。
通過自動化提取控制語句的方式,建立了質(zhì)量控制語句庫。同時,依據(jù)實際工程質(zhì)量檢查報告,歸納梳理了質(zhì)量問題表象。借助專家訪談方式,構(gòu)建質(zhì)量控制語句庫與質(zhì)量表象間的關(guān)聯(lián),探尋質(zhì)量問題背后的產(chǎn)生原因。從而形成了一套較為完整的工程質(zhì)量問題分析框架,為實現(xiàn)自動化、高效地開展質(zhì)量原因分析和質(zhì)量管控工作提供全新的思路。
1)依據(jù)各分項工程提前加以劃分,借助Python編程,將與實際工程質(zhì)量問題具有強相關(guān)性的分項工程語句進行自動化篩選、歸類,能有效減少質(zhì)量控制語句庫中語句數(shù)量,達到精煉語句庫的目的。解決了現(xiàn)有工程規(guī)范涵蓋多種分部工程,語句數(shù)量較多且種類繁雜的問題。從而進一步提升質(zhì)量問題原因分析的工作效率與結(jié)果準確度,實現(xiàn)較為快速、準確地定位質(zhì)量問題產(chǎn)生原因的目的。
2)利用提出的“質(zhì)量規(guī)范(質(zhì)量控制語句)→質(zhì)量問題表象→質(zhì)量問題原因→質(zhì)量控制(質(zhì)量保障規(guī)范技術(shù)措施)”自動化質(zhì)量問題原因分析框架,以地下室滲漏質(zhì)量問題為例開展實證分析。通過將這一框架應用于其余工程質(zhì)量問題,能逐步建立起更加全面的工程質(zhì)量問題“表象-原因”關(guān)系庫,優(yōu)化質(zhì)量管控與監(jiān)督體系,提高工程質(zhì)量管理水平,彌補實際工程質(zhì)量檢查環(huán)節(jié)暫未使用自動化方法的空白。
本研究對實際工程施工環(huán)節(jié)的考慮并不全面,如未充分研究地下室滲漏質(zhì)量問題中由于外設防水層施工而產(chǎn)生的裂縫。在后續(xù)“表象-原因”關(guān)系庫的建設中,將不斷豐富完善各類質(zhì)量問題。同時,為進一步提高工程質(zhì)量問題的分析效率,也將繼續(xù)優(yōu)化質(zhì)量控制語句語義分析和質(zhì)量問題產(chǎn)生原因判定方法,最終實現(xiàn)基于施工技術(shù)文件的質(zhì)量問題自動化檢查與分析過程,為“雙碳”需求下的智慧施工提供質(zhì)量保障。