劉佳凝/LIU Jianing
建筑設(shè)計(jì)任務(wù)書是建設(shè)項(xiàng)目必不可少的重要設(shè)計(jì)依據(jù),其合理性直接影響著建筑創(chuàng)作的過程和最終設(shè)計(jì)方案的質(zhì)量;然而,在當(dāng)今的實(shí)踐中,任務(wù)書往往由業(yè)主等非專業(yè)人士主導(dǎo)編制,其中所提出的設(shè)計(jì)依據(jù)與設(shè)計(jì)要求,往往過于隨意草率,或是羅列了諸多信息,但卻缺乏理性與科學(xué)依據(jù)。因此本文致力于在收集得到的112 份真實(shí)的任務(wù)書樣本的基礎(chǔ)上,立足于任務(wù)書本身的特性,嘗試對任務(wù)書的評價(jià)找到一套通用性的標(biāo)準(zhǔn),為行業(yè)實(shí)踐中的建筑師與項(xiàng)目業(yè)主,提供一個(gè)任務(wù)書自查的簡單工具,同時(shí)也可以作為任務(wù)書編制的參考導(dǎo)則。
觀察本研究所收集得到的112 份任務(wù)書樣本,不難發(fā)現(xiàn),任務(wù)書一般呈文檔形式,平均字?jǐn)?shù)(中文)在10,000 字左右,涉及內(nèi)容復(fù)雜多樣,信息含量巨大;不同項(xiàng)目的任務(wù)書樣本之間雖各不相同,但亦有一定的規(guī)律可循,在條目層級一般按照大致相同的幾大成分進(jìn)行組織,而條目層級之下的具體文本內(nèi)容,又有很大一部分具體陳述內(nèi)容的遣詞造句,可以被一個(gè)通用的高頻詞庫所覆蓋;而一些低頻詞、特異詞,則代表了項(xiàng)目的特殊性,也非??赡芫哂休^高的風(fēng)險(xiǎn)。
考慮到任務(wù)書文本的以上特性,加之目前已經(jīng)收集到上百份任務(wù)書樣本,隨著樣本庫的積累完善,參與評價(jià)分析的文本數(shù)據(jù)量還會(huì)不斷快速增加,對于這樣數(shù)量級的文本數(shù)據(jù)進(jìn)行分詞、詞頻統(tǒng)計(jì)、抽取關(guān)鍵詞、相似度計(jì)算等文本挖掘的處理與分析,進(jìn)而找尋得到任務(wù)書的評價(jià)要素,進(jìn)行風(fēng)險(xiǎn)識(shí)別與判定,人工方法顯然不是合適的選擇,借助計(jì)算機(jī)的數(shù)據(jù)挖掘能力則體現(xiàn)出一定的優(yōu)勢。
對于任務(wù)書的文本數(shù)據(jù)而言,對其進(jìn)行評價(jià)的具體工作,可以轉(zhuǎn)譯為發(fā)現(xiàn)樣本文句詞語層面的差異,甚至是語義層面的謬誤。為了實(shí)現(xiàn)這一設(shè)想,本研究提出參考風(fēng)險(xiǎn)評估的基本框架,將任務(wù)書評價(jià)的主要方法思路定義為:一份任務(wù)書樣本中都有什么主要成分?這些主要條目是怎樣具體敘述的?具體敘述的內(nèi)容是否具有風(fēng)險(xiǎn)?如果有風(fēng)險(xiǎn)會(huì)產(chǎn)生什么樣的后果?作為任務(wù)書的編制者或評價(jià)者應(yīng)該如何應(yīng)對可能產(chǎn)生的風(fēng)險(xiǎn)和后果?
任務(wù)書文本數(shù)據(jù)的評價(jià)方法步驟可以設(shè)計(jì)為:(1)對任務(wù)書文本進(jìn)行分詞和向量化處理;(2)對得到分詞的任務(wù)書文本數(shù)據(jù)進(jìn)行文本挖掘,統(tǒng)計(jì)詞頻TF、文檔頻率DF,TFIDF 等參數(shù)信息;(3)以詞頻分析為依據(jù),提取出關(guān)鍵詞、特異詞等等;(4)通過高頻詞、關(guān)鍵詞確定任務(wù)書都有什么要素,也即列出任務(wù)書所有可能的待評條目;(5)將得到的待評條目與已有研究做交叉對比,保證得到一份盡可能全面的任務(wù)書待評要素清單 ;(6)通過對待評要素(關(guān)鍵詞)的全文檢索,整理出待評條目的具體內(nèi)容,包括常見的形式和內(nèi)容,有關(guān)聯(lián)關(guān)系的條目,每一例任務(wù)書中的相關(guān)具體段落等等;(7)針對特異詞的全文檢索內(nèi)容,結(jié)合對應(yīng)待評條目的具體內(nèi)容,定位可能存在風(fēng)險(xiǎn)的地方,分析有可能出現(xiàn)什么問題(潛在風(fēng)險(xiǎn)事件),判定待評條目是否應(yīng)進(jìn)一步確定為風(fēng)險(xiǎn)評價(jià)指標(biāo);(8)對經(jīng)過篩選確定為風(fēng)險(xiǎn)評價(jià)指標(biāo)的條目,歸納其風(fēng)險(xiǎn)形態(tài),衡量其重要程度,得出其指標(biāo)權(quán)重(圖1)。
1 任務(wù)書評價(jià)指標(biāo)提取方法思路圖(繪制:劉佳凝)
為了構(gòu)建任務(wù)書評價(jià)的指標(biāo)體系,從系統(tǒng)邏輯的角度出發(fā),首先需要厘清任務(wù)書有哪些要素可以被評價(jià),也即是找出任務(wù)書的所有待評要素,然后再行分析判斷,甄別待評要素是否可以進(jìn)一步構(gòu)成評價(jià)指標(biāo)。
任務(wù)書評價(jià)指標(biāo)有3 個(gè)可能來源:策劃理論、相關(guān)規(guī)范和任務(wù)書樣本。本文主要研究的是從任務(wù)書樣本中,通過文本挖掘和風(fēng)險(xiǎn)識(shí)別方法所能獲得的評價(jià)指標(biāo),而理論和規(guī)范兩個(gè)途徑所歸納得到的指標(biāo),則將作為參考和補(bǔ)充。
計(jì)算機(jī)并不能真的理解任務(wù)書文本的語義及其所指代的內(nèi)容信息,討論計(jì)算機(jī)文本數(shù)據(jù)的挖掘方法,最為基礎(chǔ)的概念之一便是詞頻(Term Frequency)。詞頻(TF)是表示某一詞語在文檔中出現(xiàn)頻率的參數(shù),由該詞在文檔中出現(xiàn)的頻數(shù),與整篇文檔的詞語數(shù)相除得到:
另外一個(gè)重要的概念是文檔頻率(Document Frequency)。文檔頻率(DF)是表示某一詞語在整個(gè)文檔集中出現(xiàn)頻率(按文檔記)的參數(shù),通過一個(gè)文檔集中出現(xiàn)某一詞語的文檔個(gè)數(shù),除以文檔集文檔總個(gè)數(shù)D 計(jì)算得到。由文檔頻率可以延伸出一個(gè)相關(guān)的概念——逆向文檔頻率(Inverse Document Frequency);逆向文檔頻率(IDF)是DF 的一種變形,某一詞語的IDF 由總文檔數(shù)目D除以包含該詞語的文檔的數(shù)目,再將得到的商取對數(shù)得到,一般的計(jì)算公式寫作:
由詞頻和逆向文檔頻率的概念組合,可以得到的TF_IDF:
TF_IDF 是一種文本信息檢索與數(shù)據(jù)挖掘最常用的加權(quán)技術(shù),通過對一個(gè)詞語的TF_IDF 值進(jìn)行統(tǒng)計(jì),可以評估含有該詞的文檔在整個(gè)文檔集合中的特殊程度。
TF_IDF 比單一的TF、IDF 有著諸多優(yōu)良特性。TF 的缺陷在于僅考慮了詞語的“熱度”;如“的”這樣的助詞在任何一篇文檔中都會(huì)有很高的詞頻,但卻沒有什么實(shí)際意義。IDF 的主要思想是:在一個(gè)文檔集中,包含詞語的文檔越少,也就是越小,則IDF 越大,說明詞語具有很好的文檔類別區(qū)分能力;但I(xiàn)DF 沒有考慮詞語在文檔內(nèi)的普遍性,一個(gè)生僻詞也極大可能具有較高的IDF。而當(dāng)某詞語在某一文檔內(nèi)具有高詞頻,在整個(gè)文檔集中卻是低文檔頻率時(shí),才會(huì)產(chǎn)生高TF_IDF 值。不難理解,這樣的詞語不僅對于某一篇文檔很重要,同時(shí)對將這篇文檔區(qū)別于其他文檔的貢獻(xiàn)較大;因此,TF_IDF 可以過濾掉尋常的詞語,而傾向保留對分類重要的詞語。
2 詞頻向量的兩種形式示意(圖片來源:http://brandonrose.org/clustering)
表1 任務(wù)書關(guān)鍵詞組列表及待評要素名稱(繪制:劉佳凝)
具體到任務(wù)書樣本的文本數(shù)據(jù)的語義挖掘,高詞頻的詞表征了一份任務(wù)書最關(guān)注的內(nèi)容,說明了具體的建設(shè)項(xiàng)目設(shè)計(jì)的核心問題,或多方面多角度相關(guān)的復(fù)雜問題;高文檔頻率的詞揭示了不論建設(shè)項(xiàng)目類型的各種任務(wù)書,所關(guān)注的一些共性問題,可以對應(yīng)驗(yàn)證通用型范本各條目的實(shí)踐效力。詞頻和文檔頻率指示出了不同意義下的“高頻詞”,表征了任務(wù)書的主要內(nèi)容分布,因此本研究分別抽取了累計(jì)詞頻和文檔頻率排名前300 的詞,并取兩者的交集,定義為任務(wù)書的“關(guān)鍵詞”集合,共計(jì)235 個(gè),它們是生成任務(wù)書評價(jià)待評要素清單的核心載體。
而高TF_IDF 值的詞,是指示出任務(wù)書文檔區(qū)別于彼此的特征詞,可以理解為任務(wù)書中具有一定“特異性”的詞,根據(jù)前文所述的定義和分析可知,表征了少數(shù)幾個(gè)任務(wù)書中高頻出現(xiàn)的特殊性內(nèi)容,可以作為引導(dǎo)詞,返回任務(wù)書原文中找到相關(guān)內(nèi)容,對單一任務(wù)書實(shí)現(xiàn)潛在風(fēng)險(xiǎn)的定位。因此,本研究抽取了TFIDF 值排名前300 的詞,剔除了其中詞頻TF 或逆向文檔頻率IDF 畸高的詞語,并通過卡方值等參數(shù)進(jìn)行詞集調(diào)整,最終確定了135 個(gè)“特異詞”,留待進(jìn)行風(fēng)險(xiǎn)識(shí)別和搜索時(shí)使用。
3 關(guān)鍵詞層次聚類樹狀圖(部分)(繪制:劉佳凝)
4 關(guān)鍵詞相似性及K均值聚類散點(diǎn)圖(部分)(繪制:劉佳凝)
通過文本挖掘抽取得到的關(guān)鍵詞與特異詞,從整體上來看結(jié)果比較理想,但是單個(gè)詞語所顯示的信息非常零散混亂,大多數(shù)關(guān)鍵詞單獨(dú)不能完整表意,還有不少被分別統(tǒng)計(jì)的關(guān)鍵詞,實(shí)際上屬于同一個(gè)信息類別;這是文本挖掘中使用分詞和向量化等處理不可避免的缺陷。這種過度的拆解需要適當(dāng)進(jìn)行“合并同類項(xiàng)”的操作,盡可能引申還原出其所代表的一類信息,才能成為用于風(fēng)險(xiǎn)識(shí)別的待評要素清單。
而使用計(jì)算機(jī)進(jìn)行文本數(shù)據(jù)挖掘的另一個(gè)優(yōu)勢是,可以統(tǒng)計(jì)得到“詞頻向量”和“位置向量”(圖2),考慮到若是兩個(gè)關(guān)鍵詞的相關(guān)性較大,那么它們在任務(wù)書中應(yīng)該經(jīng)常相伴出現(xiàn),它們在文檔中出現(xiàn)的頻率和位置也會(huì)相似,也即文獻(xiàn)共現(xiàn)詞,因而通過應(yīng)用聚類、機(jī)器學(xué)習(xí)等方法,進(jìn)行詞頻向量和位置向量的數(shù)學(xué)計(jì)算,便可以使計(jì)算機(jī)擁有對任務(wù)書關(guān)鍵詞語義相似性判斷的能力,進(jìn)而完成關(guān)鍵詞主題分類與整理組合的工作。
本文通過K 均值聚類和層次聚類兩種方法,嘗試對235 個(gè)任務(wù)書關(guān)鍵詞進(jìn)行了聚類,得到了圖3、圖4 的初步結(jié)果。在這一基礎(chǔ)上,通過人工識(shí)別解讀、歸納命名的方式進(jìn)一步整理,得到表1。
任務(wù)書樣本的數(shù)據(jù)挖掘是本研究任務(wù)書風(fēng)險(xiǎn)評價(jià)指標(biāo)的第一來源,這主要是出于提升建筑問題評價(jià)客觀性的考慮;但不可忽視的是,經(jīng)驗(yàn)主義和人工知識(shí)領(lǐng)域亦可以提供非常具有價(jià)值的評價(jià)指標(biāo),并形成對計(jì)算機(jī)數(shù)據(jù)挖掘結(jié)果的驗(yàn)證和補(bǔ)充。通過總結(jié)理論和規(guī)范,并向有關(guān)專家咨詢意見,本文對表1 中的任務(wù)書待評要素全面性進(jìn)行了檢查,獲得了一些候補(bǔ)項(xiàng)與補(bǔ)充意見,在對這些反饋進(jìn)行篩選與綜合后,在表1 羅列的待評要素基礎(chǔ)上,再增加12 個(gè)任務(wù)書待評要素3)。經(jīng)過進(jìn)一步分類整理與編號,得到表2。
表2 任務(wù)書待評要素(繪制:劉佳凝)
表3 HAZOP 流程參數(shù)與引導(dǎo)詞[14]
在得到任務(wù)書的待評要素清單之后,便需要對這些待評要素進(jìn)行風(fēng)險(xiǎn)內(nèi)容的識(shí)別與判定。考慮到任務(wù)書的文本特性和前文所做的分解工作,風(fēng)險(xiǎn)識(shí)別與判定這部分工作可以參考借鑒工業(yè)領(lǐng)域中的危險(xiǎn)與可操作性分析(Hazard and Operability Analysis,以下簡稱“HAZOP 法”)。HAZOP 法是經(jīng)典的應(yīng)用于工業(yè)流程和系統(tǒng)的風(fēng)險(xiǎn)識(shí)別方法,其主要思想是:首先將流程或系統(tǒng)分割為多個(gè)研究節(jié)點(diǎn),對節(jié)點(diǎn)的設(shè)計(jì)意圖和正常狀態(tài)給出明確的定義,再采用頭腦風(fēng)暴的形式使用引導(dǎo)詞或流程參數(shù),提出節(jié)點(diǎn)可能出現(xiàn)的偏差和風(fēng)險(xiǎn)(表3)。
HAZOP 法中的一個(gè)核心概念——風(fēng)險(xiǎn)引導(dǎo)詞,結(jié)合到任務(wù)書的文本挖掘上,前文通過任務(wù)書樣本庫搜索得到的具有高TFIDF 值的135 個(gè)“特異詞”,正是對應(yīng)的任務(wù)書風(fēng)險(xiǎn)引導(dǎo)詞。這里有一個(gè)默認(rèn)的設(shè)置,即越“新奇”、越“詭異”、越“不常見”的詞,就越“危險(xiǎn)”,可以認(rèn)為其指示了風(fēng)險(xiǎn)內(nèi)容,至少是有可能有風(fēng)險(xiǎn)的內(nèi)容;這符合文本數(shù)據(jù)對象和任務(wù)書文檔庫的現(xiàn)實(shí)特征,因此有理由將“特異詞”作為任務(wù)書搜索風(fēng)險(xiǎn)時(shí)的引導(dǎo)詞。
表4 任務(wù)書待評要素“建筑風(fēng)格風(fēng)貌與形式特點(diǎn)”的風(fēng)險(xiǎn)識(shí)別表(繪制:劉佳凝)
通過對這些任務(wù)書的特異詞或者說風(fēng)險(xiǎn)引導(dǎo)詞應(yīng)用全文搜索技術(shù),可以搜索得到具體的任務(wù)書特異內(nèi)容,進(jìn)而可以通過邏輯推理來實(shí)現(xiàn)判斷這些特異內(nèi)容是否真的是所對應(yīng)任務(wù)書待評要素的風(fēng)險(xiǎn)事件,若是,則可以確定特異詞及其內(nèi)容所對應(yīng)的待評要素是一個(gè)風(fēng)險(xiǎn)評價(jià)的指標(biāo)。表4 示例了“建筑風(fēng)格風(fēng)貌與形式特點(diǎn)”這一待評要素在“面臨”“國籍”“契合”“穩(wěn)重”“宮廷”“鮮明個(gè)性”幾個(gè)引導(dǎo)詞下搜索歸納得到的風(fēng)險(xiǎn)識(shí)別與判定結(jié)果。
需要特別說明的是“房間數(shù)量、面積與具體設(shè)計(jì)要求”這一待評要素是一項(xiàng)特殊而重要的任務(wù)書評價(jià)指標(biāo),因?yàn)槠滹L(fēng)險(xiǎn)不僅存在于文本層面,更存在于房間清單或空間列表中,也就是面積數(shù)值的大小和分配比例問題,而這部分?jǐn)?shù)據(jù)并不能夠通過特異詞搜索來進(jìn)行風(fēng)險(xiǎn)識(shí)別和判定。若要對面積表格中的數(shù)值型數(shù)據(jù)進(jìn)行科學(xué)的風(fēng)險(xiǎn)評估,可以通過加和檢驗(yàn)、向量聚類等方法來識(shí)別和評價(jià)。
應(yīng)用上述風(fēng)險(xiǎn)識(shí)別與判定方法,最終確定的任務(wù)書評價(jià)指標(biāo)結(jié)果為:經(jīng)大量任務(wù)書樣本的文本挖掘,共得到22 個(gè)待評要素,并全部識(shí)別出風(fēng)險(xiǎn)內(nèi)容,可以進(jìn)行風(fēng)險(xiǎn)判定,并晉級成為任務(wù)書風(fēng)險(xiǎn)評價(jià)指標(biāo);通過梳理策劃評價(jià)理論,咨詢相關(guān)專家及一線建筑師,對文本挖掘得到的22 個(gè)待評要素進(jìn)行檢查和補(bǔ)充,又增加12 個(gè)待評要素,其中10 個(gè)識(shí)別出風(fēng)險(xiǎn)內(nèi)容,確定為任務(wù)書風(fēng)險(xiǎn)評價(jià)指標(biāo),“任務(wù)書編制人員與編制程序”和“任務(wù)書格式與內(nèi)容”兩個(gè)待評要素,雖然沒有直接從任務(wù)書樣本庫中識(shí)別出風(fēng)險(xiǎn)事件,但與本研究所探討的任務(wù)書評價(jià)理論高度相關(guān),在再次垂詢專家意見后,仍舊補(bǔ)充在任務(wù)書評價(jià)指標(biāo)之列。
本文針對“建筑學(xué)問題+文本類對象+風(fēng)險(xiǎn)識(shí)別方法”這個(gè)交叉領(lǐng)域,進(jìn)行新的理論和實(shí)踐探索。通過任務(wù)書文本的分解與挖掘,所得到的“關(guān)鍵詞”“特異詞”“待評要素”、以及由其引導(dǎo)搜索得到的內(nèi)容,可以視為一種基于實(shí)踐樣本的“參考樣例”和“錯(cuò)誤日志”,這為任務(wù)書評價(jià)領(lǐng)域由于缺乏成型的歷史數(shù)據(jù),為以往只能依靠專家經(jīng)驗(yàn)或單純的頭腦風(fēng)暴進(jìn)行評判的問題,提供了一種新的、更具客觀性、智能性和高效性的解決思路。
本文的研究是要構(gòu)建建筑設(shè)計(jì)項(xiàng)目任務(wù)書的一套評價(jià)體系,提取指標(biāo)本身只是最初始的一步,相應(yīng)的還應(yīng)建立起相匹配的指標(biāo)權(quán)重體系。風(fēng)險(xiǎn)識(shí)別過程中得到的發(fā)生概率、嚴(yán)重程度、風(fēng)險(xiǎn)等級數(shù)據(jù),其實(shí)就可以為指標(biāo)權(quán)重提供第一數(shù)值來源,但如何組合、平衡這些數(shù)據(jù),同時(shí)貼合任務(wù)書風(fēng)險(xiǎn)評價(jià)的實(shí)踐目的與意義,使之呈現(xiàn)為一套簡明的、有效的權(quán)重體系,則需要更多的研究,作者在這方面也進(jìn)行了一定的嘗試和探索,限于篇幅便不在本文中詳述?!?/p>
注釋
1)k 取遍文檔 j 中的所有詞語。詞頻實(shí)際上是詞語頻數(shù)的歸一化表達(dá),避免了文檔長度對詞頻的干擾。詞頻反映了詞語在文檔內(nèi)的普遍程度。
2)分母中比定義多加了1,是考慮到詞語不屬于語料庫的可能,為了防止除0的情況發(fā)生而加。文檔頻率反映了詞語在文檔間的普遍程度,逆向文檔頻率則是詞語在文檔集中普遍重要性的度量。
3)見表2星號標(biāo)注的待評要素。
4)風(fēng)險(xiǎn)事件的發(fā)生概率按照風(fēng)險(xiǎn)特異詞的并集概率求解,P(AUBUC)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC),其中P(i)為某一單一特異詞出現(xiàn)的概率(文檔概率)。
5)風(fēng)險(xiǎn)事件的嚴(yán)重程度通過訪談相應(yīng)任務(wù)書項(xiàng)目的建筑師,咨詢對本評價(jià)體系有一定了解的專家小組,最終歸納得到。
6)風(fēng)險(xiǎn)等級=發(fā)生概率×嚴(yán)重程度