• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自然語言處理在招投標文件管理平臺中的應(yīng)用

      2023-10-18 13:32:52宋學(xué)武張勁松唐世貴
      科技創(chuàng)新與應(yīng)用 2023年29期
      關(guān)鍵詞:投標聚類錯誤

      宋學(xué)武,張勁松,唐世貴,廖 松,陳 昀,尹 智

      (重慶海裝風(fēng)電銷售有限公司,重慶 401122)

      招投標是一種在建筑和商品交易中非常常見的公開的競爭形式。在招標階段,招標人發(fā)布招標公告或者招標邀請書,根據(jù)項目的特點和需要編制好招標文件,之后在投標階段,投標人再根據(jù)招標文件來編寫并提交投標文件,投標人參與競爭并進行一次或多次性投標報價。而這些公開的招投標信息往往具有很高的商業(yè)價值,對于很多企業(yè)而言,從中挖掘潛在的商業(yè)機會,能起到事半功倍的效果。本文的招投標文件管理平臺處理的業(yè)務(wù)流程是一套完整的招投標流程,包括招標、投標、中標、合同起草和合同簽訂等,在處理復(fù)雜且數(shù)量多的各類招投標文件時,可以利用新技術(shù)來實現(xiàn)更好的管理。

      人類的日?;顒邮菬o法脫離語言的,而自然語言則是一種最直接、最簡單的語言表達方式,它可以把人類的語言進行加工,變成機器能夠聽懂的機器語言[1]。作為人工智能的一個重要分支,它在信息處理中的作用也日益突出,目前已為人們所熟悉和使用。若是將自然語言處理技術(shù)運用在招投標文件管理平臺中管理各類文件,可以實現(xiàn)機器化代替人工辦公,大大提高文件處理效率。

      1 招投標文件管理平臺分析

      1.1 招投標文件管理特點

      1.1.1 內(nèi)容形式多樣性

      在投標階段,會有很多投標文件來自于不同的、有意愿投標的企業(yè),因為不同公司的管理制度、工作方式、文件的質(zhì)量都不一樣,也就導(dǎo)致投標文件的種類、形式繁多,而在之后簽訂合同的階段,不僅要了解合同文件,還要解讀多個合同的相關(guān)法律法規(guī)和政策。有些東西,必須要有專門的專家來做,否則不僅會降低工作的效率,還會降低員工的使用效率。

      1.1.2 時效性需求高

      與其他文件的管理方式不同,招投標項目文件的時效性是一個非常重要的問題,在指定的時間里得到所有的關(guān)鍵信息,再據(jù)此得出結(jié)果。同時,由于信息技術(shù)的飛速發(fā)展,大量的電子文件、復(fù)印文件不斷增多,而紙質(zhì)文件的數(shù)量卻在不斷減少,從而保證項目文件不會成為阻礙項目進度的“瓶頸”。所以在招投標項目文件的管理中,如何更快、更有效地進行電子和復(fù)印文件的處理變得日益重要。

      1.1.3 安全性與保密性

      不同的文件類型對招投標文件的保密需求也是不同的。在招投標文件的管理中,如何將保密與方便結(jié)合起來是一個非常關(guān)鍵的問題,資訊的保密性是一個招標項目的關(guān)鍵,許多資料都會牽扯到招標人與投標人的商業(yè)機密。所以,必須建立、健全安保體系,一方面要加強對招標項目文件的安全管理;另一方面,又要保證招標項目文件的可操作性。

      1.1.4 信息查詢簡潔化

      隨著計算機技術(shù)的飛速發(fā)展,以及大數(shù)據(jù)網(wǎng)絡(luò)時代的來臨,人們在傳遞、接收文件等方面更加便捷,但在提供多種便利的同時,也產(chǎn)生了大量的信息爆炸。對于海量的數(shù)據(jù),在很短的一段時間里,如何將多余的信息剔除掉,獲取重要的信息,就成了文件管理的重中之重,所以在管理中必須充分重視文檔數(shù)字化和信息化的問題,需要對文件進行信息化集成,以形成易于查詢的體系。

      1.2 管理中的問題及預(yù)期標準

      隨著近幾年網(wǎng)絡(luò)信息技術(shù)的迅猛發(fā)展,更多企業(yè)選擇創(chuàng)建自己的文件管理平臺,不再依賴第三方平臺,但使用過程中會出現(xiàn)一些問題,如本文的招投標文件管理平臺會存在招投標文件不規(guī)范、部分內(nèi)容失真、信息化程度不足等問題。由于投標文件來自于不同的有意向投標的公司或企業(yè),意味著投標文件多種多樣,缺乏整體規(guī)范性。在此情況下,部分文件的質(zhì)量就會與標準文件的質(zhì)量有較大差異,甚至?xí)霈F(xiàn)內(nèi)容失真的錯誤,如簽名內(nèi)容模糊不清、重要信息遺漏等。信息化程度不足具體表現(xiàn)在平臺空有上傳的一大堆文件資源卻不能很好地利用,未能將其變成可隨時查閱的數(shù)據(jù)庫資源。

      針對以上提出的問題,在招投標文件管理中,可以得出招投標文件管理中的預(yù)期標準。首先是規(guī)范性,上傳的招投標文件應(yīng)當(dāng)符合平臺規(guī)定的統(tǒng)一標準,字體、格式、結(jié)構(gòu)均需保持一致,從上傳文件開始嚴格把關(guān),即從源頭入手,保證所有文件的規(guī)范性[2]。其次是準確性,為了保證后期工作的順利進行,在管理文件之前應(yīng)仔細審查上傳的文件,避免出現(xiàn)重要信息缺失,符合規(guī)范且信息準確萬無一失的文件才是需要管理的對象。最后是易用性,要做到方便用戶使用,可以快速便捷檢索到需要的文件信息,也要具備良好易用的人機接口來更好地管理文件。綜上所述,招投標文件管理平臺在管理中的預(yù)期標準便是達到很好的規(guī)范性、準確性及易用性。

      2 自然語言處理技術(shù)可行性分析

      2.1 自然語言處理技術(shù)介紹

      自然語言處理已經(jīng)成為機器學(xué)習(xí)的研究熱點之一,作為一門包含人工智能、計算機科學(xué)及語言學(xué)等一系列學(xué)科的交叉學(xué)科,在數(shù)據(jù)處理領(lǐng)域逐漸占據(jù)一席之地。本文的招投標文件管理平臺在管理文件的過程中使用自然語言處理的相關(guān)技術(shù),會大大提高辦公效率,減少多余人力資源的消耗。

      自然語言處理技術(shù)可以有效地提高招投標文件的規(guī)范性和安全性,利用其處理不同形式的文件,從文件中篩選出重要的信息,可以防止中的重要信息缺失,確保文件的準確性,也可以進行安全檢查,對合同金額和技術(shù)細節(jié)進行嚴格的檢查,保證文件的質(zhì)量[3]。同時,自然語言處理技術(shù)也能幫助完成多個版本的文件比對,在一定程度上減少了上傳文件和打印文件過程中的差錯,降低了產(chǎn)生“陰陽合同”的風(fēng)險。除此之外,自然語言處理技術(shù)還可以幫助改善招投標文件管理的易用性,若采用人工方式,那么處理文件的速度與個人的能力、知識背景、文件的內(nèi)容和類型有關(guān),而采用自然語言處理技術(shù)則能將專家經(jīng)驗與IT 技術(shù)相結(jié)合能更好地運用電腦來實現(xiàn)招投標文件的管理,將技術(shù)變革作為企業(yè)獨立文件管理平臺的有力武器。

      2.1.1 信息抽取

      信息抽取是從文本中提取和轉(zhuǎn)化的一種方法,它可以從自然語言的語料庫中提取出不同的名稱實體,這是一種深入的研究過程。信息提取分為3 個步驟:第一個是自動化處理非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù),第二個是針對目標文字進行信息的提取,第三個是將信息結(jié)構(gòu)化處理。

      2.1.2 命名實體識別

      命名實體識別是指識別文本中有特定意義的詞語,將其標注出來,為后續(xù)工作做鋪墊,招投標文件中的實體例如項目名稱、項目地點、合同金額、開標時間和投標截止時間等[4]。最近幾年國內(nèi)的研究熱點也是在將命名實體識別投入到應(yīng)用階段,在智能問答、機器翻譯、信息檢索等領(lǐng)域也發(fā)揮著巨大作用[5]。

      2.1.3 文本糾錯技術(shù)

      文本糾錯技術(shù)就是針對文字中的各種錯誤進行修正,可分為文本錯誤識別和文本錯誤糾正這兩個階段。由于中文本身就有其獨特的語言特征,所以其文本糾錯就必須要有特定的方法和思維來加以解決。例如,中文的詞匯范圍和詞匯量很大,這就需要大量的學(xué)習(xí)。中文文本經(jīng)常出現(xiàn)的四種錯誤類型:字級、詞級、語法和語義錯誤,而后面二者比較難檢測出來,需要聯(lián)系上下文來判斷。因為中文的語言特點,其錯誤類型也不同于英文,相對于英文,中文也不會有太多的語法錯誤。

      2.1.4 文本聚類

      文本的聚類與分類本質(zhì)上可以看作是一種技術(shù)手段,兩者都是通過利用文本的內(nèi)在特性將其整合到不同的類別。而文本聚類技術(shù)無需預(yù)先對文本數(shù)據(jù)進行標記,而是能夠根據(jù)文本數(shù)據(jù)本身的內(nèi)在關(guān)聯(lián)識別數(shù)據(jù)的特性,將具有相似特性的文本進行分割,使其能夠充分利用本身特性而不會受到外部因素的影響。所以,使用聚類技術(shù)來進行文本分析,可以獲得與實際情況更加接近的期望結(jié)果。然而,與其他機器學(xué)習(xí)方法一樣,文本聚類算法也不能直接地學(xué)習(xí)和處理非結(jié)構(gòu)化數(shù)據(jù)。因此,在進行文本聚類時,必須先將待處理的文字資料轉(zhuǎn)化為結(jié)構(gòu)化文本,然后再進行聚類分析。文本聚類過程包括文本預(yù)處理、文本特征表示、文本特征提取、聚類算法等。

      2.2 招投標文件分析編制功能需求分析

      在投標階段,本文的招投標文件管理平臺主要采用的項目功能是文件分析編制功能,對各類分析報表、投標、合同文件進行分析整理和存儲,主要功能包括半自動化文件分析、模塊化資料管理、標準化文件輸出。文件分析功能主要是指文件重要技術(shù)信息提取,并做好信息的分類統(tǒng)計、存儲、輸出,作為數(shù)據(jù)分析來源之一;模塊化資料管理是指平臺要具備模塊庫,根據(jù)標題維度和應(yīng)用場景來劃分模塊,同時具備模塊庫增刪功能;文件輸出這一部分是文件以格式或標題形式進行預(yù)排,具有選擇架構(gòu),并記憶自動存取投標文件模板,除此之外,還可以自動調(diào)取模塊庫內(nèi)容,再按照要求比對模板后自動篩查文件完整性,也具備自動排版、文檔糾錯、前后關(guān)聯(lián)內(nèi)容查驗與修正等功能。

      3 在招投標文件管理中的應(yīng)用

      通過介紹了部分自然語言處理技術(shù)以及其可行性分析,以下3 個小節(jié)便是3 個應(yīng)用自然語言處理技術(shù)于平臺文件分析編制功能中的詳細示例。如圖1 所示。

      圖1 自然語言處理技術(shù)在文件分析編制功能中的作用

      3.1 提取招投標文件重要信息

      利用自然語言處理技術(shù),從招投標文件中提取出關(guān)鍵信息,傳統(tǒng)的信息提取是一種文本加工技術(shù),它是從對象的自然語言中提取特定類型的實體、關(guān)系和事件,再將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)后輸出。常用的抽取信息有抽取人名、地名、機構(gòu)名稱和時間等。以合同文件為例,可以設(shè)定包括甲方、乙方、金額大寫、金額小寫、起始時間、結(jié)束時間、簽約地點和銀行賬號等,通過自然語言處理技術(shù)這些數(shù)據(jù)就會被自動存檔。之后想要檢索類似信息,就能很容易地查找到有關(guān)的資料,做好招投標文件管理的信息化。

      采用基于深度學(xué)習(xí)的信息抽取方法,統(tǒng)一步驟如下。

      1)文本預(yù)處理,面對大量待處理文本,對其進行中文分詞、命名實體識別、關(guān)系抽取和實體消歧等基本處理。

      2)針對性選擇合適的神經(jīng)網(wǎng)絡(luò)模型,比起傳統(tǒng)的機器學(xué)習(xí)算法,深度學(xué)習(xí)中的一些模型可以免去特征工程這一步。

      3)整合處理過后的數(shù)據(jù),得到目標文本的關(guān)鍵要素。

      3.2 輔助投標文件編寫與輸出

      在招投標文件編寫過程中,需要做到文檔糾錯、前后關(guān)聯(lián)內(nèi)容查驗與修正這些功能,而運用自然語言處理技術(shù)比如文本糾錯技術(shù)可以滿足以上功能需求。從字錯誤、語法錯誤和語義錯誤3 個層面,漢字錯誤的識別方法主要采用機器學(xué)習(xí)和傳統(tǒng)檢索兩種。如采用n元模型、神經(jīng)網(wǎng)絡(luò)、最大熵等機器學(xué)習(xí)方式。采用統(tǒng)計機器翻譯、神經(jīng)網(wǎng)絡(luò)聯(lián)合模型、集成學(xué)習(xí)等語法錯誤研究方法,或通過條件隨機場(Conditional Random Field,CRF)查找文本的錯誤。采用結(jié)合上下文語境、基于語義搭配等語法錯誤研究方法?;诤A康恼Z料庫構(gòu)造字典,并在字典的基礎(chǔ)上對錯誤的文本進行遍歷和改正,以實現(xiàn)文本自動糾錯。

      在面向招投標文件這類規(guī)范性文件的文本糾錯時,采用基于BERT-BiLSTM-CRF 的復(fù)合模型來檢索錯誤,其中CRF 模型專注于解決序列標注的難題,將其放置于整個流程的最后一層用于處理經(jīng)過BERT 層和BiLSTM 層訓(xùn)練后得到的序列,對每個字符進行標注,分為正確字符和錯誤字符。采用整個復(fù)合模型標注出來的錯誤標簽與采用命名實體識別獲取句子的實體標簽進行比對,如有一致的部分則匹配到相同的實體,取消錯誤標簽,之后便可進行下一階段即糾錯階段。

      3.3 招投標文件分類

      面對繁多的招投標文件,將其歸入合適的類別,對后期檢索相關(guān)關(guān)鍵詞的文件來說省時省力。而用于文本分類的機器算法主要有樸素貝葉斯、決策樹、KNN和支持向量機等,也可以使用深度學(xué)習(xí)文本分類算法如卷積神經(jīng)網(wǎng)絡(luò)。其中基于卷積神經(jīng)網(wǎng)絡(luò)的分類算法分為3 個步驟:首先是對數(shù)據(jù)進行預(yù)處理,清除文本中的一些噪聲數(shù)據(jù),對文本進行分詞,然后是對預(yù)處理后的文本進行特征分析,最后是最重要的分類部分,采用以上所說的機器算法來進行分類,這里使用Softmax 回歸深度學(xué)習(xí)模型,表達式如下式所示

      該式表示為樣本x屬于類別k的概率,其中分子與分母的概率都處于0 與1 之間,采用以e為底的指數(shù)函數(shù),使自變量大于1 時可以清晰地看見變量的劇烈變化。

      4 結(jié)束語

      隨著信息技術(shù)的高速發(fā)展,招投標管理平臺運用新興技術(shù)如自然語言處理技術(shù)來管理文件意義重大。本文創(chuàng)新性地將自然語言處理技術(shù)用在平臺的文件分析編制功能中,主要體現(xiàn)在以下兩方面。第一,文中通過對招投標文件管理平臺的特點、管理問題以及功能分析,采用了基于深度學(xué)習(xí)的招投標文件關(guān)鍵信息抽取,除此之外,還利用了文本糾錯和聚類技術(shù)來實現(xiàn)文件的分析編制功能,證明了自然語言處理可以幫助解決問題,滿足需求,從而完善平臺的使用感。第二,在應(yīng)用方面,實現(xiàn)紙質(zhì)化文件管理向數(shù)字化文件管理的轉(zhuǎn)變,加入辦公無紙化的發(fā)展隊列,也用機器審核取代人工審核,節(jié)省時間與資源,也保障了企業(yè)在招投標環(huán)節(jié)的經(jīng)濟效益。

      猜你喜歡
      投標聚類錯誤
      在錯誤中成長
      造價信息管理在海外投標中的應(yīng)用探討
      國務(wù)院明確取消投標報名
      淺析投標預(yù)算風(fēng)險的防范
      軍工企業(yè)招標投標管理實踐及探討
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于改進的遺傳算法的模糊聚類算法
      不犯同樣錯誤
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      鄂伦春自治旗| 石林| 屏山县| 乳源| 长岛县| 新泰市| 灵丘县| 津市市| 永靖县| 高淳县| 雷波县| 盘锦市| 甘孜县| 新平| 交口县| 临朐县| 宜州市| 大悟县| 沂南县| 丰县| 威海市| 辛集市| 鞍山市| 南汇区| 北安市| 铁岭县| 永丰县| 青田县| 乌海市| 武义县| 浑源县| 舒城县| 龙江县| 闻喜县| 连山| 松原市| 呼和浩特市| 山阴县| 合作市| 安塞县| 修武县|