劉雙巧 周璐 李彩艷 袁慧敏 張異卓 李昱達 劉錦鋼 鄭豐杰 孫燕 李宇航
摘要 目的:探索構(gòu)建適用于中醫(yī)學領(lǐng)域的分詞模型。方法:采用基于SentencePiece的無監(jiān)督學習分詞方法,提出利用出版教材、名家著作及中醫(yī)臨床病歷這3種不同類型的文獻構(gòu)建中醫(yī)學分詞模型;選擇中醫(yī)臨床病歷、名醫(yī)醫(yī)案作為測試集進行模型測試。結(jié)果:中醫(yī)學分詞模型在測試集中的Kappa系數(shù)為0.79(一致性程度很高),準確率為0.84,宏觀精確率為0.84,宏觀召回率為0.83,宏觀f1得分為0.83。結(jié)論:所構(gòu)建的分詞模型對于中醫(yī)學專業(yè)術(shù)語有著較好的切分效果,表明該方法可運用于中醫(yī)學領(lǐng)域的分詞模型的構(gòu)建,可為進一步地研究中醫(yī)學分詞提供方法學參考。
關(guān)鍵詞 分詞;中文分詞;分詞模型;無監(jiān)督學習;無監(jiān)督分詞;SentencePiece
Research on Modeling of Traditional Chinese Medicine Word Segmentation Model Based on SentencePiece
LIU Shuangqiao,ZHOU Lu,LI Caiyan,YUAN Huimin,ZHANG Yizhuo,LI Yuda,LIU Jingang,ZHENG Fengjie,SUN Yan,LI Yuhang
(School of Traditional Chinese Medicine,Beijing University of Chinese Medicine,Beijing 100029,China)
Abstract Objective:To explore the construction of word segmentation model suitable for the field of traditional Chinese medicine (TCM).Methods:Using the unsupervised learning word segmentation method based on SentencePiece,we proposed to use 3 different types of documents,such as published textbooks,famous works and clinical medical records of TCM,to construct a word segmentation model of TCM; choosed the clinical records of TCM and medical records of famous doctors as the test set for model testing.Results:The Kappa coefficient of the word segmentation model of TCM established in this study was 0.79 (with substantial consistency),the accuracy rate was 0.84,the macro precision rate was 0.84,the macro recall rate was 0.83,and the macro f1 score was 0.83.Conclusion:The word segmentation model constructed by this study has a good segmentation effect on the terminology of TCM,indicating that this method can be applied to the construction of the word segmentation model in the field of TCM,and can provide a methodological reference for further study of TCM word segmentation.
Keywords Word segmentation; Chinese word segmentation; Word segmentation model; Unsupervised learning; Unsupervised word segmentation; Sentence piece
中圖分類號:R2-03文獻標識碼:Adoi:10.3969/j.issn.1673-7202.2021.06.024
中醫(yī)學發(fā)展歷程中產(chǎn)生了眾多的醫(yī)學文獻,這些文獻中蘊含著豐富的醫(yī)藥知識及臨證經(jīng)驗,如何快速有效地從這些文獻中提取信息并加以利用,是中醫(yī)現(xiàn)代化研究過程中面臨的一大難題。中文分詞是信息處理過程中的基礎(chǔ)與關(guān)鍵[1],詞是最小的能夠獨立活動的有意義的語言成分[2],中文分詞即是將沒有天然分隔符號(如英文的空格)的漢字序列切分成詞序列,如將“患者發(fā)熱頭痛三天”利用分詞工具切分為“患者”“發(fā)熱”“頭痛”“三天”“?!?,即提取句子中的詞匯,以便于進一步實現(xiàn)LDA主題挖掘[3]、命名實體識別[4]、信息提取[5]、文本分類[6]等研究。因此,在中醫(yī)學文獻挖掘研究的過程中,對其文本作分詞處理,可以為下一步研究工作打下基礎(chǔ)。
在大眾領(lǐng)域,已有多種開源且成熟運用的分詞工具,代表性的如結(jié)巴中文分詞[7]、語言技術(shù)平臺(LTP)[8]、NLPIR-ICTCLAS漢語分詞系統(tǒng)[9]等;除此之外,研究者們根據(jù)其研究領(lǐng)域的特色,運用條件隨機場[10-11]、隱馬爾可夫模型[12]、神經(jīng)網(wǎng)絡(luò)[10-11]、N-gram模型[13]等方式,對相關(guān)的中文文本進行切分,都取得了較好的分詞效果。然而,對于具有眾多專業(yè)術(shù)語的中醫(yī)學而言,大眾領(lǐng)域的分詞工具在其專業(yè)性詞匯的切分效果上存在不同的差異[14];并且也有學者發(fā)現(xiàn),由于現(xiàn)有的分詞工具對中藥、方劑名詞切分不準確,會影響下游作品的質(zhì)量[15]。因此,研發(fā)適合于中醫(yī)學專業(yè)領(lǐng)域的分詞工具就顯得尤為重要了。張帆等[1]運用層疊隱馬模型,結(jié)合中醫(yī)領(lǐng)域詞典,提高了中醫(yī)醫(yī)案文獻詞語切分的準確率。許林濤等[16]則基于最大正向匹配分詞算法,在中醫(yī)臨床四診信息的詞語切分上,得出最大分詞數(shù)為5時的切分效果較好。付璐等[17]構(gòu)建了一個小型的清代醫(yī)籍人工分詞語料庫,并提出中醫(yī)古籍分詞規(guī)范建議,是對中醫(yī)學分詞標準的一個探索。雖然,中醫(yī)學領(lǐng)域已有學者對中醫(yī)分詞展開相關(guān)研究,但還沒有開發(fā)出針對性的分詞工具。因此,本研究提出了一種基于SentencePiece的無監(jiān)督學習的分詞方法,探索構(gòu)建適用于中醫(yī)學領(lǐng)域的分詞模型,為開發(fā)中醫(yī)學專業(yè)領(lǐng)域的分詞工具做準備。
1 基于SentencePiece的無監(jiān)督學習分詞方法
SentencePiece是一種簡單且獨立于語言的文本標記器和去標記器,主要用于基于神經(jīng)網(wǎng)絡(luò)的文本生成系統(tǒng),其中在神經(jīng)模型訓練之前預(yù)先確定了詞匯量。SentencePiece集合了字節(jié)對編碼(BPE)和一元語言模型這2種算法,可以直接對原始語句進行訓練。其特點是無需預(yù)先對源數(shù)據(jù)進行人工標注,可實現(xiàn)對模型參數(shù)的自動學習;可直接由源數(shù)據(jù)生成詞匯表,清晰展示所學習到的詞匯;對于無空格的源數(shù)據(jù)語言,有較好的分詞效率;語言獨立,具有多個分詞模式;自動進行子詞正則化,運行速度快[18]。自這種無監(jiān)督學習的分詞方法問世以來,已被成功運用于蛋白質(zhì)序列切分[19]、機器翻譯[20]等研究,可見,這是一種不區(qū)分語言類型的序列語言切分方法。將SentencePiece引入中醫(yī)分詞領(lǐng)域,研究構(gòu)建中醫(yī)學專業(yè)領(lǐng)域的分詞模型,可以有效地提高中醫(yī)文本的詞語切分效果,可為中醫(yī)分詞工具的研發(fā)提供方法學參考。
2 資料采集
2.1 資料來源 本研究所用資料來源于錄入計算機的全國中醫(yī)藥行業(yè)高等教育“十二五”規(guī)劃教材《中醫(yī)診斷學》《方劑學》《中醫(yī)內(nèi)科學》,名家著作《傷寒論詮解》《肝病證治概要》《經(jīng)方臨證指南》《傷寒論十四講》《傷寒論通俗講話》《新編傷寒論類方》《傷寒論臨證指要》和《劉渡舟臨證驗案精選》,以及中國中醫(yī)科學院“名醫(yī)名家傳承”項目管理平臺[21]內(nèi)的眾多中醫(yī)臨證驗案。
2.2 數(shù)據(jù)集 將收集的資料分為訓練集、開發(fā)集、測試集這3個數(shù)據(jù)集。臨證驗案是中醫(yī)理法方藥信息的具體體現(xiàn),且中醫(yī)臨床信息記錄較為完善。因此,開發(fā)集與測試集的資料選擇上,以醫(yī)案為主,兼顧資料的公開性,選擇《傷寒論臨證指要》與《劉渡舟臨證驗案精選》中的名家醫(yī)案205篇,中醫(yī)臨證驗案173篇,共計378篇文檔,作為模型測試數(shù)據(jù),并隨機分為開發(fā)集、測試集各189篇文檔;其余資料歸為訓練集,做模型構(gòu)建使用。各集字數(shù)及所占比例如表1所示。
3 實驗方法
3.1 模型構(gòu)建 1)程序準備:下載并安裝Python 3.7.0(https://www.python.org/)、SentencePiece算法包(https://pypi.org/project/sentencepiece/),構(gòu)建基于SentencePiece分詞的Python程序環(huán)境,設(shè)計將模型分詞結(jié)果保存為brat文本標注系統(tǒng)(http://brat.nlplab.org/)的存儲格式,包括.txt格式文檔和對應(yīng)的.ann格式文檔。2)模型訓練:本研究基于SentencePiece構(gòu)建中醫(yī)分詞模型,對包含出版教材、名家著作及中醫(yī)臨床病歷這3種不同類型的文獻所形成的數(shù)據(jù)集進行訓練;其中,建模參數(shù)主要參照SentencePiece所推薦的建模參數(shù),character_coverage(模型中覆蓋的字符數(shù))設(shè)置為0.999 5,model_type(訓練使用的模型)設(shè)置為unigram,根據(jù)本研究實際情況,只調(diào)整“vocab_size(訓練出的詞庫大?。边@一個參數(shù)值。模型訓練包含2種方法:a.不對文本做去停用詞處理,直接以構(gòu)建的模型對未經(jīng)加工的訓練集原始數(shù)據(jù)作模型訓練。b.在模型訓練之前,通過調(diào)整參數(shù),構(gòu)建多個中醫(yī)分詞模型。預(yù)先設(shè)置從1萬詞匯量開始,每訓練一次增加2萬詞匯量。根據(jù)以上2種方法,依賴訓練集數(shù)據(jù),共訓練出11個分詞模型,對應(yīng)生成11個可視化分詞詞匯表。3)篩選建模參數(shù):利用開發(fā)集評價不通模型的分詞效果,篩選出最佳的建模參數(shù),共包含4個步驟。第1步:運用不同的分詞模型,同樣不對文本進行去停用詞處理,直接以開發(fā)集原始數(shù)據(jù)進行文本切分。第2步:利用brat文本標注系統(tǒng)對分詞結(jié)果進行校正,以形成人工分詞標準。人工校正參考文獻[22]中的分詞規(guī)范對模型分詞結(jié)果進行校正,結(jié)合此次研究建模文獻的實際情況,對分詞規(guī)范作部分調(diào)整:對于規(guī)范中提到的以“歐陽修”類全名稱出現(xiàn)的人名,切分為一個詞語,若以“歐陽某”類出現(xiàn)的人名,則切分為“歐陽/某”;醫(yī)學專業(yè)術(shù)語以詞語能夠表達一個基本的醫(yī)學概念(如疾病、病機、癥狀、方劑、藥物、治法等)為標準進行切分,例如“胸痹”表達一個中醫(yī)疾病概念,不進行切分;建模文獻中涉及少量的醫(yī)古文內(nèi)容,由于古代漢語單音詞、復(fù)音詞夾雜,對于醫(yī)古文部分,以漢字表達一個詞語概念為標準進行切分,如“傷于風者”“傷”可以理解為“侵襲”“于”可以理解為“受到”,“風”可以理解為“風邪”,“者”為助詞,那么“傷于風者”則切分為“傷/于/風/者/”[22]。第3步:將開發(fā)集各模型分詞結(jié)果與人工標準轉(zhuǎn)寫為標準的BIOES前綴形式的數(shù)據(jù)格式(B即Begin,I即Intermediate,O即Other,E即End,S即Single)[23-24]。在本研究中,B表示切分詞匯的第一個文字,I表示切分詞匯的中間文字,O表示未被切分的文字,E表示切分詞匯的最后一個文字,S表示切分詞匯僅有一個文字。由于模型分詞是針對文本內(nèi)所有數(shù)據(jù)進行的,所以本研究中無“O”字格式的數(shù)據(jù)。第4步:以各模型對開發(fā)集文本分詞的準確率、宏觀精確率、宏觀召回率和宏觀f1得分來評價不同參數(shù)所建模型的表現(xiàn),確定建模參數(shù),并以召回率為最終參數(shù)選擇標準,優(yōu)先選擇召回率最高的模型,以使內(nèi)容獲取更為全面;同時,比較其與人工校正分詞間的一致性,綜合篩選出最佳的建模參數(shù)。
3.2 模型測試 將構(gòu)建的中醫(yī)分詞模型設(shè)置為最佳的建模參數(shù),對測試集文本進行切分,驗證模型的有效性。文本分詞步驟同開發(fā)集前3步,最后與人工校正結(jié)果相比較,計算模型切分詞語的準確率、宏觀精確率、宏觀召回率、宏觀f1得分。
3.3 評價方法 本研究通過scikit-learn 0.19(https://scikit-learn.org/stable/)計算模型分詞結(jié)果的準確率、宏觀精確率、宏觀召回率、宏觀f1得分,運用IBM SPSS Statistics 26計算模型分詞結(jié)果與人工標準間的Kappa系數(shù)(Kappa系數(shù)小于0.2,說明一致性程度較差;在0.2~0.4之間,說明一致性程度一般;在0.4~0.6之間,說明一致性程度中等;在0.6~0.8之間,說明一致性程度很高;在0.8~1.0之間,說明幾乎完全一致),比較其一致性。
4 實驗結(jié)果
4.1 開發(fā)集實驗結(jié)果
4.1.1 各分詞模型一致性檢驗 各分詞模型一致性檢驗結(jié)果如圖1所示。結(jié)果表明,11個分詞模型中,詞匯量設(shè)置為5萬時的分詞模型與人工校正分詞結(jié)果的一致性程度很高,提示當“vocab_size”設(shè)置為5萬時的分詞模型具有最好的分詞能力。
4.1.2 各分詞模型的準確率、宏觀精確率、宏觀召回率、宏觀f1得分 不同分詞模型的準確率、宏觀精確率、宏觀召回率、宏觀f1得分如圖2所示??v觀11個分詞模型中,當詞匯量設(shè)置為5萬時,分詞模型的宏觀召回率得分最高,表明該模型具有最佳的分詞效果;同時,比較分詞的準確率、宏觀精確率、和宏觀f1得分,亦可以看出詞匯量預(yù)設(shè)為5萬時,模型分詞效果最好,這正好與一致性檢驗結(jié)果相呼應(yīng)。其中,該模型開發(fā)集BIOES數(shù)據(jù)結(jié)構(gòu)切分字符數(shù)如表2所示,精確率、召回率、f1得分如表3所示。綜合4.1.1和4.1.2結(jié)果,可以看出當模型生成的詞匯量設(shè)置為5萬時,建模模型分詞效果最好,為最佳的分詞模型。此時,所建模型的最佳參數(shù)設(shè)置如表4所示。
4.2 測試集實驗結(jié)果 利用最佳建模參數(shù)所構(gòu)建的分詞模型對測試集文本進行切分,其準確率為0.84、宏觀精確率為0.84、宏觀召回率為0.83、宏觀f1得分為0.83、Kappa系數(shù)為0.79(一致性程度很高)。結(jié)果顯示,最佳分詞模型在測試集與開發(fā)集的分詞效果上基本相同,提示所構(gòu)建的分詞模型具有較好的分詞效果。其中,該模型在測試集上BIOES數(shù)據(jù)結(jié)構(gòu)切分字符數(shù)如表5所示,精確率、召回率、f1得分如表6所示。從這2個表格可以看出,該模型對B類、I類、E類、S類數(shù)據(jù)結(jié)構(gòu)的分詞效果同開發(fā)集相似,都是I類數(shù)據(jù)切分效果較差,S類數(shù)據(jù)切分效果最好,將表5結(jié)果以混合矩陣圖(圖3)的形式顯示,可以清晰地展現(xiàn)出各類數(shù)據(jù)結(jié)構(gòu)間的差異。
5 討論
現(xiàn)今的中醫(yī)學知識多以非結(jié)構(gòu)化形式被存儲于各類型的文本中,使得這些文本成為為科研、教學以及臨證提供豐富的理論知識與實踐經(jīng)驗的知識載體。然而,中醫(yī)學文獻眾多,信息龐雜,這就為知識的準確提取利用帶來了難題,單純依靠人力去獲取這些有效信息便是一項既耗時又復(fù)雜的工程,所以,運用計算機技術(shù)提取信息便成為當今研究的熱點與難點。對中醫(yī)學文本進行分詞處理,可以使計算機能夠識別相關(guān)信息,達到計算機較為精確地提取信息的目的,為LDA主題挖掘、命名實體識別、信息提取、文本分類等研究提供基礎(chǔ)性的支撐。
SentencePiece是一種有效的文本分詞方法,依賴字節(jié)對編碼(BPE)和一元語言模型這2種算法,可以有效實現(xiàn)漢字序列的切分。本研究基于SentencePiece子詞切分算法,以出版教材、名家著作和中醫(yī)臨床病歷為模型構(gòu)建數(shù)據(jù),構(gòu)建出適合于中醫(yī)電子文本的分詞模型。運用這種算法所構(gòu)建的中醫(yī)分詞模型,無需對文本去停用詞處理,無需加入自定義詞典,無需預(yù)先對訓練文本進行人工分詞,純粹依賴數(shù)據(jù)驅(qū)動,大為提升研究效率。并且,由于SentencePiece分詞方法是針對漢字序列的切分,即是針對字與字的組合的切分,因此,當出現(xiàn)一個固定漢字組合時,計算機則把這個固定組合當做一個詞語來切分。例如,“處方:瓜蔞薤白半夏湯”。這句話,模型在訓練時已經(jīng)學習到漢字“處”“方”所組成的固定詞語“處方”“瓜”“蔞”“薤”“白”“半”“夏”“湯”所組成的固定詞語“瓜蔞薤白半夏湯”,因此,計算機在分詞時會自動將其作為一個單獨的詞語來切分,切分結(jié)果為:“處方/:/瓜蔞薤白半夏湯/。/”。采用這種方式構(gòu)建的中醫(yī)分詞模型,對疾病、病機、癥狀、中藥、方劑等專業(yè)醫(yī)學詞匯都具有較好的切分效果,非常適用于專業(yè)術(shù)語較多的醫(yī)學文本分詞,使得專業(yè)術(shù)語的切分結(jié)果可有效的運用于數(shù)據(jù)提取研究工作。
就本研究而言,從文本切分的準確率、宏觀精確率、宏觀召回率和宏觀f1得分看,構(gòu)建的模型在開發(fā)集與測試集的文本分詞上,都取得了較好的分詞效果,與人工校正結(jié)果比較,都具有較強一致性;并且,開發(fā)集和測試集的BIOES數(shù)據(jù)結(jié)構(gòu)的精確率、召回率和f1得分顯示,二者差距甚小,表明本研究模型成功構(gòu)建。但是,就分詞結(jié)果的BIOES數(shù)據(jù)結(jié)構(gòu)而言,以人工校正結(jié)果為參照,比較其他類別的數(shù)據(jù)結(jié)構(gòu),表5、表6中的結(jié)果顯示出S-Segment類數(shù)據(jù)切分的效果最好,其召回率達到91%,考慮為本研究以原始數(shù)據(jù)的形式進行切分,文本中有較多的標點符號,模型會將其當做一個單獨的漢字進行切分,這就會提高模型對于S-Segment類數(shù)據(jù)的切分效果。然而,模型預(yù)測的I-Segment類數(shù)據(jù)切分效果較差,從圖3可以看出,分詞模型錯將I-Segment類預(yù)測為8%的B-Segment類、12%的E-Segment類和6%的S-Segment類。
之所以出現(xiàn)這種情況,回顧模型分詞結(jié)果發(fā)現(xiàn),雖然此模型對于醫(yī)學專業(yè)術(shù)語具有較好的切分效果,但是出現(xiàn)如“胸悶心慌”“胸悶憋氣”這類無標點符號或連詞分隔的醫(yī)學術(shù)語,計算機在學習時會自動將其作為一個詞語進行切分;對于醫(yī)案中出現(xiàn)的某些藥物名稱,如“強的松”,當出現(xiàn)“服強的松”這種漢字序列時,由于計算機學習時錯誤地將其當做一個詞語來學習,因此在模型分詞時不會對其切分。在非醫(yī)學術(shù)語的識別上,對于人名、地名或常用詞語等的識別,由于出現(xiàn)的頻率較低,計算機沒有學習到該類詞語,在切分時則會將其切分為單獨的文字,例如對于劉渡舟教授的別稱“劉老”二字,計算機將其切分為2個單獨的文字“劉”和“老”;并且,依據(jù)分詞切分標準來看,分詞模型對于“某年某月某日”這種格式的時間詞語,識別效果較差,例如“1991年5月25日”會將其切分為“1991/年/5/月/25/日/”。
分詞模型出現(xiàn)上述某類詞語切分不理想的現(xiàn)象,考慮為建模數(shù)據(jù)內(nèi)包含較多的醫(yī)學詞匯,所以對醫(yī)學詞匯的識別效果較好,而對人名、地名、時間詞等的識別效果較差。針對這些現(xiàn)象,1)可以增加非醫(yī)學類訓練樣本,豐富模型學習的人名、地名、時間詞等詞匯量,例如加入諸如人民日報這種包含較多人名、地名及時間詞等的數(shù)據(jù)樣本,以供模型學習使用,提高其識別效率;2)可以在人工校正的基礎(chǔ)上,將其作為訓練文本,結(jié)合條件隨機場(CRF)、雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)等方法,構(gòu)建一個有監(jiān)督學習的分詞模型,以提高模型分詞的準確性。
6 結(jié)論
本研究基于SentencePiece子詞切分算法所構(gòu)建的中醫(yī)分詞模型,直接以原始數(shù)據(jù)的形式達到詞語切分的目的,在中醫(yī)學專業(yè)術(shù)語的切分上有著較大的優(yōu)勢,可為中醫(yī)學分詞模型的構(gòu)建提供新的建模方法。使用這種算法所構(gòu)建的無監(jiān)督學習的中醫(yī)學分詞模型,由于對疾病、病機、癥狀、中藥、方劑等專業(yè)醫(yī)學詞匯具有較好的切分效果,其分詞結(jié)果可以有效地運用于下一步研究過程中,并且,還可以在此基礎(chǔ)上輔助人工分詞,很大程度地節(jié)省人工分詞的時間;其次,還可以以此為基礎(chǔ),建立一個更為專業(yè)的中醫(yī)學分詞模型。此次建立的中醫(yī)分詞模型將分享于https://github.com/網(wǎng)站,名為TCM-Word Segmentation。
參考文獻
[1]張帆,劉曉峰,孫燕.中醫(yī)醫(yī)案文獻自動分詞研究[J].中國中醫(yī)藥信息雜志,2015,22(2):38-41.
[2]朱德熙.語法講義[M].北京:商務(wù)印書館,1982:11.
[3]劉子晴.鄧鐵濤學術(shù)理論文獻傳播復(fù)雜網(wǎng)絡(luò)構(gòu)建及文本主題分析[D].廣州:廣州中醫(yī)藥大學,2017.
[4]原旎,盧克治,袁玉虎,等.基于深度表示的中醫(yī)病歷癥狀表型命名實體抽取研究[J].世界科學技術(shù)-中醫(yī)藥現(xiàn)代化,2018,20(3):355-362.
[5]梁禮鏗,黎敬波.基于最大概率法探討中醫(yī)癥狀信息提取與標準化[J].中華中醫(yī)藥雜志,2017,32(5):2159-2162.
[6]趙漢青,王志國.基于機器學習的中醫(yī)學派文本分類研究[J].中華醫(yī)學圖書情報雜志,2018,27(12):7-11.
[7]石鳳貴.基于jieba中文分詞的中文文本語料預(yù)處理模塊實現(xiàn)[J].電腦知識與技術(shù),2020,16(14):248-251,257.
[8]Wanxiang Che,Zhenghua Li,Ting Liu.LTP:A Chinese Language Technology Platform.In Proceedings of the Coling 2010:Demonstrations[C].Beijing,China.2010.Beijing:Tsinghua University Press,2010.
[9]Zhang HP,Yu HK,Xiong D,et al.HHMM-based Chinese lexical analyzer ICTCLAS.Proceedings of the second SIGHAN workshop on Chinese language processing[C].Sapporo,Japan.2003.Stroudsburg,PA:Association for Computational Linguistics,2003.
[10]車金立,唐力偉,鄧士杰,等.基于BI-GRU-CRF模型的中文分詞法[J].火力與指揮控制,2019,44(9):66-71,77.
[11]程博,李衛(wèi)紅,童昊昕.基于BiLSTM-CRF的中文層級地址分詞[J].地球信息科學學報,2019,21(8):1143-1151.
[12]蔣衛(wèi)麗,陳振華,邵黨國,等.基于領(lǐng)域詞典的動態(tài)規(guī)劃分詞算法[J].南京理工大學學報,2019,43(1):63-71.
[13]鳳麗洲,楊貴軍,徐雪,等.基于N-gram的雙向匹配中文分詞方法[J].數(shù)理統(tǒng)計與管理,2020,39(4):633-643.
[14]楊海豐,陳明亮,趙臻.常用中文分詞軟件在中醫(yī)文本文獻研究領(lǐng)域的適用性研究[J].世界科學技術(shù)-中醫(yī)藥現(xiàn)代化,2017,19(3):536-541.
[15]龔德山,梁文昱,張冰珠,等.命名實體識別在中藥名詞和方劑名詞識別中的應(yīng)用[J].中國藥事,2019,33(6):710-716.
[16]許林濤,葉欣欣,裴成飛,等.中文分詞模型在中醫(yī)病癥語義理解中的研究與應(yīng)用[J].軟件工程,2020,23(4):15-18.
[17]付璐,李思,李明正,等.以清代醫(yī)籍為例探討中醫(yī)古籍分詞規(guī)范標準[J].中華中醫(yī)藥雜志,2018,33(10):4700-4705.
[18]Kudo T,Richardson J.SentencePiece:A simple and language independent subword tokenizer and detokenizer for Neural Text Processing.Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing:System Demonstrations[C].Brussels,Belgium.2018.Stroudsburg,PA:Association for Computational Linguistics,2018.
[19]Wang Y,You Z H,Yang S,et al.A high efficient biological language model for predicting protein-protein interactions[J].Cells,2019,8(2):122.
[20]項青宇.基于子詞切分的句子級別神經(jīng)機器譯文質(zhì)量估計方法[D].南昌:江西師范大學,2019.
[21]張潤順,謝琪,李鯤,等.中國中醫(yī)科學院“名醫(yī)名家傳承”項目管理平臺設(shè)計及應(yīng)用[J].世界科學技術(shù)-中醫(yī)藥現(xiàn)代化,2016,18(5):761-768.
[22]俞士汶,段慧明,朱學鋒,等.北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J].中文信息學報,2002,16(5):49-64.
[23]Ratinov L,Roth D.Design challenges and misconceptions in named entity recognition.Proceedings of the Thirteenth Conference on Computational Natural Language Learning(CoNLL-2009)[C].Boulder,Colorado.2009.Stroudsburg,PA:Association for Computational Linguistics,2009.
[24]Legrand J,Collobert R.Recurrent Greedy Parsing with Neural Networks.Joint European Conference on Machine Learning and Knowledge Discovery in Databases[C].Nancy,F(xiàn)rance.2014.Berlin,Heidelberg:Springer,2014.
(2020-07-07收稿 責任編輯:王明)