【摘要】 當前無論是物理聽診器亦或是電子聽診器的肺音聽診結果仍然主要依靠醫(yī)生專業(yè)的聽診鑒別能力,尚未能夠實現(xiàn)智能診斷判讀。當患者在家受到肺部疾病影響時,無法自行發(fā)現(xiàn)肺部異常而耽誤治療;當處于呼吸道傳染病救治過程中,入耳式的聽診器容易受到污染而造成院內感染。盡管聽診音包含了豐富的健康狀態(tài)信息,由于缺乏標準化的采集方法、分類標準和分析工具,使得聽診音的客觀分析和應用在實踐中受到了限制。本研究通過采用統(tǒng)一的聽診音采集設備和流程進行肺部聽診音數(shù)據(jù)采集、整理、數(shù)據(jù)庫設計,使用軟件MatlabR2017a進行數(shù)據(jù)管理和分析,建立了健康群體和肺部疾病患者群體的肺部聽診音數(shù)據(jù)庫,制訂一套標準的聽診音分類、標注規(guī)范、音頻特征信號參數(shù),構建一個用于存儲、管理和分析肺部聽診音數(shù)據(jù)的系統(tǒng),為肺部疾病的篩查、監(jiān)測以及醫(yī)學人工智能應用轉化等相關研究提供重要的數(shù)據(jù)支持。本研究為肺部聽診音音頻數(shù)據(jù)庫建庫積累了經(jīng)驗,為音頻類數(shù)據(jù)庫管理和分析提供有益的參考和借鑒,為支持后續(xù)醫(yī)學人工智能輔助聽診應用于肺部疾病篩查與監(jiān)測奠定基礎,具有重要的醫(yī)學價值和實際應用意義。
【關鍵詞】 肺疾??;肺部聽診音;音頻數(shù)據(jù)庫;支持向量機;特征識別;數(shù)據(jù)分析
【中圖分類號】 R 563 【文獻標識碼】 A DOI:10.12114/j.issn.1007-9572.2023.0863
Study of Techniques and Methods for Building a Database of Lung Auscultation Sounds
ZHANG Dongying1,2,YE Peitao3,LI Qiasheng2,JIAN Wenhua2,LIANG Zhenyu2,ZHENG Jinping2*
1.Faculty of Medicine,Macau University of Science and Technology,Macau 999078,China
2.The First Affiliated Hospital of Guangzhou Medical University/Guangzhou Institute of Respiratory Health/National Clinical Research Center for Respiratory Diseases,Guangzhou 510120,China
3.Guangdong Second Provincial General Hospital,Guangzhou 510310,China
*Corresponding author:ZHENG Jinping,Chief physician/Professor/Doctoral supervisor;E-mail:18928868238@163.com
【Abstract】 Currently,the results of lung sound auscultation with either physical or electronic stethoscopes still rely mainly on the doctor's professional auscultation identification ability,which has not yet been able to realise intelligent diagnosis and interpretation. When patients are affected by lung diseases at home,they are unable to detect lung abnormalities on their own and delay treatment;when they are in the process of rescue and treatment of respiratory infectious diseases,in-ear stethoscopes are easily contaminated and cause nosocomial infections. Although stethoscopic sounds contain a wealth of information about health status,the lack of standardised collection methods,classification criteria and analysis tools has limited the objective analysis and application of stethoscopic sounds in practice. In this study,the data collection,arrangement and database design of the lung auscultation sound were carried out by using the unified auscultation sound collection equipment and process. The study used the software MetlabR2017a for data management and analysis to create a database of lung auscultation sounds in a healthy group and a group of patients with lung disease. A database of lung auscultation sounds was established for healthy groups and groups of patients with lung diseases. A standard set of classification of auscultatory tones,labelling specifications,audio characteristic signal parameters were developed. Building a system for storing,managing and analysing lung auscultation sound data to provide important data support for research related to the screening and monitoring of lung diseases and the translation of medical artificial intelligence applications. The study accumulated the experience of building an audio database of lung auscultation sounds,provided a useful reference for the management and analysis of the audio database,and laied the foundation for supporting the subsequent application of medical artificial intelligence-assisted auscultation in the screening and monitoring of lung diseases,which was of great medical value and practical application.
【Key words】 Lung diseases;Lung auscultation sound;Audio database;Support vector machine;Feature recognition;Data analysis
隨著醫(yī)學科學技術的發(fā)展,肺部疾病的診斷越來越依賴于醫(yī)學數(shù)據(jù),肺部聽診音作為肺部疾病診斷的重要依據(jù)之一,其標準音頻數(shù)據(jù)庫建立和數(shù)據(jù)分析顯得尤為重要。然而,建立一個高質量的肺部聽診音數(shù)據(jù)庫并非易事。醫(yī)務工作者需要考慮如何確保數(shù)據(jù)的準確性和可靠性,如何有效地組織和存儲數(shù)據(jù),如何利用人工智能(AI)和機器學習技術對數(shù)據(jù)進行處理和分析等問題[1]。近年來,AI和機器學習技術為解決這些問題提供了新的可能。這些技術能夠提高數(shù)據(jù)采集、處理和分析的效率和準確性,使人們從海量的醫(yī)療數(shù)據(jù)中提取出更有價值的信息[2]。因此,利用這些技術構建肺部聽診音數(shù)據(jù)庫系統(tǒng),成為當前肺部聽診音數(shù)據(jù)庫建庫技術及方法研究的重要方向。
肺部聽診是醫(yī)生在診斷和監(jiān)測呼吸系統(tǒng)疾病時常用的重要手段。肺部音頻信號可以提供許多有價值的信息,如呼吸音、雜音等,可以輔助醫(yī)生診斷和判斷疾病的類型和嚴重程度[3]。然而,肺部聽診音的解讀和分析常需要醫(yī)生具備豐富的經(jīng)驗和專業(yè)知識。傳統(tǒng)的肺部聽診音主要依靠臨床實踐和經(jīng)驗積累,但這種方式的局限性在于其主觀性較強,存在個體差異,對醫(yī)生培訓和病情判斷的一致性有一定影響[4-5]。為了解決這些問題,國內外研究者探索利用機器學習和信號處理技術來對肺部聽診音數(shù)據(jù)進行分析和建模。通過機器學習和神經(jīng)網(wǎng)絡模型,AI可以對大量經(jīng)過聲音標注的呼吸音數(shù)據(jù)進行快速學習,從而實現(xiàn)對呼吸音的自動分析[6]。呼吸音的自動識別和分類可以分為兩步:特征提取和識別分類。然而,在呼吸音領域的AI發(fā)展過程中,面臨一個主要問題,即缺乏可用于研究算法和比較不同算法的公共高質量大型呼吸音數(shù)據(jù)庫,這也是AI在呼吸音領域發(fā)展的主要障礙[7]。建立肺部聽診音數(shù)據(jù)庫可以為自動化診斷系統(tǒng)、疾病監(jiān)測和健康評估等提供基礎。隨著智能醫(yī)療和遠程醫(yī)療的發(fā)展,建立一個公共的、大規(guī)模的肺部聽診音數(shù)據(jù)庫具有重要意義。這樣的數(shù)據(jù)庫可以促進醫(yī)療資源共享和協(xié)作研究,提高肺部疾病的診斷和治療水平。因此,對于肺部聽診音數(shù)據(jù)建庫技術及方法的研究可以幫助改善傳統(tǒng)肺部聽診方法的不足且推動肺部疾病的早期診斷和治療。
1 肺部聽診音的采集
1.1 音頻數(shù)據(jù)采集設備
本研究采用美國3M公司的3MTM Littmann?3200聽診器型電子聽診器獲取肺部聽診音信息數(shù)據(jù),該聽診器有以下特點:通過數(shù)字信號傳導而非聲學振動來采集呼吸音數(shù)據(jù);可以收集更廣的音頻范圍,并進行數(shù)字信號轉換;可同步生成視覺聲音圖譜,即在聽到呼吸音的同時可看到呼吸音的波形圖譜。上述特點有助于使用者調整聽診技術,獲得更準確的聽診結果[8]。該類型聽診器與普通聽診探頭相比,可以聽到更低頻的聲音,音域更廣、響度更大,且具有良好的環(huán)境降噪效果。譬如其采集頻率范圍為20~2 000 Hz,采樣頻率為4 kHz,可將聲音放大24倍,并能降低聽診探頭端的雜音,提高聲學傳導質量。此外,其還具備錄音、存儲和數(shù)據(jù)傳輸功能,可以連接電腦,并可使用匹配的音頻軟件進行分析,是建立標準肺部聽診音的理想工具。
1.2 數(shù)據(jù)獲取
1.2.1 研究對象準備:本研究對象均來自廣州醫(yī)科大學附屬第一醫(yī)院(患者來源于呼吸科住院部,健康人群來源于醫(yī)院員工),入組前使其充分知情肺部聽診音建庫研究,告知采集流程和需其配合的環(huán)節(jié),并請其簽署知情同意書面材料。依據(jù)被采集人的年齡、性別、基礎病、被采集時的身體狀態(tài)等記錄詳細信息并做好分組。本項目是一項開放式的研究探索,參考既往相關研究,招募總計350名參與者作為研究樣本,這些參與者被劃分為7組,每組各50例,以便于進行詳盡的比較和分析。該設計標準可確保研究的準確性和有效性,同時也保護參與者的權益。本研究經(jīng)廣州醫(yī)科大學附屬第一醫(yī)院倫理審查通過(醫(yī)科倫審2017第82號)。
1.2.1.1 納入標準:(1)志愿參與。(2)年齡≥18歲。(3)健康人群:①既往無肺部慢性疾病、無粉塵長期暴露史且無吸煙習慣,不受器質性心血管疾病的困擾者;②近3周內無急性上呼吸道感染及咳嗽、咳痰等呼吸道癥狀;③所有研究對象在過去6個月內進行的健康體檢中,胸部X線片未發(fā)現(xiàn)任何肺部病變,并且心電圖表現(xiàn)正常。COPD患者:①有呼吸困難、慢性咳嗽或咳痰,有危險因素暴露史;②肺功能檢查,吸入支氣管擴張劑后第1秒用力呼氣量(FEV1)/用力肺活量(FVC)lt;0.7;③無大量胸腔積液或氣胸并發(fā)癥;④臨床上確診為COPD;符合第1~3項或符合第3~4項。支氣管哮喘患者:①經(jīng)常出現(xiàn)反復喘息、氣急、胸悶或咳嗽,多與接觸變應原、冷空氣、物理、化學刺激、病毒性上呼吸道感染、運動等有關;②發(fā)作時在雙肺可聞及散在或彌漫性、以呼氣相為主的哮鳴音,呼氣相延長;③上述癥狀通常在使用平喘藥物治療后緩解或自行緩解;④除外其他疾病引起的喘息、氣急、胸悶或咳嗽;⑤對癥狀不典型者(如無明顯喘息或體征),應最少具備以下3項中至少1項陽性:(a)支氣管激發(fā)試驗(或運動激發(fā)試驗)陽性,(b)支氣管舒張試驗陽性,(c)晝夜呼氣峰值流量(PEF)變異率≥20%;⑥臨床上確診為支氣管哮喘;符合第1~4項或符合第4~5項或符合第6項者。支氣管擴張患者:①幼年時期有誘發(fā)支氣管擴張的呼吸道感染史,如麻疹、百日咳或流感后肺炎病史,或肺結核病史等;②出現(xiàn)長期慢性咳嗽、咳膿痰或反復咯血癥狀;③高分辨率計算機斷層掃描(HRCT)顯示支氣管擴張的異常影像學改變;④臨床上確診為支氣管擴張;符合第1~3項或符合第4項者。間質性肺疾病患者:①在雙側下肺區(qū)會有干啰音或濕啰音,尤其是在吸氣末期更加明顯;②胸部X線片顯示彌漫性的陰影或不常見的結節(jié)樣間質性陰影,以及支氣管壁增厚和血管周圍間隙的突出,小的規(guī)則或不規(guī)則陰影以及小的外周性環(huán)狀陰影;③肺功能檢測揭示了限制性通氣功能障礙和氣體交換功能減退;④通過對支氣管肺泡灌洗液(BALF)的細胞學、病原學、生化和炎癥遞質等檢測,可以依據(jù)BALF中炎癥免疫效應細胞的比例將間質性肺疾病分為淋巴細胞增多型和中性粒細胞增多型;⑤通過支氣管肺活檢或外科肺活檢獲取肺組織進行病理學檢查確診為間質性肺疾病;⑥臨床上確診為間質性肺疾病。肺炎患者:①咳嗽、咳痰,或原有呼吸道疾病癥狀加重,并出現(xiàn)膿性痰,伴或不伴胸痛;②發(fā)熱,體溫≥38 ℃;③在肺部實變病變或濕啰音中可以觀察到感染的跡象;④白細胞計數(shù)(WBC)gt;10×109/L或lt;4×109/L,伴隨或不伴隨核左移;⑤胸部X線檢查可能會顯示斑片狀浸潤陰影或間質性變化,時伴隨有胸腔積液;⑥臨床上確診為肺炎;符合第1~4項中任意一項和第5項。肺部腫瘤患者:①胸部CT提示肺部腫瘤,或提示肺部占位且考慮腫瘤可能性大;②肺部腫瘤直徑gt;2 cm;③臨床上考慮肺部腫瘤可能;④未合并大量胸腔積液和氣胸;⑤未行手術切除;⑥臨床上已確診為肺部腫瘤;符合第1~5項或符合第2、4、5、6項者。肺部腫瘤患者:①胸部CT提示肺部腫瘤,或提示肺部占位且考慮腫瘤可能性大;②肺部腫瘤直徑gt;2 cm;③臨床上考慮肺部腫瘤可能;④未合并大量胸腔積液和氣胸;⑤未行手術切除;⑥臨床上已確診為肺部腫瘤;符合第1~5項或符合第2、4、5、6項者。
1.2.1.2 排除標準:(1)確診患有癲癇并且正在接受藥物治療以控制病情;(2)妊娠;(3)肺部切除手術的患者;(4)處于昏迷狀態(tài)或有意識障礙的患者;(5)無法配合研究流程的個體;(6)在重癥監(jiān)護病房(ICU)接受治療或病情處于危急狀態(tài)的患者;(7)未簽署知情同意書;(8)同時滿足以上2個或2個以上的排除標準的患者。
1.2.2 錄音環(huán)境準備:要求在獨立安靜、溫度適宜的空間進行肺部聽診錄音,錄音時環(huán)境噪聲不高于40~50 dB。
1.2.3 資料收集:收集研究對象的病史詳細信息及其相關檢查資料(包括年齡、身高、體質量、主要癥狀、吸煙史、呼吸系統(tǒng)相關主要診斷、胸部CT結果、肺功能檢查報告數(shù)據(jù)等)。
1.2.4 錄音方法:囑研究對象放松心情,平靜呼吸數(shù)分鐘。選用3MTM Littmann?3200型電子聽診器,按人民衛(wèi)生出版社第9版《診斷學》肺部聽診要求對喉部及兩側上、中、下肺部、左右肩胛骨下共9個部位進行聽診(圖1),錄取所有入組研究對象的肺部聽診音,同時填寫資料表格。每個點至少采集15 s的呼吸音,研究對象保持安靜。聽診器探頭緊貼研究對象皮膚,開始采集后,囑研究對象深呼吸,確保每次采集的呼吸音包含2~3個完整的呼吸周期[9]。
1.2.5 質量控制:由2名呼吸內科主治醫(yī)師分別聽取所采取的肺音進行錄音鑒別與診斷。如存在分歧,再組織第3名呼吸內科主治醫(yī)師聽取鑒別,消除歧義后錄用數(shù)據(jù)。
2 數(shù)據(jù)傳輸與存儲
2.1 數(shù)據(jù)傳輸
3MTM Littmann?3200型電子聽診器內存有限,可存儲12段長度為30 s的音頻,因此錄制完每個研究對象需將肺音音頻通過藍牙和聽診器適配的軟件StatAssist傳輸?shù)诫娔X端,需注明每段音頻來源于具體研究對象所對應的肺部部位。
2.2 數(shù)據(jù)存儲
傳輸?shù)诫娔X端的肺音音頻以zsa格式保存,文件名會自動產(chǎn)生一串編碼,為了與相應研究對象對應,可在編碼后加上研究對象姓名以對應到具體的人,該段zsa格式的音頻即為原始數(shù)據(jù)。
2.3 音頻導出
將zsa格式音頻導出為wav格式保存,以便于后續(xù)音頻標注和分析。將同一研究對象的肺音音頻導入同一文件夾,文件夾以原文件名命名,按每段音頻所對應部位重命名,以便于每條肺音可以準確對應到某個研究對象的具體身體部位。
2.4 數(shù)據(jù)脫敏
包含研究對象姓名的肺音音頻數(shù)據(jù)屬于敏感信息,可能因設備遺失或電腦病毒而導致信息泄露,故需對數(shù)據(jù)進行脫敏。將文件名全部隨機重命名,并將重命名后的數(shù)據(jù)與研究對象姓名、基本信息等對應起來。
2.5 云端數(shù)據(jù)庫的建立
存儲在電腦端的數(shù)據(jù)有可能因電腦故障而丟失,故將脫敏數(shù)據(jù)傳入云端是很有必要。設立一個只供本地網(wǎng)絡訪問的云端數(shù)據(jù)庫,對數(shù)據(jù)的存儲及安全均有良好的保障。將未標注、標注后及審核后各階段數(shù)據(jù)分別保存在云端數(shù)據(jù)庫,方便統(tǒng)計數(shù)據(jù)納排情況及數(shù)據(jù)溯源。
3 音頻數(shù)據(jù)的預處理
3.1 肺音降噪
肺音信號的預處理首先是去除肺音中的噪聲,目的是提高呼吸音信號的清晰度和質量,準確地捕捉和識別肺部聲音信號。電子聽診器雖然有一定的降噪能力,但在肺音的采集過程中會不可避免地引入一些噪聲,包括來源于外部環(huán)境雜聲、聽診器電路內部產(chǎn)生的電流干擾以及探頭與皮膚接觸面的摩擦聲和心音等人體內部噪聲等[10]。原始肺音信號的噪聲來源很多,如果不能有效地濾除噪聲,將對肺音的識別過程產(chǎn)生較大影響。
3.1.1 肺音信號的高通濾波去噪:肺音信號的高通濾波去噪的目的是去除低頻噪聲,保留高頻部分,從而提取出肺音信號的有用信息。
肺音信號中的呼吸音和心臟音一般集中在較高的頻率范圍內,而噪聲通常是低頻信號。通過應用高通濾波器,可以抑制低頻噪聲的干擾,使得肺音信號更加清晰。高通濾波的關鍵是選擇合適的截止頻率和濾波器參數(shù),以充分去除低頻噪聲,同時保留肺音信號中的有用信息。
3.1.2 肺音信號的低通濾波去噪:根據(jù)肺音信號的特點,設計一個低通濾波器,可以將肺音信號中高頻部分去除,保留低頻部分。進行濾波操作,將設計好的低通濾波器應用到肺音信號上,通過濾波操作可以將高頻噪聲去除,同時保留肺音信號中的低頻成分。進行信號重構,經(jīng)過濾波操作后,得到的信號可能會有一定的變形,需要進行信號重構處理,使其恢復到原始形態(tài)。
3.2 人工標注
3.2.1 音頻標注軟件:Audacity是一款公開、免費的音頻處理軟件,用于錄音和編輯音頻,是自由、開放源代碼的軟件分析。該軟件具有的可視化工具可用于分析音頻或其他信號數(shù)據(jù),支持Python、Perl 或任何支持命名管道的語言編寫腳本,兼容性強,可在Mac OS X、Microsoft Windows、GNU/Linux和其他操作系統(tǒng)上運作。
3.2.2 肺部聽診音標注者的選擇:肺部聽診音標注的準確性在很大程度上影響模型的識別效率,呼吸內科醫(yī)生對肺部聽診音的識別比較有經(jīng)驗,也有利于提高音頻數(shù)據(jù)標注的準確度,故建議呼吸內科醫(yī)生作為標注者。由于采錄設備錄制的聲音與臨床實際聽到的聲音有些許差別,所以每位標注者需經(jīng)過專業(yè)培訓后方能正式參與肺音標注。
3.2.3 標注流程:將待標注音頻導入Audacity軟件,將默認的波形圖轉換為頻譜圖模式,頻譜圖可直觀顯示一個呼吸周期及該呼吸周期的吸氣相和呼氣相,有利于快速選區(qū)并標注,選定區(qū)域后輸入標簽。為了使標注更加精確,將整段音頻中每個呼吸周期先框選出來,再對吸氣相和呼氣相進行區(qū)分后作定性(標注為正常、濕啰音、哮鳴音、喘鳴音或鼾音),有助于呼吸音的特征提取。不完整的呼吸片段可能會降低特征提取的效果,故只標注較為完整的呼吸周期。
標注的內容包括:呼吸周期的呼氣段和吸氣段,正常、濕啰音和干啰音發(fā)生的位置(精確到ms),干啰音細分的類型。還包括對呼吸音音頻質量等級標注,音頻質量等級按照音頻質量的好壞,依次分級為Ⅰ、Ⅱ、Ⅲ級,其中Ⅰ級最優(yōu)。評價標注包括音頻的信噪比、噪聲時長占比及人工主觀評價。標注完成后,帶標簽的音頻將以Audacity Project File(aup3)格式保存。標注時所有標注者使用同種品牌同種型號的收聽設備(鐵三角ATH-M20X頭戴式耳機),使所有標注者盡可能獲得較為一致的聽覺體驗。
3.2.4 標簽審核:對于標注過程中有爭議的部分,需進行公開討論,最終獲得一致意見的,予以采納;若最終無法達成一致意見,則剔除該條數(shù)據(jù)。全部音頻標注完成后,由呼吸與危重癥學科高年資醫(yī)生對所有音頻進行審核,修改錯誤或不規(guī)范標簽,并剔除低質量數(shù)據(jù)(噪聲太多影響判斷或音量太小難以分辨的音頻)。經(jīng)過審核的標簽即可用于訓練AI模型。
3.3 肺音識別機器學習算法及其模型建立過程
3.3.1 濕啰音和哮鳴音識別及其持續(xù)時間:濕啰音和哮鳴音是2種常見的呼吸音,可以通過聽診器或其他聽診設備進行識別。濕啰音是由于呼吸道黏膜分泌物增多導致的濕潤聲音,其通常類似于呼吸道中的液體在被吸入或呼出時產(chǎn)生的咕嚕聲。濕啰音可以是細小而清澈的,也可以是較為粗糙和響亮的,其可能由于感染、充血、分泌物過多或阻塞引起。濕啰音的持續(xù)時間可以因患者情況而異,從持續(xù)數(shù)秒到幾分鐘不等[11]。哮鳴音是由于氣流通過狹窄的呼吸道導致的高音頻咳嗽聲或呼哧聲。這種聲音通常類似于從狹窄的空間經(jīng)過的高速氣流所產(chǎn)生的噪聲。哮鳴音可以是連續(xù)的或間斷的,并且強度和音調可能會變化;其可能由于肺部狹窄、支氣管痙攣、梗阻或病變引起。哮鳴音的持續(xù)時間也可以因患者情況而異,從數(shù)秒鐘到數(shù)分鐘不等[12]。
濕啰音是偶發(fā)性的非連續(xù)信號,基于音頻數(shù)據(jù)分析,筆者發(fā)現(xiàn)其持續(xù)時間一般lt;20 ms。本研究團隊使用軟件Matlab,呈現(xiàn)出16個濕啰音頻譜圖,其中紅色的部分為以濕啰音峰值為中心的20 ms信號,詳見圖2。
哮鳴音一般布滿整個呼氣相或吸氣相,其持續(xù)時間一般gt;250 ms。本研究采用紅色標出以哮鳴音片段峰值為中心的500 ms信號,詳見圖3。經(jīng)過大量數(shù)據(jù)的測試,本研究團隊發(fā)現(xiàn)500 ms在絕大多數(shù)情況下能夠覆蓋呼吸相或吸氣相的80%以上。
3.3.2 濕啰音的波峰和哮鳴音的波峰定量分析:通過對超過1 500個濕啰音進行統(tǒng)計,發(fā)現(xiàn)濕啰音的波峰幅值是濕啰音平均幅值的2倍以上。使用軟件Matlab,呈現(xiàn)出了16個濕啰音頻譜圖,其中紅色的線是濕啰音平均幅值的2倍,詳見圖4。
通過對超過100個哮鳴音測試,發(fā)現(xiàn)用200 ms長的漢明窗對哮鳴音能量值進行低通濾波,絕大部分低通濾波后的哮鳴音片段有160 ms的峰值部分會大于濾波后信號的平均值(圖5的紅線)。如圖5所示,本研究用該方法找到了該哮鳴音的所有哮鳴音片段峰值,并用綠色線標出。
3.3.3 利用支持向量機(support vector machine,SVM)法進行濕啰音和哮鳴音的識別:SVM是一種常用的監(jiān)督學習算法,主要用于分類和回歸分析。其是一種二分類模型,通過最大化分類邊界與數(shù)據(jù)之間的間隔來對新的數(shù)據(jù)進行預測。SVM是基于統(tǒng)計學習理論,通過在高維空間中找到最優(yōu)分類超平面來對樣本進行分類,還可以用于回歸分析、異常檢測和時間序列預測等任務,是一種廣泛應用于機器學習和數(shù)據(jù)挖掘領域的算法,具有較高的準確性和魯棒性[13]。
利用SVM進行肺部聽診音識別是一種基于機器學習和信號處理的技術,其基本原理是通過對肺部聽診音信號進行特征提取和分類,從而實現(xiàn)肺部聽診音的識別和分類。通過訓練SVM模型,可以根據(jù)已有的肺部聽診音數(shù)據(jù)和對應的標簽(如正常肺音、異常肺音)來建立分類模型[14]。這個模型可用于對肺部聽診音數(shù)據(jù)進行預測和分類,從而輔助臨床診斷。SVM在肺部聽診音識別中的優(yōu)勢在于,其可以處理高維數(shù)據(jù)和復雜的非線性關系,通過核函數(shù)將原始數(shù)據(jù)映射到高維特征空間中,從而避免了手動設計特征和選擇特征空間的復雜性。同時,SVM具有較高的準確性和魯棒性,能夠處理各種不同類型和質量的肺部聽診音數(shù)據(jù)。
在本研究中,筆者團隊嘗試利用SVM法對肺部聽診音進行濕啰音和哮鳴音的識別,主要包括音頻數(shù)據(jù)庫的建立、信號特征提取、向量機訓練及向量機預測4個部分。與絕大多數(shù)研究不同的是,本研究的訓練數(shù)據(jù)集包含的并不是整個肺音采錄文件,而是經(jīng)過預處理的音頻數(shù)據(jù)片段,包括正常音頻片段和異常音頻片段。其中,濕啰音片段以濕啰音片段峰值為中心的20 ms信號組成,哮鳴音片段以哮鳴音片段峰值為中心的500 ms信號組成。這樣做的好處主要有兩個,其一,以峰值為中心的信號片段信號強,信噪比高,從而可以比較好地降低背景噪聲造成的干擾,提高算法的準確度;其二,以峰值為中心的信號片段數(shù)據(jù)量較小,從而明顯減少信號處理時間,提高算法的實時性、實用性。
在采集肺部聽診音的過程中,本研究發(fā)現(xiàn)聽診器探頭薄膜隨著健康受試者吸氣胸腔擴張被動錯位或探頭在轉移過程中均會產(chǎn)生偽濕啰音,且現(xiàn)階段無法避免[15]。為了能夠提高識別濕啰音的準確度,筆者也對偽濕啰音進行人工標注和識別且建立偽濕啰音的音頻數(shù)據(jù)庫,為后續(xù)能夠實現(xiàn)對偽濕啰音的自動識別作準備。本研究提取的每個濕啰音片段時長為20 ms,通過算法及半人工參與的方式建立真性和偽濕啰音片段庫,詳見圖6,顯示的是真、偽濕啰音片段建庫過程。
為了進一步處理和分析肺音信號,本研究運用小波變換方法,對濕啰音與偽濕啰音進行處理,并提取其頻域特征。這些特征值是從信號的基本波形和頻譜中提取出來的。將計算出的時域和頻域特征值作為輸入變量,利用經(jīng)過訓練的SVM模型進行分類。通過信號的小波變換分解、特征值的計算,以及SVM分類模型的應用能夠以較高的準確率來識別和區(qū)分正常與異常的呼吸音。具體的算法識別過程與結果如下。
(1)本研究結合自動算法和人工審核技術,深入分析肺音數(shù)據(jù)。研究建立了兩個數(shù)據(jù)庫,一個收集真實濕啰音,另一個收集偽濕啰音。由于真實濕啰音通常不超過20 ms,研究確保所有聲音樣本長度為20 ms,以精確捕獲這些短暫信號。通過分析這些樣本,提取了關鍵的時域和頻域特征,這對分類濕啰音很重要,詳見圖7。本研究還使用SVM算法對特征進行訓練和優(yōu)化,成功區(qū)分真、假濕啰音。
(2)研究首先對肺音信號進行預處理,然后通過帶通濾波器處理,強調100~2 000 Hz頻率范圍內的關鍵信號,該范圍被認為含有診斷相關的重要信息。使用20 ms的時間窗口逐步掃描整個信號,以連續(xù)搜索并捕捉瞬時濕啰音。每發(fā)現(xiàn)一個潛在的濕啰音,就從該段信號提取時域和頻域特征,并將這些特征用于SVM模型,以區(qū)分真實和偽濕啰音。
通過算法及半人工參與,從肺音中提取兩個聲音庫,其中一個聲音庫由濕啰音組成,另外一個由偽濕啰音組成。由于濕啰音基本lt;20 ms,因此本研究提取的每個聲音檔為20 ms。
提取真濕啰音和偽濕啰音的時域特征值及頻域特診值,然后利用向量機進行訓練,得出向量機參數(shù)。利用該向量機參數(shù)可以很好地分辨真濕啰音和偽濕啰音。先進行信號預處理,重采樣和識別弱信號,然后對呼吸音信號進行帶通濾波(肺音信號主要在100~2 000 Hz),然后計算智能閾值(每段呼吸音信號有自己的閾值,根據(jù)該閾值找出潛在濕啰音),然后用20 ms的窗沿著肺音信號移動,找出所有潛在濕啰音。提取潛在濕啰音的時域特征和頻域特征,并用向量機進一步判斷該潛在濕啰音是真濕啰音還是偽濕啰音,最后根據(jù)該呼吸音平均1 s所含濕啰音的數(shù)量來判斷該呼吸音是否為濕啰音或哮鳴音,圖中的藍色圓圈標示的是偽濕啰音,紅色圓圈標示的是真濕啰音,詳見圖8。
由于哮鳴音會布滿整個呼氣相或吸氣相,所以本研究提取的每個哮鳴音片段為500 ms,絕大部分情況下,500 ms能夠覆蓋整個呼氣相或吸氣相80%以上。通過算法及半人工參與的方式建立哮鳴音片段庫,如圖9所示。應用訓練向量機識別濕啰音和哮鳴音的過程,詳見圖10~11。應用向量機識別肺音的完整流程,詳見圖12。
3.3.4 利用小波分解法對肺部聽診音進行特征提?。盒〔ǚ纸馐且环N信號分析方法,用于將信號分解為不同尺度和頻率的成分,以便更好地分析信號的特點和特征。小波分解通過使用小波函數(shù)進行伸縮和平移操作,將信號分解為多個頻率成分,譬如濕啰音分解后的信號頻率分布,詳見表1。每個成分具有不同的尺度和形狀。這種分解方法可以在一定程度上消除信號中的噪聲,并且可以對信號進行壓縮,減小數(shù)據(jù)量。小波分解在信號處理、圖像處理、醫(yī)學影像等領域有著廣泛的應用[16]。
肺部聽診音是一種復雜的生理信號,包含了多種頻率和特征的成分。小波分解應用于肺部聽診音特征提取的原理主要是基于信號的頻域特性。小波分解通過使用小波基函數(shù)對肺部聽診音進行分解,將信號分解為不同尺度和頻率的成分,從而更好地分析信號的特點和特征。這些成分可以反映肺部聽診音在不同時間和空間上的變化特征,從而為特征提取和分析提供更豐富的信息[17]。通過小波分解,可以提取肺部聽診音中的不同頻率成分,例如高頻成分可能代表呼吸急促、咳嗽等癥狀,低頻成分可能代表呼吸節(jié)律等特征。這些特征可以用于構建分類模型,用于識別不同的肺部疾病或癥狀。
本研究將輸入聲音片段分解成和D1、D2、D3、D4、D5、D6、D7、A8共8段不同頻率的信號,小波分解肺音的過程,詳見圖13。濕啰音音頻的分解結果,詳見圖14。
對于分解出的8段信號,本研究提取如下特征(共提取32個特征值):(1)提取每段信號絕對值的平均值,共8個平均值;(2)提取每段信號絕對值的方差,共8個方差;(3)提取每段信號絕對值的最大值,共8個最大值;(4)提取8個平均值相鄰值得比值。分別為mean(abs(s[x]))/mean(abs(D1),mean(abs(D1))/mean(abs(D2)),mean(abs(D2))/mean(abs(D3)),mean(abs(D3))/mean(abs(D4)),mean(abs(D4))/mean(abs(D5)),mean(abs(D5))/mean(abs(D6)),mean(abs(D6))/mean(abs(D7)),mean(abs(D7))/mean(abs(A7))。
特征1~8(8個平均值)和特征17~24(8個最大值)代表了濕啰音在不同頻率的能量分布,特征9~16(8個方差)和25~32(相鄰值得比值)代表了濕啰音在不同頻率的能量變化情況。
4 應用與結論
應用上述采集肺部聽診音的操作流程與建立肺部聽診音音頻數(shù)據(jù)庫的技術方法,本研究采集了392例呼吸慢病患者,合格入庫3 362條音頻數(shù)據(jù),另有56例健康人的肺部聽診音500條音頻數(shù)據(jù),以及采用生物醫(yī)學電子與生物信息學研究生院公布的HF_Lung_V1、“國際”生物醫(yī)學與健康信息學會議公布的呼吸音數(shù)據(jù)庫及上海交通大學公布的SPRSound數(shù)據(jù)庫共9 469條音頻數(shù)據(jù)。應用軟件MetLab R2017a進行數(shù)據(jù)管理和分析,對音頻數(shù)據(jù)進行預處理、數(shù)據(jù)標注、向量機識別、特征提取等,基于呼吸音分析算法軟件,可以自動導入呼吸音并頻譜化顯示,并通過SVM算法建立的正常和異常呼吸音模型庫,自動識別出正常肺音,干、濕啰音,并在呼吸音頻譜圖上精確標注所在位置。應用程序界面識別肺部聽診音示例,詳見圖15。
呼吸疾病的早發(fā)現(xiàn)、早診斷、早干預,有利于獲得呼吸慢病患者有效管理的關鍵節(jié)點。肺部聽診音數(shù)據(jù)庫的建立和相關方法研究為日后實現(xiàn)對肺部聽診音的智能判讀和居家應用健康管理產(chǎn)品的研發(fā)奠定基礎,甚至可以協(xié)助呼吸道傳染臨床診治,也為后期研制國產(chǎn)質優(yōu)價廉的智能判讀聽診器提供技術借鑒。
本研究局限性:目前該數(shù)據(jù)庫中的病理性肺音片段相對較少,這可能是由以下幾個因素造成的,(1)本研究并沒有涵蓋那些病情嚴重的患者,這意味著那些可能會呈現(xiàn)更加明顯肺部異常聲音的患者群體并未被包括在內;(2)那些同時受多種呼吸系統(tǒng)疾病影響的患者也未能被納入本研究,復雜的臨床情況可能會造成多樣化的肺音變化,而這部分信息對于肺音數(shù)據(jù)庫而言是極其寶貴的;(3)醫(yī)生在更新患者病歷時可能會有所延遲,這可能導致在收集肺音的時候,患者的實際健康狀況已經(jīng)有所改善,比如,如果患者的病情在穩(wěn)定期,那么其肺部的異常聲音可能會相對較弱,甚至在檢測時不再明顯。這種情況下,收集到的肺音可能就不能準確反映患者在更加活躍病程階段的肺音特征。
致謝:上海拓蕭智能科技有限公司協(xié)助算法開發(fā)。
作者貢獻:張冬瑩提出肺音研究思路,設計研究方案,研究命題的提出、設計,包括肺音聽診對象分組,偽濕啰音的智能識別和目標導向的研究思路(智能判讀聽診器的推廣應用導向),以及項目研究過程中專利申報的思路等負責論文起草,負責最終版本修訂,對論文負責;張冬瑩、李洽勝、簡文華、梁振宇負責研究對象甄別入組,組織研究過程的實施,負責質量控制;張冬瑩、葉培韜負責數(shù)據(jù)收集、采集、清洗和統(tǒng)計學分析、繪制圖表等;鄭勁平為研究項目顧問,指導研究方案及論文修改。
本文無利益沖突。
參考文獻
SRIVASTAVA A,JAIN S,MIRANDA R,et al. Deep learning based respiratory sound analysis for detection of chronic obstructive pulmonary disease[J]. PeerJ Comput Sci,2021,7:e369. DOI:10.7717/peerj-cs.369.
BARDOU D,ZHANG K,AHMAD S M. Lung sounds classification using convolutional neural networks[J]. Artif Intell Med,2018,88:58-69. DOI:10.1016/j.artmed.2018.04.008.
GOTTLIEB E R,ALIOTTA J M,TAMMARO D. Comparison of analogue and electronic stethoscopes for pulmonary auscultation by internal medicine residents[J]. Postgrad Med J,2018,
94(1118):700-703. DOI:10.1136/postgradmedj-2018-136052.
KWON A M,KANG K. A temporal dependency feature in lower dimension for lung sound signal classification[J]. Sci Rep,2022,12:7889. DOI:10.1038/s41598-022-11726-3.
CHAMBERLAIN D,KODGULE R,GANELIN D,et al. Application of semi-supervised deep learning to lung sound analysis[J]. Annu Int Conf IEEE Eng Med Biol Soc,2016,2016:804-807. DOI:10.1109/EMBC.2016.7590823.
葉培韜,張冬瑩,陳文雅,等. 人工智能在呼吸音方面的研究進展[J]. 國際呼吸雜志,2022,42(13):961-966. DOI:10.3760/cma.j.cn131368-20220120-00045.
AVILES-SOLIS J C,VANBELLE S,HALVORSEN P A,et al. International perception of lung sounds:a comparison of classification across some European borders[J]. BMJ Open Respir Res,2017,4(1):e000250. DOI:10.1136/bmjresp-2017-000250.
HOFFMANN C,F(xiàn)ALZONE E,VERRET C,et al. Brief report:pulmonary auscultation in the operating room:a prospective randomized blinded trial comparing electronic and conventional stethoscopes[J]. Anesth Analg,2013,117(3):646-648. DOI:10.1213/ANE.0b013e31829ec0a5.
上海市醫(yī)學會兒科分會呼吸學組,福建省醫(yī)學會兒科分會呼吸學組,江蘇省醫(yī)學會兒科分會呼吸學組,等. 高質量呼吸音數(shù)據(jù)庫建設及管理規(guī)范專家共識[J]. 中華實用兒科臨床雜志,2023,38(7):481-485. DOI:10.3760/cma.j.cn101070-20230120-00054.
姚小靜,王洪,李燕,等. 肺音信號分析及其識別方法的研究進展[J]. 重慶理工大學學報(自然科學),2013,27(12):95-100.
ZHANG K X,WANG X F,HAN F F,et al. The detection of crackles based on mathematical morphology in spectrogram analysis[J]. Technol Health Care,2015,23(Suppl 2):S489-494. DOI:10.3233/THC-150986.
REICHERT S,GASS R,BRANDT C,et al. Analysis of respiratory sounds:state of the art[J]. Clin Med Circ Respirat Pulm Med,2008,2:45-58. DOI:10.4137/ccrpm.s530.
宋倩,林和平,周琪棟. 支持向量機理論研究[J]. 信息技術,2013,37(9):152-154,159. DOI:10.3969/j.issn.1009-2552.2013.09.042.
劉國棟. 支持向量機在肺部病理音識別中的應用研究[D]. 天津:南開大學,2015.
YE P T,LI Q S,JIAN W H,et al. Regularity and mechanism of fake crackle noise in an electronic stethoscope[J]. Front Physiol,2022,13:1079468. DOI:10.3389/fphys.2022.1079468.
石陸魁,劉文浩,李站茹. 基于LDA和小波分解的肺音特征提取方法[J]. 計算機工程與應用,2017,53(22):116-120,149. DOI:10.3778/j.issn.1002-8331.1605-0330.
劉文青. 結合EMD和小波變換的肺音信號重構及呼吸周期分割研究[D]. 武漢:江漢大學,2023.
(收稿日期:2024-01-22;修回日期:2024-04-10)
(本文編輯:毛亞敏)