陳小寧,郭 進,羅文佳,慕雨欣,劉 瓊
(西南財經(jīng)大學天府學院 四川 綿陽 621000)
大數(shù)據(jù)在各個行業(yè)不斷應(yīng)用,健康數(shù)據(jù)因涉及到個人及社會發(fā)展而具有重要價值。特別是在老齡化和流行傳染病肆虐的背景下,健康大數(shù)據(jù)不僅給社會提供了及時的數(shù)據(jù),還展現(xiàn)了防控趨勢。健康大數(shù)據(jù)管理平臺的建立日趨重要[1]。
本文研究工作是設(shè)計實現(xiàn)面向線上用戶的人體健康參數(shù)數(shù)據(jù)管理平臺[2],前期數(shù)據(jù)收集通過用戶填寫的數(shù)據(jù)以及網(wǎng)絡(luò)獲取的健康數(shù)據(jù),借助分布式平臺實現(xiàn)數(shù)據(jù)存儲、查詢、統(tǒng)計及可視化功能,為用戶建立人體健康參數(shù)管理平臺,用戶可以了解疾病知識、健康咨詢以及健康情況[3]??傮w功能包含以下模塊:數(shù)據(jù)清洗、數(shù)據(jù)存儲、數(shù)據(jù)查詢與統(tǒng)計、web前端數(shù)據(jù)可視化分析。
(1)導(dǎo)入數(shù)據(jù)——數(shù)據(jù)導(dǎo)入利用Python的Pandas數(shù)據(jù)包實現(xiàn),Panda提供了高效地操作大型數(shù)據(jù)集所需的工具。調(diào)用pandas庫中的read_csv函數(shù),讀取本機的csv文件,對數(shù)據(jù)進行初步的分析與清洗。(2)缺失值處理——運用.isnull().any()列級別的判斷并且進行缺失值處理。
(1)啟動Hadoop——啟動成功后輸入jps命令查看節(jié)點啟動情況。(2)上傳數(shù)據(jù)文件,在HDFS中為hadoop創(chuàng)建用戶目錄,把本地文件平臺的’/home/hadoop/data.csv’上傳到HDFS的當前用戶的input目錄下。(3)查詢數(shù)據(jù)——使用cat命令查看在導(dǎo)入數(shù)據(jù)過程中是否有數(shù)據(jù)缺失。
(1)啟動Spark——輸入:’usr/local/spark/bin/spark-shell’啟動Spark,然后導(dǎo)入相應(yīng)包。(2)讀取文件——使用textFile()函數(shù)傳遞一個完整路徑的文件名,把data.csv文件加載到RDD中。(3)SparkSQL數(shù)據(jù)分析,使用RDD中的first函數(shù)返回RDD查看文件內(nèi)容,查看數(shù)據(jù)字段是否上傳完整,數(shù)據(jù)去重,結(jié)果添加到Mysql數(shù)據(jù)庫中。
2.4.1 主頁
主頁包括本平臺的Logo、導(dǎo)航、核心主題以及各個頁面的鏈接,給予新用戶對本平臺一個大概的了解。
2.4.2 疾病庫頁
可以查看當前所有的科室,選擇相應(yīng)的科室查詢相應(yīng)的疾病信息。根據(jù)用戶所選的疾病,平臺可以返回該疾病的詳細介紹。
2.4.3 個人檔案頁面
通過填寫相應(yīng)的表格,完善自己的健康報告,并可以即時查閱健康數(shù)據(jù),獲取相關(guān)建議。
2.4.4 數(shù)據(jù)分析化頁面
根據(jù)健康數(shù)據(jù)庫中的數(shù)據(jù),展現(xiàn)各種統(tǒng)計圖,用戶可以查看整體的健康情況,醫(yī)療機構(gòu)當前的健康趨勢制定政策,早做好防治措施。目前數(shù)據(jù)分析包括:高血壓及相關(guān)因素分析、身高體重分析、睡眠分析、人體溫度心率及性別分析和步數(shù)分析。
2.4.5 健康前沿頁面
當期的醫(yī)療健康熱點、資訊的宣傳,豐富網(wǎng)站內(nèi)容。
高血壓及相關(guān)因素分析——從年齡段來看,40~60歲都是高發(fā)期;從職業(yè)來看,工人發(fā)病率最高;從性別來看,女性發(fā)病率高于男性發(fā)病率;從區(qū)域分布來看,城市發(fā)病率高于鄉(xiāng)村發(fā)病率;總體來說,高血壓的產(chǎn)生會受很多因素的影響,比如男女由于體質(zhì)因素、身高、年齡、血黏度、精神狀態(tài)、生活節(jié)奏、個人差異、飲食習慣、遺傳等等。
身高體重分析:可以看出,女性的身高分布區(qū)間大概在148 cm~184 cm,體重大概在42 kg~105 kg,平均身高為160 cm,平均體重為60.6 kg;男性的身高分布區(qū)間大概在158 cm~198 cm,體重大概在55 kg~155 kg,平均身高為180 cm,平均體重為78.14 kg。
睡眠分析:約四分之三的人認為自己沒有擁有充足的睡眠,同樣有四分之三的人睡覺時要把手機放在伸手可及的地方,說明手機的放置位置對睡眠有一定程度的影響;據(jù)統(tǒng)計,每晚睡7個小時的占比最高,其中勞累程度為3等級的人最多。
人體溫度、心率及性別分析:女性的平均體溫略高于男性,女性的新陳代謝比男性快,體溫會高0.2℃~0.5℃左右;總體來看,人體溫度約為36.8℃。
心率分析圖:女性平均心率略高于男性,約為74次每分鐘;男性平均心率約為73次每分鐘,總體來看,女性的平均心率高于總體平均心率,患心律失常的比例會更高。
體溫與心率相關(guān)性分析:心率與體溫呈正相關(guān),人體發(fā)熱時,心率會加快,體溫每升高1℃,心率平均增加12~18次/分;而低溫麻醉時,心率會減慢。體溫的高低在一定條件下會影響心率的速度。
本論文以用戶的健康參數(shù)數(shù)據(jù)作為切入點,設(shè)計并實現(xiàn)了基于大數(shù)據(jù)框架的人體健康參數(shù)管理分析平臺,借助云平臺,大數(shù)據(jù)的優(yōu)勢,給予用戶健康數(shù)據(jù)的查詢統(tǒng)計分析等服務(wù),不僅讓用戶更便捷地了解到自身的健康狀況,同時提供給了相關(guān)醫(yī)療健康部門數(shù)據(jù),從而做到更好的防控治療。