馮健飛,張 毅,馬 迪,張京京
(國防科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 長沙 410073)
基于網(wǎng)絡(luò)協(xié)議和頁面特征的物理設(shè)備發(fā)現(xiàn)
馮健飛,張 毅,馬 迪,張京京
(國防科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 長沙 410073)
互聯(lián)網(wǎng)存在著大量網(wǎng)絡(luò)攝像頭、PLC、傳感器等物理設(shè)備,對這些設(shè)備進(jìn)行自動(dòng)發(fā)現(xiàn)有助于了解其分布和部署情況;從人機(jī)物多域融合的角度表示物理設(shè)備,有助于全面刻畫物理設(shè)備,并為跨域攻擊分析提供支持。文中提出一種基于網(wǎng)絡(luò)協(xié)議報(bào)文和Web頁面特征在互聯(lián)網(wǎng)中發(fā)現(xiàn)物理設(shè)備的方法。該方法主要通過HTTP、SNMP和PPTP協(xié)議的握手報(bào)文頭部信息和物理設(shè)備訪問控制Web頁面的結(jié)構(gòu)特征發(fā)現(xiàn)物理對象并獲取物理對象的基本信息,然后通過預(yù)置的產(chǎn)品信息庫充分感知設(shè)備硬件信息,通過IP信息庫獲知設(shè)備物理地點(diǎn)和社會域?qū)傩?,從而?shí)現(xiàn)對物理對象的人機(jī)物多域融合分析。最后利用文中所提出的方法,開發(fā)了物理對象感知和分析系統(tǒng)NetThing,并對運(yùn)用文中方法獲取的物理設(shè)備數(shù)據(jù)進(jìn)行了分析和驗(yàn)證。
互聯(lián)網(wǎng);物理設(shè)備;協(xié)議報(bào)文;Web頁面
隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,越來越多的物理設(shè)備接入到互聯(lián)網(wǎng)中,包含了被感知的現(xiàn)實(shí)對象、感知信息的傳感器件、信息處理設(shè)施[1],比如無線家用WIFI熱點(diǎn)、網(wǎng)絡(luò)攝像頭及溫度傳感器等。而由于部分用戶安全意識的淡薄,這類設(shè)備存在較大的安全隱患。
2014年底,華為公布了家庭網(wǎng)關(guān)的RomPager漏洞。RomPager是小型網(wǎng)絡(luò)設(shè)備內(nèi)置的網(wǎng)頁服務(wù)器,攻擊者可能利用該漏洞獲取管理員權(quán)限或者發(fā)起拒絕服務(wù)攻擊[2]。而同樣采用了RomPager的中興[3]和TP-Link[4]設(shè)備也發(fā)布了相似的漏洞。除了路由器外,網(wǎng)絡(luò)攝像頭等新興網(wǎng)絡(luò)設(shè)備也面臨較大安全隱患,比如江蘇省警用攝像頭被境外控制的重大安全事件[5]。除了網(wǎng)絡(luò)設(shè)備外,以“震網(wǎng)蠕蟲”為代表的通過擺渡攻擊等方式破壞工業(yè)設(shè)施的案例也越來越多[6],且這些攻擊大部分具備APT攻擊特性。
網(wǎng)絡(luò)設(shè)備的安全隱患主要來自于三方面:一是網(wǎng)絡(luò)設(shè)備系統(tǒng)自身的漏洞;二是設(shè)備配置時(shí)的漏洞;三是管理的疏忽[5]。
在網(wǎng)絡(luò)漏洞挖掘中,目標(biāo)對象范疇已經(jīng)涵蓋了數(shù)據(jù)通信網(wǎng)絡(luò)基礎(chǔ)設(shè)施[7]。發(fā)現(xiàn)這些目標(biāo)的存在,為后續(xù)安全防護(hù)提供了依據(jù)。
目前發(fā)現(xiàn)物理對象的方法有Snoogle[8]、Microsearch[9]、MAX[10]、OCH[11]、Dyser[12]等模型,這些模型都是針對無線傳感器網(wǎng)絡(luò)所設(shè)計(jì)的,部分思想可借鑒到在互聯(lián)網(wǎng)中發(fā)現(xiàn)物理對象上。關(guān)于物理對象的多域融合研究模型有Cyber-Physical System[13]、Social Cyber Physical System[14]、Physical-Cyber-Social Computing[15],而這些模型都需要可行的技術(shù)方法提供物理對象的多域信息,這也是文中工作的一個(gè)重要應(yīng)用。
文中描述了基于常見的網(wǎng)絡(luò)協(xié)議握手報(bào)文和Web頁面的特征發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備的方法。分析了HTTP、SNMP和PPTP協(xié)議報(bào)文中可能存在的物理設(shè)備信息,量化分析了作為設(shè)備登錄界面的Web頁面的結(jié)構(gòu)特征,并通過設(shè)備信息庫和IP信息庫將信息向社會域和物理域進(jìn)行擴(kuò)展。最后基于文中的方法設(shè)計(jì)開發(fā)了原型系統(tǒng)NetThing,并對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了分析。
目前主流的聯(lián)網(wǎng)物理設(shè)備都提供了基于Web頁面的訪問和控制接口,在缺乏有效的防火墻隔離下,這些頁面有可能被遠(yuǎn)程訪問。據(jù)此,文中設(shè)計(jì)了基于常見的網(wǎng)絡(luò)協(xié)議報(bào)文和設(shè)備登錄頁面特征的物理設(shè)備發(fā)現(xiàn)系統(tǒng),取名為NetThing。
NetThing系統(tǒng)基本結(jié)構(gòu)如圖1所示,總共分為三層。第一層為報(bào)文獲取和協(xié)議預(yù)處理層,主要工作是對某特定IP進(jìn)行HTTP、SNMP、PPTP協(xié)議的探測分析。第二層為信息擴(kuò)展部分,主要是對上一步獲取的信息進(jìn)行豐富。首先,進(jìn)行Web頁面分析,主要是針對HTTP協(xié)議返回狀態(tài)為200 OK的情況進(jìn)行分析,提取頁面基本信息和主要關(guān)鍵字。其次,對于某些可以獲取具體型號的設(shè)備,可以預(yù)置設(shè)備的信息庫,通過型號匹配獲取關(guān)于設(shè)備硬件的詳細(xì)參數(shù)。最后,對于IP信息,可以通過查詢已有的數(shù)據(jù)庫,獲取某個(gè)IP的地理位置、AS號以及所屬的ISP等,從而進(jìn)一步擴(kuò)展設(shè)備的信息。統(tǒng)一將信息存入數(shù)據(jù)庫對外提供查詢接口,查詢效果如圖2所示。輸入關(guān)鍵字router,返回含有router的IP和詳細(xì)信息。
圖1 系統(tǒng)結(jié)構(gòu)
圖2 結(jié)果展示界面
2.1 協(xié)議應(yīng)答報(bào)文分析和Web頁面分析
文中主要涉及到了HTTP、SNMP和PPTP協(xié)議的握手報(bào)文,這些報(bào)文的頭部都可能含有基本的關(guān)于物理設(shè)備的描述。基本方法是對某一IP的上述協(xié)議的工作端口發(fā)送請求報(bào)文,如果收到應(yīng)答報(bào)文,提取其中的有價(jià)值字段進(jìn)行統(tǒng)計(jì)分析。
對HTTP協(xié)議,首先提取應(yīng)答報(bào)文中的server字段。在各大廠商設(shè)備的訪問控制界面的響應(yīng)報(bào)文中,該字段常帶有關(guān)于廠商或者設(shè)備的簡單描述,為確定該設(shè)備的存在提供了一定的依據(jù)。如果含有l(wèi)ocation字段,也進(jìn)行提取,此字段一般指示了服務(wù)器地址遷移后的新地址。
對于返回狀態(tài)為401 Unauthorized的報(bào)文,含有WWW-Authenticate字段。該字段規(guī)定了信息的加密方式,對于很多網(wǎng)絡(luò)設(shè)備,這個(gè)字段也提供了設(shè)備的型號信息。
SNMP(Simple Network Management Protocol),即簡單網(wǎng)絡(luò)管理協(xié)議,是用來對互聯(lián)中由眾多軟硬件廠商生產(chǎn)的網(wǎng)絡(luò)設(shè)備進(jìn)行管理的一組協(xié)議。向SNMP代理進(jìn)程發(fā)送GET查詢報(bào)文就可能返回被管理系統(tǒng)的相關(guān)信息。文中主要查詢了OID為.1.3.6.1.2.1.1.(1,4,5,6).0的對象,分別可以獲取被管理系統(tǒng)的基本信息、聯(lián)系人、機(jī)器名和機(jī)器所在位置信息。
PPTP(Point to Point Tunneling Protocol),即點(diǎn)對點(diǎn)隧道協(xié)議,是目前VPN的主要支持協(xié)議。通過簡單地向PPTP服務(wù)器發(fā)送建立連接請求報(bào)文,就可以收到一個(gè)應(yīng)答報(bào)文,該報(bào)文的hostname和vendor string字段對該服務(wù)器的所屬機(jī)構(gòu)和設(shè)備廠商進(jìn)行簡單的描述,從而反映了設(shè)備和擁有該設(shè)備的機(jī)構(gòu)的基本信息。這進(jìn)一步擴(kuò)展了一個(gè)設(shè)備的社會屬性。
2.2 多域信息擴(kuò)展
主要通過三個(gè)途徑對信息進(jìn)行擴(kuò)展,分別是Web頁面分析、產(chǎn)品信息庫匹配和IP信息庫擴(kuò)展。
首先對HTTP協(xié)議返回狀態(tài)為200 OK的情況,進(jìn)行Web頁面分析。圖3顯示了HTTP報(bào)文獲取和頁面分析的流程。
第一步讀取HTML文檔信息,提取HTML文檔的title字段和meta字段,在meta字段中分別提取keyword、description、author子字段。下一步提取頁面的純文本內(nèi)容,并計(jì)算文本長度。在此基礎(chǔ)上,進(jìn)一步將含有大寫字母和數(shù)字的單詞提取出來,因?yàn)閷τ谝粋€(gè)物理設(shè)備的描述很可能涉及到設(shè)備廠商等專用名詞和具體參數(shù)指標(biāo)。
圖3 HTTP報(bào)文和Web頁面分析
進(jìn)一步分析是否含有用戶名密碼輸入框,主要是通過對HTML的input標(biāo)簽的id和name屬性采用如下正則表達(dá)式進(jìn)行匹配:
(us)+e*(r)+|(name)+|(login)
(1)
p+((ass)+|w+(or)*d+)
(2)
式(1)匹配了諸如username、user、login等常見的用戶名表述方式;式(2)匹配了諸如password、pass等常見的密碼的表述方式。
如果匹配成功,則表示含有用戶名和密碼輸入框,從而證明該頁面很可能是一個(gè)設(shè)備的登錄頁面。接下來統(tǒng)計(jì)頁面中的圖片和鏈接數(shù)量,并保存鏈接內(nèi)容。最后提取頁面中表格內(nèi)的文本信息,并計(jì)算表格文本信息長度及其所占頁面文本信息長度的比例。
在通過產(chǎn)品信息庫匹配進(jìn)行信息擴(kuò)展中,首先搜集了常見產(chǎn)品的基礎(chǔ)參數(shù)信息,并將它們結(jié)構(gòu)化存儲在數(shù)據(jù)庫中。對于發(fā)現(xiàn)的可以確定其產(chǎn)品型號的網(wǎng)絡(luò)設(shè)備,在信息庫中匹配查詢出具體記錄,從而擴(kuò)展設(shè)備的詳細(xì)參數(shù)信息。
最后IP地址信息擴(kuò)展是通過網(wǎng)絡(luò)中已有的數(shù)據(jù)庫進(jìn)行匹配查詢,例如對于IP地址36.72.231.20,可以獲取如下信息:
City: Semarang. Country: Indonesia. Organizati-on: PT Telkom Indonesia. ISP: PT Telkom Indon-esia. ASN: AS17974
其中包含了該地址所處的地理位置、所屬的組織機(jī)構(gòu)以及網(wǎng)絡(luò)服務(wù)供應(yīng)商等,這些信息同時(shí)也與對應(yīng)的物理設(shè)備關(guān)聯(lián),從而對此物理設(shè)備形成了從自身物理信息,到網(wǎng)絡(luò)信息,再到社會域信息的多域融合的全面描述。
對搜索結(jié)果采用傳統(tǒng)的倒排方式進(jìn)行索引。具體過程如圖4所示。
圖4 倒排索引
單詞字典采用哈希加鏈表的形式構(gòu)造。對于給定的搜索詞,首先計(jì)算其哈希值,然后通過哈希值索引對應(yīng)的單詞鏈表找到該單詞,接著訪問該單詞的倒排索引。倒排索引中同時(shí)記錄了某條記錄的索引值itemX和該記錄中含有此單詞的字段,比如title、host等。最后根據(jù)記錄的序列號查詢該條記錄的詳細(xì)信息。
在搜索結(jié)果的排序上,按照含有搜索單詞的字段的重要性進(jìn)行排序。首先對不同字段賦予不同的權(quán)重,比如一個(gè)單詞在title字段或者realm字段出現(xiàn),賦予比在頁面文本中出現(xiàn)更高的權(quán)重。在賦予權(quán)重之后,可以計(jì)算出每條記錄對其包含的每個(gè)單詞的權(quán)重。
假設(shè)對某一查詢Q,得到的結(jié)果R中含有m條命中記錄:
R=(I1,I2,…,Im)
其中第k條記錄Ik命中了Nk個(gè)字段:
Ik=(Fk1,Fk2,…,Fknk)
字段Ft權(quán)重為Pt。在此基礎(chǔ)上,對于記錄Ik,其匹配權(quán)重為:
(3)
其中,Pki是Fki的權(quán)重,從而根據(jù)Sk的值對Ik進(jìn)行排序。
當(dāng)命中記錄較少時(shí),還應(yīng)當(dāng)推薦相似度高的命中記錄。首先要提出相似度的衡量方法??梢哉J(rèn)為地理位置相近或者是產(chǎn)品型號相近的記錄與用戶的搜索要求相近??梢詫⒌乩砦恢?、產(chǎn)品型號等組成樹狀結(jié)構(gòu),記錄從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑作為葉節(jié)點(diǎn)的向量表示,例如對地理位置有如下構(gòu)造:
ChinaHunanChangsha(1,4,1)
ChinaHunanYueyang(1,4,2)
對產(chǎn)品型號有如下構(gòu)造:
HuaweiAR-1200 (1,1,1)
HuaweiAR-1220(1,1,2)
依然假設(shè)Ft的權(quán)重為Pt。對某查詢Q:w1,w2,w3…,其中wi是第i個(gè)查詢關(guān)鍵詞,αt是wt的向量表示。第k條記錄Ik的命中字段為:
(Fk1,Fk2,…,Fknk,fk1,fk2,…,fkxk)
對于記錄Ik,其匹配度為:
(4)
其中:Pki是Fki的權(quán)重;βkj是fkj字段對應(yīng)的向量;αj是βkj對應(yīng)的查詢單詞的向量。
根據(jù)Sk的值對Ik進(jìn)行排序。
為了確保實(shí)驗(yàn)的準(zhǔn)確性,采用了隨機(jī)生成IP地址的方法。首先根據(jù)IANA的分配情況,隨機(jī)選擇了12個(gè)A類地址,涵蓋了ARIN、RIPENCC、APNIC三大機(jī)構(gòu)。隨機(jī)且不重復(fù)地生成IP地址后三個(gè)字節(jié),共生成了288 000個(gè)IP,對這些IP進(jìn)行協(xié)議分析和Web頁面分析。下面分別介紹獲取的物理信息,并提取作為設(shè)備登錄頁面的Web頁面的特征。
4.1 結(jié)果統(tǒng)計(jì)
所有的HTTP協(xié)議返回5 305條,其中server字段統(tǒng)計(jì)結(jié)果排名第三的是RomPager/4.07 UPnP/1.0,共出現(xiàn)377次,這是大部分家用網(wǎng)絡(luò)設(shè)備內(nèi)置的網(wǎng)頁服務(wù)器。
返回401狀態(tài)的共1 072次,對realm字段進(jìn)行統(tǒng)計(jì),前幾位分別是Broadband Router,BEC 7800TN R2,TD-8817,ZXV10 W300S,TD-W8101G,這些都是網(wǎng)絡(luò)設(shè)備。其中TD開頭的是TP-link的家庭網(wǎng)絡(luò)路由器型號,這對后續(xù)的通過產(chǎn)品庫進(jìn)行信息擴(kuò)展提供了依據(jù)。在加密方式上,有1 046個(gè)為Basic,10個(gè)為Digest,13個(gè)為指定。說明絕大部分只是采用簡單方式對用戶名和密碼進(jìn)行加密,這存在被竊取和仿冒的危險(xiǎn)。
另外,從SNMP報(bào)文中提取出了Netopia 3341,Netopia 2246N-VGx,Netopia 4652,Netopia 3341,Netopia 3346N-ENT等設(shè)備型號,也為后續(xù)分析提供了線索。
4.2 設(shè)備登錄頁面特征分析
實(shí)驗(yàn)中HTTP協(xié)議返回200 OK狀態(tài)的共2 706個(gè)。對這些頁面進(jìn)行分析,含有用戶名和密碼輸入框的為315個(gè),假設(shè)這些是設(shè)備的登錄頁面,對這些頁面進(jìn)行分析。
對頁面特征進(jìn)行統(tǒng)計(jì),結(jié)果顯示絕大部分頁面純文本信息長度小于1 000 B,鏈接數(shù)目小于5個(gè),圖片數(shù)目小于10張,而表格文本長度占頁面文本長度的比例則分布較為隨機(jī),沒有具體特征體現(xiàn)。頁面文本長度統(tǒng)計(jì)如圖5所示,頁面鏈接數(shù)量統(tǒng)計(jì)如圖6所示。
圖5 頁面文本長度統(tǒng)計(jì)
圖6 頁面圖片數(shù)量統(tǒng)計(jì)
進(jìn)一步對頁面中的文字進(jìn)行統(tǒng)計(jì),在title字段出現(xiàn)次數(shù)最多的詞是Login,共95次,configuration和router并列72次。對所有的鏈接提取統(tǒng)計(jì),發(fā)現(xiàn)出現(xiàn)次數(shù)最多的前幾項(xiàng)為:http://www.arris.com有204次,http://mikrotik.com有72次,http://www.mikrotik.com/有8次。這些都是相關(guān)廠商的頁面。
文中提出一種基于網(wǎng)絡(luò)協(xié)議報(bào)文和Web頁面特征在互聯(lián)網(wǎng)中發(fā)現(xiàn)物理設(shè)備的方法,并通過多種手段擴(kuò)充了設(shè)備的信息,對設(shè)備進(jìn)行了物理、信息和社會多域描述。實(shí)驗(yàn)還存在一些不足之處,比如在Web頁面分析中,某些頁面需要根據(jù)腳本或者location字段進(jìn)行二次跳轉(zhuǎn),對這些頁面進(jìn)一步分析會擴(kuò)充發(fā)現(xiàn)的物理設(shè)備的數(shù)目。通過該文,可以認(rèn)識到互聯(lián)中存在很多沒有高級安全防護(hù)措施的設(shè)備,主要是小型化家用網(wǎng)絡(luò)設(shè)備,這其中潛在著較大的網(wǎng)絡(luò)安全隱患。
[1] 于海寧,張宏莉,方濱興,等.物聯(lián)網(wǎng)中物理實(shí)體搜索服務(wù)的研究[J].電信科學(xué),2012,28(10):111-119.
[2] 華為技術(shù)有限公司.安全預(yù)警-涉及華為家庭網(wǎng)關(guān)產(chǎn)品的多個(gè)RomPager漏洞[EB/OL].2014-12-19.http://www.huawei.com/cn/security/psirt/security-bulletins/security-advisories/hw-407667.htm.
[3] 中興通訊公司.中興通訊家庭網(wǎng)關(guān)產(chǎn)品受多個(gè)RomPager漏洞影響[EB/OL].2015-01-09.http://support.zte.com.cn/support/news/LoopholeInfoDetail.aspx?newsId=1006322.
[4] 紅黑聯(lián)盟.多個(gè)TP-Link路由器RomPager拒絕服務(wù)漏洞[EB/OL].2014-06-22.http://www.2cto.com/Article/201406/310905.html.
[5] 張 慶,宋 芬,沈國良.網(wǎng)絡(luò)設(shè)備安全措施分析與研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2008(8):33-34.
[6] 武傳坤.物聯(lián)網(wǎng)安全關(guān)鍵技術(shù)與挑戰(zhàn)[J].密碼學(xué)報(bào),2015(1):40-53.
[7] 張友春,魏 強(qiáng),劉增良,等.信息系統(tǒng)漏洞挖掘技術(shù)體系研究[J].通信學(xué)報(bào),2011,32(2):42-47.
[8] Wang H,Tan C C,Li Q.Snoogle:a search engine for pervasive environments[J].IEEE Transactions on Parallel and Distributed Systems,2010,21(8):1188-1202.
[9] Tan C C,Sheng B,Wang H,et al.Microsearch:when search engines meet small devices[C]//Proceedings of the 6th international conference on pervasive computing.Sydney,Australia:[s.n.],2008:93-110.
[10] Yap K K,Srinivasan V,Motani M.MAX:human-centric search of the physical world[C]//Proceedings of 3rd conference on embedded networked sensor systems.San Diego:[s.n.],2005:166-179.
[11] Frank C,Bolliger P,Mattern F,et al.The sensor internet at work:locating everyday items using mobile phones[J].Pervasive and Mobile Computing,2008,4(3):421-447.
[12] Ostermaier B,Romer K,Mattern F,et al.A real-time search engine for the web of things[C]//Proceedings of internet of things.Tokyo,Japan:[s.n.],2010:1-8.
[13] Kr?mer B J.Evolution of cyber-physical systems:a brief review[M].New York:Springer,2014.
[15] Sheth A,Anantharam P,Henson C.Physical-cyber-social computing:an early 21st century approach[J].IEEE Intelligent Systems,2013,28(1):78-82.
A Searching Physical Devices Method Based on Internet Protocols and Web Page Features
FENG Jian-fei,ZHANG Yi,MA Di,ZHANG Jing-jing
(School of Computer Science,National University of Defense Technology,Changsha 410073,China)
There are many physical devices in the Internet,including webcams,PLC,sensors etc.Searching and finding these physical devices helps to know more about their distribution and deployment.Describing physical devices in “social cyber physical multi-domain” model is also good for fully depicting them and analyzing possible existence of cross-domain threats.A method for finding physical devices in the Internet based on the protocols’ datagrams and Web page features is proposed.This method mainly uses the shake hands datagrams of HTTP,SNMP,PPTP and the features of Web pages to find physical devices and get their basic information.Then it expands hardware information of the devices through the products information base,and social domain information,such as location information,through the IP information base.At last,a proto type system named NetThing is developed using method proposed,and the data of experiments is analyzed and verified.
Internet;physical devices;protocol datagram;Web page
2015-06-23
2015-09-24
時(shí)間:2016-05-05
國家自然科學(xué)基金資助項(xiàng)目(61170285)
馮健飛(1991-),男,碩士研究生,研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)與信息安全。
http://www.cnki.net/kcms/detail/61.1450.TP.20160505.0815.038.html
TP393
A
1673-629X(2016)05-0031-05
10.3969/j.issn.1673-629X.2016.05.007