P2P流量識別方法的研究及實現(xiàn)

todaytomo 2007-07-23

展開全文

P2P流量識別方法的研究及實現(xiàn)

摘要近年來，網(wǎng)絡新技術(shù)層出不窮，有對等網(wǎng)絡、VoIP、P2P流媒體等。IPv4網(wǎng)絡是一個“盡力而為”的網(wǎng)絡，主要提供數(shù)據(jù)業(yè)務服務，對P2P流等非傳統(tǒng) 數(shù)據(jù)業(yè)務的應用則顯出很多無奈，QoS是無保證的。P2P網(wǎng)絡“帶寬吞噬”特性造成了網(wǎng)絡帶寬的巨大消耗，甚至會引起網(wǎng)絡擁塞，大大降低了網(wǎng)絡性能，劣化了網(wǎng)絡服務質(zhì)量。因此對P2P流量進行識別和控制是解決問題的關(guān)鍵。

　　首先介紹了P2P流量識別方法，分析了它們的優(yōu)缺點；然后提出一種基于流傳輸特性的P2P流量識別模型，此模型的創(chuàng)新點在于不要檢測數(shù)據(jù)凈荷就可以識別P2P流量，提高了識別的效率；最后對P2P流量識別模型進行了分析。

引言

　　P2P技術(shù)出現(xiàn)后網(wǎng)絡計算模式從集中式向分布式轉(zhuǎn)移，網(wǎng)絡應用的核心從中央服務器向網(wǎng)絡邊緣設備擴散。當前網(wǎng)絡環(huán)境中，以BT為代表的P2P下載軟件流量占用了寬帶接入的大量帶寬，據(jù)統(tǒng)計已經(jīng)超過了50%，這造成了網(wǎng)絡帶寬的巨大消耗，甚至會引起網(wǎng)絡擁塞，大大降低了網(wǎng)絡性能，劣化了網(wǎng)絡服務質(zhì) 量，妨礙了正常的網(wǎng)絡業(yè)務的開展和關(guān)鍵應用的普及，嚴重影響了用戶使用正常的Web、E-mail以及視頻點播等業(yè)務，因此，運營商、企業(yè)用戶以及教育等行業(yè)的用戶都有對這類流量進行限制的要求；另一方面，對于企業(yè)用戶來說員工利用內(nèi)部網(wǎng)進行BT下載會占用大量的內(nèi)部網(wǎng)帶寬，同時通過并不安全的網(wǎng)絡環(huán)境獲得的應用程序和P2P軟件的使用，將可能為企業(yè)安全防護打開一扇后窗，使得病毒和惡意代碼得以躲過安全審查潛入企業(yè)內(nèi)部網(wǎng)絡。因此實現(xiàn)分類、標識和控制 P2P流量越來越成為企業(yè)、網(wǎng)絡運營商急需解決的問題。對運營商或企業(yè)來說，簡單的擴容無法滿足容量增長的需要，對P2P流量進行識別、管理和控制是解決目前網(wǎng)絡狀態(tài)的根本途徑。

　　首先介紹了P2P流量識別方法；然后提出一種基于流傳輸特性的P2P流量識別模型，通過結(jié)合TCP/UDP法、（IP，PORT）法、特征碼識別3種識別方法來實現(xiàn)對P2P業(yè)務的識別和控制，此模型的創(chuàng)新點在于不要檢測數(shù)據(jù)凈荷就可以識別P2P流量，提高了識別的效率；最后從理論和實踐兩方面對 P2P流量識別模型進行了分析。

1、P2P流量識別方法

　?。?）端口識別法

　　端口識別法是根據(jù)TCP數(shù)據(jù)包或UDP數(shù)據(jù)包首部的源端口號或目的端口號識別一些常見業(yè)務的流量，如HTTP，SMTP，Telnet，HTTPS等。

　　最初的P2P流量可通過端口號進行識別，如早期的Fasttrack使用1214端口進行通訊，但是很快便出現(xiàn)了大量采用可變端口及偽裝端口的 P2P應用軟件，一些應用程序為了繞過操作系統(tǒng)的訪問限制，使用常見端口以外的端口（例如，某些沒有特權(quán)的用戶可能在非80端口上運行WWW服務器，因為大多數(shù)操作系統(tǒng)通常將80端口限制為只允許某些特定的用戶使用）。網(wǎng)絡上存在著眾多的P2P應用軟件，使得P2P流量的識別必須采用一種或多種方法協(xié)作進行。

　　（2）DPI識別法

　　DPI：數(shù)據(jù)包深層掃描。由于P2P軟件采用動態(tài)端口，只能通過掃描高層協(xié)議來探知P2P數(shù)據(jù)報。例如對于Kazaa系統(tǒng)，我們只能深入 HTTP內(nèi)部獲取Kazaa特征代碼。對于其它P2P應用，有時甚至要通過幾個特征代碼才能判斷其是否為P2P流。通過DPI掃描可識別 Gnutella，E-donkey，Kazaa，Bittorrent等主流P2P軟件。該方法的識別準確度可以達到95%，但是DPI掃描技術(shù)無法識別加密的P2P流。

　?。?）TCP/UDP法

　　P2P流量絕大部分都同時應用了TCP和UDP協(xié)議，使用TCP/UDP方法識別P2P流時不需要任何類型的應用層信息，不需要進行凈荷檢測就可以得到相對滿意的結(jié)果，可以提高數(shù)據(jù)包識別速度；此方法不依賴于任何類型的識別標志，所以對于在大型網(wǎng)絡中新出現(xiàn)的P2P應用它一樣可以快速識別；同時，分析傳輸層的信息幾乎不需要任何額外的軟件或者硬件，這就大大地減少了相應的設備帶來的壓力和負擔。應用這種方法，仍然存在一定的缺點：在識別過程中需要記錄所有流的信息，需要有大容量的存儲設備；對于具體的P2P協(xié)議不能深入分析，不能區(qū)分P2P流屬于何種協(xié)議；它僅能夠用來識別應用中心化的P2P 應用；最后，如果P2P應用采用TCP而不是UDP來完成控制功能的話，我們的方法將失效。

　?。?）（IP，PORT）法

　　當某臺主機要與網(wǎng)絡中的其他主機進行對等通信時，它將向服務器發(fā)送通信信息，將它用于通信的IP地址和端口號發(fā)送給服務器，然后服務器就把它的 IP地址和端口號告訴給其他的主機，最后其他主機就可以直接和這臺主機通信了。這些進行對等通信的主機的端口號往往都是互不相同的，所以主機IP和端口號的數(shù)目相差很小。在實現(xiàn)方法上，主要是統(tǒng)計某個（IP，port）所連接到的各個IP、端口號、數(shù)據(jù)報大小和傳送流量大小。如果連接到的IP地址個數(shù)和 port個數(shù)相等，則認為是P2P流量。相反的，如果連接到的IP數(shù)和port數(shù)相差大到10個以上則認為是非P2P流量。

2、P2P流量識別模型及算法

　　2.1　P2P流量識別模型

　　我們提出了基于流傳輸特征的P2P流量識別法、基于凈荷特征的P2P流量分類法，并綜合上述兩種方法，提出了P2P流量識別模型及其算法。其中，基于流傳輸特征的P2P流量識別法綜合了TCP/UDP法和（IP，PORT）法的優(yōu)點；基于凈荷特征的P2P流量分類法是對已經(jīng)識別出來的P2P流按協(xié)議進行分類。綜合以上兩種方法我們提出一種P2P流量識別模型。

　?。?）基于流傳輸特征的P2P流識別法

　　TCP/UDP法識別的流量同時使用了TCP和UDP協(xié)議，但是可能含有DNS流、MAIL流、游戲流，用端口識別法可以去掉DNS流、MAIL流，因為網(wǎng)絡中新游戲不斷產(chǎn)生，且游戲使用的端口不固定，所以簡單的使用端口識別法是不能過濾掉游戲流的。

　?。↖P，PORT）法識別的流量有一部分只使用TCP或UDP協(xié)議的，對于游戲流，同一（IP，PORT）對應的地址和端口數(shù)目相差數(shù)＞10，所以用（IP，PORT）法可以去掉游戲流。

　?。?）基于凈荷特征的P2P流量分類法

　　基于流傳輸特征的P2P流識別法可以識別出大部分P2P流量，而且能識別出未知協(xié)議的P2P流量，此方法的缺點是對于具體的P2P協(xié)議不能深入分析；凈荷檢測法適用于幾乎所有的常用的P2P應用，能識別出大部分的P2P流量。如eDonkey，Overnet，eMule，KAZAA， BitTorrent，Direct connect，WINMX，opennap，Gnutella，MP2P，Soulseek，Ares。

　?。?）P2P流量識別模型

　　P2P流量識別模型是上述兩種方法的結(jié)合，具體模型如圖1所示。

圖1　P2P流量識別模型

　　P2P流量識別模型的主要原理是：首先，用TCP/UDP法識別的“可能的P2P流”中含有DNS流、游戲流和MAIL流；然后用端口識別法去掉DNS流（端口號53）和MAIL流（端口號25）等已知端口的數(shù)據(jù)流；根據(jù)（IP，PORT）法統(tǒng)計同一（IP，PORT）對應的地址與端口的相差數(shù)，若小于10，則認為此主機在進行P2P通信；最后用凈荷檢測法對P2P流按協(xié)議進行分類，為了提高系統(tǒng)效率，對P2P流分類采用后臺分析模式。

　　2.2　P2P流量識別算法

　　本文根據(jù)P2P流量識別模型提出一種算法，圖2是此算法的流程圖。

圖2　P2P流量識別流程圖

　　（1）取出數(shù)據(jù)包的五元組，在“P2P節(jié)點集”中進行判斷；若不存在，則轉(zhuǎn)入（2）；若存在則轉(zhuǎn)入（4）；

　　（2）用端口識別法排除已知的流量，如DNS流，MAIL流，游戲流等；

　?。?）根據(jù)diff=|pair.IPSet.len-pair.PortSet.len|判斷是否為P2P流，若diff＜10，則為P2P流，把地址和端口號加入“P2P節(jié)點集”中；若diff＞10，則為非P2P流；

　?。?）若為P2P流，則把此流存在輸入隊列中，等待處理；

　?。?）利用凈荷法對P2P流進行分類；

3、P2P流量識別模型分析（如圖3所示）

圖3　P2P流量識別實驗圖

　　3.1　識別模型的可行性和準確率

　　在Linux下，用兩套方案進行流量識別：

　　方案一：用本文提出的識別模型和算法

　　方案二：用DPI檢測法

　　10.10.136.155主機打游戲、電驢下載和skype通話；10.10.136.154進行BT下載、skype聊天；10.10.136.141上網(wǎng)、電驢下載、FTP下載。

　　Skype流量沒有凈荷特征，在本實驗過程中，只有電驢、BT、Skype三種P2P業(yè)務，所以在對BT、電驢分類后，剩下的流量歸結(jié)為Skype流。

　　兩個方案同時在網(wǎng)關(guān)上運行五分鐘，根據(jù)mysql數(shù)據(jù)庫中的數(shù)據(jù)，統(tǒng)計結(jié)果如表1所示。

表1　統(tǒng)計結(jié)果

　　實驗結(jié)果分析：

　　10.10.136.154只進行BT下載和skype聊天，方案一可以識別出0.41 MB的BT流量和1.22MB的skype流量，方案二識別出0.39MB的BT流量，由于skype沒有明顯的凈荷特征，所以把skype流歸為其它業(yè)務。

　　10.10.136.155只進行電驢下載、skype聊天和游戲，方案一可以識別出0.53MB的電驢流量和1.45MB的skype流量和 8.02MB的其它業(yè)務流（主要是游戲流），方案二識別出0.49MB的電驢流量，由于skype沒有明顯的凈荷特征，所以把skype流歸為其它業(yè)務流量9.51MB。

　　10.10.136.141只進行電驢下載、FTP下載和網(wǎng)頁瀏覽，方案一可以識別出0.39MB的電驢流量和8.76MB的其它業(yè)務流（主要是FTP流和網(wǎng)頁瀏覽流量），方案二識別出0.32MB的電驢流量和9.32MB的其它流。

　　通過以上分析可以得到：對于方案一和方案二都可以識別出來的P2P流量（比如BT和電驢），方案一可以識別出一些沒有凈荷特征的P2P流（如 Skype流），方案二只能識別一些已知協(xié)議的P2P流，不能識別加密流。方案一中排除游戲流的方法的去掉包大小一樣的流量，由于在實施過程中沒有排除全部游戲流，所以方案一中識別出的BT和電驢流量大于方案二中的電驢和BT流量。

　　3.2　識別模型的性能

　　P2P流量識別模型是一個實時分析模型，對網(wǎng)卡上采集到的數(shù)據(jù)包用TCP/UDP法和端口識別法進行實時分析，判斷此流是否為“可能的P2P 流”；若是，則入庫，讓后臺分析程序進行分類、統(tǒng)計，并向?qū)崟r分析模塊提供“P2P節(jié)點集”，引入“P2P節(jié)點集”的目的是為了避免重復對已知的P2P節(jié) 點進行判斷，提高了系統(tǒng)的效率。對數(shù)據(jù)流先用TCP/UDP法和端口識別法過濾一些非P2P流，可以提高（IP，PORT）法識別時的效率和準確率。實時分析可以準確了解網(wǎng)絡的使用狀況。

　　3.3　識別模型的通用性

　　當前許多開放源代碼的P2P應用識別解決方案（如IPP2P）都是采用DPI識別法，它們只能識別一些凈荷沒有加密的已知的P2P協(xié)議（如 BT，e-Mule），對于Skype這些加密的軟件沒法識別出它們的流量；但是P2P流量識別模型不僅可以識別目前主流的P2P協(xié)議（如BT，e- Mule），也可以用于其它未知協(xié)議的P2P流量識別；因為此識別模型是根據(jù)數(shù)據(jù)流的特性來識別的，并非僅根據(jù)端口或凈荷特征，這樣即使P2P軟件動態(tài)改變端口，也能識別出P2P流量。

4、結(jié)束語

　　本文提出的P2P流量識別模型中區(qū)分P2P流與游戲、游戲流、DNS流、IRC流等其它數(shù)據(jù)流時，采取簡單的端口排除法，如果P2P流傳輸時采用的端口跟這些已知端口一樣時，就不容易識別出這部分流量，下一步工作對這幾種數(shù)據(jù)流建立一種識別模型；另外，P2P流量識別模型有待進一步的研究，可以針對不同的網(wǎng)絡建立不同的模型，實現(xiàn)更精準的識別。