天天看點

面向多場景低資源加密流量分類的加密流量預訓練技術|WWW20

作者:量子位

加密流量分類在網絡負載管理和安全威脅檢測中逐漸成為自動識别目标應用、服務和協定的主要方式。現有的模型通常使用大規模帶有準确标注的會話樣本來提取流量深層的可識别特征,比如證書鍊、包長序列和方向序列。但是在網絡環境(例如區域網路)中,流量包含的場景多樣,這些方法不具備健壯的通用能力來适應不同場景下的遷移,以及在小規模的标注樣本下達到預期效果。

在WWW 20222這篇文章中,中科院信工所的研究者提出了一種流量表征模型, ET-BERT,有效學習無标注流量中的隐式關系,進而提升不同場景下流量分類的效果。研究者考慮了流量傳輸的結構特點和封包格式,通過借鑒自然語言進行中的大規模預訓練架構,将流量封包(traffic datagram)作為符号序列(token sequence),來捕捉大規模無标注流量中隐含的上下文關聯關系,然後使用小規模标注的特定場景任務進一步訓練來完成最終的分類任務。

ET-BERT可以應用到多個加密流量場景任務中,比如新型加密協定TLS 1.3網站和應用分類,加密隧道VPN應用分類,匿名通信Tor應用分類,惡意服務Malware Service分類,不均衡加密移動應用分類等場景。在公開資料集ISCX-VPN,ISCX-Tor,USTC-TFC、Cross-Platform和中國科技網TLS 1.3資料集上的實驗結果表明,ET-BERT可以有效應用到多個場景任務并提升分類的效果。該方法對全加密網絡時代下,加密流量分類技術的研究和網絡空間安全的維護具有重要啟發。

論文連結:https://arxiv.org/abs/2202.06335

代碼連結:https://github.com/linwhitehat/ET-BERT

一、背景介紹

近十年間,伴随網絡傳輸協定加密化的發展,流量分類的研究工作也在不斷優化以适應現實場景下的流量分類需求。現有的工作已經意識到流量爆炸式增長和加密化不能再利用專家經驗來手動建構明文字段構成的指紋庫。

一種基于明文封包標頭域資訊聚類和交叉關聯的方法FlowPrint優化了對專家經驗的依賴,但仍無法在全密化趨勢的新型加密協定TLS 1.3中發揮作用。而另外兩類典型的方法是依賴專家經驗構造流序列統計特征和使用深度模型學習原始流序列的表征,他們優化了模型對明文的依賴性但是需要大量人工成本或準确标注的流序列。由于加密協定的全密化發展趨勢和隐私保護相關法律的日益完善,擷取準确标注的大規模流量不隻是一個困難的工程問題,也面臨社會管理和合法合規的挑戰。是以,現有典型的三類方法的缺點是明顯的。

在自然語言處理和計算機視覺等領域,無監督的大規模預訓練模型被提出并在相應領域取得裡程碑式的發展。在自然語言進行中,BERT等工作提出即使沒有标注,文字詞語和句子之間也有關聯關系能夠學習并幫助建構這些自然語言的表征,并且對現有待解決的問題具有明顯增益。但是如何在加密流量中引入,并且有效地進一步解決現有挑戰是本篇文章重點解決的問題。

HongYe He等人是已知近幾年的首次嘗試應用預訓練架構到加密流量分類任務,但是研究者發現他們的嘗試還有很多可優化的地方。網絡流量本身是無語義的編碼符号序列,但是網絡傳輸過程受到實際内容(例如文本,圖檔,音頻,視訊等)的不同以及前後順序的差異的影響,這導緻直接将流序列視作“句子”進行生硬遷移的效果還不理想。

是以,研究者認為:

l 現有挖掘加密流量特征的模型并沒有考慮到加密流量在不同場景下都具有流量的共性特征,在流量表征過程隻關注單一場景;

l 現有引入預訓練架構的模型沒有從深層次發掘和利用流量的傳輸行為對區分不同應用的關聯關系。

二、方法介紹

針對這些挑戰,研究者提出了一種基于挖掘流量上下文和傳輸關系的加密流量表征模型— ET-BERT(Encrypted Traffic Bidirectional Encoder Representations from Transformer)。該方法使用掩碼BURST預測任務(Masked BURST Model)和同源BURST預測任務(Same-origin BURST Prediction),來挖掘和表征加密流量封包的隐式關聯資訊。

研究者表明,ET-BERT的關鍵思路在于從原始流量封包中捕獲健壯通用的關聯關系并且不僅在過去、現在的不同網絡流量場景中有效應用,還能适應全加密的未來網絡流量場景。

說明:加密流量及其結構

流量的形式在網絡傳輸中是二進制的比特流形式,主要構造單元有資料包和會話流。其中資料包為傳輸最小完整單元;會話流由通信的裝置兩端的一個完整互動單元,由多個資料包組成;BURST結構在本文中定義的是會話流中的局部結構,由會話流中單向傳輸的連續n個資料包組成。

ET-BERT

具體而言,該方法主要分為三個部分:A.預處理和編碼加密流量為token組成的BURST結構,B.預訓練學習加密流量封包的關聯關系,C.将預訓練模型應用到下遊任務中微調。

預處理階段的關鍵在于将原始的會話流量抽取帶有内容傳輸特性的BURST結構和顯著偏置的資料資訊。BURST結構是由于不同網絡服務的内容在與用戶端互動時的内容結構差異産生的帶有傳輸特性的流量結構。相比于直接将完整封包作為模型輸入進行表示學習,這種預處理能夠更好結合本文使用的預訓練任務。

預訓練階段的關鍵在于利用自監督學習任務從大規模無标注的BURST結構化流量封包中捕捉到内容的上下文關系以及流量傳輸的同源關系。在網絡流量中,離散的加密資料包作為基礎單元無法展現出不同應用、服務的差異性。為了挖掘流量資訊之間的可區分特性,研究者不僅是對符号上下文進行掩碼預測學習,同時對BURST結構進行截斷成對并預測來源于相同BURST的BURST子對。相比于隻學習符号上下文的關系,這兩種自監督任務能夠兼顧流量的傳輸關系以及内容關聯性,并且更好地為下遊場景服務。

微調階段是對帶标注的不同場景的流量資料進行兩種通用輸入結構的處理,包括包級别和流級别。這兩種處理也是應用場景中通常使用的模式,在預訓練好模型的基礎上繼續訓練較少的輪次以達到最适合特定場景的識别需求。

三、實驗與分析

為了證明提出的ET-BERT架構的有效性,研究者在網絡流量分類公開資料集ISCX-VPN,ISCX-Tor,USTC-TFC和Cross-Platform資料集以及自采的CST-NET TLS 1.3資料集上進行了實驗。采用準确性名額macro-accuracy,精确度名額macro-precision,召回率名額macro-recall,以及F-measure名額macro-F1 進行評估。

1、總體結果

研究者将ET-BERT模型和五個場景下的11個代表模型在所有場景任務中進行了比較,包括AppScanner,CUMUL,BIND,K-fp,FlowPrint,DeepFingerprint,FS-Net,GraphDApp,TSCRNN,Deeppacket和PERT。表2和表3中報告了具體的結果。

由結果可以看到,盡管在個别場景的資料集下,FS-Net、Deeppacket等傳統模型是具有強大性能展現的,但在不同場景下的遷移性不足,而ET-BERT在所有場景下的性能表現波動明顯優于對比模型。此外,該研究在測試集上實作了比其他方法更好的結果,這進一步證明了ET-BERT強大的泛化能力。

2、消融實驗

研究者對該研究進行消融實驗,以了解ET-BERT中具有和不具有單個子產品與處理模式的影響。如表4所示,研究者選擇了學術界引用較多的ISCX-VPN資料集作為消融實驗資料來源。ET-BERT在沒有單一子產品的情況下在測試集的性能均有不同程度的下降,這驗證了所提出的每個子產品對表征加密流量起到了積極作用。

3、解釋性分析

從結果而言,目前為止的資料已經表現了ET-BERT的可靠性能,但是研究者對加密流量在無語義的背景前提下為何能夠借助自然語言處理領域的BERT思想展開了一定的探索和解釋,這對進一步提高模型在流量場景應用的泛化能力是十分有益的。

在密碼學體系中,理想的安全密碼體制包含兩個特性:雪崩效應和完備性(擴散和混淆特性),他們能夠保證加密資料的真實随機性,而使得攻擊者無法從加密資料中擷取任何有利于破譯資訊的模式。然而,在現實密碼系統中,完全随機并未被實作,部署在網站、應用中的不同加密算法存在着不一緻的随機性。為了衡量現有常見加密算法的安全強度以及實際流量資料中密碼套件的分布,研究者對常見的5類加密套件進行NIST随機性測試評估和密碼套件統計。

如表5所示,不同密碼套件在15種随機性測試項目下展現出的随機性名額差異明顯,這種随機性差異會放大部署了不同密碼套件的加密流量間的區分性。同時,如圖3所示,研究者發現在6種測試場景的資料集中,TLS 1.3部署了随機性較強的加密套件并且分布次元偏單一化。對比分類性能結果,研究者認為密碼套件的實際部署不當可能導緻加密流量資料更易被識别。

4、品質分析

(1)小樣本場景分類的品質

如圖4所示,通過壓縮訓練資料規模和實驗測試,研究者表明ET-BERT相比其他典型代表方法在3種不同規模的小樣本場景下展現的性能更加穩定,即使在10%的資料規模量級(50左右)下仍保持90%左右的macro-F1結果。

(2)結果可視化對比的品質

如圖5所示,研究者通過分類結果的可視化展示ET-BERT的性能表現出色,在多類别的樣本類内距離以及類間距離的邊界識别更加清晰,對于流量特征近似的類别也能夠保持較低的錯檢率。

四、總結

研究者提出了一種面向加密流量分類的流量表征模型ET-BERT,該模型采用基于Transformer網絡的預訓練-微調設計結構,極大改變了傳統流量分類研究中依賴大規模标注流量和大量專家經驗知識的問題。ET-BERT具有良好的泛化性,能夠适應不同的加密流量場景,包括新型加密協定,在未來全加密網絡中應用更加普适和可靠的網絡行為分析技術具有較好的啟示作用。

此外,研究者表示目前工作相比于統計特征建構的方法,在可解釋和易了解方面還存在不足,同時還未對資料毒化和場景漂移等不穩定因素幹擾展開進一步測試驗證。研究者計劃在未來的研究工作中嘗試解決這些問題并進一步保障在全加密網絡中的可靠和可用。

作者與團隊簡介:

林鑫傑,中國科學院資訊工程研究所(中國科學院大學網絡空間安全學院)在讀博士研究所學生,在熊剛老師的網絡行為分析與對抗組、于靜老師的跨模态智能研究組開展研究,研究方向包括加密流量分析和預訓練學習,個人GitHub首頁:https://github.com/linwhitehat。

中科院資訊工程研究所網絡行為分析與對抗團隊的主要研究領域為網絡測量與行為分析、資訊對抗理論與技術、網絡驗證技術、海量資料挖掘與分析等,相關研究工作在USENIX Security、WWW、INFOCOM、Computers & Security、ACSAC、WWWJ、CIKM、計算機學報、RAID、IWQoS等國内外重要會議期刊發表。

中科院資訊工程研究所跨模态智能研究組的主要研究領域為多模态資訊表示、記憶、推理、生成和積累等,應用場景包括跨模态資訊檢索、視覺問答/對話、圖像/視訊描述生成、視覺場景圖生成等,相關研究工作在CVPR、ICML、AAAI、IJCAI、ACM MM、TIP、TMM等國際重要會議和期刊發表,研究組首頁:https://mmlab-iie.github.io/。

繼續閱讀