天天看點

二進制代碼相似度比較研究技術彙總

【摘要】 二進制分析技術通常被用來對應用進行安全審計、漏洞檢測等,通過分析學術界近20年發表的上百篇學術論文來分析二進制代碼相似度比較都有采用了哪些具體技術,二進制代碼相似度比較的技術挑戰是什麼,後續的研究方向是什麼,希望此文能給做這方面技術研究人做參考。

在對二進制應用程式進行安全分析過程中,二進制代碼相似度比較技術是重要的技術手段之一,基于此技術,可以實作對惡意代碼極其變種的追蹤,已知漏洞檢測、更新檔存在性檢測。該技術基礎理論依據是如果源代碼中存在的屬性(惡意代碼、已知漏洞、漏洞修複更新檔)即使相同源代碼編譯出不同的二進制代碼(cpu架構、OS、編譯選項等會直接導緻編譯出來的二進制會存在較大的差别),這些屬性在二進制代碼中也是存在的(好像是廢話,不然編譯建構工具就有問題了)。是以若在一個樣本二進制檔案中已知存在上述類型的屬性,如果發現另外一個待檢測二進制代碼和樣本二進制代碼相似,那麼可以認為待檢測二進制代碼也存在相同類型的屬性。

我們知道編譯生成二進制代碼的影響因素非常的多,同一套源代碼基于不同因素的組合可以生成非常多不同二進制程式。

CPU架構:X86、ARM、MIPS、PPC、RISC-V;

架構位數:32bits、64bits;

OS:Linux、Windows、Android、鴻蒙、VxWork;

編譯選項:O0~O3;

安全編譯選項:BIND_NOW、NX、PIC、PIE、RELRO、SP、FS、Ftrapv等;

按這些選項可以有5x2x5x4x8 =1600個組合,從中可以看出二進制代碼相似度比較技術不管是學術界還是工業界來說都是一個挑戰技術。但是基于廣闊的應用前景,20多年來學術界一直在不停的探索和研究新的方法想來解決這個技術挑戰,并且也取得了一定的成果,下面就該方面的技術進行一些梳理,讓大家對二進制代碼相似度比較技術有一個大緻的了解。

源代碼到二進制代碼的生成過程      
二進制代碼相似度比較研究技術彙總

從源代碼編譯生成二進制過程中,有很多有助于了解代碼意圖的資訊會被丢失,比如:函數名稱、變量名稱、資料結構定義、變量類型定義、注釋資訊等;因為二進制代碼是給CPU運作用的,是以這些資訊對計算機來說不是必須的,但這些資訊對人類來了解代碼是有很大幫助的,這就大大的提升了二進制代碼語義了解的難度。其次,為了更好的保護二進制代碼的知識産權或最大程度的提升對二進制代碼的了解難度,還會對二進制代碼進行混淆處理,使得混淆後的二進制代碼與編譯器編譯出來的二進制之間又存在很大的不同。

從曆史發表的二進制代碼相似度比較技術論文統計來看,有61種二進制代碼相似性比較方法,這些在不同研究場所發表的數百篇論文涵蓋了計算機安全、軟體工程、程式設計語言和機器學習等計算機科學領域,主要發表在IEEE S&P、ACM CCS、USENIX Security、NDSS、ACSAC、RAID、ESORICS、ASIACCS、DIMVA、ICSE、FSE、ISSTA、ASE、MSR等頂級刊物上。根據上述論文得到如下統計資料:

輸入比較:一對一(21種)、一對多(30種)、多對多(10種);

比較方法:大多數方法使用單一類型的比較:相似性(42種)、等效性(5種)和相同(2種);即使方法中僅使用一種類型的比較,它也可能有不同的輸入比較不同;

分析粒度:分為輸入粒度、方法粒度;有8中不同的比較粒度,分别是指令級、基本快、函數以及相關集合、執行軌迹、程式。最常見的輸入粒度是函數(26個),然後是整個程式(25個)和相關的基本塊(4)。最常見的方法粒度是函數(30個),然後是基本塊(20);

文法相似性:通過文法方法來捕獲代碼表示的相似性,更具體地說,它們比較指令序列。最常見的是序列中的指令在虛拟位址空間中是連續的,屬于同一函數。

語義相似性:語義相似性是指所比較的代碼是否具有類似的效果,而文法相似性則是指代碼表示中的相似性。其中有26種計算語義相似度的方法。它們中的大多數以基本塊粒度捕獲語義,因為基本塊是沒有控制流的直線代碼。有三種方法用于捕獲語義:指令分類、輸入-輸出對和符号公式。

結構相似度:結構相似性計算二進制代碼的圖表示上的相似性。它位于句法和語義相似性之間,因為圖可以捕獲同一代碼的多個句法表示,并可以用語義資訊注釋。結構相似性可以在不同的圖上計算。常見的有控制流圖CFG、過程間控制流圖ICFG、調用圖CG;(子)圖同構—大多數結構相似性方法是檢查圖同構的變化,其中涉及到方法有K子圖比對、路徑相似性、圖嵌入。

基于特征的相似度:計算相似性的常見方法(28種)是将一段二進制代碼表示為向量或一組特征,使得類似的二進制代碼具有相似的特征向量或特征集。這裡應用最多的是利用機器學習來實作。

Hash比對相似度:對于多元向量資料相似度快速比對,通常使用局部敏感hash算法LSH來實作。

跨架構比較方法:對不同CPU架構二進制代碼的相似度比較,通常跨體系結構方法通過計算語義相似性來實作。方法之一是通過轉換成與架構無關的中間語言IR來處理(7種),另外一種是使用基于特征的相似性方法(9種)。

分析類型:從分析類型來看有:靜态分析、動态分析、資料流分析3種類型;

歸一化方法:文法相似性方法通常會對指令進行規範化,來盡量減少文法上的差異;有33種方法使用指令規範化。具體的包括操作數移除法、操作數歸一化法、助記符歸一化法。

論文發表的時間、發表刊物、技術方法彙總      
二進制代碼相似度比較研究技術彙總
不同二進制代碼相似度比較方法的具體應用情況      
二進制代碼相似度比較研究技術彙總