天天看點

【愚公系列】2021年11月 C#版 資料結構與算法解析(哈希)

1、引言

HASH是根據檔案内容的資料通過邏輯運算得到的數值, 不同的檔案(即使是相同的檔案名)得到的HASH值是不同的。

【愚公系列】2021年11月 C#版 資料結構與算法解析(哈希)

通過一定的雜湊演算法(典型的有MD5,SHA-1等),将一段較長的資料映射為較短小的資料,這段小資料就是大資料的哈希值。他最大的特點就是唯一性,一旦大資料發生了變化,哪怕是一個微小的變化,他的哈希值也會發生變化。類似于DNA,既然是DNA,那就保證了沒有兩個資料的哈希值是完全相同的。

哈希值的作用:哈希值,即HASH值,是通過對檔案内容進行加密運算得到的一組二進制值,主要用途是用于檔案校驗或簽名。正是因為這樣的特點,它常常用來判斷兩個檔案是否相同。

比如,從網絡上下載下傳某個檔案,隻要把這個檔案原來的哈希值同下載下傳後得到的檔案的哈希值進行對比,如果相同則表示兩個檔案完全一緻,下載下傳過程沒有損壞檔案。而如果不一緻,則表明下載下傳得到的檔案跟原來的檔案不同,檔案在下載下傳過程中受到了損壞。Hash的應用非常廣泛,主要應用于:

1.檔案校驗

我們比較熟悉的校驗算法有奇偶校驗和CRC校驗,這2種校驗并沒有抗資料篡改的能力,它們一定程度上能檢測并糾正資料傳輸中的信道誤碼,但卻不能防止對資料的惡意破壞。

MD5Hash算法的”數字指紋”特性,使它成為目前應用最廣泛的一種檔案完整性校驗和(Checksum)算法,不少Unix系統有提供計算md5checksum的指令。

2. 唯一辨別

現在有十萬個檔案, 給你一個檔案, 要你在這十萬個檔案中查找是否存在. 一個很笨的辦法就是把每一檔案都拿出來, 然後按照二進制串一一進行對比. 但是這個操作注定是比較費時的。可以用雜湊演算法對檔案進行計算, 然後比較哈希值是否相同。 因為存在哈希沖突的情況, 你可以在相同哈希值的檔案再進行二進制串比較.

3. 數字簽名

Hash算法也是現代密碼體系中的一個重要組成部分。由于非對稱算法的運算速度較慢,是以在數字簽名協定中,單向散列函數扮演了一個重要的角色。對Hash值,又稱”數字摘要”進行數字簽名,在統計上可以認為與對檔案本身進行數字簽名是等效的。而且這樣的協定還有其他的優點。

4. 哈希表

在哈希表中使用哈希函數已經并不陌生了, 不再贅述。

5. 負載均衡

比如說, 現在又多台伺服器, 來了一個請求, 如何确定這個請求應該路由到哪個路由器呢?當然, 必須確定相同的請求經過路由到達同一個伺服器. 一種辦法就是儲存一張路由關系的表, 比如用戶端IP和伺服器編号的映射, 但是如果用戶端很多, 勢必查找的時間會很長。 這時, 可以将用戶端的唯一辨別資訊(如:IP、username等)進行哈希計算, 然後與伺服器個數取模, 得到的就是伺服器的編号。

6. 分布式存儲

當我們有大量資料時, 為了提高讀取與寫入的速度, 一般會選擇将資料存儲到多個伺服器。 決定将檔案存儲到哪台伺服器, 就可以通過雜湊演算法取模的操作來得到。

但是, 如果資料多了, 要增加伺服器了, 問題就來了, 比如原來是10台伺服器, 現在變成15台了, 那麼原來哈希值為16的檔案被配置設定到編号6的伺服器, 現在被配置設定到編号1的伺服器, 也就意味着所有檔案都要重新計算哈希值并重新非陪伺服器進行存儲。 一緻性哈希就是這個用途。

【愚公系列】2021年11月 C#版 資料結構與算法解析(哈希)

2、C#開發用于計算檔案Hash的輔助類HashHelper

在C#中,資料的Hash以MD5或SHA1的方式實作,MD5與SHA1都是Hash算法,MD5輸出是128位的,SHA1輸出是160位的,MD5比SHA1快,SHA1比MD5強度高。

2.1、SHA-1和MD5的比較

因為二者均由MD4導出,SHA-1和MD5彼此很相似。相應的,他們的強度和其他特性也是相似,但還有以下幾點不同:

1)對強行攻擊的安全性:最顯著和最重要的差別是SHA-1摘要比MD5摘要長32 位。使用強行技術,産生任何一個封包使其摘要等于給定報摘要的難度對MD5是2128數量級的操作,而對SHA-1則是2160數量級的操作。這樣,SHA-1對強行攻擊有更大的強度。

2)對密碼分析的安全性:由于MD5的設計,易受密碼分析的攻擊,SHA-1顯得不易受這樣的攻擊。

3)速度:在相同的硬體上,SHA-1的運作速度比MD5慢。

2.2、SHA-1和MD5在C#中的實作

/// <summary>
/// Hash輔助類
/// </summary>
public class HashHelper
{
    /// <summary>
    /// 計算檔案的 MD5 值
    /// </summary>
    /// <param name="fileName">要計算 MD5 值的檔案名和路徑</param>
    /// <returns>MD5 值16進制字元串</returns>
    public static string MD5File(string fileName)
    {
        return HashFile(fileName, "md5");
    }

    /// <summary>
    /// 計算檔案的 sha1 值
    /// </summary>
    /// <param name="fileName">要計算 sha1 值的檔案名和路徑</param>
    /// <returns>sha1 值16進制字元串</returns>
    public static string SHA1File(string fileName)
    {
        return HashFile(fileName, "sha1");
    }

    /// <summary>
    /// 計算檔案的哈希值
    /// </summary>
    /// <param name="fileName">要計算哈希值的檔案名和路徑</param>
    /// <param name="algName">算法:sha1,md5</param>
    /// <returns>哈希值16進制字元串</returns>
    private static string HashFile(string fileName, string algName)
    {
        if (!System.IO.File.Exists(fileName))
        {
            return string.Empty;
        }

        System.IO.FileStream fs = new System.IO.FileStream(fileName, System.IO.FileMode.Open, System.IO.FileAccess.Read);
        byte[] hashBytes = HashData(fs, algName);
        fs.Close();
        return ByteArrayToHexString(hashBytes);
    }

    /// <summary>
    /// 計算哈希值
    /// </summary>
    /// <param name="stream">要計算哈希值的 Stream</param>
    /// <param name="algName">算法:sha1,md5</param>
    /// <returns>哈希值位元組數組</returns>
    private static byte[] HashData(System.IO.Stream stream, string algName)
    {
        System.Security.Cryptography.HashAlgorithm algorithm;
        if (algName == null)
        {
            throw new ArgumentNullException("algName 不能為 null");
        }

        if (string.Compare(algName, "sha1", true) == 0)
        {
            algorithm = System.Security.Cryptography.SHA1.Create();
        }
        else
        {
            if (string.Compare(algName, "md5", true) != 0)
            {
                throw new Exception("algName 隻能使用 sha1 或 md5");
            }
            algorithm = System.Security.Cryptography.MD5.Create();
        }

        return algorithm.ComputeHash(stream);
    }

    /// <summary>
    /// 位元組數組轉換為16進制表示的字元串
    /// </summary>
    private static string ByteArrayToHexString(byte[] buf)
    {
        return BitConverter.ToString(buf).Replace("-", "");
    }
}      

2.2、SHA-1和MD5在C#中的實作的測試用例

[TestClass]
public class HashHelperUnitTest
{
    [TestMethod]
    public void TestMethod1()
    {
        string fileName = @"D:\TempTest\RDIFramework.BizLogic.dll";
        Assert.AreEqual(0, 0);

        //01.計算檔案的 MD5 值
        Console.WriteLine(string.Format("計算檔案的 MD5 值:{0}", HashHelper.MD5File(fileName)));

        //02.計算檔案的 sha1 值
        Console.WriteLine(string.Format("計算檔案的 sha1 值:{0}", HashHelper.SHA1File(fileName)));
    }
}      
【愚公系列】2021年11月 C#版 資料結構與算法解析(哈希)