天天看點

mysql索引之哈希索引

哈希索引(Hash Index)建立在哈希表的基礎上,它隻對使用了索引中的每一列的精确查找有用。對于每一行,存儲引擎計算出了被索引的哈希碼(Hash Code),它是一個較小的值,并且有可能和其他行的哈希碼不同。它把哈希碼儲存在索引中,并且儲存了一個指向哈希表中的每一行的指針。

在mysql中,隻有memory存儲引擎支援顯式的哈希索引。如果多個值有相同的哈希碼,索引就會把行指針以連結清單的方式儲存在哈希表的同一條記錄中。

哈希索引的細節還有很多,由于myISAM和innodb并不支援,是以在這裡不詳解。

下面着力講解建立自己的哈希索引

想法非常簡單,在标準的B-Tree索引上建立一個僞哈希索引。它和真正的哈希索引不是一回事,因為它還是使用B-Tree索引進行查找。然而,它将會使用鍵的哈希值進行查找,而不是鍵自身。你所要做的事情就是在where子句中手動地定義哈希函數。

例子:URL查找。

URL通常會導緻B-Tree索引變大,因為它們非常長。通常會按照下面的方式來查找URL表。

mysql>select id from url where url='http://www.mysql.com';

但是,如果移除掉url列上的索引并且給表添加一個被索引的url_src列,就可以按照下面的方式進行查詢:

mysql>select id from url where url='http://www.mysql.com' and url_src=CRC32('http://www.mysql.com');

mysql查詢優化器注意到url_src列上有很小的,選擇性很高的索引,并且它會使用裡面的值進行索引查找。即使有幾列相同的url_src值,也很容易進行精确的對比來确定需要的行。替代方案是把完整的URL索引為字元串,它要慢很多。

這個辦法的一個缺點就是要維護哈希值。你可以手工進行維護,在mysql5.0 以上版本中,可以使用觸發器來進行維護。

1.建立一個表:

create table pseudohash(

id int unsigned NOT NULL auto_increment,
	url varchar(255) NOT NULL,
	url_src int unsigned NOIT NULL DEFAULT 0,
	PRIMARY KEY(id)
);
           

接下來建立觸發器。我們先暫時更新一下指令分隔符,這樣就可以在觸發器中使用分号:

DELIMITER |

CREATE TRIGGER pseudohash_src_ins BEFORE INSERT ON pseudohash FOR EACH ROW BEGIN SET NEW.url_src = crc32(NEW.url);
END;
|
CREATE TRIGGER pseudohash_src_upd BEFORE UPDATE ON pseudohash FOR EACH ROW BEGIN SET NEW.url_src = crc32(NEW.url);
END;
|
DELIMITER;
           

剩下的工作就是驗證觸發器自動維護了哈希值。

如果使用這種方式,就不應該使用SHA1()和MD5()這此哈希函數。它們傳回很長的字元串,會浪費大量的存儲空間并且減慢比較速度。它們是強加密函數,被設計為不産生任務沖突。這并不是我們的目标。簡單的哈希函數能在有較好性能的同時保證可接受的沖突率。當然,如果表有很多行并且CRC32()産生了很多沖突,就要實作自己的64位哈希函數,要確定自己的函數傳回整數,而不是字元串。

mysql>select conv(right(md5('http://www.mysql.com/'),16),16,10) as hash64;

繼續閱讀