天天看点

mysql 汉明距离检索_mysql - 如何在数据库里优化 汉明距离 查询?

项目里需要一个搜索相似图片的功能,百度了一些dhash的算法,生成了16个长度的hash值,在mysql里这样查询:

SELECT pk, hash,

BIT_COUNT( CONV(hash, 16, 10) ^ CONV('4c8e3366c275650f', 16, 10) ) as hamming_distance

FROM image_hashes HAVING hamming_distance < 4 ORDER BY hamming_distance ASC;

经测试,15W条数据,搜索需要很长时间。第二次速度会快些,有啥办法可以优化?,

谢邀。

抱歉地说,这个我也没有做过,只是之前听说过汉明距离。15w数据,不是很多,但是用了mysql的函数,没办法创建索引。。。

大概搜了一下,有相同的问题。

[http://zj86.info/post=133 我们应该考虑哪些因素能影响到查询优化可以分为:机器硬件、索引、系统参数、查询技巧等。对于一个查询优化问题,我们应� ...],

不好意思,没有“汉明距离”的相关经验。

如果只是15W数据的话,可以把数据加载到内存里缓存起来,然后在程序里运算,毕竟SQL并不擅长做这种事情。

仅从你的SQL来说,的确没有太大的优化空间,能想到的就只有以下几点:

hash列用char代替varchar

舍弃ORDER BY hamming_distance ASC,改为由程序排序

建议把DDL语句和EXPLAIN结果也发上来一并分析,不过最大的性能卡口应该是BIT_COUNT(CONV(hash, 16, 10) ^ CONV('4c8e3366c275650f', 16, 10)) as hamming_distance,其实相当于全表扫描了。[优化目标减少IO次数IO永远是数据库最容易瓶颈的地方,这是由数据库的职责所决定的,大部分数据库操作中超过90%的时间都是IO操作所占用的,减少IO次数是SQL优化中需要第一