基于Hash的查找算法实现

package da;

public class Main {

public static void main(String[] args) {

MyMap< String, String> mm = new MyMap< String, String>();

Long aBeginTime=System.currentTimeMillis();//记录BeginTime

for(int i=0;i< 1000000;i++){

mm.put(""+i, ""+i*100);

}

Long aEndTime=System.currentTimeMillis();//记录EndTime

System.out.println("insert time-->"+(aEndTime-aBeginTime));

Long lBeginTime=System.currentTimeMillis();//记录BeginTime

mm.get(""+100000);

Long lEndTime=System.currentTimeMillis();//记录EndTime

System.out.println("seach time--->"+(lEndTime-lBeginTime));

}

import java.util.Random;

String a[]={"李锦根","金行","成龙","客户"};

Random s=new Random();

//int temp=s.nextInt();

int temp=(int) ((Math.random() * 3 + 1) * 1);

mm.put(""+i, ""+a[temp]);

//mm.put(""+100000000+i,""+"金");

System.out.println(i+a[temp]);

}

mm.put(""+100000000,""+"金");

//mm.get(""+3+a[0]);

//System.out.println(mm.get(""+100));

int coun=0;

for(int i=1;i< 1000000;i++){

//System.out.println(mm.get(""+i));

if(mm.get(""+i)!=null&&mm.get(""+i).equals("金行")){

coun++;

System.out.println(coun);

999958成龙

999959成龙

999960客户

999961成龙

999962成龙

999963金行

999964成龙

999965成龙

999966金行

999967金行

999968成龙

999969金行

999970客户

999971金行

999972成龙

999973客户

999974成龙

999975客户

999976客户

999977金行

999978客户

999979成龙

999980成龙

999981金行

999982客户

999983成龙

999984成龙

999985客户

999986成龙

999987金行

999988金行

999989客户

999990金行

999991客户

999992金行

999993金行

999994金行

999995成龙

999996客户

999997成龙

999998金行

999999金行

insert time-->11621

219770

seach time--->430

探讨Hash表中的一些原理/概念，及根据这些原理/概念，自己设计一个用来存放/查找数据的Hash表，并且与JDK中的HashMap类进行比较。

我们分一下七个步骤来进行。

一。 Hash表概念

二 . Hash构造函数的方法，及适用范围

三. Hash处理冲突方法，各自特征

四. Hash查找过程

五. 实现一个使用Hash存数据的场景--Hash查找算法，插入算法

六. JDK中HashMap的实现

七. Hash表与HashMap的对比，性能分析

一。 Hash表概念

在Hash表中，记录在表中的位置和其关键字之间存在着一种确定的关系。这样我们就能预先知道所查关键字在表中的位置，从而直接通过下标找到记录。

1) 哈希(Hash)函数是一个映象，即：将关键字的集合映射到某个地址集合上，它的设置很灵活，

只要这个地址集合的大小不超出允许范围即可；

2) 由于哈希函数是一个压缩映象，因此，在一般情况下，很容易产生“冲突”现象，

即： key1!=key2，而 f (key1) = f(key2)。

3). 只能尽量减少冲突而不能完全避免冲突，这是因为通常关键字集合比较大，其元素包括所有可能的关键字，

而地址集合的元素仅为哈希表中的地址值.在构造这种特殊的“查找表” 时，除了需要选择一个“好”(尽可能少产生冲突)

的哈希函数之外；还需要找到一种“处理冲突” 的方法。

直接定址法

数字分析法

平方取中法

折叠法

除留余数法

随机数法

（1）直接定址法：

哈希函数为关键字的线性函数，H(key) = key 或者 H(key) = a * key + b

（2）数字分析法：

假设关键字集合中的每个关键字都是由 s 位数字组成 (u1, u2, …, us)，分析关键字集中的全体，

并从中提取分布均匀的若干位或它们的组合作为地址。

此法适于:能预先估计出全体关键字的每一位上各种数字出现的频度。

（3）平方取中法：

以关键字的平方值的中间几位作为存储地址。求“关键字的平方值” 的目的是“扩大差别” ，

同时平方值的中间各位又能受到整个关键字中各位的影响。

（4）折叠法：

将关键字分割成若干部分，然后取它们的叠加和为哈希地址。两种叠加处理的方法：移位叠加:

将分割后的几部分低位对齐相加；间界叠加:从一端沿分割界来回折叠，然后对齐相加。

此法适于：关键字的数字位数特别多。

（5）除留余数法：

设定哈希函数为:H(key) = key MOD p ( p≤m )，其中， m为表长，p 为不大于 m 的素数，或是不含 20 以下的质因子

（6）随机数法：

设定哈希函数为:H(key) = Random(key)其中，Random 为伪随机函数

实际造表时，采用何种构造哈希函数的方法取决于建表的关键字集合的情况(包括关键字的范围和形态)，

以及哈希表长度（哈希地址范围），总的原则是使产生冲突的可能性降到尽可能地小。

“处理冲突” 的实际含义是：为产生冲突的关键字寻找下一个哈希地址。

开放定址法

再哈希法

链地址法

（1）开放定址法：

为产生冲突的关键字地址 H(key) 求得一个地址序列： H0, H1, H2, …, Hs 1≤s≤m-1，Hi = ( H(key) +di ) MOD m，

其中： i=1, 2, …, s，H(key)为哈希函数;m为哈希表长;

（2）链地址法：

将所有哈希地址相同的记录都链接在同一链表中。

（3）再哈希法：

方法：构造若干个哈希函数，当发生冲突时，根据另一个哈希函数计算下一个哈希地址，直到冲突不再发生。

即：Hi=Rhi(key) i=1,2,……k，其中：Rhi——不同的哈希函数，特点：计算时间增加

对于给定值 K,计算哈希地址 i = H(K)，若 r[i] = NULL 则查找不成功，若 r[i].key = K 则查找成功，

否则 “求下一地址 Hi” ，直至r[Hi] = NULL (查找不成功) 或r[Hi].key = K (查找成功) 为止。

五. 实现一个使用Hash存数据的场景-------Hash查找算法，插入算法

假设我们要设计的是一个用来保存中南大学所有在校学生个人信息的数据表。因为在校学生数量也不是特别巨大(8W)，

每个学生的学号是唯一的,因此，我们可以简单的应用直接定址法，声明一个10W大小的数组，每个学生的学号作为主键。

然后每次要添加或者查找学生，只需要根据需要去操作即可。

但是，显然这样做是很脑残的。这样做系统的可拓展性和复用性就非常差了，比如有一天人数超过10W了？

如果是用来保存别的数据呢？或者我只需要保存20条记录呢？声明大小为10W的数组显然是太浪费了的。

如果我们是用来保存大数据量（比如银行的用户数，4大的用户数都应该有3-5亿了吧？），这时候我们计算出来的

HashCode就很可能会有冲突了，我们的系统应该有“处理冲突”的能力，此处我们通过挂链法“处理冲突”。

如果我们的数据量非常巨大，并且还持续在增加，如果我们仅仅只是通过挂链法来处理冲突，可能我们的链上挂了

上万个数据后，这个时候再通过静态搜索来查找链表，显然性能也是非常低的。所以我们的系统应该还能实现自动扩容，

当容量达到某比例后，即自动扩容，使装载因子保存在一个固定的水平上。

综上所述，我们对这个Hash容器的基本要求应该有如下几点：

满足Hash表的查找要求（废话）

能支持从小数据量到大数据量的自动转变（自动扩容）

使用挂链法解决冲突

基于Hash的查找算法实现

继续阅读

数据结构与算法（27）——排序（二）

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method

hdu7108哈希