二次再散列法


二次再散列法

文章插图
二次再散列法【二次再散列法】散列(Hashing)是计算机科学中一种对资料的处理方法,通过某种特定的函式/算法(称为散列函式/算法)将要检索的项与用来检索的索引(称为散列,或者散列值)关联起来,生成一种便于搜寻的数据结构(称为散列表) 。二次再散列法是指第一次散列产生哈希地址冲突,为了解决冲突,採用另外的散列函式或者对冲突结果进行处理的方法 。
基本介绍中文名:二次再散列法
外文名:Secondary re-hashing
学科:计算机科学
原因:哈希地址冲突
有关术语:散列表、冲突
领域:数据结构
常见方法:开放地址法、拉链法
散列表设所有可能出现的关键字集合记为U(简称全集) 。实际发生(即实际存储)的关键字集合记为K(|K|比|U|小得多) 。散列方法是使用函式h将U映射到表T[0..m-1]的下标上(m=O(|U|)) 。这样以U中关键字为自变数,以h为函式的运算结果就是相应结点的存储地址 。从而达到在O(1)时间内就可完成查找 。其中:① h:U→{0,1,2,…,m-1},通常称h为散列函式(Hash Function) 。散列函式h的作用是压缩待处理的下标範围,使待处理的|U|个值减少到m个值,从而降低空间开销 。② T为散列表(Hash Table) 。③ h(Ki)(Ki∈U)是关键字为Ki结点存储地址(亦称散列值或散列地址) 。④ 将结点按其关键字的散列地址存储到散列表中的过程称为散列(Hashing)冲突两个不同的关键字,由于散列函式值相同,因而被映射到同一表位置上 。该现象称为冲突(Collision)或碰撞 。发生冲突的两个关键字称为该散列函式的同义词(Synonym) 。安全避免冲突的条件最理想的解决冲突的方法是安全避免冲突 。要做到这一点必须满足两个条件:①其一是|U|≤m②其二是选择合适的散列函式 。这只适用于|U|较小,且关键字均事先已知的情况,此时经过精心设计散列函式h有可能完全避免冲突 。冲突不可能完全避免通常情况下,h是一个压缩映像 。虽然|K|≤m,但|U|>m,故无论怎样设计h,也不可能完全避免冲突 。因此,只能在设计h时儘可能使冲突最少 。同时还需要确定解决冲突的方法,使发生冲突的同义词能够存储到表中 。影响冲突的因素冲突的频繁程度除了与h相关外,还与表的填满程度相关 。设m和n分别表示表长和表中填人的结点数,则将α=n/m定义为散列表的装填因子(Load Factor) 。α越大,表越满,冲突的机会也越大 。通常取α≤1 。对于大多数应用程式来说,装填因子为0.75是比较合理的 。标準散列函式的选择有两条标準:简单和均匀 。简单指散列函式的计算简单快速;均匀指对于关键字集合中的任一关键字,散列函式能以等机率将其映射到表空间的任何一个位置上 。也就是说,散列函式能将子集K随机均匀地分布在表的地址集{0,1,…,m-1}上,以使冲突最小化 。常用散列函式平方取中法具体方法:先通过求关键字的平方值扩大相近数的差别,然后根据表长度取中间的几位数作为散列函式值 。又因为一个乘积的中间几位数和乘数的每一位都相关,所以由此产生的散列地址较为均匀 。例:将一组关键字(0100,0110,1010,1001,0111)平方后得(0010000,0012100,1020100,1002001,0012321)若取表长为1000,则可取中间的三位数作为散列地址集:(100,121,201,020,123) 。相应的散列函式用C实现很简单:int Hash(int key){ //假设key是4位整数key*=key; key/=100; //先求平方值,后去掉末尾的两位数return key%1000; //取中间三位数作为散列地址返回除余法该方法是最为简单常用的一种方法 。它是以表长m来除关键字,取其余数作为散列地址,即 h(key)=key%m该方法的关键是选取m 。选取的m应使得散列函式值儘可能与关键字的各位相关 。m最好为素数 。若选m是关键字的基数的幂次,则就等于是选择关键字的最后若干位数字作为地址,而与高位无关 。于是高位不同而低位相同的关键字均互为同义词 。若关键字是十进制整数,其基为10,则当m=100时,159,259,359,…,等均互为同义词 。相乘取整法该方法包括两个步骤:首先用关键字key乘上某个常数A(0<A<1),并抽取出key.A的小数部分;然后用m乘以该小数后取整 。即:该方法最大的优点是选取m不再像除余法那样关键 。比如,完全可选择它是2的整数次幂 。虽然该方法对任何A的值都适用,但对某些值效果会更好 。Knuth建议选取