哈希值( 二 )

关键字查找数据记录 。(注意:关键字不是像在加密中所使用的那样是秘密的,但它们都是用来“解锁”或者访问数据的 。)例如,在英语字典中的关键字是英文单词,和它们相关的记录包含这些单词的定义 。在这种情况下,散列函式必须把按照字母顺序排列的字元串映射到为散列表的内部数组所创建的索引上 。散列表散列函式的几乎不可能/不切实际的理想是把每个关键字映射到唯一的索引上(参考完美散列),因为这样能够保证直接访问表中的每一个数据 。一个好的散列函式(包括大多数加密散列函式)具有均匀的真正随机输出,因而平均只需要一两次探测(依赖于装填因子)就能找到目标 。同样重要的是,随机散列函式不太会出现非常高的冲突率 。但是,少量的可以估计的冲突在实际状况下是不可避免的(参考生日悖论或鸽洞原理) 。在很多情况下,heuristic散列函式所产生的冲突比随机散列函式少的多 。Heuristic函式利用了相似关键字的相似性 。例如,可以设计一个heuristic函式使得像FILE0000.CHK,FILE0001.CHK,FILE0002.CHK,等等这样的档案名称映射到表的连续指针上,也就是说这样的序列不会发生冲突 。相比之下,对于一组好的关键字性能出色的随机散列函式,对于一组坏的关键字经常性能很差,这种坏的关键字会自然产生而不仅仅在攻击中才出现 。性能不佳的散列函式表意味着查找操作会退化为费时的线性搜寻 。错误校正主条目:错误校正与检测使用一个散列函式可以很直观的检测出数据在传输时发生的错误 。在数据的传送方,对将要传送的数据套用散列函式,并将计算的结果同原始数据一同传送 。在数据的接收方,同样的散列函式被再一次套用到接收到的数据上,如果两次散列函式计算出来的结果不一致,那幺就说明数据在传输的过程中某些地方有错误了 。这就叫做冗余校验 。校正错误时,至少会对可能出现的扰动大致假定一个分布模式 。对于一个信息串的微扰可以被分为两类,大的(不可能的)错误和小的(可能的)错误 。我们对于第二类错误重新定义如下,假如给定H(x)和x+s,那幺只要s足够小,我们就能有效的计算出x 。那样的散列函式被称作错误校正编码 。这些错误校正编码有两个重要的分类:循环冗余校验和里德-所罗门码 。语音识别对于像从一个已知列表中匹配一个MP3档案这样的套用,一种可能的方案是使用传统的散列函式——例如MD5,但是这种方案会对时间平移、CD读取错误、不同的音频压缩算法或者音量调整的实现机制等情况非常敏感 。使用一些类似于MD5的方法有利于迅速找到那些严格相同(从音频档案的二进制数据来看)的音频档案,但是要找到全部相同(从音频档案的内容来看)的音频档案就需要使用其他更高级的算法了 。那些并不紧随IT工业潮流的人往往能反其道而行之,对于那些微小差异足够健壮的散列函式确实存在 。现存的绝大多数散列算法都是不够健壮的,但是有少数散列算法能够达到辨别从嘈杂房间里的扬声器里播放出来的音乐的健壮性 。有一个实际的例子是Shazam服务 。用户可以用手机打开其app,并将话筒靠近用于播放音乐的扬声器 。该项服务会分析正在播放的音乐,并将它于存储在资料库中的已知的散列值进行比较 。用户就能够收到被识别的音乐的曲名 。Rabin-Karp字元串搜寻算法Rabin-Karp字元串搜寻算法是一个相对快速的字元串搜寻算法,它所需要的平均搜寻时间是O(n).这个算法是创建在使用散列来比较字元串的基础上的 。套用HASH是根据档案的内容的数据通过逻辑运算得到的数值, 不同的档案(即使是相同的档案名称)得到的HASH值是不同的, 所以HASH值就成了每一个档案在电驴(eMule)里的身份证 。不同HASH值的档案在电驴(eMule)里被认为是不同的档案,相同的HASH值的档案的内容肯定是完全相同(即使档案名称不同) 。HASH值还有档案校验的功能,相当于档案的校验码. 所以还可以用来检查档案下载是否正确(所以电驴“eMule”下载完毕时,都会再HASH档案一遍, 检查档案是否出错) 。