用最通俗易懂的方式来解释下一致性hash算法;
首先我们要明确的是一般的hash算法在取模的时候往往跟实际应用有关!
比如说nginx hash的时候,会根据后台的应用服务器数量进行取模,比如说后台有四台应用,那么hash(key)%4 =(0,1,2,3),就能获取到具体哪一台的标号,这个时候如果后台应用需要扩容,那么hash算法就要换成hash(key)%6 =(0,1,2,3,4,5),分布到六台不同的机器上去请求,看着没什么太大问题,但是如果我们把场景切换为数据库根据业务主键business_no进行hash的的分库分表结构,在切换之后,因为hash算法的改变,原本的数据落在4,但是hash结果为5,肯定查不到原来的数据,这就出现了数据查询错误问题!
而如果上述问题是出现在redis上,因为数据大量不命中,大量的查询降落在底层的数据库上,严重的话发生缓存雪崩问题,导致数据库系统乃至整个系统全部雪崩;
下面详细说下一致性hash算法(以redis存储为例),来解决上面遇到的问题:
我来给大家讲讲一致性hash算法,如果有理解错误的地方,也请大家留言指正。
单台服务器
就拿Redis来举例吧,我们经常会用Redis做缓存,把一些数据放在上面,以减少数据的压力。
当数据量少,访问压力不大的时候,通常一台Redis就能搞定,为了高可用,弄个主从也就足够了;
其实不光光是Java面试,其它编程语言的面试过程中往往也会问及一致性Hash算法问题,不少开发者可能听说过“一致性Hash”这个术语,但却不了解什么是一致性Hash,一致性Hash是用来解决什么问题的。
“Hash算法”与“一致性Hash算法”是不同的概念
不少人容易把“Hash算法”与“一致性Hash算法”混淆,甚至认为两者是同个意思。其实,“Hash算法”与“一致性Hash算法”是不同的概念,“一致性Hash算法”是一种特殊的“Hash算法”!
1、Hash算法
Hash算法有很多种说法,如:散列函数、哈希算法等,它是一种函数,用来把任意长度的内容通过Hash算法转换为固定长度的输出。
常见的Hash算法有:MD5、SHA1等。MD5都用过,任何长度的字符串经过MD5处理后会得到固长的Hash值。
一致性hash算法,常被应用到分布式集群缓存中。
其原理主要是把节点(做缓存的物理主机,如IP)和数据(要缓存的具体数据)都做一次哈希运算,然后把数据缓存到哈希运算后离得最近的节点上去。
此处借个图
其中,右边的深蓝色的表示节点,橘色的表示数据,然后按顺时针方向去寻找最近的节点就可以了……
环割法(一致性 hash)
环割法的原理如下:
1. 初始化的时候生成分片数量 X × 环割数量 N 的固定方式编号的字符串,例如 SHARD-1-NODE-1,并计算所有 X×N 个字符串的所有 hash 值。
2. 将所有计算出来的 hash 值放到一个排序的 Map 中,并将其中的所有元素进行排序。
3. 输入字符串的时候计算输入字符串的 hash 值,查看 hash 值介于哪两个元素之间,取小于 hash 值的那个元素对应的分片为数据的分片。
举个应用场景:分布式存储
现在互联网面对的都是海量的数据和海量的用户,我们为了提高数据的读取,写入能力,一般都采用分布式的方式来存储数据,比如分布式缓存。我们有海量的数据需要缓存,所以一台机器是肯定不够的,于是我们需要将数据分布在多台机器上。
该如何决定哪些数据放在那台机器上,可以借助数据分片的思想,采用hash算法对数据取hash值,然后对机器取模,这个最终值就是存储缓存的机器编号。
但是如果数据增多,原来的10台机器不够,需要扩容到13台机器,那么原来数据是通过与10来取模的,比如15这个数据,与10取模就是5,现在与13取模就是2。机器的编号完全变了,扩容并不是简单的增加机器,而是需要重新计算机器上的缓存存储位置。这无疑是一件很头疼的问题。
所以,我们需要一种方法,是的新加入机器后,并不需要做大量的数据搬迁,这时候就需要用到一致性hash算法了。