大数据时代,为何分层存储技术不可或缺?
个人认为,对数据使用分层存储技术,是因为互联网对于不同业务数据使用场景所导致的,针对不同数据进行分层存储,满足对的分层存储,用在对的业务场景。比如对于某些需要经常使用到的数据,列如用户方面数据,这部分数据虽然存储在数据库中,但由于业务需要为用户展示其个人具体信息,因此需要对数据库请求比较频繁,为了更快的将数据返回到用户,这部分往往会被划分为热数据层。
相对于那些使用较少的数据,纯粹是为了存储历史数据。这部分的数据在存储后几乎不会在进行使用,所以这部分数据会被划分到冷数据层。
01
热数据由于经常使用,需要将其存储到更快的存储介质中
热数据的一个最大特点,就是业务系统或者软件需要经常请求这部分数据,然后展示到软件,供用户进行浏览和查看。所以这部分数据,从请求到数据返回,整体流程的时延要求非常低,比如毫秒级别,时间如果太久,就会影响到用户的体验。
在数据库访问过程中,从磁盘到内存是一个非常耗时的地方。所以对于热数据的访问,一般会将热数据存储在SSD这种固态存储介质中,这样在数据从磁盘加载到内存时,整体过程的时间会降低,从而降低数据的访问时延。
当然,使用固态存储介质的成本较高,所以需要对数据进行分层,到底哪些数据是热数据。只将热数据存储在固态存储介质中,既能够降低数据访问流程的时间消耗,也能够减少全部数据都存储在固态硬盘所带来的成本。
02
冷数据一般由于业务使用非常少,只为了数据备份使用,一般使用廉价的存储介质存储
冷数据,顾名思义,这部分业务数据使用的场景非常少,一般只是为了将该部分数据进行存储,防止数据丢失。比如视频监控数据,这部分数据往往产生3、4天后,其数据就已经没有什么价值,所以这部分数据往往会选择存储在较为廉价的磁盘上,仅供数存档保留,这部分数据可能永远都不会使用。
冷数据还有一个特点,就是这部分数据往往要比热数据多。互联网公司虽然每天线上业务都能够产生大量的数据,但其中有很多数据是很难应用到业务场景的,只是为了能够将数据进行备份,应对在将来的某些情况来进行使用,比如去恢复其他数据等等。这部分数据使用廉价存储介质进行存储,也更好的为公司降低成本。
03
冷热数据分层,对于不同特点的数据,运维同学也更好维护
热数据敏感度较高,在较快的存储介质上进行存储,运维同学也会根据其业务特点,重点对这部分进行稳定性维护,所以这部分数据有问题时,其问题处理优先级是最高的。运维同学也会将更多精力放在热数据的维护上。
对于冷数据而言,数据就没有那么重要的,这部分数据即使出了问题,运维同学无需那么紧张着急。运维同学可以按照自己的节奏来进行处理。热数据稳定重点保障,冷数据数据保证不丢,运维同学也能够更好的安排自己的事情,优先的事,优先处理。
我是Lake,专注大数据技术原理、人工智能、数据库技术、程序员经验分享,如果我的问答对你有帮助的话,希望你能点赞关注我,感谢。
我会持续大数据、数据库方面的内容,如果你有任何问题,也欢迎关注私信我,我会认真解答每一个问题。