当数据量很大时,单台机器已经不能够在存储和计算这么大量的数据,需要引用到分布式技术来处理这些数据。Hadoop 作为一种大数据处理系统,包括分布式文件存储、分布式计算、以及资源管理,使用 Hadoop,可以解决大数据量的存储和计算的问题。
同时 Hadoop 是一款开源大数据组件,很多公司直接使用 Hadoop 技术,就可以满足公司内部的离线业务需求,技术成本很低。
Hadoop 文件系统将数据量大的文件分布式存储在不同机器,解决数据量大不能存储问题
Hadoop 中 HDFS 分布式文件系统,通过对数据体量非常大的文件进行分块,每个块默认 256 兆,将其分成数据量较小的多个块,然后对每个数据块在进行数据备份存储,一个数据块有三个数据副本,冗余的存储在集群上,通过数据冗余解决数据容错问题。
打个比方,你的一个文件大小为 1 TB 大小,单台机器磁盘 500 G 存不下。此时你将文件存储在 HDFS 文件系统上,那么该文件最终会按照 256 兆一个数据块,划分成 4000块,分布式的存储在 Hadoop 集群上面,每台机器都会存储这个文件的一个数据子集,这样就解决了数据量大单机不能存储的问题。
处理海量数据时,为什么传统数据库不灵了,为什么hadoop可以?下面分别阐述:
为什么传统数据库不灵了——传统数据库的极限
传统数据库的极限是单个机器所能达到的极限,都受限于单台服务器的极限。
- CPU/内存/磁盘空间不是无限扩容的;
- 随着越来越接近极限,升级单位性能所花费用越大,性价比越低;
- 备份恢复等需要单独维护,如果要达到高可靠,维护成本高;
为什么hadoop可以——hadoop的优势
1. 存储突破单机极限,且性价比高由于它可以由多个廉价的小型机组成,因此它的存储空间是可以无限扩展的;
同时由于小型机的廉价,由它们组成的分布式Hadoop系统也是性价比极高的。
2. 计算突破单机极限
1.在Hadoop 出现之前,高性能计算和网格计算一直是处理大数据问题主要的使用方法和工具,它们主要采用消息传递接口(Message Passing Interface,MPI)提供的API 来处理大数据。
2008年,Hadoop击败了超级计算机,成为地球上处理分析TB级数据最快的系统。
Hadoop是一个开源软件框架,用于存储和处理大小从千兆字节到PB的大型数据集。Hadoop是由Apache Software Foundation开发的。
Hadoop击败了超级计算机,极大降低了成本
支持一个十亿页索引的系统的硬件成本约为500,000美元,每月运行成本为30,000美元,可以说成本很高,Hadoop分布式系统完美解决了这个问题。
因为传统存储方式对大数据量存储并不友好,写入和读出速度都很慢,而且因为没有冗余备份的话,大量数据的读写容易导致硬盘出现故障,数据容易丢失。
Hadoop系统在保证了系统存储速度快速高效的前提下,自动形成冗余备份,即便丢失一部分副本,也可以通过剩余的副本恢复数据,而且因为副本的存在,不需要再进行额外的容灾工作。
Hadoop提供了良好的函数封装,开发者实际上只需要实现map和reduce函数就可以了,不需要过度关心底层如何实现,提高开发速度,降低难度。
古人云:分久必合,合久必分。处理大量甚至更多的数据,两种方法,一是单台机器增加计算与存储能力,二是把数据分成小份,在更多的普通机器上运行,显然第二种方法更经济,但是需要增加代码去分开计算,网络节点之间也需要传输数据,分开的数据也是需要最后汇总统计等等
两点:
1. 分布式,把大量数据分割成小量数据,递交给整个数据集群来处理。
2. Replication,多个副本分散在集群,保证数据完整与灾难恢复。
事实上,Hadoop正在逐步衰落,Spark已经可以在Kubernetes上运行。AWS S3也已支持Spark。