1
2019年,对于大的互联网公司来说,已经渐渐开始不用Hadoop的MapReduce计算框架,不过对于一些小公司,还是会使用Hadoop作为数据处理的一种方案。
Hadoop自2006年开源以来,最初来源谷歌的两篇文章,GFS和MapReduce。到现在还有很多互联网公司进行使用。不过由于大的互联网公司强大的自己研发实力,已经慢慢开始弃用Hadoop,转而开始通过自研来解决公司的大数据计算场景。
大公司为什么开始弃用Hadoop MapReduce?
Hadoop整体包含三个模块:MapReduce、HDFS、Yarn。MapReduce是Hadoop的分布式计算框架,在对大数据文件进行数据处理的,会先对文件进行分片,每一个都是一个人Map任务,所以一个大文件,会有多个Map任务同时处理,每个Map任务只处理部分数据:
2
目前云驱动数据处理和分析呈上升趋势,我们在本文中来分析下,Apache Hadoop 在 2019 年是否还是一个可选方案。
从我第一次使用 Apache Hadoop 生态系统开始,围绕着“大数据”和“机器学习”两个术语,很多事情已经变得很不一样。在本文中,我们来分析下从那之后发生了什么,以及它在 2019 年与高效的托管云服务相比又如何。