大家好,我是LakeShen
作为一个软件开发工程师,我从事的方向主要是大数据方向,结合我的工作经验,我个人认为,Spark不会完全取代Hadoop,Hadoop还有很多其他方面的大数据组件,这些组件是Spark所没有的,同时,Flink在未来的发展,会作为实时计算方面的一种发展趋势。下面来说一下我个人的看法:
Flink未来的发展
首先,Flink是什么?Flink一种流式处理的实时计算引擎,它消费的数据可以来自Kafka、MetaQ等消息中间件,旨在降低数据计算的延时,使得我们可以实时监控我们业务相关的指标信息。Flink 目前作为国内最火的一款实时计算引擎,国内有很多互联网大公司都使用Flink进行实时计算,阿里的Blink(Flink 阿里内部版本)、腾讯、今日头条、美团等。Flink 天然的状态管理,使得其能够应用于公司的各种有状态的实时计算。下面来看一下Flink Github上面的信息:
从上图可以看到,关注Flink的人数达到了9929位人数,同时,每天都有很多用户关注Flink。根据Apache 软件基金会2019年的财报,Flink持续活跃,其社区邮件列表在所有开源项目活跃度第一。这也意味着,Flink 目前在实时计算方面非常的火热。在加上阿里在Flink 1.9版本开源了很多 Flink SQL方面的特性,我相信,在未来,Flink在实时计算方面,是一种发展趋势。
首先,想说一件事情是,hadoop绝对不会退出舞台。目前有些言论或hadoop已死,因为已经有很多代替它的框架出现。
我想说这样的说法是不了解hadoop的组成。hadoop核心之一HDFS,这个东西目前还没有很好的技术可以取代,虽然现在也有一些技术实现,但要取代还是不可能的,不过未来应该会被取代掉,技术是不断发展的。
能够大规模分布式的存储文件,目前hdfs依然是最好的方式。我想那些说hadoop大势已去的人,更多的应该是指MR吧。
MapReduce的确是个效率低下的东西,但是我要强调的是,MR是元老,即便现在没人会去手写MR去跑任务,但我们不能不尊重MR带给我们的思想。而且,现在hive依然是跑的MR任务,也没有完全被淘汰。
那么说起Spark,的确,SparkSql可以跑离线,SparkStreaming可以跑实时,更有structureStreaming的出现让人眼前一亮。但是我要说,Spark是基于内存基础的,如果你对集群内存吃紧,有很多部门或模块共用集群跑任务,那么你还是老老实实的跑MR吧,因为Spark没内存是跑步起来的。