大数据需要学习什么框架,什么生态圈?

1

现行的主要有以下四个比较流行的框架。

Hadoop

Hadoop无疑是大数据领域的第一站,这个由Apache基金会开发的分布式基础架构,具有广阔的生态圈。Hadoop提出的Map和Reduce的计算模式简洁而优雅,它实现了大量算法和组件。但是,由于Hadoop的计算任务需要在集群的多个节点上多次读写,因此在速度上会稍显劣势,但是Hadoop的吞吐量也同样是其他框架所不能匹敌的。

Storm

Storm是Twitter开源的大数据框架,Hadoop的批处理模式不同,Storm采用的是流计算框架。但Storm与Hadoop相似之处是也提出了Spout和Bolt两个计算角色。举个通俗的例子来说明Storm和Hadoop的不同之处,Hadoop类似水桶,而Storm类似水龙头,想要获取水,Hadoop是一桶一桶的去扛回来,而Storm只需要打开水龙头就行了。Storm流计算框架使用的是内存,延迟上具有优势,但是不会持久化数据。Storm对Java、Ruby、Python等语言都有很好的支持。

2

主要还是把Java基础搞扎实,Java强悍了,其他工具会用就行,大多源码都是Java写的,要深入了解源码才有竞争力,

3

第一阶段Java语言基础阶段

第二阶段Linux系统&Hadoop生态体系

第三阶段分布式计算框架

第四阶段大数据实战项目

第五阶段大数据分析

4

首先把java学好吧,后面就是Hadoop、Spark这些的,实时流目前比较流行的还是Storm、Flink这些

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章