1
现行的主要有以下四个比较流行的框架。
Hadoop
Hadoop无疑是大数据领域的第一站,这个由Apache基金会开发的分布式基础架构,具有广阔的生态圈。Hadoop提出的Map和Reduce的计算模式简洁而优雅,它实现了大量算法和组件。但是,由于Hadoop的计算任务需要在集群的多个节点上多次读写,因此在速度上会稍显劣势,但是Hadoop的吞吐量也同样是其他框架所不能匹敌的。
Storm
Storm是Twitter开源的大数据框架,Hadoop的批处理模式不同,Storm采用的是流计算框架。但Storm与Hadoop相似之处是也提出了Spout和Bolt两个计算角色。举个通俗的例子来说明Storm和Hadoop的不同之处,Hadoop类似水桶,而Storm类似水龙头,想要获取水,Hadoop是一桶一桶的去扛回来,而Storm只需要打开水龙头就行了。Storm流计算框架使用的是内存,延迟上具有优势,但是不会持久化数据。Storm对Java、Ruby、Python等语言都有很好的支持。
2
主要还是把Java基础搞扎实,Java强悍了,其他工具会用就行,大多源码都是Java写的,要深入了解源码才有竞争力,
3
第一阶段Java语言基础阶段
第二阶段Linux系统&Hadoop生态体系
第三阶段分布式计算框架
第四阶段大数据实战项目
第五阶段大数据分析
4
首先把java学好吧,后面就是Hadoop、Spark这些的,实时流目前比较流行的还是Storm、Flink这些