1
二、大数据的工作方向,主要分为:
1. 大数据工程师
2. 数据分析师
3. 大数据科学家
4. 其他(数据挖掘等)
2
spark,下一代hadoop。spark的生态比hadoop更全面,更有优势,推荐关注学习。
3
光Hadoop那一套就够喝一壶的。搞好这个已经很不容易。如果还要进阶,分两个方向发展,一个是继续走Hadoop类的数据基础设施达人之路,spark、kafka、storm、分布式rdbs等一系列架构。第二是走机器学习类的数据应用牛人之路,经典的学习算法、CNN、rnn那一套,tf、caffe2之类的框架,Python、r数据分析利器都需要了解使用。
这两个是所有拥有大量数据的企业必须面对的问题。所以走那一条都会有钱途。但个人觉得,第二条显然要更好玩更有趣。TB、pb级的数据日常接触不到也没有实用可能,但机器学习算法就不同了。脑洞大开可以玩到很多有意思的东西哦!
4
hadoop可以处理离线数据,spark可以处理离线或者实时数据,然而,现在机器学习,人工智能很火,人工智能的浪潮正在席卷全球,诸多词汇时刻萦绕在我们耳边:人工智能(Artificial Intelligence)、机器学习(Machine Learning)、深度学习(Deep Learning)。不少人对这些高频词汇的含义及其背后的关系总是似懂非懂、一知半解。所以,今后的学习方向应该以这些为主。为中国人工智能而努力。