1、熟练使用SQL语言;
2、熟练使用Hadoop、M/R、Hive、Storm等开发工具;
3、熟悉Linux命令及Shell编程;
4、对数据敏感,良好的逻辑分析能力,良好沟通能力和团队精神;
5、熟悉Impala、Druid、Mdrill、ElasticSearch等大数据工具
大数据都在大公司手里,国内的阿里,腾讯,字节跳动,百度,蚂蚁金服,大数据行业也就是这几家说了算
有java基础学习大数据还是比较容易的,但是这个还是要看你的java基础到底怎么样了,基础好的话倒是没什么问题。自学是个选择,但是不一定是个好的选择,自学的弊端相信你应该是知道的,周期长,可能中间坚持不了就想放弃了,有问题和不能解决的困难也没有人问,这是个很大的问题。另外一种学习就是去培训机构了,虽然说有的机构坑,但是也有好的,我知道科多大数据,现在已经有很多班在学习了,有的人说培训机构出来达不到企业的要求,我看不一定,他们的学员刚学出来没有工作经验也有7000,当然这是大数据人才匮乏也是原因之一。
建议先学习下hadoop的基础,hdfs、mapreduce、yarn的基本知识,然后开始上手spark,spark可以看看databricks的指导资资料,databricks还有公开课,多写一些应用,对Rdd(DataFrame)、sparkSql、sparkStreaming的应用都有一定的开发经验后,就可以尝试阅读spark的源码,学习其设计思想,即使以后不做底层,只是开发应用,那也有助于你写出更好的应用。有了这些基础知识,对行业的理解也深了,选一个方向,深入进去做。学习Spark的话,databricks官方有很多例子,还有他们团队的博客,有很多含金量比较高的资料。有条件的话,多在集群上处理大规模的数据。
可以了解一下大数据的处理和展示。例如数据清洗,数据可视化。