国内,根据数联寻英发布《大数据人才报告》,目前全国的大数据人才仅46万,3-5年内大数据人才的缺口将高达150万。
机器学习职位薪水范围:12k--30K,最大值30k+若干股票,最小值12k+若干期权;
数据挖掘薪水范围:12k--30K,最大值30k+若干股票,最小值12k。
想做数据处理尤其是大数据量处理的相关工作必须兼具计算机科学基础和统计基础。
现在有一个高大上的职业叫数据科学家,
有人说数据科学家就是一个比程序员更懂统计的统计学家,一个比统计学家更会编程的程序员。
数学
有很多知识还需要作为基础来学习和巩固。 是学习和巩固,不是必须会,是要知道了解,用的时候知道去哪里翻书找资料
比如,
基础知识:线性代数,概率论
核心知识 :数理统计、 预测模型 、机器学习、时间序列分析、应用回归、多元统计分析
计算机
数学软件:强大矩阵运算和优化功能的matlab,专而精的mathematica。
语言:
python(很流行的科学语言,潜力也很大,ipython这样交互式环境十分有利)
fortran(强大的计算语言,充分优化的现成代码)
R(相比于matlab,java,c,R是个高富帅)
这是数据分析各类语言使用度的图表,R占的比例相当高。想利用现在动辄TB级的数据大显身手,光靠excel可不够啊。你真的需要写很多代码…
实践
1. 自己装个小集群跑hadoop/hive,可以到cloudera网站上下现成的打包虚拟机。看看hadoop in action. 这本书比权威指南容易懂很多。
2. 装个cassandra什么的玩玩,在上面架个小项目,比如留言板什么的。。。
3. 读一些著名的paper,nosql的或者mapreduce。
4. 看看apache hadoop家族的其他几个项目,比如zookeeper,pig,了解一下生态圈
找个开源项目,看看ticket list,看看能不能自己修。。。