1
目前比较常见的大数据平台有Hadoop和Spark,流行的商用大数据平台也大多是基于Hadoop和Spark构建的,只不过商用大数据平台在部署方便性和稳定性等方面有所提高。
Hadoop平台是基于Java语言开发的,所以不少大数据程序员在Hadoop平台的第一个实验往往都是使用Java完成的。Hadoop平台除了可以使用Java语言外,还支持Python语言,由于Python语言本身比较简洁且调整起来比较方便,所以目前得到了广大程序员的喜爱。
Spark平台的开发是基于Scala语言的,所以在Spark平台下的研发比较倾向于使用Scala语言,Scala语言兼顾了Java的性能和Ruby的乐趣,所以很多程序员比较喜欢Scala的编写风格。Spark平台下除了可以使用Scala外,还可以使用Java或Python语言,个人比较推荐在Spark平台下使用Scala语言。
所以,做大数据平台的研发工作,Java、Python、Scala都是比较常见的工具语言,作为研发人员最好都接触一下,以便于在特定的场景使用对应的开发语言。建议从Python开始学起,然后再学习Java和Scala,Python比较容易上手,Scala是Java语言发展而来的,所以按照这个顺序学习会比较轻松一些。
我使用Java、Python的时间比较长,我在头条上陆续写了关于Java和Python的学习文章,想学习的朋友可以关注我的头条号,相信一定会有所收获。
2
大数据,我也是刚接触,说一点自己的体会。
首先,大数据就业可以分为,从编程语言相关的角度看,数据分析师,和数据工程人员需要使用编程语言,Python,Java,Scala等。
从目前企业应用来看,数据分析人员主要使用Python,做数据分析,数据可视化,等。