大数据技术体系是java和scala
书籍的话,要根据自身情况决定
学习大数据技术前提需要
必须会java技术
必须会linux技术
C语言属于高级语言中比较底层语言,大数据行业从业者专业除了理工科之外,还有大量财经、统计、社科类专业呢,无论是专业背景还是学习成本不不可能让这些群体用C啊。
再者R和Python这种高级语言本就针对数据处理设计的,有丰富的数据处理工具和模块,学习成本低,代码书写效率高,执行效率什么的,这应该是后期部署的时候,工程师们负责优化的工作。
总之,大数据处理使用Python是比较合适的。
学大数据个人觉得最好的语言是scala,因为大数据主流spark源码是使用scala编写的, 所以熟悉scala语言,才能更好地看懂源码。书籍一般推荐入门级的:saprk快速大数据分析、快学scala、scala编程
大数据体系,毫无疑问是java scala的语言体系,虽然大部分开源软件提供Python借口,但是他们的实现语言都是java或者scala。从这点上说,java scala语音是学习首选,大数据书的话 推荐权威指南系列,无论是hadoop权威指南hbase权威指南入门,其次大数据相关组件,都要学习了解一下,我个人比较推荐看软件官方网站,前提你英语过关,耐得住性子。[机智]
大数据首选Python语言,Python语言语法简单,非常容易上手,虽然运行速度不如C语言,但是C语言100行代码完成的功能Python往往只需要10行,非常适合数据分析,有非常多的库文件,在大数据时代发展极快!
首先了解下大数据分析流程,大数据分析流程总共有6个步骤,分别是:1.业务理解;2. 数据采集;3. 数据存储;4. 数据预处理;5. 数据分析;6.数据可视化。可根据各个流程使用的工具来了解自己要学的工具;
数据采集里边我们介绍了网络数据采集法、系统日志采集法,网络数据采集法的网络爬虫工具,系统日志采集法分为离线和实时采集,离线采集使用的工具是Hadoop,实时采集使用的工具是flume+kafka。数据存储里边我们介绍了存储业务数据的数据库MySQL和HBASE、存储日志数据的HDFS。数据分析主要是利用分析方法、分析工具以及各种模型和算法对采集来的以及预处理过的数据进行分析。数据分析的工具:MapReduce和Spark。数据可视化的工具:PowerBI。
对于以上的大数据分析流程都要求我们具备一定的编程基础,当下比较火的,用的比较多的是python编程语言,python比较快捷且容易上手和理解,因而它比较偏上层,而Java、C、C++等都比较偏底层;如果做偏业务类的数据分析python就够了,但是如果想走数据科技这条线,底层语言的JAVA、C是需要掌握的。
希望对你有帮助哦~
Python
如果是大数据平台的搭建和任务编写,还是要java scala。如果调用大数据平台进行数据处理,可以用python。
大数据首选Python语言,Python语言语法简单,非常容易上手,虽然运行速度不如C语言,但是C语言100行代码完成的功能Python往往只需要10行,非常适合数据分析,有非常多的库文件,在大数据时代发展极快!