大数据是我的主要研究方向之一,所以我来一下这个问题。
做数据分析也有很多不同的岗位,虽然都是数据分析但是分析的过程和使用的工具也有很大的区别。比如应用级数据分析员往往通过各种工具软件来完成数据的分析和整理,传统做BI的工程师大多需要掌握数据库知识和业务知识,对编程语言几乎没有任何要求。其实,未来企业使用的更多的数据分析人员是这种应用级数据分析员,简单的说就是做场景数据分析。
另外一种数据分析就是研发级数据分析,这部分数据分析任务往往要结合机器学习等技术来实现,需要掌握各种常见的数据分析算法,以及使用编程语言来实现这些算法,然后由实现工程师完成应用实现。
数据分析的过程涉及到数据采集、整理(清洗、脱敏、归并等过程)、算法设计、算法训练、算法应用等步骤,算法实现则需要使用编程语言来实现,而目前使用较多的语言是Python。我在早期做大数据的时候使用的就是Java,后来改用Python,我比较推荐使用Python来做大数据分析,使用Python确实比较方便。
所以,做大数据分析,如果做研发级数据分析当然需要学习编程语言,但是并不是所有的数据分析师都需要编程。
①大数据分析常用的开发开发框架haoop,spark等都是由Java系语言编写的,所以Java系语言(如scale语言)是学习大数据的基础,只有这样你才能看懂数据处理逻辑,有时还需要看源码来处理问题。
②Python语言代码简洁,有丰富的科学数据处理库,善于处理多维数组运算,矩阵运算等复杂数据计算,是大数据分析和机器学习的首选语言。
③引用大神们的一句话总结这个问答“抛开使用场景和用户需求来空谈技术,都TM是耍流氓”。
大数据培训学习主要分为:大数据开发、数据分析与挖掘。
一般说的大数据培训是指大数据开发,需要学习Java;
数据分析与挖掘学习Python;
二者的入门学习确实要从这些语言开始,如果你选择其中一个学习,选择相应的编程语言开始学习即可。
感请,大数据分析不一定从语言学起,是应该从分析方法学起,JAVA和python是目前大数据应用对接比较广泛的语言,但是也有其他语言比如scala,R语言等。最好的学习方法是边学边动手进行实验,选好一个语言可以语言学习和方法学习同时进行
是的,要从这些语言开始学习。
java:写分布式的实现,如mr,graph,spark(scala),其中scale是大数据的基础,只有这样才能看懂数据处理。
python:写udf,数据处理,单机版,gpu版,脚本。python代码很好上手学习,而且有很多数据库可以直接拿来用。
但你要知道他们两个分别可以做什么,在数据挖掘领域的话,python对java有很大的优势。除了语言灵活简单之外,数据挖掘相关的库丰富强大也是一个非常重要的原因。而且现在很多数据挖掘数据的工具,都会提供python的接口。
除了数据挖掘这分析之外,比如爬虫,后台等,还有很多强大的轮子可以用。