大数据,说白了就是从海量数据中挖掘那些潜在的、有价值的信息,作为一个研究生,偏重的还是科研和理论,学习哪门语言都是其次,我主要说一下我的理解吧。
1.首先你要学会基本的获取数据,不管是爬虫,从网上获取还是别人已给好的数据,其次,你要学会对数据进行预处理,清洗数据,将数据转化为你需要的格式,方便后续计算处理。
2.学习数理统计,概率论,线性代数,神经网络,机器学习等这些数据分析的理论,数据已经获取,最重要的还是挖掘有价值的信息,如何将现有理论应用其中,通过学习型算法发觉潜在的规律才是重点,这也是科研研究的重要方向。
3.得到结果后,要对训练的模型进行整体评估,它的精确略,不足,如何调整参数达到最优等,其次要学会可视化显示出来,图片更能直关的展示结果。
4.至于哪门编程语言,我个人推荐还是python和r语言吧,这两门语言在数据分析和处理方面都不错,而且也比较热,至于软件的话可以使用一下SPSS,也不错,至于平台的话,可以学习一下hadoop,spark等。
作为一名计算机专业的教育工作者,我来一下这个问题。
首先,大数据与数据挖掘是一个大的研究方向,在这个大的研究方向下还有很多细分研究方向,研究生要结合自己所处的科研环境(课题组),以及导师的具体要求来制定学习方案。
对于大数据与数据挖掘方向的研究生来说,在制定学习计划时,要结合自己未来的发展规划,如果要从事开发岗位,那么需要重点关注三方面内容,其一是编程语言的学习,当前开发岗可以重点学习一下Java,其二是大数据平台的学习,大数据平台的内容比较多,学习周期也相对比较长,其三是积累行业场景知识,大数据开发与行业场景的结合非常紧密。
目前对于硕士研究生来说,选择主攻开发岗位会更容易实现就业,而且开发岗位的人才需求类型也比较多元化。随着工业互联网的落地应用,未来产业领域会释放出大量的高端应用型人才需求,所以如果没有继续读博的计划,一定要重视多做一些与产业领域相结合的科研实践。
如果未来要从事算法岗,那么也需要重视三方面内容的学习,其一是编程语言的学习,当前编程能力对于算法岗位也是比较重要的,算法工程师也需要完成一些程序设计任务,其二是算法相关知识的学习,其三是机器学习知识,包括深度学习等内容。近几年算法岗的竞争还是比较激烈的,但是进入到2021年之后,算法岗的需求有所复苏,未来可能呈现出一个温和的上升趋势。
数据分析已经有多年的发展历史了。从20世纪90年代早期的商务智能报表、多维分析等信息获取类工具分析企业运营的问题、预测业务发展趋势,到最近10多年机器学习在工业界的大量成功应用,尤其是大数据技术的兴起,数据产生的速度和数据量前所未有,数据分析的方法和工具能力日新月异,企业对数据加工的深度和利用率获得前所未有的提升。从数据中探查业务相关的信息和知识,并实现数据的价值,数据分析普遍成为各行各业企业竞争的工具。
数据分析是机器智能的基础。就目前的数据收集、加工水平来看,数据分析并不是万能的。业务数据还存在着质量问题,机器学习的算法对含噪声数据的处理效果并不理想。另外,尽管数据量增加迅速,但与业务领域有关的全量数据收集还比较困难,数据孤岛还广泛存在。在企业界,最近几年颇有影响的深度学习算法在图像识别、语音处理、语义理解等领域取得了引人注目的成绩,机器智能在某些领域的表现超过人类,为人类的思维提供了有价值的信息和知识,辅助人类更好地解决问题。但必须看到,机器智能基本还限制在模拟人的智能的层次,应用范围还有一定的局限。人类对自身大脑的结构和思维机理认识还在探索中。在这种情况下,人的思维或心智,尤其是在常识推理、创新性设计、基于情感的价值判断等领域,机器智能还望尘莫及。而机器在统计推理、大规模计算等方面远超过人类,可以帮助人们发现一些有用的信息和模式。人的心智和机器智能结合(后文称为人机共生)将会大大提升业务决策的质量。因此,如何结合机器智能与人的思维能力来改善企业各层人员的决策能力就成为一个重要的问题。
本书分为三个部分,分别阐述在结合人的心智和机器智能过程中如何避免数据分析的错误认识、实现人机共生的机会以及主要方法。
首先针对人机共生(mind+machine)的问题,总结了在业界流行的一些常见偏见,它们会阻碍人们充分利用数据分析。这些对数据分析的谬误性认识,存在于很多企业中。这些认识包括对大数据分析的过度崇拜、数据量的大小对分析结果的影响、数据治理、数据分析团队、组织重组对数据分析的影响、知识管理对分析用例投资回报率的影响、机器智能的能力高估、数据分析项目的风险等方面。对于成功的数据分析项目,如何避免这些问题、培养正确的数据思维和数据价值观,作者都给出了详细的讨论。
机器智能和人的心智各有所长,互为补充,因此人机共生是未来数据分析的最好方式,这在很多行业的应用中都得到了证明。第二部分讨论了为人机共生带来有利机会的13个趋势,从云计算与移动应用、物联网的应用、知识环的监管、多客户端应用、数据隐私保护、共享经济、知识管理、工作流与自动化、人机交互、外包合作等方面讨论了促进人机共生的手段。对于需要开展数据分析的企业而言,这些手段对充分利用上述这些前所未有的机会,提升数据分析项目的成功率,实现数据的变现价值,都具有重要的参考价值。
和你分享一下我的学习经历吧,看你你就差不多知道啦!
我刚开始学习接触编程时,是接触的C语言,然后是C++,后来就是Java。当我第一次接触Java时,就深深地爱上了它,因为它简单,易懂。之后接触JavaWeb,开始学些开发后端的技术。那时大数据也比较火热,再加上自己本身就是数学出生,大数据对我来说就是一个很好的选择啦。
慢慢地我就开始接触大数据,从JavaSE学起,接着学习Linux系统,其中Linux中有CentOS和ubuntu,这两者个人觉得都好用。接着学习地就是Hadoop,它包括两大块HDFS(分布式文件系统)和MapReduce(并行计算框架),虽说MapReduce现在用的少了,但是学习它之后,对你以后学习更好的并行计算框架来说有很多的好处。接着就可以学习数据仓库Hive,Hive的底层实现其实就是MapReduce,它使用的SQL语言叫做HQL,之前学过MySQL数据库的话,很容易上手,但是想更深的了解Hive的话,还需学习MapReduce,Hive它用于OLAP,不支持事务性。接着再学习HBase面向列族的分布式数据库,它支持事务操作,但是在实践中个人感觉不太好使。它是架在Hadoop之上的数据库,适用于随机访问,实时读写。然而有了大量的数据之后,如何更好的把来源不同的数据导入到自己想要用的数据库中呢,可以使用Sqoop,个人认为它简单好用,方便。
接下来就可以学习Flume,它是一个分布式的收集日志的框架,可以处理很多种类型的文件。接着就学习Kafka,它是一个消息发布订阅实时处理系统。具有高吞吐量的能力。接着可以学习Strom ,实时的流计算框架。可以高速的攫取数据,可以执行各种数据的并行计算。接下来就可以学习Spark,Spark由SparkSQL、Spark Streaming、MLlib、Graph等组成,可以解决Batch Processing、Stream Processing、Ad-hocQuery(即席查询)等三大核心问题。Spark确实相比于MapReduce来说要快很多,毕竟它是基于内存计算的框架。
接下来还可以学习数据分析,数据挖掘,机器学习等相关的知识。