大数据技术其实也有很多方向
1.etl方向,主要做数据转换,清冼等,需要掌握的技术etl,如 kettle,informatica,sqoop,datax等等
2.大数据运维方向,需要掌握linux,hadoop,hive,hbase,es等组件的安装运维调优
3.后台开发方向,需要JAVA,PYTHON,熟悉各种大数据组件API
4.前端方向,数据可视化方向,如tableau,quickview,biee,js,vue.js等等
分布式文件系统HDFS、初高级MapReduce、ZooKeeper、HBase、Pig、Hive、Sqoop、Storm等
大数据的技能要求
此处我们来说说入门学习需要掌握的基本技能:
根据网友提问,对大数据入门初学者最关系的问题加米谷大数据进行了整理,关于大数据学的前景、学习情况、学习路径等都做了解答,全文请看:《加米谷大数据整理:0基础大数据初学者最关心的7个问题》http://blog.sina.com.cn/s/blog_17c01ad2f0102xsqf.html
1、Java
2、Linux命令
3、HDFS
首先得搭建一个完全分布式集群,可以用vmware虚拟机。入门的话,首先得了解hadoop生态,数据存储hdfs,第一代计算框架mapreduce,资源调度yarn,分布式协调服务zookeeper,辅助工具Common,分布式数据库hbase,数据仓库hive这些必不可少。
然后就是第二代计算框架spark,这里又包含了spark生态圈,数据挖掘spark mlib,数据分析sparkR,数据查询spark sql,实时计算spark straming。这些搞定之后,你就可以成为一个合格的大数据工程师了[呲牙]
学习大数据,如果你是零基础的话要学习java和linux,然后才开始学习大数据技术
包括:(HADOOP-HIVE-OOZIE-WEB-SPARK-SCALA-KAFKA-HBASE-PYTHON-FLUME)
当然学习大数据最重要的是要有真实的大数据项目可以实训!
我们都知道现在学习大数据,Hadoop是其中一个必学的技术,简单来说,Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法。那Hadoop该学习哪些内容?需要了解什么呢?有Hadoop经典学习资料吗?
HDFS
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。
MapReduce