如何成为一个大数据工程师?这个问题挺好的,我想很多人都想知道,毕竟现在大数据挺火的,我结合我的个人经验来说吧,大数据开发工程师,首先你得熟悉关系型数据库,比如Oracle或者MySQL,熟悉之后,有利于数据仓库的开发,因为很多做ETL(抽取(extract)、转换(transform)、加载(load))时,用的源就是这些,不过还有其他比如从Nosql数据库导出导入数据,也有用FTP传输数据,还有用爬虫工具爬数据,等等很多中方式。再次熟悉Hadoop,这个都是现在大数据领域中用的最多的一个技术,它的HDFS可以实现分布式存储,Yarn是一个优秀的资源调度框架。再次你可以学习Hadoop生态圈中的技术,向Hive现在用的挺多的,只要你会SQL语句在熟悉一下Hadoop的架构原理,基本可以驾驭了它,它做数据仓库很优秀,还可以自定义函数UDF,也可以控制权限,你也可以通过Sqoop工具从数据库中向Hive中导入数据,速度是真的快,在一个就是面向列族的Hadoop的数据库HBase,现在也用的挺多的,只要是大数量的,一般大部分用HBase存储数据,Hbase实时性强,延时低,有唯一ROWkey的索引机制,所以很快。你还有学习FLUME用来收集日志,比如静态日志Nginx产生的,里面有很多关键的信息可以分析,通过Hive清洗数据,最后存储在HBase,还有就是Kafka消息订阅分发系统,这个也用的多,比如很多实时行的数据可以通过Kafka分类可以存储在Hbase中不同的表中,在一个就是Spark生态圈,Spark是基于内存计算的大数据计算框架,他计算非常快,如果要求计算速度高,有实时性强,可以采用Spark的SparkSQL、SparkStreaming等,Spark还支持机器学习,图计算等。最后再学习一下JAVAweb的ssh框架。学玩这些基本计算一个初级的大数据开发工程师啦。
关于作者: 网站小编
码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。
相关文章
-
新办的烟草证,烟草公司每个月就给我30条定量,如何维持生意?有什么经营技
阅读(5957) -
2020美国的死亡率和死亡人口与2019年同比和环比情况如何?
阅读(2500) -
世界前20大经济体指的是哪些国家?
阅读(2374)
热门文章
1现在的作战头盔可以做到像科幻片里那样进行大数据处理吗?
点赞(415)
阅读(62)
2现在发上海的快递是不是都停了?
点赞(415)
阅读(61)
4用无线网不卡,用流量为什么会卡?
点赞(415)
阅读(61)