1
本人后端工程师入坑大数据1年多,说下我的学习过程。
1.hdfs分布式文件系统的使用,最好熟悉下原理。
2.大数据的查询工具,hive/presto,这两个语法基本相似,用来查询数据生成报表
3.实时数据清洗工具flink,利用flink将实时的kafka.日志数据写入hdfs。当然flink还有很多其他的功能,数据清洗,数据分析都有。
4.spark,分布式计算引擎,配合yarn的资源调度,用spark做数据清洗或者机器学习的模型训练。
2
一、首先要搞清楚一个概念,什么是大数据
大数据通俗的讲就是对大量的数据,通过处理后,能够归纳出不同的规律和趋势
二、学习大数据需要什么语言基础?
首先,学习大数据是需要有java,python和R语言的基础。