说到ETL,很多开发伙伴可能会有些陌生,我也是在近几年的工作过程中才接触到ETL的,现在的项目是比较依赖于ETL,可以说是项目中重要的一部分。
先看一看ETL是做什么用的:ETL是将各个业务系统的数据,通过抽取、清洗、转换之后,加载到数据仓库的过程;ETL可以将分散、零乱、标准不统一的数据整合到一起。完整的ETL功能有很多(ETL是三个三次的缩写...),我只从我实际使用的场景出发,说明我对ETL的理解和实际应用。
我接触过的项目,使用ETL工具的场景有这个几种:
目前来说是不行的,ETL任然是大数据时代下数据迁移不可缺少的
首先说一下什么是ETL,ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。也就是说几乎所有的数据的移动都需要ETL的参与!
目前用到的ETL工具常见的有Datastage,informatica,kettle三种,前两者是收费的,并且占据了大多数国内市场,而kettle是来源免费的!但是在大数据量下Informatica 与Datastage的处理速度是比较快的,比较稳定。Kettle的处理速度相比之下稍慢。所以很多公司尤其是金融机构选Informatica 与Datastage。但是kettle由于是开源的所以有很强的扩展性。
数据要想有价值,就必须把它进行分析,挖掘出来它潜藏的价值,人们日常活动产生的数据一般是放在业务系统中,而在业务系统中的数据是不能直接进行分析处理的,这个时候我就得把这些数据搬运到一个仓库里,再进行分析!也就是所说的数据仓库,在而这个数据的搬运工就是ETL,在搬运的过程中我们还要做一些初步的清洗,去掉一些无用的不全的数据,这也是ETL的功能!最后我们那这些处理过的数据进行商业分析!这就是一个ETL的过程。
ETL的实现方式有多种,但是以下三种较为常见:
(1)ETL工具(如SQLServer2008的SSIS服务、Informatica,DataStage,Kettle等)实现;
(2)SQL方式实现(编码实现);
(3)ETL工具和SQL相结合。
目前我们常采用的方式就是第三种ETL工具和SQL相结合,他综合了ETL工具可以快速建立ETL工程的特点,摒弃了复杂的编码任务,提高了速度,同时也吸纳了SQL灵活的特点,可以提高ETL的运行效率,而且本身图形化简单便于操作,并且处理海量数据的速度、响应快,流程清晰便于查看,同时支持多种操作系统的部署,综上优势,可以让ETL的开发速度的效率得以极大的提高。
肯定不行,而且ETL在未来的发展中,ETL工程师的作用还会更大。
先说说ETL是什么吧,数据的抽取、转换和加载。
你以为你最后给老板看的报表,就是把平时进入公司系统的数据稍微处理一下,就能上台面了?
别想太多!
需要经过很多的操作,而ETL却是必经的过程,只有把那些脏数据给清除掉,留下来的才是有用的数据,就拿阿里和腾讯来说,一天的数据量大的吓人,给两位马爸爸看,不得好好处理一下?
不可以。
哈哈,是不是离你的预期答案差很多?
先说说为什么会有不想再使用ETL的想法?
因为尽管在ETL上花费了大量时间和金钱,公司仍然会遇到很大的问题:比如数据不准确、查询不够彻底等。
那这些问题现在有办法解决吗?
只要涉及到数据源的数据抽取、数据的计算和处理过程的开发,都是 ETL,ETL 就这三个阶段,Extraction 抽取,Transformation 转换,Loading 加载。
从不同数据源抽取数据 EXTRACTION ,按照一定的数据处理规则对数据进行加工和格式转换 TRASFORMATION,最后处理完成的输出到目标数据表中也有可能是文件等等,这个就是 LOADING。
再通俗一点讲,ETL 的过程就跟大家日常做菜一样,需要到菜市场的各个摊位买好菜,把菜买回来要摘一下,洗一洗,切一切最后下锅把菜炒好端到饭桌上。菜市场的各个摊位就是数据源,做好的菜就是最终的输出结果,中间的所有过程像摘菜、洗菜、切菜、做菜就是转换。
在开发的时候,大部分时候会通过 ETL 工具去实现,比如常用的像 KETTLE、PENTAHO、IBM DATASTAGE、INFORNAICA、微软 SQL SERVER 里面的 SSIS 等等,在结合基本的 SQL 来实现整个 ETL 过程。
也有的是自己通过程序开发,然后控制一些数据处理脚本跑批,基本上就是程序加 SQL 实现。
我们专门研发ETL产品的,不用ETL用什么?自己写代码传输数据吗?现在的ETL在架构功能上都在不断的增强,不要一想到ETL就是那种c/s的单机版了,现在我们的ETL都是微服务架构了,分布式部署,数据服务,实时数据处理都不在话下,有空去了解下RestCloud ETL。
如果要做数据仓库,ETL是必不可少的一个步骤,如果缺乏了这个环节,后面的环节就没有办法开展,因此ETL还是非常重要的,如果要选工具的话,推荐使用智分析去做ETL。
不管ETL还是ELT这都是概念和方法论,短时间看不到其被颠覆的可能,好比大米,得煮熟了才能吃。当然也不排除未来哪天人们开始生吃。