数据仓库和大数据的区别?

1

两个名词的从定义上就是有本质区别的

数据仓库:是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。

大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2

数据仓库的概念已经快20年的历史了。而大数据则是近10年才兴起的。两个概念是完全不同的。

数据仓库

数据仓库的目的是为了解决分散的数据系统互联互通的问题。随着数据库的应用的推广,很多企业和部门都建立了自己的数据库和信息系统。在一些大型企业中甚至建立了很多相互独立的数据库。人们希望能将这些独立的数据库统一起来,建立起更强大的信息系统。举个例子,银行系统联网实现异地跨行交易。但是,各个数据库的结构都不相同,连字段都不一样,怎么实现互联互通呢?数据仓库就是在这样的背景下提出来的。具体的方案有很多这里就不细说了。总之,数据仓库的目的是使不同数据库能够实现互联互通。

大数据

随着互联网的普及,海量的信息以各种形式在网络上发布和共享。由于信息量太大,人们不得不花费大量时间和投入从信息的海洋中捞取一点点有用的信息,有很多时候这甚至是一种遥不可及的梦想。为了帮助人们找到海量信息中有用的部分,大数据提供了高速地对文本,图形,结构化的数据等多种形式的数据进行识别和分析,精准地抽取出有用信息的手段。在实现方法上,云计算,人工智能等技术起到了至关重要的作用。

数据仓库和大数据的目的不同,实现的技术手段也不同,可以说是两码事。但是,大数据的涉及范围很广,数据仓库也是大数据的分析对象,同时,大数据的分析结果也能被数据仓库所使用。从这个意义上来说,二者又密切相关。

3

数据仓库的定义相信题主google、baidu一下概念就清晰了,商业的开源的解决方案很多;大数据处理技术起源于谷歌的大文件系统、大数据表、mapreduce处理技术,而后在业界传教,后来有了hadoop,hbase,spark种种利器。发展初期,二者最大的不同在于前者偏于海量数据存储分析,后者偏于海量数据计算。随着技术发展,数据仓库产品的功能中少不了大数据处理技术,大数据处理产品也有对应的数据仓库解决方案。到今日,其二者如泾渭相交,滚滚同行,日益变为应用系统中不可或缺的融合组成部分。

4

数据仓库简单理解是一套软件解决方案,作用是把业务系统的数据加载到一个单独的数据库中,并依据业务逻辑建立数据模型,供企业查询分析决策之用。它的出现是为了解决基于业务数据库来做分析时面临的很多问题,包括:结构复杂,数据脏乱,难以理解,历史缺失,数据量大时查询缓慢等。数据仓库的概念最早出现在20世纪70年代,出现时间远远早于大数据。


大数据与数据仓库不同,它不是一套解决方案,现在数据面临的新形态。传统的数据仓库中存储的往往是企业内部的数据,特点是结构化的数据。所谓结构话指的是非常规整的,类似Excel表格那样的数据。大数据往往是非结构话的,比如设备的日志文件,网站的埋点信息等,xml文件等。相对于传统数据,大数据量更大,类型更多,处理的复杂度也更高。


可以理解,数据仓库是数据的容器,里面放的是传统的结构化数据。针对大数据的特点,数据仓库的方式已经不适用。而数据湖是针对大数据特点产生的新技术,可以理解为大数据容器。数据湖和数据仓库最大的不同在于,数据仓库是先处理再存储,数据湖是先存储后处理。怎么理解呢?我拿炒菜类比可能大家比较好理解。比如炒土豆,数据仓库是先把土豆削皮,切丝,放在冰箱里等着炒菜的时候拿出来用。这样做的好处是,炒的时候方便,坏处是如果哪天我不想吃土豆丝,而想吃土豆片就没有办法。数据湖是直接把土豆放冰箱,等炒菜的时候再拿出来处理。好处是可以根据具体的分析具体决定如何处理。

5

数据仓库和大数据的概念,从不同的角度侧面都有不同定义,这些概念都是临时的,最关键的是要解决什么问题。从目前来讲,可以认为数据仓库是大数据的基层部分。可以粗略的理解为材料和加工的问题。

6

数据仓库是数据的来源,大数据只是体现在数据非常多以及数据分析方法。虽然sql语句也能查询各种数据,但是对于外行人来说是小天书,你必须将数据仓库的各种数据转换成大众可以直观看懂的图表才行。

7

数据仓库:是相对于业务数据库来说的,将所有需要查询、统计、分析的数据收集到一起,并且可以根据业务的需要对数据进行清洗转换、关联整合,这就是数据仓库。

大数据:是一个比较笼统的概念,可以理解成一种业务场景或者一种技术组合,或者是两者相结合。比如,我们利用大数据做精准营销。

数据仓库是大数据的基础。

8

狭义上来说,数据仓库和大数据都是数据集合

数据仓库这个数据集合的特点是面向主题的、集成的、反映历史数据变化的、相对稳定的、用于支持决策;

大数据这个数据集合的特点是大量的、高速的、种类多样化的、价值高的、真实的,简称5v特性。

  • 从数据本身来看,数据仓库更多是结构化数据,而大数据不仅是结构化数据,还包含了很多非结构化数据。数据仓库的定义20年前便由inmon提出,直到5年前普遍公司还没有能力去处理非结构化数据。

  • 从数据应用的角度看,数据仓库的数据主要服务于离线的决策管理,而大数据不局限于此,还服务于很多在线应用。

广义上来说,数据仓库是一套解决方案,大数据是一套体系

数据仓库是为了解决信息孤岛,整合企业各部门各业务系统数据,服务于决策支持。数据仓库可分为数据采集、数据存储、数据应用三个层次,包含ETL系统、调度系统、元数据系统、数据质量系统等等。

大数据这套体系,包含5v特性数据,包含各种分布式大数据技术,包含各种机器学习算法等等,它的产物是各种大数据应用。现在的数据中台,数据服务化也是大数据体系下的产物。

9

比如一百亿行数据,请问你一个sql怎么搞定

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章