通俗点说,数据分析是本科生,通过简单的统计来观察小数据,解决相对简单问题,比如用户年龄分布分析;而数据挖掘是研究生,通过机器学习算法建模,要深挖大数据背后的模式,来解决复杂问题,比如个性化推荐。
方法论方面:一个是统计,一个是机器学习
数据分析作用的多数是概率统计理工具,比如留存率的分析,大多数上是对历史数据的某个维度的展示。而数据挖掘,背后的目标隐藏在大数据中,需要通过机器学习、深度学习理论去预测,比如挖掘用户的喜好,本质上是对用户未来行为的预测。
工具层面:一个是excel,一个是代码
数据分析,通过excel可以基本搞定,excel内置很多统计函数,顶多做个简单的线性回归分析。而数据挖掘,将要利用大数据、机器学习等用更专业的编程语言来实现,比如python调用sklearn或xgboost,来实现。
从概念上来看,数据挖掘是用人工智能、机器学习、统计学、数据库的交叉方法在相对较大型的数据库的数据集中发现模式的计算过程;数据分析是指对数据进行提取、清理、转换、建模和可视化,以发现有意义和有用的信息,这些信息可有助于得出结论并做出决策,并可随着时间推移使结果更加精确。数据分析的阶段包括:了解业务目标、数据收集、数据清理、数据处理、通信、优化和重复。
在DAP数据分析平台中,可以通过创建不同的业务主题对业务数据和主数据实现提取、加工转换、建模和可视化展现,将不同主题的数据通过加工处理得到用户需要的指标,实现多指标信息的建模方式以满足不同业务的需要,这些指标信息不但能让企业对业务做出更迅速的决策和更便捷的分析,也能体现出了大数据技术的价值。
数通畅联专注于企业IT架构、SOA综合集成、数据治理分析领域,感谢您的阅读与关注。
维基百科将数据挖掘定义为“在大型数据集中发现模式的过程,其中涉及机器学习,统计数据和数据库系统交叉处的方法”。数据挖掘在90年代和2000年代初期非常流行。一些消息来源说数据挖掘也被称为数据库知识发现(KDD),而另一些人则说它是KDD的阶段之一。但是,最重要的是数据挖掘将来自较大池的数据汇总在一起,并试图找到两个概念或项目之间的关联。例如,它可以找到杏仁与真菌或啤酒与尿布之间的相关性。数据挖掘中用于使数据有意义的更常见操作包括聚类,预测或描述性模型-预测,偏差,数据集之间的相关性,分类,回归和汇总。
数据分析是指“对数据进行提取,清理,转换,建模和可视化,以发现有意义和有用的信息,这些信息可有助于得出结论并做出决策,并可随着时间推移使结果更加精确。"数据分析涉及技术和非技术工具。数据分析有多个阶段,这些阶段可以反复进行以提高准确性并获得更好的结果。数据分析的阶段包括:了解业务目标,数据收集,数据清理,数据处理,通信,优化和重复。
数据挖掘,数据分析之间有七大区别:
1.从定义上说,数据挖掘是指在大量数据中发现模式,数据分析是指提取和组织数据以得出可用于做出明智决策的结论。
2.数据挖掘的覆盖范围包括机器学习,统计和数据库系统,数据分析包括数据挖掘,数据统计,计算机科学,非技术工具。
概念上讲,数据挖掘和数据分析是不同的。
数据挖掘: (Data Minning) ,是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程,不是简单的数据分组、汇总、统计,而是要结合统计学、机器学习等算法进行深入分析,并形成有价值的输出结果,输出结果是确定的模型或者优化的规则,可以用于批量数据的大生产;
数据分析:(Data analysis),是指对数据进行分析,分析可以结合很多统计分析方法和有用的工具,方法主要有分组、对比、回归等,输出的结果通常是统计量的结果,例如总和,平均值等。