工作后,我首先知道的概念是数据挖掘,而不是机器学习。因此我想数据挖掘这个概念更加广泛,属于工程应用范畴。5年前,我单位谈的都是数据挖掘,也举办这类竞赛,我们也掌握了数据挖掘的应用软件和数据挖掘标准流程,比如sas,clementine等数据挖掘平台。这些平台多数基于图形化操作,应用门槛较低。最近两年才开始谈机器学习,深度学习和人工智能等概念。从我工作经历来讲,数据挖掘是比较大众化的说法,单位业务部门都知道这个概念,而机器学习属于专业化的说法,现在业务部门还不清楚机器学习究竟是什么。其实很难严格去区分两者的关系,看看最权威的数据挖掘和机器学习的教材,你会发现它们大部分都是重复的。既然是两个名称,那么它们的侧重点应该是不一样的。我的理解是数据挖掘的后端与机器学习的前端重复,机器学习的后端与深度学习的前端重复。数据挖掘的前端是数据收集,清洗和处理等,和大数据有关,都涉及数据仓库等内容,但机器学习并不关心这些,也就是说数据这种原材料对机器学习来说应该要事先准备好了,机器学习更加注重学习问题,努力像人类一样学习知识,理解世界。它们最大的区别是:
数据挖掘注重挖掘数据中的规律和知识,但不关心数据为什么会产生这些规律和知识,也就说你只看到表象,并不知道本质原因。而机器学习恰恰相反,机器学习更加注重学习数据的生成机制,即数据究竟由什么概率模型生成的。有时机器学习也叫统计学习就是这个原因。数据的生成机制出来了,那么数据中的规律自然而然就知道了。正是因为机器学习注重数据的生成机制学习,产生大量的研究内容,发展出核机器,极大似然估计,最大熵模型,最大后验估计,期望最大化算法,高斯过程,概率图模型,变分推理等工具。后面这些高级内容,数据挖掘教材一般是没有的。
传统机器学习一般对数据生成机制做一些先验假设,如假设数据由高斯分布生成的,然后学习高斯分布的参数。进一步,如果没有这些假设,应该怎么做?一般使用非参数密度估计技术,如核估计,最近流行和深度学习结合,如生成式对抗网络(GANs),变分自编码器等。
数据挖据和机器学习是处理数据的两个步骤。
数据挖据提供数据管理技术,机器学习提供数据分析处理技术。
举个简单的例子,马云想知道在淘宝里什么用户喜欢买些什么。
首先分析这个问题,要分用户、类别产品类别进行信息采集。并不是所有的淘宝购买信息都要,只要用户的年龄、性别和购买物品的类别以及收藏栏和购物车这些信息。那么这时,用户购买的时间、用户购买时付的费用这些都是无关数据。
这时候就要用到数据挖掘技术了,常用的数据挖据方法是爬虫(这里提醒广大用户,爬虫需要兼顾道德和法律责任,酌情使用)。淘宝自己则不用爬虫,直接运用数据挖掘技术在海量的数据里提取上文说的所需要的信息,这是一个复杂并且漫长的过程。
我的:In data mining, there is more emphasis on interpretable models, whereas in machine learning, there is more emphasis on accurate models.
数据挖掘
数据挖掘是一项使用数据探索技术发现一些有趣(而不明显)的模式的技术。
什么模式?例如:根据某些特征对数据进行分组的方式、异常检测(罕见值)、某些观察值与其他值之间的相关性、某些事件的连续性、行为的识别等。
机器学习更偏向于科学,数据挖掘更偏向于技术。
数据挖掘是一个比较大的概念,由许多学科综合而成,其包括机器学习、统计学习、数据库、领域知识及模式识别等领域。数据挖掘与机器学习可以看成是一种相交关系,两者都是依靠规律分析来预测数据趋势的,但不同点是数据挖掘是针对海量数据进行的,机器学习不是;机器学习是以探索机器学习人的学习机制为目标的,数据挖掘不是。
数据挖掘,也可以叫数据深层采集,是指利用各种技术与统计方法,将大量的历史数据,进行整理分析,归纳与整合,找到隐藏在数据深层之中的趋势和价值,是为了找寻隐藏在数据中的有用信息,如趋势、特征及相关的一种过程。
机器学习,是指从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法,因为学习算法中涉及了大量的统计学理集结,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的、行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法,比如手写识别、机器人识别等。
现如今是一个信息的时代,社会上任何行为都是以信息为前提去执行的。而信息又是对数据的处理加工得来的,所以“数据”是时代的主宰。大数据、数据挖掘和机器学习这三者是面对数据通常采用的手段。而这三者之间又是怎样的区别呢?
大数据是一个相对抽象的概念,目前国内外学术界还没有对大数据的定义形成统一的意见。美国国家科学基金会(National Science Foundation,United States)基于数据特征及数据来源角度对大数据进行了定义,认为大数据是一种复杂的、大规模的、长期的、多元化的分布式数据集,由一系列的数据源生成,包括网络点击流、音视频软件、E-mail、科学仪器、互联网交易、传感设备等。
所谓数据挖掘,又叫做数据库中的知识发现,简称为KDD。关于数据挖掘技术的定义,国际上目前比较广泛认可的是U.M.Fayyad 等人说明的,即数据挖掘技术就是在模糊的、有噪声的、不完全的、大量的、随机的数据中,提取潜在的、人们事先不知道的、隐含在其中的有价值的知识与信息的过程。
机器学习是基于对海量信息处理的需求产生的一门涉及多个学科领域交叉的学科,“机器学习是对能通过经验自动改进的计算机算法研究”。其主要目的是研究计算机如何通过学习人类的思维和行为,来自动获取新知识,自动适应环境的变化的。机器学习是人工智能的核心思想。
针对互联网这两大技术:数据挖掘和机器学习,我有一些拙劣的见解,跟大家共勉一下,用我自己理解的说一下吧!
数据挖掘:
我们生活在大数据时代,充斥着众多的数据,比如说我们每一个浏览习惯、购买习惯都是一个数据,如果这些数据不被挖掘出来,那就相当于一个废品,但挖掘出来不加以分析利用,则依旧没用,所以,数据挖掘应该是针对大数据信息的收集整理汇总。
机器学习: