如何向普通人解释机器学习和数据挖掘?

1

我来谈一下机器学习和数据挖掘的一个方面。

一开始我们先来看一个人为设计的场景。假设一个房间里神奇地漂浮着无数个小球。我们想搞清楚这些小球停留的位置是否存在着一种特定的结构。比方说,小球是不是更易集中在某一特定区域?是不是故意避开某些点位?它们是均匀分布于整个空间吗?

但是房间一片漆黑,我们什么也看不见。于是我们找来了一部带闪光灯的照相机,想把漂浮在整个房间的小球都拍下来。

照片犹如下图一样:

2

机器人通过算法进行自己学习。也就是说,在你设定好一个算法后,伴随着机器人使用时间越长,它能够处理的事情越多,能够应对的环境越多。

一、专业理论型

百科定义+专业术语,让人听起来不明觉厉,实则一脸懵逼

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

3

机器学习

属于人工智能研究与应用的一个分支领域。机器学习的研究更加偏向理论性,其目的更偏向于是研究一种为了让计算机不断从数据中学习知识,而使机器学习得到的结果不断接近目标函数理论

机器学习,引用卡内基梅隆大学机器学习研究领域的著名教授Tom Mitchell的经典定义:

如果一个程序在使用既有的经验E(Experience)来执行某类任务T(Task)的过程中被认为是“具备学习能力的”,那么它一定要展现出:利用现有的经验E,不断改善其完成既定任务T的性能(Performance)的特质。

数据挖掘

你可以简单地理解为,机器学习为数据挖掘提供了理论方法,而数据挖掘技术是机器学习技术的一个实际应用。但在这一应用中存在一个很重要的问题需要数据挖掘专家解决,因为传统的机器学习算法多是为了处理中小规模的数据而设计的,但数据挖掘面临的往往是海量的数据,如果直接使用机器学习的算法可能并不一定能得到令人满意的效果,因此需要数据挖掘专家针对具体的问题对机器学习算法进行改造和优化

其次,在进行数据挖掘时,如何管理海量的数据,这就需要用到数据库的数据管理技术

4

这个是我在机器学习课程开始之前的入门介绍。 我重新整理了一下。 希望大家多指正。 当然这个是非常粗糙的,也只是介绍了监督学习,特别适合给外行人或者没有相应背景的人去了解一个基本的道理。

5

既然是向普通人介绍机器学习和数据挖掘的差异,那肯定没多少数据建模基础,那我们就一个日常案例来讲讲它们的关系和区别。

约会为例,假设你有个朋友叫小A,他比较爱迟到。当有次你跟他约好3点钟在麦当劳见面时,在你出门时突然想到一个问题:现在出发合适么?会不会到了后,要花上30分钟去等他?一般你会根据历史经验,就是你把过往跟小A相约的经历在脑海中重现一下,看看跟他相约的次数中,迟到占了多大的比例。利用这来预测他这次迟到的可能性。如果这个值超出了心里的某个界限,那就选择等一会再出发。

假设跟小A约过5次,他迟到的次数是1次,那么他按时到的比例为80%,你心中的阈值为70%,你认为这次小A应该不会迟到,因此按时出门。如果小A在5次迟到的次数中占了4次,也就是他按时到达的比例为20%,由于这个值低于你的阈值,因此你选择推迟出门的时间。在经验法的思考过程中,事实上利用了以往所有相约的数据。因此也可以称之为依据数据做的判断。

假如更深一步分析发现小A所有迟到的日子基本都是星期五,而在非星期五情况下他基本不迟到。于是你可以建立一个模型,来模拟小A迟到与否跟日子是否是星期五的概率。

6

对非专业人士讲专业的知识,就像对牛弹琴,所以最简单的就是举例说明。如何向小白介绍何谓机器学习和数据挖掘?

跟他讲一个买芒果的故事

嘴馋的你想吃芒果了,于是你走到水果摊,挑了几个让老板过过秤,然后你再根据芒果的斤两付钱走人。

显然,买芒果你当然是挑着最甜、最熟的来买(因为你是根据重量而不是质量来掏钱的)。怎么个挑法才靠谱呢?

对了,你奶奶说过,金黄色的要比浅黄的更甜些。于是你就做了一个简单的规定:只挑金黄色的买,过磅、付钱、回家。就这么简单?

7


机器学习更偏向于科学,数据挖掘更偏向于技术。

数据挖掘是一个比较大的概念,由许多学科综合而成,其包括机器学习、统计学习、数据库、领域知识及模式识别等领域。数据挖掘与机器学习可以看成是一种相交关系,两者都是依靠规律分析来预测数据趋势的,但不同点是数据挖掘是针对海量数据进行的,机器学习不是;机器学习是以探索机器学习人的学习机制为目标的,数据挖掘不是。

数据挖掘,也可以叫数据深层采集,是指利用各种技术与统计方法,将大量的历史数据,进行整理分析,归纳与整合,找到隐藏在数据深层之中的趋势和价值,是为了找寻隐藏在数据中的有用信息,如趋势、特征及相关的一种过程。

机器学习,是指从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法,因为学习算法中涉及了大量的统计学理集结,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的、行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法,比如手写识别、机器人识别等。

8

这个其实不难啊,向普通人解释数据挖掘最简单:

1、你有没有在淘宝买过汽车用品?比如某某车型的脚垫,下次就会推荐你买这个车型的机油,尾箱垫等,这就是数据挖掘了,因为机器记住了你的车子型号。

2、更简单的如果你在淘宝买过2岁的男婴玩具,接下来明年会给你推荐3岁男孩玩具,后年4岁男孩玩具。

3、再说一下,如果你经常在饿了么点外卖,天天点重庆火锅,他知道你可能是重庆人,下次推荐你重庆的其他美食等。

…… 实在太好说了,举几个例子就行了,这就是数据挖掘,基于你现在的行为或习惯来分析你可能感兴趣或者需要的东西。

9

  在大多数非计算机专业人士以及部分计算机专业背景人士眼中,机器学习(Data Mining)以及数据挖掘(Machine Learning)是两个高深的领域。在笔者看来,这是一种过高”瞻仰“的习惯性错误理解(在这里我加了好多定语)。事实上,这两个领域与计算机其他领域一样都是在融汇理论和实践的过程中不断熟练和深入,不同之处仅在于渗透了更多的数学知识(主要是统计学),在后面的文章中我会努力将这些数学知识以一种更容易理解的方式讲解给大家。本文从基本概念出发浅析他们的关系和异同,不讲具体算法和数学公式。希望对大家能有所帮助。

  几个相关示例

  首先,给大家列举一些生活中与数据挖掘、机器学习相关的应用示例以帮助大家更好的理解。

  示例1(关联问题):

  经常去超市的同学可能会发现,我们事先在购物清单上列举好的某些商品可能会被超市阿姨摆放在相邻的区域。例如, 面包柜台旁边会摆上黄油、面条柜台附近一定会有老干妈等等。这样的物品摆放会让我们的购物过程更加快捷、轻松。

10

你有一些相关的数据,安排人手工把想要的结果做出来,交给机器。以后,你再有新的相关数据,机器就能把结果算出来了;不需要你知道具体的数量关系,更不需要你告诉机器具体有怎样的关系。
这就是机器学习。

数据挖掘,就是从数据里找到有用的信息。其实是另一个角度了,更应用一点,可以有各种实现技术。
机器学习,让你从新的原始数据里,得到你感兴趣的结果,也可以认为是一种挖掘。
此外,自动聚类,就是把相关数据给机器,他就能帮你找到哪些有相关关系。但是,需要人去解读,到底有没有因果关系,或者说有怎么样的关系。
各种统计计算,也可以认为是挖掘。也需要人去解读,这些数字到底代表什么意义。

我曾经给一个非计算机专业的理科生这样解释过,他表示有概念了。希望对你也有用。

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章