在当今的大数据时代,数据的重要性愈发明显。然而有了数据并不意味着就有了一切。很多时候大数据能给出结论,但给不了解释。只有把数据通过可视化效果呈现出来,并对其进行分析,才能找出真正的答案。然而每一个问题都不止一面,当我们面对复杂的数据问题时,核心是把数据关联起来。
在此之后,才可以说进行关联分析。关联分析(规则)即挖掘关联现象,从大量数据当中发现事物、特征或者数据之间的,频繁出现的相互依赖关系和关联关系。关联关系包含简单关联、时序关联及因果关联等,这些关联有的产生于经验之中,但并不总是事先知道,而是通过数据库中数据的关联分析获得的,其对商业决策具有重要的价值,常用于实体商店或电商的跨品类推荐,购物车联合营销,货架布局陈列,联合促销,市场营销等,来达到关联项互相销量提升与共赢,提升用户体验,减少上货员与用户投入时间,寻找高潜用户。
怎样快速地把数据拿来做一个整合,又很快地呈现出来,是非常重要的。数据分析挖掘很重要,但有时一些应用场景和分析挖掘不一定有太大关系。 举个例子,假设某地发生了一个大地震,在这个灾难性事件中,最重要的不是预测,而是诊断,让你了解现在的情况是什么,未来要朝哪个方向走。这就需要数据的整合与呈现。分析的力量是你能够对整个流程进行分析,而不是某个环节。你可以看到真正的故事在于快速关联不同的数据源。
过去我们谈大数据分析包含了数据采集、清洗、分析和展现,今天谈的好像是关联、分析和展现,那么是不是大数据分析的理念变了呢?的确是一个比较大的概念上的转换。从信息的角度看,每个数据都有价值,获得的数据越多越好,有些系统通过清洗或是数据处理,可能把一些价值去除掉了。 另外,过去是ETL,也就是数据抽取、转换和上载。现在所谓的转换,是在关联引擎里面做的。数据抽取出来,然后上传,再做转换,也就是ELT。ELT对比ETL,速度要快很多。
对于这个问题,重点是怎么分析大数据。
首先需要把你要分析的海量大数据放到一个库里,或者一个平台上,确定你要分析的这些数据是哪些,就像炒菜前,你要先把食材都准备好,洗干净,放在案板上,这个库或者平台就是那个案板。
其次,你要确定一下要分析的方面有哪些,就像你要确定哪些菜需要切成丁,哪些菜需要切成丝。然后运用算法或者工具把库里的数据按照你确定的方面进行分析,这个过程就是文本大数据分析,以文本分析的思路来进行就可以。比如量化这些大数据,设置类目和编码簿,编码,对编码结果进行统计分析,输出可视化图表。也可以结合质性的分析,去分析某些话语、修辞和表达等。
关键之处在于这些大数据的收集和处理,最好是运用大数据分析的工具,比如DiVoMiner®这种专门处理和分析大数据的工具,可以在平台上自建数据库,提供完整的文本分析流程,统计分析模块,自动分析结果等。
信息臭探技术。