首先,要确定可以获取到哪些大数据,是否已经获取到了并可以储存到一个库中供我们来分析和利用。获取数据的方法包括成本较低但是版权方面存在争议的网络爬虫,以及成本相对较高的购买API接口直接获取或向一些数据公司购买。
有了数据,之后就是研究分析。如果是文本数据,可以用内容分析法,通过创建类目来对大数据文本进行编码、统计分析,这时机器学习就派上用场了。通常大数据分析的主要问题就是对海量数据的分析是不可能完全指望人工手动逐条进行的,利用机器学习可以进行自动编码,速度快效率高。也就是说,机器学习主要应用在对大数据进行自动编码这个部分。
当然,现在有很多商业的机构,比如大数据方面的机构通常都是用机器学习来进行快速的舆情分析,几乎是可以即时出自动分析结果,比如信息量趋势、词云、情感分析等,在速度方面都可以做到快,但是结果质量就不一定了。
大数据分析不是有大数据、有算法、有机器学习就足够的。在价值挖掘和提升方面,还需要纵深的考量,其中最重要的当然还是“人的智慧”本身,即研究员对于研究计划的设定能力,这是大数据分析结果质量,也就是价值挖掘的根源所在。机器和技术可以帮助我们进行海量数据分析,但是分析什么,怎么分析这需要我们人的智慧通过专业严谨的研究计划和指引来告诉机器。
机器学习通过对数据(或文本)的持续观察中生成概率模型、“学习”数据的规律,并对未知数据结构或模式进行推断和识别。通常分为无监督的(unsupervised)学习和有监督的(supervised)学习,我们在大数据文本分析过程中,比较常用的就是有监督的学习,通俗来讲,就是研究者或者编码员先进行人工归类和编码,然后把这些结果交给机器,机器学习了这些知识后,根据学习到的这些经验和知识,就可以对剩余其他的文本进行自动的归类和编码了。比较常见的应用就是分类和情感分析了。
最后,机器学习毕竟是机器,虽然可以通过技术手段来实现一些人力不可完成的事情,但是对于情感、经验和价值观的判断结果的准确性还有很大的提升空间。所以利用大数据和机器学习,主要还是提升速度和效率方面,如果想通过技术来实现价值挖掘,还是离不开“人的智慧”,因而人机结合才是可行方案。