大数据这个术语的出现大概可追溯到Apache的开源项目Nutch。当时,大数据——Big Data——是用来描述为更新网络搜索索引需同时进行批量处理或分析的大量数据集。随着MapReduce和Google File System(GFS)的发布,从2009年开始,大数据才开始成为互联网行业的流行词汇,也吸引了越来越多的关注。物联网、云计算、移动互联网、手机与平板电脑、PC以及遍布各个角落的各种各样的传感器,无一不是大数据的来源或承载方。可以说,大数据就在我们的身边——从阿里巴巴、1号店、京东商城等电子商务数据,到QQ、MSN等即时聊天内容,再到Google、Bing、百度,又到社会网络与微博数据等,都在生产、承载着大数据。
随着大量的数据的产生也给数据处理和挖掘带来许多困难,信息处理量的增大(注:据统计,Facebook对某一主题进行搜索时,需在超过50TB的数据中迅速找出相关内容;在eBay存储了超过2PB的数据以备查询需要),很多传统方法(如RDBMS、SQL查询等)都不能直接应用在对海量数据的处理上,否则时间开销将会变得非常大。对大数据的挖掘与分析变得愈发重要。而通过对Google、百度、Bing、Facebook、网页文本、微博消息等的挖掘与分析,使人们的行为和情绪的细化测量成为可能。挖掘用户的行为习惯和喜好,从凌乱纷繁的大数据背后找到符合用户兴趣和习惯的产品和服务并对产品和服务进行有针对性地调整和优化,本身就蕴含着巨大的商机。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
避无可避
除非你躲到深山老林里与世隔绝。否则只要你在社会上活动,与人交往,就无比避免的留下个人信息。