大数据是一个相对概念,随着时间推移,单位越来越大。所以没有统一的标准。
数据越来越多就有了一大数据,再有云之说,数据增量是无止境的,描述其大小的单位以及以后定义的更大的单位就是衡量数据大小的标准。
大数据不仅仅是数量级的评定,还有多源性,可变特征,复杂度等等纬度。
我理解这个问题应该是问多大的数据称为大数据?这个问题还是先要理解大数据的概念,和具备大数据的思维。数据分为格式化数据和非格式化数据,比如每天监控器的图像数据数量巨大但是没有价值隔一天就扫除掉了,我们也不会理解这是大数据。所以,有价值的数据超出了原有的存储能力,我们认为是大数据。
还有就是即时数据处理的速度或者存储数据的处理调用速度满足不了日常的使用需求,我们说是大数据。
第三个,就是数据纬度多,复杂度多,合适多样,我们称为大数据。
所以,不能单独用数据量来衡量,比如一份较小的数据,但每天都需要被保存,而且横向与其他数据需要关联,那他就是大数据。而一份很大的数据,没有什么价值,也没有关键性,也不叫大数据!
首先,数据标准化是为了将不同数量级的数据变成同一数量级,消除数量级的影响,比如:在K近邻算法中,如果不对解释变量进行标准化,那么具有小数量级的解释变量的影响就微乎其微了。再者,使用神经网络这种对数据比较敏感的算法时,数量级的差别会导致模型出现异常等等其次,数据标准化,也是无量纲化的一种方法,便于理解即说明。
什么算作大数据目前并没有这方面的标准,大数据的概念是由于系统中数据积累到一定程度,原有的管理方法,技术架构不足以满足当前的需求,这才引发了对更大数据的管理需要。
大数据很多的指数据量大,纬度多,数据类型复杂的数据形态。
所以我们没有必要刻意的去定义什么是大数据什么不是,只看业务场景需要就好
大数据,简单来说就是大到原有it系统无法处理的数据量,100万条记录也可以叫大数据,100万条记录excel是无法处理的,打开文件估计需要2分钟,打开后随意浏览不顺畅。但只能处理百万级数据量的系统是太弱了,至少要能处理1T级别的数据量,大数据系统就是能够像office处理几百k的数据一样,处理G级T级系统,傻瓜式大数据查询平台例如糖果云,数据库大数据系统如tableau,都能轻松处理T级数据。
没有绝对标准,但如果数据大到你原来的手段已经不能处理时,就可以被理解为大数据!
但数据仅仅数量大就被称为大数据有点勉强了!
大数据有多种类,搞复杂性的特点!
所以要综合判断,再说找个绝对标准也没有意义。