1、与多元分析的其他方法相比,聚类分析是很粗糙的,理论尚不完善,但由于它成功地应用于心理、经济、社会、管理、医学、地质、生态、地震、气象、考古、企业决策等,因此成了多元分析的重要方法,统计包中都有丰富的软件,对数据进行聚类处理。
2、聚类分析除了独立的统计功能外,还有一个辅助功能,就是和其他统计方法配合,对数据进行预处理。
例如,当总体不清楚时,可对原始数据进行聚类,根据聚类后相似的数据,各自建立回归分析,分析的效果会更好。同时如果聚类不是根据个案,而是对变量先进行聚类,聚类的结果,可以在每一类推出一个最有代表性的变量,从而减少了进入回归方程的变量数。
3、聚类分析是研究按一定特征,对研究对象进行分类的多元统计方法,它并不关心特征及变量间的因果关系。分类的结果,应使类别间个体差异大,而同类的个体差异相对要小。聚类效果的检验:
一、聚类分析后得到的每个类别是否可以进行有效的命名,每个类别的特征情况是否符合现实意义,如果研究者可以结合专业知识对每个聚类类别进行命名,即说明聚类效果良好,如果聚类类别无法进行命名,则需要考虑重新进行聚类分析。
聚类
聚类是一种无指导的机器学习方法,在机器学习、统计分析、模式识别、数据挖掘、生物学等许多领域得到了广泛的研究与应用。聚类的基本目的是将数据对象按照一定的标准分成若干个簇,使得同一个簇中的对象之间相似度较大,不同簇之间的对象相似度较小。文档的聚类分析与一般的聚类分析类似,往往包括如下5个步骤:(1). 模式表示,往往包括特征抽取和特征选择,把数据对象表示成适合于算法可计算的形式;(2). 根据领域知识定义模式之间的距离测度公式;(3). 聚类或者分组;(4). 数据抽象表达(如果需要);(5). 评价输出结果(如果需要)。这里主要对前三个步骤进行介绍。文本聚类分析首先要考虑的是文本表示问题,即如何从一个电子文本的符号和文字中抽取出特征,通过这些特征来表示相应的文本,利用这些特征数据进行聚类分析。不同的文本表示形式包括可以选择不同的表示模型(如向量空间模型、概率模型、语言模型等),可以选择不同的特征选择方法,可以利用LSI等不同的降维策略等。常用的表示方法是向量表示法。向量空间模型将文档表示成一个向量,向量的每一维表示一个特征,该特征可以是一个字、一个词、一个n-gram或某个复杂的结构。通常情况下,利用向量空间模型表示文档时,需要对于文档进行切分(即前述的中文分词,对英文而言是通过词的分界符识别单词)、停用词处理、英文词的词形还原或者提取词干,经过这些步骤的处理,基本上可以得到一系列词并将其作为文档的特征。所有的这些词构成一个“空间”,每个词对应着空间中的一维。每个文档可以用文档中的词来表示,这些词及其权重构成一个向量。向量的每个维度描述对象的一个特征,每一个特征的重要度通常采用TF*IDF的计算方法来衡量,更多的工作是通过参数调节上获取更好的效果。北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析平台,它是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类
聚类是将数据集中的数据相似的聚在一块,不相似的则不关联,其次,一般是使用欧式距离,曼哈顿距离进行数据集特征值的距离计算,得到一个值。
如果以这个特征为标准,也聚类出以这个特征为标准的几个类。在聚类前要先用手肘法对数据集特征进行判断,应该聚几个类。
聚类是否能够去除噪声,我觉得不太行,去除噪声是在聚类前自己对数据处理,属于数据处理步骤,可以对数据进行清洗,去除空白值,对数据均一化处理。
后面会在公号分享一些案例,可以看看