俗话说:“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。所谓类,通俗地说,就是指相似元素的集合。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。
聚类分析计算方法主要有如下几种:
1. 分裂法(partitioning methods):给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类
2. 层次法(hierarchical methods):这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上 ”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等;
3. 基于密度的方法(density-based methods):基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的知道思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN算法、 OPTICS算法、DENCLUE算法等;
4. 基于网格的方法(grid-based methods):这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。代表算法有:STING算法、CLIQUE算法、 WAVE-CLUSTER算法;
5. 基于模型的方法(model-based methods):基于模型的方法给每一个聚类假定一个模型,然后去寻找能个很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案。
分享到:
相关推荐
基于大数据挖掘的多维数据去重聚类算法分析.pdf
统 计 量 方 法 进 行 文 本 特 征 提 取 , 再 依 据 聚 类 方 法 将 文 本 集 聚 类 成 几 个 簇 , 最 后 利 用 改 进 的 KNN 方 法 对 簇 类 进 行 文 本 分 类 。 实 验 对 比 与 分 析 结 果 表 明 , 该 ...
解析大数据挖掘视域下多维数据去重聚类算法.pdf
这是一个有关聚类分析的设计,是我的一个课程设计,做的不是太好,希望各位网友能够给一些建议,谢谢!
与传统的曲线聚 类分析方法相比,该方法最重要的特点是可以自动确定分类的个数,而无须依赖分析人员主观猜测分类的个 数或进行大量的试算。使用这一方法,可以在满足任意事先确定的精度要求下,自动得到曲线聚类的...
一种新的自适应弹性网聚类分析方法
,聚 类簇的划分为 1 2 3 C C C C ={ , , } ,最终目标函数为 3 2 1 min ( ) i i i x C x = − ,求取此目标 函数的最小值被证明是 NP 难问题,故采用贪心算法,通过每一轮的迭代,不断 优化目标函数。 ...
k均值算法是模式识别的聚分类问题,采用模糊C均值对数据集data聚为cluster_n类
提出 种考虑 户 电模式差异化的基线负荷预测 法# 先 采 U I * G H 模 糊 M 均 值 $ Q M 7 % 聚 类 法 !并 结 合 负 荷 特 性 指 标 !改 善 户 负 荷 曲 线 聚 类 分 析 的 效 果 # 然 后 !分 析 象"时间等多维影响...
基于青岛某办公建筑2015 年全年逐时总用电能耗及空调用电能耗数据,利用kmeans 聚类算法对其进行聚 类,将全年能耗水平分为四大类。利用求平均值法得到每一类典型设备使用率曲线。将典型曲线的数据、日前两 周数据...
传统的(单机)K-Means聚类算法存在着可扩展性差、效率低下、运行时间长等缺点,在充分研究传统K-Means聚 类算法的墓础上,发现K-Means聚类算法中筑含的并行性,提出了一种基于用户的并行处理K-Means聚类算法, 并将该...
不同结构的头孢菌素按R 僻链的相似性由 模糊聚 类 法被分为不同的类群;不同类群问的头孢菌素的免 疫交更反应较弱.杀孢菌素问R.僻链的相似性由 相 对Hamming距离 表示;经和间接血凝抑制实骑及 ELISA实验比较。...
对传统聚类技术无法处理客户细分领域聚类结构随时间变动的问题,提出一种面向契约型客户细分的动态粗糙聚 类算法.该算法使用粗糙k-m锄s构建初始分类器,利用客户契约在不同聚类周期内的生效和失效制定分类器参数的...
采用模糊C均值对数据集data聚为cluster_n类
结果表明,三种算法的聚类结果各有差异,但每类数据都可以找到相对最有效的聚类算法。Ncut无法处理相交的数据,适用性较差;SSC算法适用性较强,但聚类精度不高;SCC算法具有适用性强、精度高等特点,能够实现四类...
本文将一种改进的K.means聚类算法运用于WLAN室内指纹数据库的建立,较之传统K.means聚 类算法所建立的指纹数据库,采用了改进K.means聚类算法所建立起来的指纹数据库优化了初始聚类中心选 择方法及准则函数,避免...
该方法的特色在于:使用潜在语义索引计算句子的相似度,并将层次聚类算法和K - 中心聚类算法相结合进行句子聚 类,这样提高了句子相似度计算和主题划分的准确性,有利于生成的文摘在全面覆盖文档主题的同时减少自身的...
最后, 对相似度矩阵使用谱聚 类算法得到最终的集成结果. 为了使算法能扩展到大规模应用, 利用 NystrÄom 采样算法只计算随机采样数据点之间以及随机 采样数据点与剩余数据点之间的相似度矩阵, 从而有效降低了算法的...
聚乎更矿区四井田位于木里煤田的最西端,经详查、勘探提交煤炭资源量2.5亿t,煤类为气煤、1/3焦煤、焦煤、1/2中粘煤、弱粘、瘦煤、贫瘦煤、贫煤、不粘煤。通过对下2煤层物理性质、化学性质、煤岩特征及煤类的统计分析,...
尾链数目对聚苯乙烯类高分子相行为和相结构的影响,杨明,毛东雄,本文设计并合成了一系列含有不同烷烃尾链数目的聚苯乙烯类衍生物(PS-m),即聚4-十四烷氧基苯乙烯(PS-1),聚3, 5-二(十四烷氧基)苯乙烯(PS