k均值聚类算法与k均值++算法

k均值聚类算法步骤

1.指定需要划分的簇[cù]的个数K值(类的个数)

2.随机地选择K个数据对象作为初始的聚类中心(不一定要是我们的样本点)

3.计算其余的各个数据对象到这K个初始聚类中心的距离,把数据对象划归到距离它最近的那个中心所处在的簇类中

4.调整新类并且重新计算出新类的中心

5.循环步骤三和四,看中心是否收敛(不变),如果收敛或达到迭代次数则停止循环

6.结束

k均值聚类算法演示

感谢up主:五分钟机器学习[aru_1]

k均值聚类算法优缺点

优点

1.算法简单、快速

2.对处理大数据集,该算法是相对高效率的

缺点

1.要求用户必须事先给出要生成的簇的数目K

2.对初值敏感

3.对于孤立点数据敏感

对于这两个缺点,我们可以使用k均值++聚类算法对其进行优化。

k均值++聚类算法

k均值++算法选择初始聚类中心的基本原则是:初始的聚类中心之间的相互距离要尽可能的远

k均值++聚类算法步骤

1.随机选取一个样本作为第一个聚类中心

2.计算每个样本与当前已有聚类中心的最短距离(即与最近一个聚类中心的距离),这个值越大,表示被选取作为聚类中心的概率较大;最后,用轮盘法(依据概率大小来进行抽选)选出下一个聚类中心

3.重复步骤2,直到选出K个聚类中心。选出初始点后,就继续使用标准的K-means算法了

只对K-means算法“初始化K个聚类中心” 这一步进行了优化

k均值聚类算法spss

1.首先导入数据(这里就不演示了)

2.spss聚类

k均值聚类算法与k均值++算法

3.聚类结果

k均值聚类算法与k均值++算法

发表评论 取消回复
表情 图片 链接 代码

分享