9号彩票开户

关注微信  |  微博  |  腾讯微博  |  RSS订阅
读者QQ群③:168129342,投稿请发dashuju36@qq.com
我要投稿

挖掘软件 | KNIME中的K-means聚类

36大数据
Iris Data Set是数据挖掘中常用的数据集,可以直接从UCI机器学习库中获得,原始数据一共有150个cases,4个属性,常用来进行分类(classification)实践。

36大数据

这个数据集也一直是最受欢迎的,下载量居于榜首。

36大数据 36大数据

Iris Data Set(鸢尾花数据集)最初由埃德加安德森从加拿大加斯帕半岛上的鸢尾花花朵中统计整理得出,后来由英国著名统计学家Fisher(费雪)在判别分析中加以应用,从而将这一植物学领域的数据引入统计学中。

数据集包含的鸢尾花种类包括:山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)、维吉尼亚鸢尾(Iris-virginica),四个属性分别是:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)、花瓣宽度(petal width)。Fisher当年使用的是线性判别方法(Linear Discriminant Analysis, LDA)来对鸢尾花进行分类,后来线性判别方法也成为模式识别中的经典算法。

Fisher线性判别方法意图将d维空间中的数据点投影到c-1维的空间上,使得不同类的样本点在这个c-1维空间上的投影尽可能分散,而同类的样本点则尽量紧凑。

关于线性判别方法的介绍以及它与主成分分析法的异同,有很多文章已经有过详尽阐述,比如Jerry Lead里的这一篇:
http://www.cnblogs.com/jerrylead/archive/2011/04/21/2024384.html

今天,我将依靠KNIME这款数据挖掘工具来对鸢尾花数据进行K-means聚类。

K-means旨在将样本聚类成k个簇(cluster),具体的算法是:先随机选取k个类的质心点(centroid),这里的k需要事先给定;然后对于每一个样例i,计算得出i与k各类中距离中最近的类;将i放入该类后对于接下来的每一个类,又重新计算它的质心。

重复迭代直到质心不变或者变化很小。K-means需要解决的第一个问题是如何保证收敛,事实上证明K-means收敛于局部最优,因此常见的方法是多次执行聚类算法,在比较中选择聚类效果最好的结果作为最终结果。

KNIME软件是一款非常方便的软件,不要求使用者对统计原理有着深入的掌握,因此它将数据挖掘的困难过程加以简化,只要能够搭建起一个正确的、符合逻辑的工作流,基本可以实现一个令人满意的结果。

首先创建新的工作流(Workflow):

36大数据

利用Node库里的XLS Reader读取数据:

36大数据

接下来,将数据拆分为两个集合:第一个集合中有95%的数据,大约为142条数据,第二个集合为剩余的8条数据。

36大数据

将数据拆分为两部分的目的为:第一部分用来聚类,接下来将聚类的原则安放在第二部分的数据中,从而实现有新数据来临,都可以快速将其进行分类。

36大数据

在上图中,K-means中计算样本点与质心之间的距离采用的是欧氏距离,因为数据之间差别不大,所以没有进行标准化(normalize)处理。这里事先指定的聚类数为默认的3类。在K-means中会给出每一个样本的分类情况以及每一类的聚类中心。在Cluster Assigner中,新进入的样本点会自动被分派到最近的类中。

36大数据

接下来可以将结果输出,利用其它工具进行展现,如果在KNIME中进行直接展现,可视化效果不是很好,而且缺乏交互性,比如:

36大数据

这个工作流生成的图形如下,且如果要查看新的图表,需要重新指定X轴和Y轴。

36大数据

在这里,我选择Tableau来进行展现,首先将聚类结果输出。值得注意的是,在新版KNIME中,数据可以直接导出为Tableau数据提取文件(TDE)。

此处我将其导出为Excel文件,最后的工作流如下:

36大数据

36大数据

最后的展示情况为:

最后的展示情况为:

这样就可以在一张图中同时将以四个属性为基础的鸢尾花聚类情况呈现出来。

总体而言,这一实践还是非常简单的,但是展示了数据挖掘的可能性空间。今后的一系列数据挖掘推送基本会围绕这款软件展开,因为对于新闻传播学科的学生来说,这款软件真的容易上手,且能够在操作中有目的的去学习背后的统计学知识。

End.

转载请注明来自36大数据(36dsj.com):36大数据 » 挖掘软件 | KNIME中的K-means聚类

36大数据   除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
友情链接:北京赛车pk拾开奖号码查询  幸运农场走势图  北京赛车pk拾评测  北京赛车pk拾平台网址  幸运农场出号规律  

免责声明: 本站资料及图片来源互联网文章,本网不承担任何由内容信息所引起的争议和法律责任。所有作品版权归原创作者所有,与本站立场无关,如用户分享不慎侵犯了您的权益,请联系我们告知,我们将做删除处理!