DMKD3.0--增加社区聚类算法

vlambda
2020-12-28

DMKD3.0--增加社区聚类算法

【学术点滴】团队开发一个经典算法软件供大家使用；软件名字为Data Mining and Knowledge Discovery（简称：DMKD）；中文名字：数据挖掘与知识发现系统。

功能一：主成分分析与可视化

主成分分析 (PCA, principal component analysis)是一种数学降维方法, 利用正交变换 (orthogonal transformation)把一系列可能线性相关的变量转换为一组线性不相关的新变量，也称为主成分，从而利用新变量在更小的维度下展示数据的特征。

主成分是原有变量的线性组合，其数目不多于原始变量。组合之后，相当于我们获得了一批新的观测数据，这些数据的含义不同于原有数据，但包含了之前数据的大部分特征，并且有着较低的维度，便于进一步的分析。

主成分分析（二维）：距离相近的可以划分为一个类别

案例一：

案例二：

DMKD3.0--增加社区聚类算法

由于遮挡，可局部放大：

DMKD3.0--增加社区聚类算法

主成分分析（三维）：

DMKD3.0--增加社区聚类算法

主成分分析需要我们自己根据距离进行划分聚类

那么，能否利用聚类算法进行自动聚类呢？

答案是肯定的！

DMKD3.0--增加社区聚类算法

DMKD2.0我们加入了K均值聚类与可视化功能：

功能二：K均值聚类与可视化

K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

DMKD2.0软件功能案例如下：

不带标签二维聚类结果如下：(同一个颜色一个类别)

DMKD3.0--增加社区聚类算法