测试使用

Budcs / 2024-03-17 / 原文

KNN、K-Means和FCM

k近邻法（k-nearest neighbor, k-NN）是一种基本的分类和回归方法，其分类的主要思想是：给定一个训练数据集，其中实例的类别已经确定，分类时，对于新的实例，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行预测。

输入：

\[T = {(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)} \]

其中，$x_i\in\mathcal{X}\subseteq\mathbb{R}^n$为实例的特征向量，$y_i\in\mathcal{Y}=\{c_1,c_2,\cdots,c_K\}$为实例的类别；

输出： 实例$x$所属的类$y$

算法流程：

\[y=\arg\max_{c_j}\sum_{x_i\in N_k(x)}I(y_i=c_j),\quad i=1,2,\cdots,N;j=1,2,\cdots,K \]

其中，$I$为指示函数，即当$y_i=c_i$时$I$为1，否则$I$为0.

总结： k-NN是分类算法、有监督学习，需要知道训练实例的类别。

import numpy as np
print("打印测试%f"%(0.3))

打印测试0.300000

k均值聚类是基于样本集合划分的聚类算法，其聚类的基本思想是：将样本划分为k个子集，构成k个类，将n给样本分到k 个类中，每个样本到其所属类的中心距离最近。每个样本仅属于一个类，故k均值聚类是硬聚类。

输入： n个样本的集合$X$;

输出： 样本集合的聚类结果$C^{*}$.

算法流程：

初始化。令$t=0$，随机选择k个样本作为初始聚类中心$m^{(0)}=(m_1^{(0)},\cdots,m_l^{(0)},\cdots,m_k^{(0)})$；
对样本进行聚类。对于固定的聚类中心$m^{(t)}=(m_1^{(t)},\cdots,m_l^{(t)},\cdots,m_k^{(t)})$，其中$m_l^{(t)}$是类$G_l$的中心，计算每个样本到类中心的距离（如欧氏距离），将每个样本划分与其最近的类中心的类中，最终得到聚类结果$C^{(t)}$；
更新聚类中心。对聚类结果$C^{(t)}$，计算当前各个类中样本的均值，作为新的类中心$m^{(t+1)}=(m_1^{(t+1)},\cdots,m_l^{(t+1)},\cdots,m_k^{(t+1)})$；
如果迭代收敛或符合停止条件（即聚类结果$C^{(t)}$和$C^{(t+1)}$一样），则输出$C^{*}=C^{(t)}$；否则，令$t=t+1$，返回第2步。