自组织映射(Self-Organizing Maps,简称 SOM)是一种用于降维和可视化高维数据的机器学习算法。它是一种人工神经网络,通过模拟人脑对信号处理的特点,将高维数据映射到低维空间,同时保持数据的拓扑结构。SOM 常用于聚类、分类和异常检测等任务。
SOM 主要包括以下几个步骤:
- 初始化:随机设置输入层和输出层的权重,权重向量表示神经元对输入特征的响应。
- 训练:对于每个训练样本,计算输入层到输出层的权重更新值,使得相似的样本在输出层靠近彼此。这一过程通过竞争学习(competitive learning)完成,即寻找最优参考矢量集合来对输入模式集合进行分类。
- 更新:更新输出层神经元的权重,使得相似的样本在输出层靠近彼此,同时保持拓扑结构不变。
SOM 的应用场景包括: - 数据降维:将高维数据映射到低维空间,便于可视化和分析。
- 聚类:将相似的数据点映射到输出层中的相邻位置,形成聚类。
- 分类:通过映射后的低维数据进行分类任务。
- 异常检测:将正常数据映射到输出层的某个区域,异常数据则被映射到远离正常数据的区域。
下面是一个简单的 SOM Demo:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
加载数据集
iris = load_iris()
X = iris.data
y = iris.target
数据预处理
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
创建 SOM 模型
som = somoclu.SOM(n_components=2, learning_rate=0.01, n_iter=1000)
训练模型
som.fit(X_train)
绘制结果
fig, ax = plt.subplots(figsize=(10, 8))
ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap='viridis')
ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap='viridis', alpha=0.5)
ax.set_title('SOM')
plt.show()
CopyCopy
在这个示例中,我们使用了 Iris 数据集,首先对数据进行预处理,然后创建一个 SOM 模型,训练模型并将结果可视化。