1500字范文 > Python实现支持向量机SVM分类模型线性SVM决策过程的可视化项目实战

Python实现支持向量机SVM分类模型线性SVM决策过程的可视化项目实战

时间：2021-11-07 04:25:18

说明：这是一个机器学习实战项目（附带数据+代码+文档+视频讲解），如需数据+代码+文档+视频讲解可以直接到文章最后获取。
1.项目背景
支持向量机是由间隔最大化和高维映射两大部件组成。间隔最大化是目标，支持向量机的损失函数依靠间隔计算，能让间隔达到最大的就是支持向量机要“学习”的过程。
高维映射用于解决线性不可分问题，可以理解为对数据的“预处理”。对于那些你中有我、间不容发的非线性分布数据，首先通过核函数映射至高维，映射后的数据集呈线性分布，为使用线性方法分类创造了条件。
最后归纳一下，使用支持向量机进行分类经过三个步骤：
1）选取一个合适的数学函数作为核函数。
2）使用核函数进行高维映射，数据点在映射后由原本的线性不可分变为线性可分。
3）间隔最大化，用间隔作为度量分类效果的损失函数，最终找到能够让间隔最大的超平面，分类也就最终完成了。
2.数据获取
本次建模数据来源于网络(本项目撰写人整理而成)，数据项统计如下：
数据包括两个Excel数据集：
数据详情如下(部分展示)：
3.数据预处理
3.1 用Pandas工具查看数据
使用Pandas工具的head()方法查看前五行数据：
关键代码：
3.2 缺失值统计
使用Pandas工具的info()方法查看数据是否有缺失值：
从图中可以看到，数据集1没有缺失值。
3.2 描述性统计分析
使用Pandas工具的describe ()方法进行描述性统计分析：
从上图可以看到，每个数据项的数量、平均值、标准差、最小值、最大值、分位数。
4.特征工程
4.1 构建特征和标签
关键代码如下：
5.探索性数据分析
5.1 可视化特征数据集：绘制散点图
从图中可以看到，数据集1中两个特征变量的散点图分布情况。
5.2 画决策边界:散点图中制作网格
通过上图可以看到，散点图中中布满了网格小点。
6.构建支持向量机分类模型
主要使用SVC算法，用于构建决策边界。
6.1 建模，计算决策边界并找出网格上每个点到决策边界的距离
从上图可以看到，从上图可以看到三条等高线，这三条等高线是分别基于Z的值为-1、0、1绘制的。
关键代码：
6.2 模型探索
进行模型预测、计算模型的准确率和模型中支持向量的个数：
从上图可以看到，可以看到模型的预测值、支持向量和支持向量的个数为2。
关键参数代码：
6.3 推广到非线性情况
数据集2特征的散点图：
从上图可以看到，是大圆里面套了一个小圆。
绘制带有决策边界的散点图：
从上图可以看出，明显，现在线性SVM已经不适合于数据集2。
6.4为非线性数据增加维度并绘制3D图像
从上图可以看到，数据集2明显是线性可分的了：我们可以使用一个平面来将数据完全分开，并使平面的上方的所有数据点为一类，平面下方的所有数据点为另一类，这就是决策树模型的高维映射。
7.结论与展望
综上所述，本项目采用了SVM分类模型来绘制线性数据和非线性数据决策边界的可视化图，最终证明了支持向量机分类模型具备非线性数据的分类能力，即具有高维映射的能力。