深度学习-第R1周心脏病预测 _机器学习

我的环境：一、前期工作： 1、导入数据集
age: 1)年龄
sex:2)性别
cp: 3) 胸痛类型(4 ) aK同字
: 4) 静息血压
chol: 5) 血清胆甾醇(mg/dl
fbs: 6) 空腹血糖> 120 mg/dI
: 7) 静息心电图结果(值0,1 ,2)
: 8) 达到的最大心率
exang: 9) 运动诱发的心绞痛
: 10) 相对于静止状态，运动弓|起的ST段压低
slope: 11) 运动峰值ST段的斜率
ca: 12) 荧光透视着色的主要血管数量(0-3)
thal: 13)0= 正常; 1 =固定缺陷; 2 =可逆转的缺陷
: 14) 0 =心脏病发作的几率较小1 =心脏病发作的几率更大
实验代码：
import pandas as pdimport numpy as npdf = pd.read_csv("D:\R1heart.csv")print (df)print (df.isnull().sum())
df.().sum())：检查是否有空值，并计算每个标签空值个数
运行结果：
2.数据集划分实验代码：
from sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import train_test_splitX = df.iloc[:,:-1]y = df.iloc[:,-1]X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.1, random_state = 1) print (X_train.shape, y_train.shape)
1. ..:
这个库是用于数据预处理中的特征缩放工具。在许多机器学习算法中，特征的尺度（scale）可能会对模型的性能产生影响。一些算法（如支持向量机、K近邻等）对于特征的尺度比较敏感，如果特征的尺度差异较大，可能会导致算法收敛速度慢或者模型表现不佳。
可以对数据集中的每个特征进行标准化处理，使得每个特征的均值为 0，标准差为 1 。具体来说，对于每个特征，它会执行以下操作：
从每个特征中减去平均值（均值为0）
除以标准差，使得特征的值符合标准正态分布
这样处理后，所有特征的尺度都是相同的，有助于提高某些算法的性能和收敛速度。
2. ..:
这个库用于将数据集划分为训练集和测试集，以便在机器学习模型的开发和评估中使用。
在机器学习中，为了能够对模型进行准确的评估和测试，需要将原始数据集划分为两部分：
训练集（ Set）：用于训练模型
测试集（Test Set）：用于评估模型的性能
函数的作用就是根据指定的划分比例，将原始数据集划分为训练集和测试集。通常情况下，数据集的大部分（比如 80% - 90%）用于训练，剩余的部分用于测试。这样划分可以确保在训练和测试时使用不同的数据，避免模型过拟合训练数据。
, , ,= (X, y, =0.2, =42)
`` 将数据集 X 和标签 y 按照 80%-20% 的比例划分为训练集和测试集。其中，`` 参数指定了测试集所占的比例，`` 参数用于设置随机种子，保证结果的可重复性。
3.X = df.iloc[:, :-1]:
这行代码使用 iloc 属性从df 中选择了所有行和除最后一列之外的所有列。iloc 是库中用于通过行和列的索引选择数据的属性。其中 ‘:'表示选择所有行，':-1' 表示选择除了最后一列之外的所有列。
运行结果：

文章插图
3.标准化实验代码：

sc = StandardScaler()X_train = sc.fit_transform(X_train)X_test = sc.transform(X_test)X_train = X_train.reshape(X_train.shape[0],X_train.shape[1],1)X_test = X_test.reshape(X_test.shape[0], X_test.shape[1],1)

sc = (): 这行代码创建了一个的实例对象 sc，用于对特征进行标准化处理。
= sc.(): 将训练集中的特征数据进行标准化处理。方法会在训练集上进行标准化，并且在同一时间计算出训练集上的均值和标准差。然后，使用这些均值和标准差对训练集进行标准化处理，使得训练集的特征符合标准正态分布。