深度学习-第R1周心脏病预测

我的环境:一、前期工作: 1、导入数据集
age: 1)年龄
sex:2)性别
cp: 3) 胸痛类型(4 ) aK同字
: 4) 静息血压
chol: 5) 血清胆甾醇(mg/dl
fbs: 6) 空腹血糖> 120 mg/dI
: 7) 静息心电图结果(值0,1 ,2)
: 8) 达到的最大心率
exang: 9) 运动诱发的心绞痛
: 10) 相对于静止状态,运动弓|起的ST段压低
slope: 11) 运动峰值ST段的斜率
ca: 12) 荧光透视着色的主要血管数量(0-3)
thal: 13)0= 正常; 1 =固定缺陷; 2 =可逆转的缺陷
: 14) 0 =心脏病发作的几率较小1 =心脏病发作的几率更大
实验代码:
import pandas as pdimport numpy as npdf = pd.read_csv("D:\R1heart.csv")print (df)print (df.isnull().sum())
df.().sum()):检查是否有空值,并计算每个标签空值个数
运行结果:
2.数据集划分 实验代码:
from sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import train_test_splitX = df.iloc[:,:-1]y = df.iloc[:,-1]X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.1, random_state = 1) print (X_train.shape, y_train.shape)
1. ..:
这个库是用于数据预处理中的特征缩放工具 。在许多机器学习算法中,特征的尺度(scale)可能会对模型的性能产生影响 。一些算法(如支持向量机、K近邻等)对于特征的尺度比较敏感,如果特征的尺度差异较大,可能会导致算法收敛速度慢或者模型表现不佳 。
可以对数据集中的每个特征进行标准化处理,使得每个特征的均值为 0,标准差为 1 。具体来说,对于每个特征,它会执行以下操作:
从每个特征中减去平均值(均值为0)
除以标准差,使得特征的值符合标准正态分布
这样处理后,所有特征的尺度都是相同的,有助于提高某些算法的性能和收敛速度 。
2. ..:
这个库用于将数据集划分为训练集和测试集,以便在机器学习模型的开发和评估中使用 。
在机器学习中,为了能够对模型进行准确的评估和测试,需要将原始数据集划分为两部分:
训练集( Set):用于训练模型
测试集(Test Set):用于评估模型的性能
函数的作用就是根据指定的划分比例,将原始数据集划分为训练集和测试集 。通常情况下,数据集的大部分(比如 80% - 90%)用于训练,剩余的部分用于测试 。这样划分可以确保在训练和测试时使用不同的数据,避免模型过拟合训练数据 。
, , ,= (X, y, =0.2, =42)
`` 将数据集 X 和标签 y 按照 80%-20% 的比例划分为训练集和测试集 。其中,`` 参数指定了测试集所占的比例,`` 参数用于设置随机种子,保证结果的可重复性 。
3.X = df.iloc[:, :-1]:
这行代码使用 iloc 属性从df 中选择了所有行和除最后一列之外的所有列 。iloc 是库中用于通过行和列的索引选择数据的属性 。其中 ‘:'表示选择所有行,':-1' 表示选择除了最后一列之外的所有列 。
运行结果:

深度学习-第R1周心脏病预测

文章插图
3.标准化 实验代码:
sc = StandardScaler()X_train = sc.fit_transform(X_train)X_test = sc.transform(X_test)X_train = X_train.reshape(X_train.shape[0],X_train.shape[1],1)X_test = X_test.reshape(X_test.shape[0], X_test.shape[1],1)
sc = (): 这行代码创建了一个的实例对象 sc,用于对特征进行标准化处理 。
= sc.(): 将训练集中的特征数据进行标准化处理 。方法会在训练集上进行标准化,并且在同一时间计算出训练集上的均值和标准差 。然后,使用这些均值和标准差对训练集进行标准化处理,使得训练集的特征符合标准正态分布 。