教女朋友学数据挖掘——泰坦尼克号获救预测( 四 )


观察:
1)大部分人的船舱等级是3 。
2)C的乘客看起来很幸运,他们中的一部分幸存下来 。
3)S港口的富人蛮多的 。仍然生存的机会很低 。
4)港口Q几乎有95%的乘客都是穷人 。
sns.factorplot('Pclass','Survived',hue='Sex',col='Embarked',data=http://www.kingceram.com/post/data)plt.show()
观察:
1)存活的几率几乎为1 在和中的女人 。
2) 的乘客中男性和女性的生存率都是很偏低的 。
3)端口Q很不幸,因为那里都是3等舱的乘客 。
港口中也存在缺失值,在这里我用众数来进行填充了,因为S登船人最多呀
data['Embarked'].fillna('S',inplace=True)
data.Embarked.isnull().any()
False
4.9 兄弟姐妹数与存活率关系
-->兄弟姐妹的数量
这个特征表示一个人是独自一人还是与他的家人在一起 。
pd.crosstab([data.SibSp],data.Survived).style.background_gradient(cmap='summer_r')
SibSp
398
210
97
112
15
13
12
15
f,ax=plt.subplots(1,2,figsize=(20,8))sns.barplot('SibSp','Survived',data=http://www.kingceram.com/post/data,ax=ax[0])ax[0].set_title('SibSp vs Survived')sns.factorplot('SibSp','Survived',data=data,ax=ax[1])ax[1].set_title('SibSp vs Survived')plt.close(2)plt.show()
pd.crosstab(data.SibSp,data.Pclass).style.background_gradient(cmap='summer_r')
SibSp
137
120
351
71
55
83
15
12
18
观察:
和表明,如果乘客是孤独的船上没有兄弟姐妹,他有34.5%的存活率 。如果兄弟姐妹的数量增加,该图大致减少 。这是有道理的 。也就是说,如果我有一个家庭在船上,我会尽力拯救他们,而不是先救自己 。但是令人惊讶的是,5-8名成员家庭的存活率为0% 。原因可能是他们在=3的船舱?
4.10 父母和孩子数与存活率关系
Parch --> 父母和孩子的数量
pd.crosstab(data.Parch,data.Pclass).style.background_gradient(cmap='summer_r')
Parch
163
134
381
31
32
55
21
16
43
再次表明,大家庭都在 。
f,ax=plt.subplots(1,2,figsize=(20,8))sns.barplot('Parch','Survived',data=http://www.kingceram.com/post/data,ax=ax[0])ax[0].set_title('Parch vs Survived')sns.factorplot('Parch','Survived',data=data,ax=ax[1])ax[1].set_title('Parch vs Survived')plt.close(2)plt.show()
观察:
这里的结果也很相似 。带着父母的乘客有更大的生存机会 。然而,它随着数字的增加而减少 。
在船上的家庭父母人数中有1-3个的人的生存机会是好的 。独自一人也证明是致命的,当船上有4个父母时,生存的机会就会减少 。
4.11 船票价格与存活率关系
Fare–> 船票的价格
print('Highest Fare was:',data['Fare'].max())print('Lowest Fare was:',data['Fare'].min())print('Average Fare was:',data['Fare'].mean())
Highest Fare was: 512.3292Lowest Fare was: 0.0Average Fare was: 32.2042079685746
最低票价是0英镑 。这价格我也能去!