4点做好数据分析 数据分析实战案例( 三 )


从各个票价分组的角度 , 做百分比堆积柱形图 , 可以看出票价500-550的人群存活率为100% , 而票价0-50的人群存活率只有 32% 。
该字段为车票信息/代码 , 没有特别的分析意义 , 这里直接删掉 。
分析场( Port) , 透视后发现S港的登机人数最多 。从堆积柱形图可以看出 , C的登船比例最高 。
存活率与什么有关?这是我们最关心的 。这个问题其实就是字段与其他字段的相关系数 。
sex 列是字符数据 。要将其映射为数值 , 我们添加一个名为的辅助列 , male为1 , 即0.
再增加一列f_num字段 , 即sibsp和parch之和 , 即家庭成员数 。
将字段分解为3个辅助列 , Port-S、Port-C、Port-Q , 同时输入公式:
如果该字段为S , 则port-S列为1 , port-C , port-Q为0 , 以此类推 。
同样地 , 对小屋做同样的事情
使用【数据分析】中的【相关系数】函数查看各个字段的相关系数
按降序 , 你可以看到出生率与什么有关
回到我们最初的问题:
【4点做好数据分析数据分析实战案例】虽然三等舱的人数最多 (54%) , 但一等舱的幸存者比例最高 (62%) 。虽然男性(64%)多于女性 , 但女性的存活率(72%)远高于女性 。男性(19%) , 一等女性(97%)的存活率远高于三等女性(49%) 。15-40岁青年人数最多(53%) , 存活率最高为0-15岁 青少年(56%)亲属人数最多(68%) , 存活率最高1人(51 %) , 父母/子女人数最高(76%) , 3人存活率最高(63%)票价在0-50区间的人数最多(82%) , 但票价在500-550区间的成活率是100% 。登港人数最多(70%) , 但C港存活率最高(56%)