4点做好数据分析 数据分析实战案例( 二 )


女性幸存者人数占女性总数的72.75% , 远大于男性幸存者总数的19.10% 。
& Class 你可以看看阶级和性别的关系 , 因为男性人口基数很大 , 所以无论是哪个阶级 , 男性的数量都比女性多 。同样 , 在每个班级中 , 获救的女性人数最多 。
但是 , 97% 的一等女性幸存下来 , 远高于其他两个阶层 , 而三等女性只有 49% 幸存 。
age 分析年龄和生存情况 。因为缺少年龄 , 所以只分析数值 。
首先 , 对年龄做一个简单的描述性统计 。使用【数据分析】中的【描述性统计】功能 , 可以看到最大年龄为80岁 , 最小年龄为0.17岁 , 平均值为29.88年龄中位数为 28 岁 , 众数为 24 岁 。
再进一步 , 可以观察年龄分布 , 做一个柱状图 , 5岁为一组 , 可以看到乘客的年龄主要集中在15-30岁 , 其中年轻人20-25岁是最多的 。
了解了年龄的大致分布后 , 是时候看看特定人群的生存情况了 。我们将年龄分为:
青少年(0~15岁)青年(15~40岁)中年(41~65岁)老年人(66岁及以上)
先做一个分组表 , 用模糊匹配实现分组
在年龄分组辅助列旁边新建一列 , 输入公式
!18:21 该区域为上图中预设的分组区域 。
再次分组和调整年龄
可以看到 , 在幸存者中 , 年轻人和青少年的比例最大 , 老年人的比例最小 。
制作各年龄组死亡和存活百分比堆积柱形图 , 结果显示获救的未成年人比例最高 。
sibsp分析sibsp字段(兄弟姐妹/配偶的数量) , 透视后可以看到标签为0 , 表示没有亲属的人是船上乘客的大多数 。
也因为基数大 , 0亲属的幸存者比例最高达到61.8% 。
为每个标签制作百分比堆积柱形图 , 这是一个更有意义的结果 。可以看出 , 有1个亲属的组获救比例最高 。
parch 分析 parch 字段(父母/子女人数) , 也可以看出 , 没有父母/子女的人数占船上总人数的 76% 。同样 , 这群人获救的人数最多 。
做一个百分比堆积柱形图 , 我们可以看到有3个父母/孩子的人获救的比例最大 , 达到62.5% 。

4点做好数据分析  数据分析实战案例

文章插图
fare 分析 Fare(票价)字段 。第一个问题是票价和等级之间是否存在相关性 。正常的逻辑是等级越高 , 票价越高 。这里计算的与票价的相关系数是-0.56 , 还是比较相关的 。
记住我们上面使用的模糊匹配分组 , 也可以直接用数据透视表分组 。查看组合后 , 选择一组50步 , 然后看票价和舱位视角 , 看到100以上的高票价都是一等舱 , 二等舱和三等舱票价大部分都是0 ~ 50 。
性别与票价女性的平均票价高于男性
& Class & Fare 一等舱的平均价格远高于其他两舱 。每个舱位女性的平均价格高于男性 , 最高512的票价来自头等舱的女性 。另一个有趣的现象是 , 票价为 0 的都是男性 。
都写到这里了 , 再提一个问题 , 票价和什么有关?性别?登陆港?班级?舱?有兴趣的朋友可以自行深入探索 , 这里就不一一探讨了 。
接下来看50人一组的票价分布 , 可以看到0到50的票价占了机上乘客的82% 。
同时存活人数最多的人是0~50票价 , 因为它的基数本身就很大 。