4点做好数据分析 数据分析实战案例

这是一个非常经典的案例 , 很多博主都写过 , 没错 , 就是它:泰坦尼克号的存活率分析 , 就是上面的一个问题 , 通过对船上乘客的信息分析和建模 , 预测哪些乘客幸存 。
让我们非常粗略地对这个数据集做一个简单的分析 。
使用工具:Excel(没错 , 就是这么简单粗暴)
1912 年 , 泰坦尼克号撞上冰山并沉没 , 船上 2,224 名乘客和机组人员中的 1,502 人遇难 。对于幸存者来说 , 这只是运气还是某种模式?这是我们比较关心的 , 所以我们需要提问:
其次 , 了解数据 。数据集共有以下字段 , 其中name、sex、cabin、、、是字符串类型 , 虽然是数字类型 , 但含义是标签 。分析从区域的维度开始 。
检查发现Age、Fare、字段全部缺失 。让我们一一来看看 。
年龄列有263条数据为空 , 缺失率为20% 。所有这些都可以填写为年龄的平均值或众数 。也可以进一步分析 。发现在缺失年龄的数据中 , 三等舱最多 , 占总缺失值的79% , 三等舱男性未幸存者比例最大 , 因此也可以用三年级的平均年龄 。
为了保持数据的真实性 , 这里不会做 。
过滤发现fare(票价)中只有一个缺失值 , 我们找到了 , 发现可以用同类型的均值填充 。
因此 , 我们对三等座60岁以上男性的平均票价进行了过滤 , 登机口为S来填补这个缺失值 。
登机口字段也有2个缺失值 , 过滤掉看看 。
进一步观察到这两个乘客单独出行 , 没有家人(从sibsp和parch列都是0) , 继续处理fare缺失值的思路 , 找到同类型填写 。对于第一位乘客 , 在筛选出头等舱的35-40岁女性中 , 填写价值最高的港口 , 结果为S 。
同理 , 对于第二名乘客 , 筛选出登陆口岸最多的60-65岁头等舱女性 , 结果也是S 。
客舱(cabin)字段缺失值达到77% 。缺失值过多 , 不补 , 直接保留或删除 。让我们把它留在这里 。
分析班级和生存情况 , 插入数据透视表
幸存者中 , 头等舱占40% 。
为每个小屋的生存和死亡制作百分比堆叠条形图 。可以看出 , 第一类的幸存者比例最大 , 达到61.92% , 第三类的幸存者比例最小 。 , 只有25.33% , 所以还是那句老话 , 虽然钱不是万能的 , 但还是不够@#%&^...
透视(小屋号) , 可以看到有295个唯一值 , 基本上只有一个人住在一个??小屋里 。
但我们也发现有 1 间小屋可供 2 人以上使用 。我们进一步拉入舱位进行对比 , 发现三等舱的数值很小 , 说明三等舱的缺失值大部分是缺失的 , 也就是说三等舱的人没有 。没有小屋?大通店?这是为了进一步验证 。
另外发现三等舱的舱号以E/F/G开头 , 而一等舱的A/B/C多 。猜测是舱位号随着舱位递减按字母升序排列 。
姓名栏没有有价值的信息 , 但可以进一步认为姓名其实是和称谓相对应的 , 比如先生是已婚男人 , 夫人是已婚女人等 , 但会先在这里删除 。

4点做好数据分析  数据分析实战案例

文章插图
性别分析性别和生存
女性占幸存者的 67.8% , 远高于男性的 32.2% 。