专业的数据分析报告应该这么写!( 二 )


1. 分析需要基于可靠的数据源
用于鉴别信息/数据的可靠性,主要有四种方法:同类对比、狭义/广义比对、相关对比和演绎归谬 。
Tips:以上都是常用的方法论,最核心是足够了解业务,对关键指标数据情况了然于心,那么对数据准确性的判断水到渠成 。对此,建议是每日观测核心业务的数据情况,并分析波动原因,培养业务理解力和数据敏感度 。
2. 尽量图表化,提高可读性
用图表代替大量堆砌的数字,有助于阅读者更形象直观地看清楚问题和结论,当然,图表也不要太多,过多的图表一样会让人无所适从 。
让图表五脏俱全,一张图必须包含完整的元素,才能让阅读者一目了然 。标题、图例、单位、脚注、资料来源这些图表元素就好比图表的五脏六腑 。
要注意的条条框框 。
常见的图表类型选择:
图表使用Tips:
03 常见数据分析误区
“用数据说话”,已经成为一种流行语 。
在很多人的心里,数据就代表着科学,科学就意味着真相 。“数据不会骗人”,也成了说服别人时常用的口头禅,事实果真如此吗?让我们来谈谈那些常见的误区 。

专业的数据分析报告应该这么写!

文章插图
1. 控制变量谬误
在做A/B测试时没有控制好变量,导致测试结果不能反映实验结果 。或者在进行数据对比时,两个指标没有可比性 。举个例子,为测试不同营销时间点对下的转化的影响,但A实验使用短信营销、B实验使用电话营销,未控制变量(营销方式),导致实验无法得出结论 。
2. 样本谬误
统计学的基础理论基石之一就是大数定律,只有当数据量达到一定程度后,才能反映出特定的规律 。如果出现样本量极少的情况,建议把时间线拉长,获得足量的样本 。或者将不重要的限定条件去掉,增加样本数 。
统计学的另一大理论基石是中心极限定理 。简单描述就是,总体样本中,任意一个群体样本的平均值,都会围绕在这个群体的整体平均值周围 。
举个例子,在应用升级期间,衡量登录用户数、交易用户数等指标,来判断用户对新版本的喜欢是否优于老版本 。听上去非常合理,但这里实际就隐藏了选择性偏见,因为新版本发布时,第一批升级上来的用户往往就是最活跃的用户,往往这批用户的指标较好,但不代表新版本更好 。
这种数据的破坏性比较大,可能得出错误的结论 。通常我们会采用数据校验的手段,屏蔽掉校验失败的数据 。同时,在分析具体业务时,也要针对特定业务,对所使用的数据进行合理性限定,过滤掉异常离群值,来确保拥有比较好的数据质量 。
3. 因果相关谬误
会误把相关当因果,忽略中介变量 。比如,有人发现雪糕的销量和河溪溺死的儿童数量呈明显相关,就下令削减雪糕销量 。其实可能只是因为这两者都是发生在天气炎热的夏天 。天气炎热,购买雪糕的人就越多,而去河里游泳的人也显著增多 。
4. 辛普森悖论
简单来说,就是在两个相差较多的分组数据相加时,在分组比较中都占优势的一方,会在总评中反而是失势的一方 。
5. 个人认知谬误
主观臆断、经验当事实、个体当整体、特征当全貌、眼见当事实 。
举个主观臆断的例子:某个产品A页面到B页面的转化率30%,直接判断为很低,推导出可以提高到75% 。但实际类似产品或者用户行为决定页面的转化率就只有这么高,得出一个错误的结论 。
标准至关重要,数据+标准=判断 。有了判断才能深入分析 。通过分组对比找标准(象限法、多维法、二八法、对比法),有标准通过分析对比,找到“好/坏”的点 。