大数据分析的四个环节

什么是大数据?
【大数据分析的四个环节】随着大数据时代的到来,AI 概念的火热,人们的认知有所提高 。为什么说大数据有价值?这是不是只是一个虚的概念?大家怎么考虑数据驱动问题?为什么掌握更多的数据就会更有效?这些问题很难回答,但是,大数据绝不是大而空洞的 。
信息论之父香农曾表示,信息是用来消除不信任的东西,比如预测明天会不会下雨,如果知道了今天的天气、风速、云层、气压等信息,有助于得出更准确的结论 。所以大数据是用来消除不确定性的,掌握更多的有效数据,可以驱动企业进行科学客观的决策 。
桑文锋对大数据有着自己的理解,数据采集遵循“大”、“全”、“细”、“时”四字法则 。
“大”强调宏观的“大”,而非物理的“大” 。大数据不是一味追求数据量的“大” 。比如每天各地级市的苹果价格数据统计只有 2MB,但基于此研发出一款苹果智能调度系统,就是一个大数据应用,而有些数据虽然很大,却价值有限;
“全”强调多种数据源 。大数据采集讲求全量,而不是抽样 。除了采集客户端数据,还需采集服务端日志、业务数据库,以及第三方服务等数据,全面覆盖,比如美国大选前的民意调查,希拉里有70%以上胜算,但是川普成为了美国总统,因为采样数据有偏差,支持川普的底层人民不会上网回复 。
“细”强调多维度数据采集,即把事件的维度、属性、字段等都进行采集 。如电商行业“加入购物车”的事件,除了采集用户的 click 数据,还应采集用户点击的是哪个商品、对应的商户等数据,方便后续交叉分析 。
“时”强调数据的时效性 。显然,具有时效性的数据才有参考价值 。如国家指数,CPI 指数,月初收集到信息和月中拿到信息,价值显然不同,数据需要实时拿到,实时分析 。
从另一个视角看待数据的价值,可以分为两点,数据驱动决策,数据驱动产品智能 。数据的最大价值是产品智能,有了数据基础,再搭建好策略算法,去回灌产品,提升产品本身的学习能力,可以不断迭代 。如今日头条的新闻推荐,百度搜索的搜索引擎优化,都是数据驱动产品智能的体现 。
数据分析四个关键环节
桑文锋把数据分析分为四个环节,数据采集、数据建模、数据分析、指标 。他提出了一个观点,要想做好数据分析,一定要有自底向上的理念 。很多公司的数据分析自顶向下推动,用业务分析指标来决定收集什么数据,这是需求驱动工程师的模式,不利于公司长久的数据采集 。而一个健康的自底向上模式,可以帮助公司真正建立符合自己业务的数据流和数据分析体系 。

大数据分析的四个环节

文章插图
一、数据采集
想要真正做好大数据分析,首先要把数据基础建好,核心就是“全”和“细” 。
搜集数据时不能只通过 APP 或客户端收集数据,服务器的数据、数据库数据都要同时收集打通,收集全量数据,而非抽样数据,同时还要记录相关维度,否则分析业务时可能会发现历史数据不够,所以不要在意数据量过大,磁盘存储的成本相比数据积累的价值,非常廉价 。
常见的数据采集方式归结为三类,可视化/全埋点、代码埋点、数据导入工具 。
第一种是可视化/全埋点,这种方式不需要工程师做太多配合,产品经理、运营经理想做分析直接在界面点选,系统把数据收集起来,比较灵活 。但是也有不好的地方,有许多维度信息会丢失,数据不够精准 。
第二种是代码埋点,代码埋点不特指前端埋点,后端服务器数据模块、日志,这些深层次的都可以代码埋点,比如电商行业中交易相关的数据可以在后端采集 。代码埋点的优势是,数据更加准确,通过前端去采集数据,常会发现数据对不上,跟自己的实际后台数据差异非常大 。可能有三个原因:第一个原因是本身统计口径不一样,一定出现丢失;第二点是流量过大,导致数据丢失异常;第三点是SDK兼容,某些客户的某些设备数据发不出去,导致数据不对称 。而代码埋点的后台是公司自己的服务器,自己核心的模拟可以做校准,基本进行更准确的数据采集 。