上述几个字段 , 就构成了APP端行为采集的how和what了 。如果我们再考虑的齐全一些 , who、when及其他辅助字段都能加上 。
文章插图
埋点怎么设计 , 不是本篇文章的重点(实际上也复杂的多 , 它需要很多讨论和文档and so on , 有机会再讲) , 因为各家公司都有自己的设计思路和方法 , 有些更是按控件统计的无痕埋点 。如果大家感兴趣 , 可以网络上搜索文章 , 不少卖用户分析平台的SaaS公司都有文章详细介绍 。
除了行为「点」 , 埋点统计中还包含「段」的逻辑 , 即用户在页面上停留了多久 , 这块也是客户端处理的优势所在 , 就不多做介绍了 。
这里提供一份来源于网上的我也不知道是啥内容产品的行为数据源 , 虽然它的本意是用作推荐模型的算法竞赛 , 不过用作用户行为分析也是可以的 。
文章插图
这几个字段便是用户行为的基础字段 , 像deep_view , 虽然没有明确说明是什么含义 , 但也猜测是描述了用户浏览的深度 , 比如看了50%+的文章内容 , 它只能以客户端的形式统计 , 实际业务场景往往都需要这种有更深刻含义的数据 。
具体的分析实操留待下一篇文章讲解 , 感兴趣的同学可以自行下载 , 和网页日志放一起了 。
行为数据不是百分百准确的 , 采集用户行为 , 也会有丢失和缺漏的情况发生 。这里不建议重要的统计口径走埋点逻辑 , 比如支付 , 口径缺失问题会让人很抓狂的 , 相关统计还是依赖支付接口计算 。支付相关的埋点仅做分析就行 。
APP行为数据往往涉及到大数据架构 , 哪怕10万DAU的一款产品 , 用户在产品上的操作 , 也会包含数十个乃至上百的操作行为 , 这些行为都需要准确上报并落到报表 , 对技术架构是一个较大的挑战 。而行为数据的加工处理 , 也并不是mysql就能应付 , 往往需要分布式计算 。
对数据源的使用方 , 产品运营及分析师 , 会带来一个取舍问题 。如果我只想知道点赞和分享数 , 那么通过api或者生产库也能知道 , 是否需要细致到行为层面?这便是一个收益的考量 。
当然啦 , 我个人还是挺建议对分析有兴趣的同学 , 去能接触到用户行为数据的公司去学习 。
三、业务数据业务数据是生产环境提供的 , 我们在APP端获得了用户user_id , 文章或商品的item_id , 乃至支付order_id , 但它们只和用户的行为有关 。换句话说 , 我并不知道user_id是什么样的用户 。
是男是女 , 芳龄几何?出生籍贯 , 从哪里来?这些人口统计学的信息必然不会在行为埋点中包含 。商品内容订单也是同理 。
单依靠埋点的行为数据 , 我们并不能准确描述什么样的用户做了事情 , 也不知道对什么样的内容做了行为 。描述性质的数据/维度是分析的价值所在 。男女的行为差异 , 不同城市的用户群体购买习惯 , 这才构成了分析和精细化的基础 。
业务数据和行为数据的结合 , 在数据层面上可以简单理解为join 。比如把用户行为数据的user_id和存放用户信息的user_id进行关联起来 。形成如下:
文章插图
上图是简化后的字段 。user_name和sex就是取自业务数据的用户信息 , item_tag也是取自内容信息表中的字段 , 而event则来源于行为埋点 。三者共同构成了 , 什么样的用户who在什么时候when对什么样的内容做了什么事what 。
简单说 , 很多用户行为的建模 , 就是拿各种数据组合在一起计算 。用user_id的粒度聚合 , 你算得是这些用户喜欢哪些文章 , 用item_id的粒度聚合 , 你算得是这篇文章被哪类用户喜欢 。它们都是你看待/分析事物的角度 。
从更深的层面上说 , 行为数据也是可以再加工和利用的 , 它是构成用户标签的基础 。拿浏览行为数据说 , 我们设计了埋点 , 知道王二狗看了哪些类型的文章 ,
- 素芷妃丝康百度百科 素芷妃丝康是什么药
- 财务bp是什么意思呀 财务bp是什么意思?
- 送螃蟹的意义是什么
- 绵竹市盛世华章是什么社区
- 精英护理的理念是什么
- 走心歌词含义,花被人摘走心被虫吸走是什么歌的歌词
- 一抹云烟一抹愁 一抹云烟什么意思
- 破釜沉舟是指什么意思 破釜沉舟是指什么战役
- 干青翡翠与翡翠怎么区分 翡翠干青和翡翠的区别是什么
- 意大利面拌42号混凝土全文背诵 意大利面拌42号混凝土是什么意思