1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 标签生产引擎架构

标签生产引擎架构

时间:2021-03-26 17:17:38

相关推荐

标签生产引擎架构

用户标签的应用价值

用户特征洞察

用户画像是了解用户的重要工具,可以辅助业务人员快速获得用户的信息认知,发现显著特征,获得业务灵感增强数据分析

标签可以丰富数据分析的维度,数据查询平台在打通标签数据后,能支持更加丰富的分析及对比精细化运营

从粗放式到精细化,将用户群体切割成更细的粒度,辅以短信、推送、邮件、活动等手段,驱以关怀、挽回、激励等策略数据产品应用

用户标签是很多数据产品的基础,诸如个性化推荐系统、智能运营平台、广告系统、CRM 等

为什么常见的标签体系用不起来

应用驱动的标签构建

根据标签的使用目的,体系化梳理标签

标签类型

数值聚合型标签 如:每个⽤户最近半年消费次数、最后⼀次消费时间、近⼀周消费的

商品类别如:某活动开始时间到当前时间,⽤户的下单⾦额 分群标签 如:将累计充值⾦额超过 10000 元的⽤户标记为 「⾼价值⽤户」如:X运营活动开始后,通过运营⻚注册下单的⽤户,则标记为 「X

活动转化⽤户」 状态转化标签 如:通过⾏为来标记新⽤户是否为⽺⽑党如:在规定时间内,完成运营活动中的⾄少 3 项任务,并完成领券下

单转化的,则标记为 「价格敏感型⽤户」

标签平台的技术需求

灵活可扩展的标签创建规则在有限资源的条件下,⽀持亿级⽤户基数的标签⽣产离线标签按天更新,实时标签秒级延迟

基础数据流

简化的数据模型

基于有限流的标签计算

有限流 Event-User 数据可以理解为永不停⽌的数据流批量离线计算开始时,参与计算的数据已完全⼊库 实现方式使⽤ Impala + HDFS(parquet)或Presto+HDFS(orc) 为底层计算引擎标签规则引擎负责将标签定义翻译为⾼效 SQL使⽤ impala 分析函数实现特定的规则通⽤调度器负责例⾏任务的调度

标签宽表加速查询

标签单表 数据更新代价低,可保证数据⼀致性问题:查询需要多张表 join,性能堪忧 标签宽表的实现⽅式 标签宽表是⼀个所有单表 join 的 view每当单表数据更新时,更新该 view定时将 view 固化为物理表遗留问题:parquet 在列数过多的情况下,性能会有所下降

⽤ bitmap 优化⼈群筛选

部分标签值所对应的⼈群使⽤频次更⾼ 如:「⾼价值⽤户」、「活跃⽤户」等 使⽤标签筛选⽤户,可以理解成针对⼈群包的集合操作bitmap 过滤的实现⽅式 将标签值对应的⼈群包构建 RoaringBitmap⼈群筛选时,先通过 bitmap 的交并差运算得到过滤⽤的 bitmapimpala 使⽤ bitmap 做最终的过滤器,得到⼈群包(包含太多元

素的 bitmap 体积太⼤,反⽽影响效率)

基于无限流的标签计算

实时标签引擎

实现⽅式
实时标签计算使⽤ FlinkFlink job 监听 Kafka 的 event topic,计算由事件触发计算过程就是实现⼀个状态机计算的中间状态存储在 Flink State 和 KV 存储中实时计算能使⽤的离线标签,需要先订阅到 KV 存储中标签结果输出到 Kafka 的 tag topic

批流⼀体的架构

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。