1500字范文 > 标签生产引擎架构

标签生产引擎架构

时间：2021-03-26 17:17:38

相关推荐

标签生产引擎架构

用户标签的应用价值

用户特征洞察

用户画像是了解用户的重要工具，可以辅助业务人员快速获得用户的信息认知，发现显著特征，获得业务灵感增强数据分析

标签可以丰富数据分析的维度，数据查询平台在打通标签数据后，能支持更加丰富的分析及对比精细化运营

从粗放式到精细化，将用户群体切割成更细的粒度，辅以短信、推送、邮件、活动等手段，驱以关怀、挽回、激励等策略数据产品应用

用户标签是很多数据产品的基础，诸如个性化推荐系统、智能运营平台、广告系统、CRM 等

为什么常见的标签体系用不起来

应用驱动的标签构建

根据标签的使用目的，体系化梳理标签

标签类型

数值聚合型标签如：每个⽤户最近半年消费次数、最后⼀次消费时间、近⼀周消费的

商品类别如：某活动开始时间到当前时间，⽤户的下单⾦额分群标签如：将累计充值⾦额超过 10000 元的⽤户标记为「⾼价值⽤户」如：X运营活动开始后，通过运营⻚注册下单的⽤户，则标记为「X

活动转化⽤户」状态转化标签如：通过⾏为来标记新⽤户是否为⽺⽑党如：在规定时间内，完成运营活动中的⾄少 3 项任务，并完成领券下

单转化的，则标记为「价格敏感型⽤户」

标签平台的技术需求

灵活可扩展的标签创建规则在有限资源的条件下，⽀持亿级⽤户基数的标签⽣产离线标签按天更新，实时标签秒级延迟

基础数据流

简化的数据模型

基于有限流的标签计算

有限流 Event-User 数据可以理解为永不停⽌的数据流批量离线计算开始时，参与计算的数据已完全⼊库实现方式使⽤ Impala + HDFS(parquet)或Presto+HDFS(orc) 为底层计算引擎标签规则引擎负责将标签定义翻译为⾼效 SQL使⽤ impala 分析函数实现特定的规则通⽤调度器负责例⾏任务的调度

标签宽表加速查询

标签单表数据更新代价低，可保证数据⼀致性问题：查询需要多张表 join，性能堪忧标签宽表的实现⽅式标签宽表是⼀个所有单表 join 的 view每当单表数据更新时，更新该 view定时将 view 固化为物理表遗留问题：parquet 在列数过多的情况下，性能会有所下降

⽤ bitmap 优化⼈群筛选

部分标签值所对应的⼈群使⽤频次更⾼如：「⾼价值⽤户」、「活跃⽤户」等使⽤标签筛选⽤户，可以理解成针对⼈群包的集合操作bitmap 过滤的实现⽅式将标签值对应的⼈群包构建 RoaringBitmap⼈群筛选时，先通过 bitmap 的交并差运算得到过滤⽤的 bitmapimpala 使⽤ bitmap 做最终的过滤器，得到⼈群包（包含太多元

素的 bitmap 体积太⼤，反⽽影响效率）