用户画像,简单的从字面意思上理解通过画画的形式来描述用户的外在形象,用户的外在形象表现在画面上是一种直观的信息,能够通过图画来一眼看出用户是大眼睛小眼睛,高鼻梁矮鼻梁,乃至判断用户的年龄、性别、职业、情感等等一系列状态,在推荐系统中,用户画像也是同样的道理,根据用户人口特征、网页浏览、社交活动、消费行为等信息为勾勒出用户的画像,这种画像是通过标签化的方式呈现,构建用户画像的核心工作就是利用海量数据分析挖掘用户的属性,给用户贴上标签,这个标签就是用户在某一个属性中的状态标识,通过标签能够直观的知道用户的某些属性的标签。
上图即为推荐系统中所要进行设计标签,当然标签的设计需要结合业务场景、需求、数据等等各方面因素
标签体系的设计首先要对数据的有足够深入的理解,其次在对数据理解深入的基础上,对数据使用的场景进行设计,基于这些设计和对数据的认识,然后提出相应的实现方案,这是基础的一个画像的设计步骤,下面是小编所完成的标签体系中的一部分,标签设计共包含了18个一级标签,约254个二级标签,覆盖的用户超过8亿
针对标签体系的设计,对标签的实现方法也有了新的更加深入的认识,当下的数据几乎没有什么养的数据源能够覆盖这上面所有的标签,而在这样的情况下,我们训练样本的数据如何获取呢?就是样本应该怎么获取,既然是基于对数据的理解设计的标签,那我们就已经基于这些数据设想过我们应该在通过什么样子的数据来表征某个标签,在生成相对应的样本时,我们可以通过一些统计学的方法去获取一部分数据样本,当然采用这种方法会出现一部分错样本,然后可以通过一些侧面的方法去验证这些样本的准确性。