# 第2章 数据指标体系

数据指标体系是建立用户画像的关键环节,也是在标签开发前要进行的工作,具体来说就是需要结合企业的业务情况设定相关的指标。

互联网相关企业在建立用户画像时一般除了基于用户维度(userid)建立一套用户标签体系外,
还会基于用户使用设备维度(cookieid)建立相应的标签体系。
基于cookieid维度的标签应用也很容易理解,当用户没有登录账户而访问设备时,
也可以基于用户在设备上的行为对该设备推送相关的广告、产品和服务。

建立的用户标签按标签类型可以分为统计类、规则类和机器学习挖掘类,相关内容在1.1.2节中有详细介绍。
从建立的标签维度来看,可以将其分为用户属性类、用户行为类、用户消费类和风险控制类等常见类型。

下面详细介绍用户标签体系的构成及应用场景。

# 2.1 用户属性维度

用户属性是刻画用户的基础。
用户属性标签包含统计类、规则类、机器学习挖掘类等类型。

对于相同的一级标签类型,需要判断多个标签之间的关系为互斥关系还是非互斥关系。
例如,
在判断性别时,用户性别为男的情况下就不能同时为女,所以标签之间为互斥关系;
在判断用户是否在黑名单内时,用户既可能在短信黑名单中,也可能同时在邮件黑名单中,所以这种就为非互斥关系。

对于根据数值进行统计、分类的标签开发相对容易。
例如,
用户的“性别”“年龄”“城市”“历史购买金额”等确定性的标签。
而在对规则类的标签进行开发前则首先需要进行数据调研。
例如,对于用户价值度划分(RFM),如何确定一个用户是重要价值用户还是一般价值用户,
对于用户活跃度的划分如何确定是高活跃、中活跃、低活跃还是已经流失,需要结合数据调研情况给出科学的规则并进行划分。

在4.2节中,将会通过两个案例介绍规则类标签如何开发。

# 2.1.2 用户性别

用户性别可细分为自然性别和购物性别两种。

自然性别是指用户的实际性别,一般可通过用户注册信息、填写调查问卷表单等途径获得。
该标签只需要从相应的表中抽取数据即可,加工起来较为方便。

用户购物性别是指用户购买物品时的性别取向。
例如,一位实际性别为男性的用户,可能经常给妻子购买女性的衣物、包等商品,那么这位用户的购物性别则是女性。

# 2.2 用户行为维度

用户行为是另一种刻画用户的常见维度,通过用户行为可以挖掘其偏好和特征。
常见用户行为维度指标(见表2-2)包括:
用户订单相关行为、下单/访问行为、用户近30天行为类型指标、用户高频活跃时间段、用户购买品类、点击偏好、营销敏感度等相关行为。

# 2.3 用户消费维度

对于用户消费维度指标体系的建设,可从用户浏览、加购、下单、收藏、搜索商品对应的品类入手,
品类越细越精确,给用户推荐或营销商品的准确性越高。

如图2-1所示,根据用户相关行为对应商品品类建设指标体系,本案例精确到商品三级品类。

这里通过一个场景来介绍构建用户消费维度的标签的应用。
某女装大促活动期间,渠道运营人员需要筛选出平台上的优质用户,并通过短信、邮件、Push等渠道进行营销,
可以通过圈选“浏览”“收藏”“加购”“购买”“搜索”与该女装相关品类”的标签来筛选出可能对该女装感兴趣的潜在用户,
进一步组合其他标签(如“性别”“消费金额”“活跃度”等)筛选出对应的高质量用户群,推送到对应渠道。
因此将商品品类抽象成标签后,可通过品类+行为的组合应用方式找到目标潜在用户人群。

# 2.4 风险控制维度

互联网企业的用户可能会遇到薅羊毛、恶意刷单、借贷欺诈等行为的用户,
为了防止这类用户给平台带来损失和风险,互联网公司需要在风险控制维度构建起相关的指标体系,有效监控平台的不良用户。
结合公司业务方向,例如可从账号风险、设备风险、借贷风险等维度入手构建风控维度标签体系。

下面详细介绍一些常见的风险控制维度的标签示例,如表2-4所示。

# 2.5 社交属性维度

社交属性用于了解用户的家庭成员、社交关系、社交偏好、社交活跃程度等方面,通过这些信息可以更好地为用户提供个性化服务。

在日常使用社交软件时,我们可以发现社交软件中的信息流广告会结合我们的社交特征进行个性化推送。
如图2-2所示,结合我所在城市、经常活跃地段及近期收藏的电脑相关文章,在微信朋友圈给我推送了相关电脑营销的广告。

基于我的星座和年龄段信息,推送符合我某些特征的婚庆摄影广告。

# 2.6 其他常见标签划分方式

通过应用场景对标签进行归类也是常见的标签划分方式。

从业务场景的角度出发,可以将用户标签体系归为用户属性、用户行为、营销场景、地域细分、偏好细分、用户分层等维度。
每个维度可细分出二级标签、三级标签等。

用户属性:包括用户的年龄、性别、设备型号、安装/注册状态、职业等刻画用户静态特征的属性。
用户行为:包括用户的消费行为、购买后行为、近N日的访问、收藏、下单、购买、售后等相关行为。
偏好细分:用户对于商品品类、商品价格段、各营销渠道、购买的偏好类型、不同营销方式等方面的偏好特征;
风险控制:对用户从征信风险、使用设备的风险、在平台消费过程中产生的问题等维度考量其风险程度;
业务专用:应用在各种业务上的标签,如A/B测试标签、Push系统标签等;
营销场景:以场景化进行分类,根据业务需要构建一系列营销场景,激发用户的潜在需求,如差异化客服、场景用户、再营销用户等;
地域细分:标识用户的常住城市、居住商圈、工作商圈等信息,应用在基于用户地理位置进行推荐的场景中;
用户分层:对用户按生命周期、RFM、消费水平类型、活跃度类型等进行分层划分。

本节提供了一种从业务场景的角度出发对标签体系进行归类的解决方案。
为读者构建标签体系提供了另外一种参考维度。

# 2.7 标签命名方式

为了便于对诸多标签进行集中管理,需要对每个标签对应的标签id进行命名。
如,
对性别为“男”的用户打上标签“ATTRITUBE_U_ol_001”,性别为“女”的用户打上标签“ATTRITUBE_U_01_002”。

下面我们详细介绍如何建立起这套标签命名方式。

对于一个标签,可以从标签主题、刻画维度、标签类型、一级归类等多角度入手来确定每个标签的唯一名称

  • 标签主题
    用于刻画属于哪种类型的标签,
    如人口属性、行为属性、用户消费、风险控制等多种类型,可分别用ATTRITUBE、ACTION、CONSUME、RISKMANAGE等单词表示各标签主题。

  • 用户维度
    用于刻画该标签是打在用户唯一标识(userid)上,还是打在用户使用的设备(cookieid)上。
    可用U、C等字母分别标识userid和cookieid维度。

  • 标签类型
    类型可划分为统计型、规则型和算法型。
    其中统计型开发可直接从数据仓库中各主题表建模加工而成,规则型需要结合公司业务和数据情况,
    算法型开发需要对数据做机器学习的算法处理得到相应的标签。

  • 一级维度
    在每个标签主题大类下面,进一步细分维度来刻画用户。

参照上面的命名维度和命名方式,下面通过几个例子来讲述如何命名标签。
对于用户的性别标签,标签主题是人口属性,用户维度为userid,标签类型属于算法型。
给男性用户打上标签“ATTRITUBE_U_01_001”,
给女性用户打上标签“ATTRITUBE_U_01_002”,
其中
“ATTRITUBE”为人口属性主题,
”后面的”U”为userid维度,
”后面“01”为一级归类,
最后面的“001”和“002”为该一级标签下的标签明细。

标签统一命名后,维护一张码表记录标签id名称、标签含义及标签口径等主要信息,后期方便元数据的维护和管理。

# 2.8 本章小结

本章主要介绍了如何结合业务场景去搭建刻画用户的数据指标体系。 2.7节介绍了一种规范化命名标签的解决方案,可保证对每一个业务标签打上唯一的标签id。

对于互联网企业来说,其存储的海量用户访问日志数据便于分析用户操作的行为特性;
而对于传统企业来说则可以更多地从用户属性维度去丰富指标体系。