用户画像系统设计调研

xiaoxiao2021-12-12 25

用户画像系统设计调研

一目的

该系统是对用户数据整体上的统计与展示，统计用户的性别、年龄、地域分布、浏览兴趣分布、忠诚度分布、综合价值分布、用户流失率等数据。该模块的主要用户是内部运营人员、产品经理、技术人员等，查看产品的整体发展状况，为产品的发展方向提供参考标准，为运营推广策略的制定提供数据依据。

二系统框架

图1 系统框架图

图2 系统流程图

数据采集

客户画像是对用户的描述，包括静态信息和动态信息两方面，客户画像模型应当合理、规范、准确、全面描绘出对数据分析有价值的用户信息，并且可以对客户进行分群，客户群内部呈现出特征的相似性，客户群之间呈现出特征的差异性。

用户画像包括以下数据：

基本资料：是客户的基础信息，包括客户姓名、通讯地址、身份证号码、注册时间、积分等；

访问偏好：用户新闻访问的喜好分类信息；

业务使用：对于客户在网站上业务使用行为进行刻画；

流量消耗：对用户网络使用的流量进行分析，细化数据可以分析到用户每一项业务使用的流量及时长等信息；

数据建模

世界上物品种类有千万种，各种信息更是层出不穷，每种信息都有各自独特的格式和表达方式，如何对信息进行描述，按照一定的方式进行转化，使之形成适合存储的数据格式，称之为建模。常用的有实体建模法，维度建模法，范式建模法三种数据建模方法，不管哪种数据建模方法都是使信息结构清晰、易于存储和读取。

（1）实体建模法

实体是现实世界中存在的事物或发生的事件，是现实世界中任何可识别、可区分的事物。实体可以是人，可以是物，也可以是发生的某件事，比如一场篮球比赛。每一个实体都必须具备一定的特征，用来区分一个个实体，这些特征称为属性，每个实体可以用若干个属性来刻画，每个属性又有一定的取值类型和取值范围，属性是变量，其取值范围是属性的值域。实体建模法是根据客观世界中的一个个实体，以及实体之间的关系，在数据建模的过程中引入这种区分方法，将整个业务分成一个个实体，从而建立数据模型。实体建模可以比较容易的实现模型的划分，抽象出具体的业务概念，创建符合自己需要的数据库模型。实体建模是对客观世界的抽象，因此该方法建立的模型具有一定的局限性，适合于特定的领域。

（2）维度建模法

维度在数学上指独立参数的数据，在数据分析领域，是指描述事物的角度和方面，是数据库当中，描述某一事物的方法和属性的数目。维度建模就是针对给定的事物，使用不同的描述方法，记录该事物在不同分类方法当中每个属性的值。如对人进行维度建模时，按照性别的维度可以分为男和女，按照年龄段可以分为儿童、少年、青年、中年、老年，按照收入水平可以分为3000以下、3000-6000、6000-10000，10000以上等集中类别。

维度建模法的好处是对于某个事物，可以在各个维度进行预处理，进行统计、分类、排序等，提高数据库操作性能，同时维度建模法建立的数据模型比较直观，可以紧密围绕业务需求建立模型，直观的反应业务中的问题，建模方法简单，不需要进行特别的抽象处理。但是维度建模法同时也存在缺点，一是在数据建模时需要进行预处理，存在大量的预处理工作，并且当业务需求发生变化时，需要重新定义维度，重新进行新维度的数据预处理，在数据预处理过程中往往存在大量数据冗余，另外就是在进行维度建模时，仅仅依靠维度进行建模，不能保证数据来源的准确性和一致性，不适合在数据库底层使用。

（3）范式建模法

范式就是规则，是符合某一级别关系模式的集合，构造数据库时必须遵循一定的规则。关系数据库中的关系必须满足一定的规则，即满足不同的范式。

范式建模法是将原始数据信息根据一定的数据结构和转换模型，分解、转化为规范的格式，使数据遵守一定的约束条件，每一个数据项所表达的意思明确，不产生歧义，同时各条数据之间相互独立，不存在依赖关系。

数据分析

数据分析是指通过适当的方法，建立分析模型，对采集来的数据进行分析，充分发挥数据的作用，力求使数据的价值最大化。数据分析的目的是把杂乱无章的原始数据进行集中提炼，找出其内在的规律。数据分析的主要方法有分类分析、聚类分析、回归分析、关联分析等方法。

（1）分类分析

分类是指对群体数据进行分析，找出对象的共同特征，并根据不同的特征值模型，将群体数据分成多个不同的类别。分类分析的目的是根据分类模型，将数据映射到不同的类。分类分析可以应用在客户分析、客户特征分析、产品分析当中。例如在对汽车市场客户进行分析时，根据用户年龄、性别、家庭结构、收入状况、目前是否用户汽车等因素，可将客户分为未婚白领、新三口之家、富裕中年家庭等等不同群体，汽车营销人员就可以向不同群体推销不同车型，如向未婚白领推荐款式时尚、价格实惠的车型，给中年家庭推荐中高档车型替换现有汽车。

（2）聚类分析

聚类分析是将一组数据按照不同维度的相似性和差异性分成不同的几组，聚类分析的

目的是使同一组数据之间的相似性尽量大、差异性尽量小，不同组数据之间相似性尽量小、

差异性尽量大。

聚类可以对用户群进行分类，对客户背景进行分析，对产品市场进行细分。例如对用

户消费能力进行分析时，10个用户，其中3个消费1元，2个消费6元，2个消费7元，3个消费10元，使用聚类方法对这组用户进行分析，其中3人为低消费能力用户，消费能力 1元，3个高消费能力用户，消费能力10元，4个中等能力消费用户，消费能力6.5元，而非按照数学方法得出的 5元。

（3）回归分析

回归分析是分析一组数据的某个特征或某个模型与这组数据当中的某项或某几项参数变化的相互依赖关系，回归分析应用广泛，根据分析模型当中自变量的多少又可以分为一元回归分析和多元回归分析，根据自变量和因变量的关系类型，又可以分为线性回归分析和非线性回归分析。回归分析研究的是数据之间的相互关系、数据的趋势特征以及数据发展的预测。

（4）关联分析

关联是指数据项之间产生关系的规则，可以是不同数据项之间的关系，也可以是数据项内部因素之间的关系。关联分析是根据数据项以及数据项之间的关联规则，找出隐藏的数据项之间的相互关系，即根据某些参数在数据项中的存在规则导出其他参数在数据项的存在规则，找出隐藏的数据关联和相互关系的过程。

关联分析一般用于客户关系管理、业务订购分析。通过对一组用户的业务订购数据进行分析，找出用户之间业务订购数据的相似性，比如有100个用户订购了A业务，其中80个用户又同时订购了B业务，则可以根据此数据，生成A业务与B业务之间的关联度为0.8，在推广B业务时，可以优先选择订购了A业务的用户进行营销。

数据挖掘

数据挖掘是对用户进行理解，将用户的行为转化为规则的利于、计算机存储可处理的数据格式，是按照某种模型对客户信息的规范描绘。建立客户画像模型，是为了用来进行数据分析，挖掘出用户的需求，从而实现内容推荐的功能。

用户画像包括用户地域、年龄、性别等基本属性的分布统计，用户消费数据、用户忠诚度、用户综合价值的分布统计以及用户流失率的整体状况。主要分两部分介绍该系统的设计与实现：用户分布图的设计与实现以及用户流失率计算功能的实现。

（1）用户分布图的设计与实现

该系统是产品的用户整体状况报告，与用户行为排名类似只需要遍历一遍数据，分别统计不同类别的数据。该模块流程如图所示，需要遍历并统计用户基础属性（地域、年龄、性别等、忠诚度、消费、综合价值等数据，并整理成一份报告最终导入数据库。

（2）流失率计算功能的实现

流失率计算过程的流程如图所示，计算的数据源包括用户登录数据以及上一次计算的结果。用户登录数据包括每位用户的第一次登录时间以及最后一次登录时间等数据。上一次计算结果包括用户是否流失等数据。综合计算时，利用用户第一次登录时间判断是否为新用户（注册时间2个月以内的用户），利用最后一次登录时间判断用户是否己经流失，上一次计算结果来判断是否己经计算过流失率，避免重复计算，最终利用一次遍历统计新老用户上月留存数量以及新老用户当月流失数量，进而计算新用户流失率、老用户当月流失率以及整体流失率等指标。

（3）用户忠诚度的指标包括：访问频率、最近访问时间、平均停留时间、平均访问页面数。其中每一项的概念：访问频率表示用户在一段时间内访问网站的次数，比如3天内访问了50次；最近访问时间表示用户最近一次访问网站距离现在的时间差，为了便于度量，一般以用户最近访问时间距当前时间的天数表示；平均停留时间表示用户最近一段时间内每次访问的平均停留时间；平均访问页面数表示用户一段时间内每次访问的平均浏览页面数。

最终总结出这四个指标可应用于忠诚度计算：最近一段时间内登录新闻客户端的天数、最近一次上线距现在多少天，最近一段时间内登录日期中每天观看新闻的平均时长、最近一段时间内登录日期中每天观看新闻的平均次数。

内容推荐算法

（1）关联度衡量标准

几种内容推荐技术的比较：TOP 排名推荐法适用于无法获取用户信息的情况；个性化喜好推荐法通过用户与内容的类别匹配进行推荐；行为关联推荐法通过对群体行为进行分析，根据普适规律进行推荐。

在关联分析当中，有两个与关联程度密切相关的衡量标准：“支持度”与“置信度”。其中，支持度是指所有事件当中，几个事件同时发生的概率P（A, B）；置信度是指某个事件发生时，其他事件发生的概率P（B|A）。

（2）数据样本选择

用户每天产生无数条访问记录，用户间使用习惯相差很大，用户忠诚度（访问量）也存在巨大差距，在进行内容推荐时，应当选择什么样的客户群作为推荐的样本呢？

我们可以选择访问量中等的用户作为内容推荐的分析样本。忠诚度非常高的用户因为其每天浏览的内容太多，系统难以提炼出用户真正的兴趣点，或者其关注内容过于个性化、专业化，不适合向普通用户推荐，因此不选取高忠诚度的用户作为分析样本。忠诚度过低的用户因为浏览内容太少，无法形成关联数据，因此也不选取其作为分析的样本。

可以采用聚类方法对用户的忠诚度进行区分。聚类分析是在由若干个（不适宜太多）度量维度刻画的空间模型上，对数据样本进行标识，然后采用“密度算法”，基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是，只要一个区域中的点的密度大过某个阈值，就把它加到与之相近的聚类中去。

代表算法有：DBSCAN 算法、OPTICS 算法、DENCLUE 算法等，根据样本点在向量空间的分布情况，计算出若干个质心，便形成多个分类。

（3）推荐算法模型

优秀的推荐算法应当具有自学习的能力，学习过程不需要人工干预，是一个闭环的自动控制的过程，即随着时间的推移和使用次数的增多，其维护的用户的兴趣偏好模型越来精确，推荐的内容越来越准确。

计算推荐内容时，系统使用用户关联的算法模型，对用户间的使用行为进行关联对比，找出习惯相似的用户群，根据访问内容关联的置信度信息，对用户推荐置信度高的内容。

在实际应用当中，由于网站内容数量非常多，因此无法对用户访问的每一个具体页面进行记录，取而代之将每个页面对应到相应的类别，以此来节约存储空间，同时提高系统计算性能，使内容推荐变得实际可操作，而这种详细记录推荐法一般用于某个具体站点本身的内容推荐。同时系统对每次推荐的用户反馈情况进行跟踪，以用户反馈信息作为推荐算法优化以及客户画像修正的依据。对于一次推荐活动，若某个用户有返回，表示该用户对推荐的内容感兴趣，系统自动将该用户这个类别的偏好权重加大；若某个用户没有返回，表示该用户对推荐的内容不感兴趣，系统自动将该用户这个类别的偏好权重降低。另外系统统计每次推荐活动的总体反馈情况，若总体返回率较高，则表示推荐的类别实际关联度高，系统将该关联模型的优先级提高，若总体返回率较低，则表示推荐的类别之间无必然的关联，系统自动降低该关联模型的优先级，关联模型的优先级降低到一定程度，系统将不再使用该模型进行内容推荐。

转载请注明原文地址: https://ju.6miu.com/read-900110.html

专利

最新回复(0)