@今日头条@搜狐新闻
今日头条: 通过对用户微博账号的分析建立一个“兴趣图谱”,即根据用户在微博上发布的内容及其所属类别、用户自标签、[社交关系、社交行为](共同好友数、相互评论数、@数)、参与的群组、机型、使用时间等数据源推断用户的兴趣点有哪些。
图1用户原始兴趣DNA
分三个维度 1) “推荐” 抓取的新闻信息提取几十个到上百个高维特征,并进行降维、相似计算、聚类、分类等处理,然后根据用户兴趣推荐内容 2) “热门” 互联网和社交网站出现最多的新闻 3) 好友动态 好友的评论、转发、收藏的新闻
用户行为数据实时的被传输到后台,在用户每次操作的30s内,系统会对用户模型进行更新。
与内容分类对应,分为长期和短期体系; - 长期:用户半年阅读行为、更新周期3天(基于用户的半年阅读行为,提取权值最大的标签作为用户长期兴趣——每3天计算一次更新用户画像模型) - 短期:用户最近两天阅读行为、更新周期10秒(基于用户短期<2天>的阅读行为,提取权值最大标签作为用户短期兴趣——每10秒计算一次画像)
用户新闻偏好的获取 1. 启发式方法 2. 基于模型的方法 - a) 贝叶斯网络 - b) 矩阵分解 - c) 决策树 - d) AHP
用户偏好更新
动态偏好建模技术自适应技术[1] 泛阅读产品“今日头条”是如何基于微博兴趣图谱做个性化推荐的? [2] 搜狐新闻客户端的背后大数据技术原理