新闻推荐实例调研

    xiaoxiao2021-03-25  77

    @今日头条@搜狐新闻

    1.今日头条推荐

    1.1新用户冷启动

    美味爱读: 新用户接入时建立颗粒较细的兴趣标签系统。

    今日头条: 通过对用户微博账号的分析建立一个“兴趣图谱”,即根据用户在微博上发布的内容及其所属类别、用户自标签、[社交关系、社交行为](共同好友数、相互评论数、@数)、参与的群组、机型、使用时间等数据源推断用户的兴趣点有哪些。

    图1用户原始兴趣DNA

    1.2新闻内容呈现

    分三个维度 1) “推荐” 抓取的新闻信息提取几十个到上百个高维特征,并进行降维、相似计算、聚类、分类等处理,然后根据用户兴趣推荐内容 2) “热门” 互联网和社交网站出现最多的新闻 3) 好友动态 好友的评论、转发、收藏的新闻

    1.3用户行为(“顶”“踩“”转发“)导致新闻更新

    用户行为数据实时的被传输到后台,在用户每次操作的30s内,系统会对用户模型进行更新。

    2. 搜狐新闻客户端推荐调研

    2.1 用户建模

    与内容分类对应,分为长期和短期体系; - 长期:用户半年阅读行为、更新周期3天(基于用户的半年阅读行为,提取权值最大的标签作为用户长期兴趣——每3天计算一次更新用户画像模型) - 短期:用户最近两天阅读行为、更新周期10秒(基于用户短期<2天>的阅读行为,提取权值最大标签作为用户短期兴趣——每10秒计算一次画像)

    2.2如何通过这个阅读行为提取用户偏好?

    用户新闻偏好的获取 1. 启发式方法 2. 基于模型的方法 - a) 贝叶斯网络 - b) 矩阵分解 - c) 决策树 - d) AHP

    2.3如何通过用户反馈更新用户偏好?

    用户偏好更新

    动态偏好建模技术自适应技术

    2.4 新闻入库

    内容同步、抽取(每日100万资讯内容,过滤垃圾信息-HTML标签、广告、页面重复内容)基于正文内容特征生成全局ID(基于正文内容过滤重复)基于标题、摘要、关键词生成clusterID(基于标题及其摘要关键词生成cluster Id;决定cluster sore;根据版权、合作关系、发布时间选择代表文章)

    2.3 冷启动

    2.3.1. 用户冷启动
    关联用户信息 利用其它(sohu)passport挖掘用户其它属性关联多个设备和账户关联微博账号获取微博客数据短期兴趣快速拟合 快速反馈
    2.3.2. 内容冷启动
    提高试投放PV利用效率内容分类 新闻内容去重聚合-提高数据覆盖强化纵向-横向关联关系强化主题分类精度频道中引入编辑内容引入搜狗PV
    参考

    [1] 泛阅读产品“今日头条”是如何基于微博兴趣图谱做个性化推荐的? [2] 搜狐新闻客户端的背后大数据技术原理

    转载请注明原文地址: https://ju.6miu.com/read-33406.html

    最新回复(0)