当前位置：首页 > news >正文

推荐系统/业务，相关知识/概念1

news 2025/4/22 15:25:23

graph LR
A[数据采集] --> B{特征工程}
B --> C[离线训练]
B --> D[实时特征]
C --> E[模型仓库]
D --> F[在线服务]
E --> F
F --> G[推荐展示]
G --> H[用户反馈]
H --> A

上游数据流
1. 日志采集：埋点系统捕获用户全链路行为
2. 数据清洗：处理异常值（如秒退点击）、去重（刷新重复曝光）
3. 特征存储：构建用户画像（长期兴趣/短期意图）、物品图鉴
中台处理层
1. 离线计算：T+1更新用户长期兴趣向量
2. 实时计算：Flink处理最近5分钟行为序列
3. 模型更新：在线学习
下游应用：
1. 多场景适配：首页Feed流、个性化推荐
2. 业务融合：结合搜索关键词优化推荐（混合排序）
3. 效果监控：异常检测

作用：

召回是从海量物品库中快速筛选出少量候选集（比如几百到几千个），解决效率问题。核心是通过规则、简单模型或协同过滤算法，初步缩小推荐范围。

应用场景：

协同过滤：
1. ItemCF：通过物品相似度推荐（例如“买了A的用户也买了B”）
2. UserCF：基于用户相似度推荐（例如“和你有相似兴趣的用户喜欢C”）
双塔模型：用户和物品分别通过两个神经网络塔生成向量，计算相似度召回。
规则召回：基于地理位置、物品热门、用户历史行为等直接筛选。

技术要点：

作用：

对召回阶段的候选集进行精细化打分，解决精准度问题。通过复杂模型（如深度学习）融合用户画像、物品特征和上下文信息，预测用户对物品的偏好程度。

应用场景：

技术要点：

作用：

在排序后进一步优化推荐列表，解决多样性、业务规则和用户体验问题。例如去重、插入广告、调整顺序等。

应用场景：

用户画像是对用户特征的结构化描述，通过多维标签体系刻画用户行为和偏好。

（用户画像方面，应该包括用户的基本信息、行为数据、兴趣偏好等。例如，用户的基本信息可能有年龄、性别，行为数据包括浏览、收藏、阅读时长等。兴趣偏好可能涉及喜欢的漫画类型、作者、画风。此外，社交属性如关注的用户或评论互动也可能重要。这些标签需要具体化到漫画场景，比如具体到“悬疑推理”或“日系画风”。）

具体包括以下内容：

基本信息
1. 人口统计学特征：年龄、性别、地域（例如青少年偏好热血漫画，女性用户可能更关注恋爱题材）
2. 设备属性：手机型号、网络环境（影响漫画加载策略）
行为数据
1. 浏览记录：漫画点击、章节跳转路径
2. 互动行为：收藏、点赞、评论（如用户频繁收藏“悬疑推理”类漫画）
3. 时间特征：单次阅读时长、活跃时间段（例如晚间阅读高峰时段）
兴趣偏好
1. 标签化分类：通过TE- IDF算法提取偏好标签（如“科幻”、“古风”、“日系画风”）
2. 向量化表示：
社交属性
1. 关注列表：追踪用户关注的创作者或同好
2. 社区参与：评论互动频率、同人作品投稿记录

物品画像是对漫画作品的特征解析。

（物品画像，也就是漫画作品的特征。这里需要包括作品的基本信息，如标题、作者、类型，内容特征如题材、画风、剧情关键词，以及用户反馈，如评分、收藏量、评论情感分析。可能还需要考虑更新状态和章节数量等因素。）

主要包含三个维度：

作品元数据
1. 基础属性：标题、作者、连载状态（如“已完结/周更”）
2. 分类体系：官方标签（少年/少女/青年向）、用户自定义标签
内容特征
1. 题材解析：使用NLP提取剧情关键词（如“穿越”、“异能战斗”）
2. 设觉特征：通过CNN卷积网络分析画风（写实/萌系/水墨风格）
3. 情感倾向：主角关系网络的情感分析（如“虐心”、“治愈”）
用户反馈
1. 评分数据：加权计算作品质量得分
2. 传播热度：收藏量、章节讨论贴数量