推荐系统为啥都长一个样?聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

简介: 推荐系统为啥都长一个样?聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

推荐系统为啥都长一个样?聊聊「离线训练 + 在线召回 + 排序」这套大数据架构


如果你干过推荐系统,不管是内容推荐、电商、广告、资讯、短视频,大概率都会发现一件事:

架构看起来都差不多,但效果差距却能差出一个银河系。

我这些年看过、拆过、踩过的推荐系统不算少,越到后面越有一个感受:

推荐系统拼到最后,真不是算法多高级,而是架构是不是“拧得顺”。

今天我们就掰开揉碎,聊聊这套最经典、也最现实的推荐系统架构:

离线训练 + 在线召回 + 在线排序


一、先说结论:为啥推荐系统一定要拆成三段?

一句话总结:

不是为了优雅,而是为了活命。

推荐系统天然就有三大矛盾:

  1. 数据量巨大(全量用户 × 全量物品)
  2. 实时性要求极高(几十毫秒内给结果)
  3. 模型又想越复杂越好

这三件事,你想一锅端,结果只有一个:
👉 系统崩、效果差、老板不开心

所以业界最终形成了一个非常“工程味”的共识架构:

离线:负责“想清楚”
在线:负责“跑得快”

拆开来看,就是三段:

  1. 离线训练:用大数据慢慢算
  2. 在线召回:快速缩小候选集
  3. 在线排序:精排出最终结果

二、离线训练:推荐系统真正“聪明”的地方

1️⃣ 离线训练到底在干嘛?

说人话版本:

用昨天甚至更早的数据,训练一个“大概靠谱”的模型。

典型离线任务包括:

  • 用户画像构建
  • 物品画像生成
  • Embedding 训练(user / item 向量)
  • 召回模型、排序模型训练

这一层的关键词只有一个:

全量 + 稳定 + 不着急

所以技术选型一般是:

  • Spark / Flink Batch
  • Hive / HDFS / Lakehouse
  • TensorFlow / PyTorch 离线训练

2️⃣ 一个很真实的例子:Embedding 离线训练

比如用户-物品 Embedding,离线训练完之后:

# 伪代码:离线训练 user/item embedding
model = MatrixFactorization(
    user_cnt=num_users,
    item_cnt=num_items,
    dim=128
)

model.fit(user_item_interactions)

# 训练完成后导出 embedding
user_embeddings = model.get_user_embedding()
item_embeddings = model.get_item_embedding()

关键点不是代码,而是输出物:

  • user_id → 向量
  • item_id → 向量

👉 这些向量,是后面在线召回和排序的“弹药库”。


三、在线召回:推荐系统的“第一道生死线”

1️⃣ 为啥一定要有召回?

你想象一个极端情况:

  • 1 亿用户
  • 1 千万内容

你如果在线直接算:

1 个用户 × 1000 万内容 = 1000 万次打分

老板会很冷静地告诉你一句话:

“你这是在做压力测试,不是在做推荐。”

所以召回的核心目标只有一个:

从海量内容中,秒级挑出几十到几百个“可能有戏”的候选。

2️⃣ 常见的召回方式(不追求多,只追求稳)

现实项目里,召回基本都是多路并行

  • 协同过滤召回
  • Embedding 向量召回
  • 热门 / 新品 / 活跃召回
  • 规则召回(关注、订阅、地理位置)

比如一个非常典型的向量召回:

def recall_by_embedding(user_embedding, item_index, top_k=200):
    # ANN 检索(FAISS / HNSW)
    item_ids = item_index.search(user_embedding, top_k)
    return item_ids

召回层最大的 KPI 不是“准”,而是“不漏”。

这句话很重要。

很多新人一上来就追求召回精准度,结果把后面排序的空间全杀死了。


四、在线排序:真正决定“点不点”的地方

1️⃣ 排序模型才是离用户最近的“刀锋”

召回只是“候选”,排序才是:

谁在第 1 位,谁直接凉。

排序模型的输入,通常是:

  • 用户特征
  • 物品特征
  • 上下文特征(时间、设备、位置)
  • 用户 × 物品的交叉特征

一个极简示意:

def rank(user, candidates):
    features = build_features(user, candidates)
    scores = ranking_model.predict(features)
    return sorted(candidates, key=lambda x: scores[x], reverse=True)

2️⃣ 为什么排序一定是在线的?

因为排序要用的东西太“新”了:

  • 刚点过什么
  • 当前时间段
  • 最近几分钟行为
  • 实时上下文

这些东西:

等你离线算完,用户都下一个 App 了。

所以排序模型一定是:

  • 轻量
  • 可快速推理
  • 延迟可控

五、这套架构真正的难点,其实不在算法

说点掏心窝子的。

我见过太多团队:

  • 模型写得很漂亮
  • 论文指标很好看
  • 线上效果却一塌糊涂

问题往往出在这几件事上:

1️⃣ 离线和在线特征不一致

离线训练用 A 特征,在线服务用 B 特征

这是推荐系统里最经典、也最隐蔽的坑。

解决思路只有一个:

  • 特征工程平台化
  • 一套代码,多端复用

2️⃣ 召回太“保守”

怕脏、怕噪声、怕误点,结果:

召回池里全是“老熟人”,系统越来越无聊。

我个人非常认同一句话:

推荐系统一定要“允许犯错”,否则永远不会进化。


3️⃣ 架构不是越复杂越好

不是所有团队都需要:

  • 10 路召回
  • 3 层排序
  • 强化学习在线调参

很多时候:

一套干净、可解释、稳定的架构,胜过一堆花活。


六、写在最后:推荐系统其实很“人性化”

做久了你会发现,推荐系统不像传统算法那么“冷”。

它更像一个人:

  • 离线训练 = 复盘昨天
  • 在线召回 = 快速想起可能的选项
  • 在线排序 = 临场判断

真正好的推荐系统,不是“算得最准”,而是:

在算力、延迟、业务目标之间,找到那个最现实的平衡点。

目录
相关文章
|
3月前
|
数据库
向量数据库实战:从“看起来能用”到“真的能用”,中间隔着一堆坑
本文揭示向量数据库实战的七大关键陷阱:选型前需明确业务本质(模糊匹配 or 精确查询?);embedding 比数据库本身更重要,决定语义“世界观”;文档切分是核心工程,非辅助步骤;建库成功≠可用,TopK 准确率会随数据演进失效;“相似但不可用”是常态,必须引入 rerank;需建立可追溯的bad case排查路径;向量库是长期系统,非一次性组件。核心结论:难在“用对”,不在“用上”。
|
3月前
|
运维 Cloud Native 安全
服务网格别急着上:Istio、Linkerd、Envoy,我都用过,说点大实话
服务网格别急着上:Istio、Linkerd、Envoy,我都用过,说点大实话
189 1
|
3月前
|
机器学习/深度学习 存储 自然语言处理
量子模拟:我们正在用“不确定性”,重新理解这个确定的世界
量子模拟:我们正在用“不确定性”,重新理解这个确定的世界
106 0
|
3月前
|
机器人 API 数据安全/隐私保护
只需3步,无影云电脑一键部署Moltbot(Clawdbot)
本指南详解Moltbot(Clawdbot)部署全流程:一、购买无影云电脑Moltbot专属套餐(含2000核时);二、下载客户端并配置百炼API Key、钉钉APP KEY及QQ通道;三、验证钉钉/群聊交互。支持多端,7×24运行可关闭休眠。
6086 43
|
2月前
|
传感器 人工智能 运维
数字孪生城市:别急着“上大屏”,先搞清楚你在照镜子,还是在照妖镜
数字孪生城市:别急着“上大屏”,先搞清楚你在照镜子,还是在照妖镜
105 8
|
3月前
|
人工智能 vr&ar
从AI数字人讲解到MR数字人导览,数字人厂商革新文旅新服务
文旅正经历AI数字人驱动的深度变革:从大理“小金花”、泸州“酒麒麟酣酣”等文化IP塑造,到AI制片高效产内容、7×24小时智能交互服务,再到VR大空间《西游记》沉浸体验与MR导览“复活”历史,世优科技以全栈技术赋能文旅智能化、沉浸化、数字化升级。(239字)
119 0
|
分布式计算 监控 API
DMS Airflow:企业级数据工作流编排平台的专业实践
DMS Airflow是基于Apache Airflow构建的企业级数据工作流编排平台,深度集成阿里云DMS系统,提供统一认证、智能调度、多任务类型支持及企业级监控能力,助力数据团队高效管理ETL、分析、机器学习等复杂工作流。
414 21
|
文字识别
统一多模态Embedding, 通义实验室开源GME系列模型
随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。
3043 6
|
机器学习/深度学习 搜索推荐 算法
深度学习推荐模型-DIN
Deep Interest Network(DIN)是盖坤大神领导的阿里妈妈的精准定向检索及基础算法团队,在2017年6月提出的。 它针对电子商务领域(e-commerce industry)的CTR预估,重点在于充分利用/挖掘用户历史行为数据中的信息。
1501 1
深度学习推荐模型-DIN
|
机器学习/深度学习 自然语言处理 搜索推荐
推荐系统技术演进趋势:召回->排序->重排(一)
推荐系统技术演进趋势:召回->排序->重排(一)
3089 1
推荐系统技术演进趋势:召回->排序->重排(一)