Published on January 18, 2026

【独立开发日记 008】拆解头条推荐系统：从召回到排序，我们到底在算什么？

Hello，我是小兔大白糖。

最近在研究一个开源的头条推荐系统项目（toutiao_project）。作为一个沒有写过复杂推荐系统的开发，我对“推荐系统”这个词一直带着点敬畏。

以前觉得它是大厂的黑科技，是算法博士们的专属领域。但当我真正钻进代码，扒开那些高大上的名词（ALS、Lambda 架构、Wide&Deep）之后，我发现它的本质其实也没有特别高深，起码浅层次还是可以理解的。

借着这个开源的练手项目，用大白话聊聊一个工业级推荐系统到底是怎么跑起来的。

核心矛盾就一个：海量数据 vs 实时响应。

想象一下，数据库里有 100 万篇文章。用户下拉刷新的那一瞬间，系统必须在 100 毫秒 内，把这 100 万篇里最适合他的 10 篇挑出来。

如果每篇都算一遍“用户喜好度”，服务器早冒烟了。

所以，推荐系统的架构设计，本质上就是一场**“用空间换时间，用离线换实时”**的交易。

这个项目的架构非常经典，遵循了 Lambda 架构的设计思想：

![架构图占位：用户 -> gRPC -> 推荐中心 -> 召回/排序 -> HBase/Redis]

整个链路就像一个漏斗，分三步走：

项目用了多路召回策略，这就像是派出了几路侦察兵，各显神通：

这些召回结果，都是预计算好的。

到了排序阶段，剩下的文章不多了（几百篇），这时候就要上重武器了。

项目使用了 LR (逻辑回归) 和 Wide&Deep 模型。

这里有个很有意思的工程细节：ABTest 分流。代码里用 md5(user_id) 取首字符，把用户分成了不同的桶。

这也是后端同学最容易困惑的地方：为什么不用 MySQL？

HBase (温数据)： 存用户画像、历史记录、全量召回结果。
- 理由： 数据量极大（亿级），且是宽表结构（画像可能有几千个标签）。HBase 的列式存储和 RowKey 查询（O(1)复杂度）完美契合。
Redis (热数据)： 存热门文章、新文章、以及第一级推荐缓存。
- 理由： 毫秒级响应。对于高频访问的 Top 榜单，必须放在内存里。

看代码的时候，有两个逻辑让我印象深刻，也是最容易踩坑的地方。

1. 时间戳的双向逻辑 同一个接口，要处理两种动作：

2. 三级缓存的兜底 为了把延迟压到极致（目标 <50ms），项目设计了三级缓存：

拆解完这个项目，我最大的感触是：没有神话，只有取舍。

推荐系统不是什么魔法，它就是工程化到了极致的产物。

虽然这个项目离真正的“头条”还有距离（比如没做精细的重排、没上实时特征服务），但它的骨架是完整的。

对于我们独立开发者来说，理解这套 “召回 -> 排序 -> 缓存” 的逻辑，价值不仅仅在于做一个新闻 App。你想做个 AI 知识库？想做个电商选品工具？底层的**“从海量数据中捞出价值”**的思路，是完全通用的。

#推荐系统 #架构设计 #后端开发 #技术复盘