一套平台养百家客户?多租户数据平台不是“分库分表”这么简单
大家好,我是 Echo_Wish。
这些年做大数据平台,最常被老板、产品经理、客户一起“围殴”的一个问题就是:
👉 “我们这个平台,后面要支持很多业务方、很多客户,能不能一套系统全搞定?”
听起来很美,对吧?
一套平台,多租户共用,成本低、效率高、还显得我们技术很牛。
但我要先泼一盆不太好喝的冷水:
多租户数据平台,最难的从来不是“能不能共用”,而是“怎么不互相坑”。
今天就跟你聊聊一个接地气版的多租户数据平台设计与隔离策略,不讲学院派,不背概念,都是我在项目里踩过坑、掉过血的真实经验。
一、先说句大实话:多租户 = 信任危机
你想象一个场景:
- A 租户:核心生产数据,老板天天盯
- B 租户:测试数据,随便跑 SQL
- C 租户:凌晨三点还在跑全表 join
然后他们共用一套大数据平台。
这时候你最怕什么?
不是功能不够,而是:
- ❌ B 的一个
select *把 A 的查询拖死 - ❌ C 跑 Spark 把 YARN 资源打满
- ❌ 权限没控好,数据直接“串门”
所以,多租户的第一原则只有一句话:
宁可资源浪费一点,也不能相互伤害。
二、多租户隔离,到底隔离什么?
很多人一听隔离,就条件反射想到:
“分库?分表?分 HDFS 目录?”
但实际上,多租户至少要隔离 四层东西:
1️⃣ 数据隔离(你看不见我的数据)
2️⃣ 计算隔离(你跑不死我)
3️⃣ 权限隔离(你不能越权)
4️⃣ 成本隔离(账要算得清)
少一层,后面都会出事。
三、数据隔离:别一上来就“物理隔离”
常见三种模式
① 逻辑隔离(最省钱,但要克制)
SELECT *
FROM orders
WHERE tenant_id = 'tenant_A';
优点:
- 成本低
- 运维简单
坑点:
- SQL 写错 = 数据泄露
- 新人最容易翻车
👉 建议做法:
逻辑隔离 + 平台强制注入 tenant_id 条件,不允许业务自己拼。
② Schema / Database 隔离(性价比最高)
db_tenant_A.orders
db_tenant_B.orders
优点:
- 物理上分开一层
- 权限控制天然好做
这是我最推荐的一种方式,
90% 的企业场景都够用。
③ 存储级物理隔离(给“金主爸爸”准备)
/hdfs/data/tenant_A/
/hdfs/data/tenant_B/
适合:
- 金融、政务
- 对数据安全极其敏感的租户
代价:
- 运维成本高
- 资源碎片化严重
四、计算隔离:这才是“事故高发区”
说句扎心的:
90% 的线上事故,不是数据错,是“别人把资源跑没了”。
1️⃣ YARN / K8s 队列隔离
# YARN 队列示意
root
├── tenant_A (50%)
├── tenant_B (30%)
└── tenant_C (20%)
每个租户一个队列,明确上限。
👉 原则就一句话:
宁可排队慢一点,也不能拖死别人。
2️⃣ Spark 作业资源硬限制
spark-submit \
--conf spark.executor.memory=4g \
--conf spark.executor.cores=2 \
--conf spark.dynamicAllocation.enabled=false
动态资源?
可以用,但一定要有上限,不然就是“慢性自杀”。
五、权限隔离:不要相信“大家都很自觉”
权限这块,我见过太多“人间惨案”。
一个基本原则
权限永远不要交给业务自己管。
推荐做法(以 Hive 为例)
GRANT SELECT
ON TABLE db_tenant_A.orders
TO ROLE role_tenant_A;
- 租户 → 角色
- 角色 → 数据对象
- 禁止跨库访问
如果你在用 Trino / StarRocks / ClickHouse,
思路一样,只是语法不同。
六、成本隔离:多租户一定要“算账”
这是很多技术人最容易忽略的地方。
但现实是:
老板只关心一句话:谁花了多少钱?
一个简单但好用的方式
- 每个租户打 tag / label
- 作业、表、资源都带租户标识
- 成本按租户聚合
{
"tenant": "tenant_A",
"job": "daily_etl_orders"
}
你会发现一件很神奇的事:
当账单透明后,90% 的“乱跑任务”会自动消失。
七、我个人的一点真实感受
说句掏心窝子的:
多租户不是技术炫技,而是一种“克制”。
- 不是什么都共享
- 不是什么都隔离
- 而是分层设计、逐步演进
我见过太多平台:
- 一开始就“全物理隔离”,成本爆炸
- 或者一开始“全共享”,后期天天救火
真正成熟的平台,一定是“可配置的隔离策略”。
八、最后给你一个“落地版总结”
如果你正在设计多租户数据平台,
我给你一个最稳妥的起步组合:
✅ 数据:库级 / Schema 隔离
✅ 计算:队列 + 资源上限
✅ 权限:统一权限中心
✅ 成本:租户级账单