请问像知乎这种超大型的论坛项目是数据库底层是如何设计的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2335 天前的主题，其中的信息可能已经有所发展或是发生改变。

底层持久化肯定要分库分表了，像这种要分多少库呢？每个库中的回答或者说评论又要分多少表呢？

打开首页看到的是关注人的热数据这种肯定不是靠直接查库了（肯定分布在不同的库中），这种功能又是如何实现的呢？

只是想和大家头脑风暴下，大牛轻喷

底层

持久化

分库

知乎

26 条回复 • 2019-05-10 11:54:02 +08:00

ccchooko

2019-05-09 11:33:30 +08:00

mark~前排搬个小板凳

CEBBCAT

2019-05-09 12:38:59 +08:00

BihuBihu 我不知道，bilibili 我倒是可以推荐给你（逃）

@ccchooko #1 有更好用的收藏功能可用，或者加浏览器书签

noble4cc

2019-05-09 12:54:05 +08:00

@CEBBCAT 大佬详细说说 b 站的也行，交流下

SmallDream1995

2019-05-09 13:24:42 +08:00

@noble4cc 这位老哥应该只是在调侃之前的 B 站源码泄漏事件。。

janxin

2019-05-09 13:28:35 +08:00

哪有提前要知道自己要分多少的...

gemini767

2019-05-09 13:31:52 +08:00

从来都是按照业务的发展来定义的，没有银弹

热门数据肯定有推荐系统，查库太粗暴了

jswh

2019-05-09 13:37:46 +08:00

分库分表并没有定数，一定是根据你的业务属性做的。
推荐系统基本不会直接查库。以前做的推荐系统设计，是每一个发布的内容进来，会推到队列里面等着做特征的计算，然后和之前的已经算好的用户特征做匹配，然后推到每个用户自己的内容队列里面。最终的 api 只有从这个内容队列里面取数据就行了，然后组合其他的非推荐内容数据就行了。

leegoo

2019-05-09 13:46:17 +08:00

经常查的数据肯定不会直接通过数据库查询的,性能太差(相比于搜索引擎), 估计你看知乎大部分都是看知乎推荐给你的,或者是排行榜的自己去搜索内容肯定很少是吧? 至少别人肯定也是用 es 什么的来提供这方面的功能,当然降到最底层肯定是用数据库了,或许都不是你认为的关系型数据库呢?论坛这种东西丢一条回复又有什么影响呢?而且知乎的后端好像还用 Golang 重构过