通过多个标签来预测值并解释原因，可以使用什么算法来实现？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1788 天前的主题，其中的信息可能已经有所发展或是发生改变。

标题可能没写清楚。目的是，研究搜索引擎的排序规则。

已知的是，网页里面出现特定区块会显著有助于排名，比如「相关文章」这般的区块。

如果自行去判断区块的性质，还要仿照到搜索引擎具体实现的细节，可能过于困难。但如果仅提取处理网页里面的词，提取出「相关」这样的词，就容易得多，并且也能满足一部分需求。

目前，通过这样的方式，将网页的分词结果去对照排序结果，通过一些最基础的统计手段有了一些成果。

但肯定有些不理想之处，比如「相关」和「类似」这两个词有时作用可能是相同的，又如「当前」和「位置」两个词可能要同时出现才具有意义（面包屑导航）……依靠统计方法，也较难在样本量不到特别大的时候，去寻找到一些出现频率极少的但有效的词语。

x: ['网站', '首页', '文章', '作者'……] (网页上出现的词)

y: 5 (网页在搜索引擎上搜某一个词时候的排名)

在大量样本下，可以「一定程度」去分析到底是 x 里面的某个词具体是如何影响 y 的，不知道是否有可能可行的机器学习算法？

第 1 条附言 · 2020-04-11 23:45:27 +08:00

若能够「一定程度」上实现因果推断就非常完美了。

2 条回复 • 2020-04-24 09:56:19 +08:00

iasuna

2020-04-12 05:29:12 +08:00 via iPhone

Cola90

2020-04-24 09:56:19 +08:00

提升树模型