标题可能没写清楚。目的是,研究搜索引擎的排序规则。
已知的是,网页里面出现特定区块会显著有助于排名,比如「相关文章」这般的区块。
如果自行去判断区块的性质,还要仿照到搜索引擎具体实现的细节,可能过于困难。但如果仅提取处理网页里面的词,提取出「相关」这样的词,就容易得多,并且也能满足一部分需求。
目前,通过这样的方式,将网页的分词结果去对照排序结果,通过一些最基础的统计手段有了一些成果。
但肯定有些不理想之处,比如「相关」和「类似」这两个词有时作用可能是相同的,又如「当前」和「位置」两个词可能要同时出现才具有意义(面包屑导航)……依靠统计方法,也较难在样本量不到特别大的时候,去寻找到一些出现频率极少的但有效的词语。
x: ['网站', '首页', '文章', '作者'……] (网页上出现的词)
y: 5 (网页在搜索引擎上搜某一个词时候的排名)
在大量样本下,可以「一定程度」去分析到底是 x 里面的某个词具体是如何影响 y 的,不知道是否有可能可行的机器学习算法?