CBOW(Continuous Bag of Words,连续词袋模型):一种常见的词向量训练方法,用上下文词(周围的词)来预测中心词,常见于 word2vec 框架中。(也常与 Skip-gram 相对)
/ˈsiː baʊ/
CBOW predicts a target word from its surrounding context.
CBOW 通过周围的上下文词来预测目标词。
In word2vec training, CBOW is often faster than Skip-gram on large corpora, though it may smooth over rare-word details.
在 word2vec 训练中,CBOW 往往在大语料上比 Skip-gram 更快,但可能会弱化对低频词细节的刻画。
CBOW 是 “Continuous Bag of Words” 的缩写,起源于 Tomas Mikolov 等人在 2013 年提出并推广的 word2vec 相关论文。名称中的 “bag of words(词袋)” 指把上下文当作不强调词序的集合来处理;“continuous(连续)” 则暗示模型学习的是连续空间中的向量表示(词向量)。