“分布语义学”:一种计算语言学/语义学方法,认为词的意义可以从它在大量文本中的共现与上下文分布中推断(常用向量表示,如词向量、语义空间模型)。也常被概括为“看一个词常和哪些词一起出现,就能理解它的意思”。(该术语在不同学派中也可涵盖多种具体模型与实现。)
/ˌdɪstrɪˈbjuːʃənəl sɪˈmæntɪks/
Distributional semantics helps computers learn word meanings from large collections of text.
分布语义学帮助计算机从大规模文本中学习词语的含义。
By comparing vectors learned from context, distributional semantics can capture subtle semantic relationships—like why “doctor” is closer to “nurse” than to “mountain.”
通过比较从上下文中学习得到的向量,分布语义学能捕捉细微的语义关系——例如为什么“doctor”与“nurse”比与“mountain”更接近。
“distributional”来自 distribution(分布)+ 形容词后缀 -al,表示“与分布有关的”;“semantics”来自希腊语 sēmantikos(与意义有关的)。该术语背后的思想常与语言学家Firth的名言相关:“You shall know a word by the company it keeps”(从它常出现的“同伴词”认识一个词)。