N-gram

释义 Definition

n-gram（n元语法/n元组）：在一段文本或语音序列中，连续出现的 n 个词/字符/标记（token）组成的片段。常用于语言模型、文本统计、信息检索、拼写纠错与机器翻译等任务。（n=1 为 unigram；n=2 为 bigram；n=3 为 trigram）

发音 Pronunciation (IPA)

/ˈɛn ɡræm/

例句 Examples

I built a bigram model using n-grams from the training data.
我用训练数据里的 n-gram 构建了一个二元语言模型。

Because n-grams capture local context, they can improve search suggestions, but they also struggle with long-distance dependencies.
由于 n-gram 能捕捉局部上下文，它们可以改进搜索联想，但也难以处理长距离依赖关系。

词源 Etymology

n-gram由两部分构成：n（表示长度为 n）+ -gram（源自希腊语 gramma，意为“书写的东西/字母”）。该术语在计算语言学与信息论相关的统计建模中逐渐固定，用来指代“长度为 n 的连续序列”。

文学/著作中的用例 Literary / Notable Works

Speech and Language Processing（Daniel Jurafsky & James H. Martin）——以 n-gram 语言模型为经典入门内容之一
Foundations of Statistical Natural Language Processing（Christopher D. Manning & Hinrich Schütze）——系统讨论 n-gram 与统计方法
“A Mathematical Theory of Communication”（Claude E. Shannon, 1948）——信息论背景下的序列统计思想与语言建模相关概念常与 n-gram 一并讲解

N-gram

释义 Definition

发音 Pronunciation (IPA)

例句 Examples

词源 Etymology

相关词 Related Words

文学/著作中的用例 Literary / Notable Works