n-gram(n元语法/n元组):在一段文本或语音序列中,连续出现的 n 个词/字符/标记(token)组成的片段。常用于语言模型、文本统计、信息检索、拼写纠错与机器翻译等任务。(n=1 为 unigram;n=2 为 bigram;n=3 为 trigram)
/ˈɛn ɡræm/
I built a bigram model using n-grams from the training data.
我用训练数据里的 n-gram 构建了一个二元语言模型。
Because n-grams capture local context, they can improve search suggestions, but they also struggle with long-distance dependencies.
由于 n-gram 能捕捉局部上下文,它们可以改进搜索联想,但也难以处理长距离依赖关系。
n-gram由两部分构成:n(表示长度为 n)+ -gram(源自希腊语 gramma,意为“书写的东西/字母”)。该术语在计算语言学与信息论相关的统计建模中逐渐固定,用来指代“长度为 n 的连续序列”。