V2EX  ›  英汉词典

Tokenization

释义 Definition

tokenization 指“分词/标记化”:把一段文本(或数据流)切分成更小的单位 tokens(词元/标记) 的过程。在自然语言处理(NLP)中,tokens 可能是单词、子词(subword)、字符、标点等;在数据安全领域中也可指“令牌化”,即用无敏感意义的标记替换敏感数据(此为另一常见义项)。

发音 Pronunciation

/ˌtoʊkənaɪˈzeɪʃən/

例句 Examples

Tokenization splits a sentence into words.
分词会把一句话切分成一个个单词。

Before training the model, we performed tokenization and removed common punctuation to reduce noise.
在训练模型之前,我们先进行了标记化,并去掉了常见标点以减少噪声。

词源 Etymology

来自 token(“标记、代币、凭证”)+ 后缀 -ization(表示“……化/……的过程”)。原义强调“把整体变成由标记组成的形式”,后来在计算机与语言处理语境中固定为“把文本切成可处理的标记”。

相关词 Related Words

文学与重要著作 Literary Works

  • Speech and Language Processing(Daniel Jurafsky & James H. Martin):在词法与统计/神经方法章节中讨论 tokenization 的方法与影响。
  • Introduction to Information Retrieval(Manning, Raghavan, Schütze):信息检索中的分词、倒排索引构建等处涉及 tokenization。
  • “Attention Is All You Need”(Vaswani et al., 2017):Transformer 模型实践中常与子词 tokenization(如 BPE)配套出现。
  • “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”(Devlin et al., 2018):明确使用 WordPiece 等 tokenization 策略并影响模型输入表示。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   746 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 22:15 · PVG 06:15 · LAX 14:15 · JFK 17:15
♥ Do have faith in what you're doing.