Treebank
释义 Definition
treebank(语言学/计算语言学)指“句法树库”:把大量句子做过语言学标注(尤其是句法分析树,也常包含词性、依存关系等),并以可检索的语料库形式保存,用于研究、训练与评测自然语言处理模型。
发音 Pronunciation (IPA)
/ˈtriːbæŋk/
例句 Examples
The parser was trained on a treebank.
解析器是在一个句法树库上训练的。
Researchers use dependency treebanks to evaluate how well a model generalizes across genres and languages.
研究人员使用依存句法树库来评估模型在不同体裁与语言之间的泛化能力。
词源 Etymology
由 tree(“树”,这里指“句法树/分析树”)+ bank(“库/储存处/集合”,如 blood bank“血库”)组合而来,字面意思是“存放树(句法树)的库”,用于指代收集并存储大量句法树标注数据的语料资源。
相关词 Related Words
文学与著作中的用例 Literary / Notable Works
- Mitchell P. Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz:《Building a Large Annotated Corpus of English: The Penn Treebank》(提出并系统介绍 Penn Treebank,是“treebank”概念的代表性文献)
- Christopher D. Manning & Hinrich Schütze:《Foundations of Statistical Natural Language Processing》(讨论统计方法时多处提及 treebanks 作为训练/评测资源)
- Dan Jurafsky & James H. Martin:《Speech and Language Processing》(在句法分析、统计/神经模型章节中常以 treebank 作为标准数据来源与实验基准)