distant supervision:远程监督/弱监督(机器学习与自然语言处理术语),指不直接人工逐条标注训练数据,而是利用现成的知识库、规则或间接信号自动生成“带噪声”的训练标签来训练模型。常见于关系抽取(relation extraction)等任务。(也可泛指“间接监督信号”,在不同领域用法略有差异。)
/ˈdɪstənt ˌsuːpərˈvɪʒən/
Distant supervision helps us train the model without labeling every sentence.
远程监督让我们无需给每个句子做标注也能训练模型。
Although distant supervision provides large-scale training data, it often introduces noisy labels that require robust learning methods.
尽管远程监督能提供大规模训练数据,但它常引入噪声标签,因此需要更鲁棒的学习方法来应对。
该短语由 distant(远的、间接的) + supervision(监督、指导)构成。在机器学习语境中,“distant”强调监督信号并非来自直接人工标注,而是来自更远一层的来源(如知识库事实与文本的弱对齐)。作为术语在信息抽取与NLP研究中逐渐固定下来,常与“noisy labels(噪声标签)”“weak supervision(弱监督)”并列讨论。