自监督学习:一种机器学习范式,通过从未标注数据中自动构造“监督信号”(例如遮盖一部分再预测、预测下一词/下一帧、对比不同增强视图的一致性等)来训练模型,从而学到可迁移的表示。常用于大规模预训练,并可再用少量标注数据进行微调。
/ˌsɛlf səˈpɜːrvaɪzd ˈlɝːnɪŋ/
Self-supervised learning can use unlabeled data to train a model.
自监督学习可以利用未标注数据来训练模型。
By pretraining with self-supervised learning on massive text corpora, the model learns general language patterns that later improve performance on downstream tasks.
通过在海量文本语料上进行自监督预训练,模型能学到通用的语言模式,从而提升在下游任务上的表现。
该术语由 **self-**(“自我、自动地”)+ supervised(“受监督的”)+ learning(“学习”)构成。含义强调“监督信号不是来自人工标注,而是由数据本身生成”,因此称为“自监督”。它与“无监督学习”相关,但更突出“构造训练目标/伪标签”的训练机制。