资格迹 / 可追溯性痕迹(eligibility trace):在强化学习中,一种用于“信用分配”的记忆机制,用来记录近期访问过的状态或状态-动作对的“应被更新的程度”,从而把学习信号(如奖励/误差)更有效地分配到过去的相关步骤上。常见于 TD(λ) 等方法中。(在少数语境里也可泛指“符合条件的记录/痕迹”,但最常见用法是强化学习术语。)
/ˌɛlɪdʒəˈbɪləti treɪs/
The algorithm uses an eligibility trace to update recent states.
该算法使用资格迹来更新最近的状态。
By maintaining an eligibility trace that decays over time, TD(λ) can assign credit to earlier actions and speed up learning in long sequences.
通过维护一个随时间衰减的资格迹,TD(λ) 能把“功劳/责任”分配给更早的动作,并在较长序列中加速学习。
eligibility 来自 eligible,源于拉丁语 eligere(选择、挑选:e- “出” + legere “收集/选择”),引申为“具备被选中的资格”。trace 源于拉丁语 trahere(拖拽、拉出),后来有“痕迹、踪迹”的含义。合在一起,eligibility trace 形象地表示“哪些过去的状态/动作仍‘有资格’接受更新”的痕迹记录。