V2EX  ›  英汉词典

Contextual Bandit

释义 Definition

“情境(上下文)赌博机 / 情境多臂老虎机”问题:一种在线决策/机器学习设定——每次决策前都会观察到当前“上下文”(如用户特征、环境信息),算法在多个可选动作中选一个,并根据得到的即时反馈(奖励)学习,在“探索”(尝试新选择)与“利用”(选择当前最优)之间权衡,以最大化长期累计奖励。常用于推荐系统、广告投放、个性化干预与A/B测试升级版等。

例句 Examples

The app uses a contextual bandit to choose which notification to send.
这个应用用情境赌博机算法来决定发送哪一种通知。

In a contextual bandit setting, the model selects an action based on user features and updates itself from the observed reward, balancing exploration and exploitation.
在情境赌博机设定中,模型会依据用户特征选择动作,并用观测到的奖励进行更新,在探索与利用之间取得平衡。

发音 Pronunciation (IPA)

/kənˈtɛkstʃuəl ˈbændɪt/

词源 Etymology

“Contextual”来自 context(语境、情境)加形容词后缀 -ual;“bandit”原意为“强盗”,在“multi-armed bandit(多臂老虎机)”这一经典概率与决策模型中被借用来形容“不断拉不同拉杆、在不确定回报下做选择”的问题。“Contextual bandit”是在多臂老虎机模型基础上加入“上下文信息”的扩展。

相关词 Related Words

文学/著作中的用例 Literary Works

  • Li, Lihong; Chu, Wei; Langford, John; Schapire, Robert. A Contextual-Bandit Approach to Personalized News Article Recommendation(2010)
  • Lattimore, Tor; Szepesvári, Csaba. Bandit Algorithms(2020)
  • Sutton, Richard S.; Barto, Andrew G. Reinforcement Learning: An Introduction(第二版,2018;相关章节讨论情境赌博机/情境决策问题)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1879 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 11:56 · PVG 19:56 · LAX 03:56 · JFK 06:56
♥ Do have faith in what you're doing.