Reinforcement Learning - Tag - Xiaopeng Xu

Reinforcement Learning - Tag - Xiaopeng Xuhttps://xu-xp.com/tags/reinforcement-learning/Reinforcement Learning - Tag - Xiaopeng XuHugo -- gohugo.ioenxiaopeng.xu@kaust.edu.sa (Xiaopeng Xu)xiaopeng.xu@kaust.edu.sa (Xiaopeng Xu)Fri, 18 Jun 2021 00:00:00 +0000RL 强化学习笔记https://xu-xp.com/posts/rl/Fri, 18 Jun 2021 00:00:00 +0000xiaopeng.xu@kaust.edu.sa (Xiaopeng Xu)https://xu-xp.com/posts/rl/RL 基础

2 多臂赌博机 (K-arm bandit)

只有动作 (action) 和对应的收益 (rewards)。无状态 (states)。
动作价值函数
增量式实现
]]>