UCL-DRL-01-introduction

About reinforcement learning

强化学习的特性:

不同于有监督学习,没有 supervisor, 只有一个 reward signal.

The reinforcement learning problem

reward

强化学习就是基于 奖励假设(reward hypothesis).

决策的选择是为了获得更大的 future reward.

environments

state

history and state

state 是 history 的函数:

$$S_t = f(H_t)$$

environment state

环境状态对于 agent 可以是可见的,也可以是不可见的。即使是可见的,也不一定是有用的信息。

Agent state

代理状态就是 agent 的中间表示。

information state 又称 Markov state.

看做是马尔可夫链,当前状态包含了过去所有的信息。那么之前的 history 就可以扔掉了。

Markov decision process

马尔可夫决策过程条件:环境 state 与 agent state 一样

Agent state = environment state = information state

partially observable environments(POMDP)

agent 并不能直接观察环境:

  • 机器人具有摄像头的视觉信息,但不知道自己的绝对位置

  • trading agent 只能观察到当前价格

  • 扑克牌选手只能看到公开的卡牌

agent state $\ne$ environment state

agent 必须重新构建自己的状态表示 $S_t^a$:

比如循环神经网络就是 POMDP

$$S_t^a=tanh(s_{t-1}^aW_s+O_tW_o)$$

Inside An RL Agent

在一个 agent 内部具体有什么呢?我们怎么去定义一个 agent:

  • policy: agent’s behaviour function

  • value function: how good is each state and/or action

  • model: agent’s representation of the environment

policy

策略 policy: 就是将 state 映射到 action.

value function

如何设计 value function 来计算 future reward 感觉是个难度呀~

model

模型:用来预测环境如何变化,也就是模拟环境吧。比如 RNN 模型,就是用神经网络模拟序列变化。

Problems with Reinforcement Learning

Learning and planning

学习和规划的区别

  • environment 是否 known

  • agent 与 environment 是否有 interaction

Exploration and Exploitation

探索与开发:之前在三星听在线学习的讲座时,通过 多臂老虎机 和 在线广告 讨论过这个问题

  • Exploration(探索) finds more information about the environment

  • Exploitation(开发) exploits known information to maximise reward

  • It is usually important to explore as well as exploit

这是一个需要权衡或博弈的问题。

prediction and control

作者

Xie Pan

发布于

2019-01-14

更新于

2021-06-29

许可协议

评论