UCL-DRL-01-introduction

About reinforcement learning

强化学习的特性: 不同于有监督学习,没有 supervisor, 只有一个 reward signal.

The reinforcement learning problem

reward

强化学习就是基于 奖励假设(reward hypothesis).

决策的选择是为了获得更大的 future reward.

environments

state

history and state

state 是 history 的函数: \[S_t = f(H_t)\]

environment state

环境状态对于 agent 可以是可见的,也可以是不可见的。即使是可见的,也不一定是有用的信息。

Agent state

代理状态就是 agent 的中间表示。

information state 又称 Markov state.

看做是马尔可夫链,当前状态包含了过去所有的信息。那么之前的 history 就可以扔掉了。

Markov decision process

马尔可夫决策过程条件:环境 state 与 agent state 一样
Agent state = environment state = information state

partially observable environments(POMDP)

agent 并不能直接观察环境:
- 机器人具有摄像头的视觉信息,但不知道自己的绝对位置
- trading agent 只能观察到当前价格
- 扑克牌选手只能看到公开的卡牌

agent state \(\ne\) environment state

agent 必须重新构建自己的状态表示 \(S_t^a\):

比如循环神经网络就是 POMDP \[S_t^a=tanh(s_{t-1}^aW_s+O_tW_o)\]

Inside An RL Agent

在一个 agent 内部具体有什么呢?我们怎么去定义一个 agent:

  • policy: agent's behaviour function
  • value function: how good is each state and/or action
  • model: agent's representation of the environment

policy

策略 policy: 就是将 state 映射到 action.

value function

如何设计 value function 来计算 future reward 感觉是个难度呀~

model

模型:用来预测环境如何变化,也就是模拟环境吧。比如 RNN 模型,就是用神经网络模拟序列变化。

Problems with Reinforcement Learning

Learning and planning

学习和规划的区别
- environment 是否 known
- agent 与 environment 是否有 interaction

Exploration and Exploitation

探索与开发:之前在三星听在线学习的讲座时,通过 多臂老虎机 和 在线广告 讨论过这个问题

  • Exploration(探索) finds more information about the environment
  • Exploitation(开发) exploits known information to maximise reward
  • It is usually important to explore as well as exploit

这是一个需要权衡或博弈的问题。

prediction and control