# Tensorflow RNN API 源码阅读

## 先回顾一下 RNN/LSTM/GRU:

basic rnn：

$$h_t = \sigma(W_{hh}h_{t-1}+W_{hx}x_{|t|})$$

## 再看 Core RNN Cells

• tf.contrib.rnn.BasicRNNCell

• tf.contrib.rnn.BasicLSTMCell

• tf.contrib.rnn.GRUCell

• tf.contrib.rnn.LSTMCell

• tf.contrib.rnn.LayerNormBasicLSTMCell

### tf.contrib.rnn.BasicRNNCell

### tf.contrib.rnn.BasicLSTMCell

$$f_t=\sigma(W^{f}x_t + U^{f}h_{t-1})$$

$$i_t=\sigma(W^{i}x_t + U^{i}h_{t-1})$$

$$o_t=\sigma(W^{o}x_t + U^{o}h_{t-1})$$

new memory cell:

$$\hat c=tanh(W^cx_t + U^ch_{t-1})$$

$$c_t=f_t\circ c_{t-1} + i_t\circ\hat c$$

$$h_t = tanh(o_t\circ c_t)$$

• 先 concat[input, h], 然后 gate_input = matmul(concat[input, h], self._kernel)+self._bias,多了偏置项,这里的矩阵维度 [input_depth + h_depth,4*num_units]. 然后 i,j,f,o = split(gate_input, 4, axis=1). 其中 j 表示 new memory cell. 然后计算 new_c，其中 i,f,o 对应的激活函数确定是 sigmoid,因为其范围只能在(0,1)之间。但是 j 的激活函数self._activation 可以选择，默认是 tanh.

• 与公式的差别之二在于 self._forget_bias.遗忘门在激活函数 $\sigma$ 之前加了偏置，目的是避免在训练初期丢失太多信息。

• 要注意 state 的形式，取决于参数 self._state_is_tuple. 其中 c,h=state，表示 $c_{t-1},h_{t-1}$

### tf.nn.rnn_cell.GRUCell

$$r_t=\sigma(W^rx_t + U^rh_{t-1})$$

$$z_t=\sigma(W^zx_t + U^zh_{t-1})$$

$$\tilde h_t = tanh(Wx_t + r_t\circ h_{t-1})$$

$$h_t=(1-z_t)\circ\tilde h_t + z_t\circ h_{t-1}$$

### tf.nn.rnn_cell.LSTMCell, tf.contrib.rnn.LSTMCell

## 封装了 RNN 的其他组件

Core RNN Cell wrappers (RNNCells that wrap other RNNCells)

• tf.contrib.rnn.MultiRNNCell

• tf.contrib.rnn.LSTMBlockWrapper

• tf.contrib.rnn.DropoutWrapper

• tf.contrib.rnn.EmbeddingWrapper

• tf.contrib.rnn.InputProjectionWrapper

• tf.contrib.rnn.OutputProjectionWrapper

• tf.contrib.rnn.DeviceWrapper

• tf.contrib.rnn.ResidualWrapper

### tf.contrib.rnn.MultiRNNCell

### tf.contrib.rnn.DropoutWrapper

## tf.nn.dynamic_rnn

