embedding 都是随机初始化,然后在训练过程中不断更新embedding矩阵的值。
因为embedding matrix 是通过tf.Variables()产生,如果trainable flag设为true,就可以训练。在LSTM中,forget_gate 加上一个forget_bias (默认是1),可以防止开始训练时遗忘量过大。
BasicLSTM和LSTM的区别:BasicLSTM没有clipping,projection layer,peep-hole等部分。
Peep-hole把c的内容也加入到gate的生成中
Clipping:防止梯度爆炸,对梯度进行修剪
tf.nn.dynamic_rnn的input不是list of tensors,而是整个tensor.