chapter10-词性标注

  • 词性分类 clossed class, open Classes

  • 标记集 Tagset

  • HMM tagging: 生成模型 $p(t_i|w_i)=p(w_i|t_i)p(t_i|t_{i-1})$ 有viterbi算法和greedy算法~

  • MEMM: 判别模型 $p(t_i|w_i,t_{i-1},…f;w)$ 也有Viterbi和greedy两种算法,更新参数w~

  • 双向模型 CRF,chapter20讲

阅读更多

机器学习中的一些 tricks

L2正则化的数学原理

L2正则化:

To avoid parameters from exploding or becoming highly correlated, it is helpful to augment our cost function with a Gaussian prior: this tends to push parameter weights closer to zero, without constraining their direction, and often leads to classifiers with better generalization ability.

If we maximize log-likelihood (as with the cross-entropy loss, above), then the Gaussian prior becomes a quadratic term 1 (L2 regularization):

$$J_{reg}(\theta)=\dfrac{\lambda}{2}[\sum_{i,j}{W_1}{i,j}^2+\sum{i’j’}{W_2}_{i,j}^2]$$

可以证明: 

$$W_{ij} ∼ N (0; 1=λ)$$

从两种角度理解正则化:知乎

RNN为什么容易出现梯度消失和梯度爆炸问题

relu为啥能有效的解决梯度消失的问题

很难理解为啥用relu能很好的解决梯度消失的问题,的确relu的梯度为1,但这也太简单了吧。。。所以得看看原论文 A Simple Way to Initialize Recurrent Networks of Rectified Linear Units

chapter7-logistic回归

  • logistic regression 模型 p(y|x,w)

  • 针对语言模型的特征处理 $f_i(c,x)$

  • 训练模型

  • 正则化

  • 特征选择:信息增益

  • 分类器选择:bias-variance

阅读更多

chapter6-朴素贝叶斯和情感分类

  • Naive bayes 模型 p(x|y)

  • 训练:求根据极大似然估计(频率代替概率) p(y|x),p(x),无参估计

  • 优化:各种预处理和特征提取

  • 验证模型: Precision, Recall, F-measure

  • 对于多分类的处理

  • 交叉验证

  • 比较分类器:统计显著性测试

阅读更多