# chapter7-logistic回归

• logistic regression 模型 p(y|x,w)

• 针对语言模型的特征处理 $f_i(c,x)$

• 训练模型

• 正则化

• 特征选择：信息增益

• 分类器选择：bias-variance

### logistic regression

$$\hat y=argmax_yP(y|x)$$

$$P(y|x)?=\sum_{i=1}^Nw_if_i$$

$$?=w\cdot f$$

#### 对于二分类：$y\in {0,1}$

$$\sigma(z)=\dfrac{1}{1+e^{-z}}$$

$$\hat y = \dfrac{1}{1+e^{-w^Tx}}$$

$$p(y=1|x) = \dfrac{1}{1+e^{-w^Tx}}$$

$$p(y=0|x) = \dfrac{1}{1+e^{w^Tx}}$$

$$L = -p(x)logq(x)$$

$$L(\hat y, y)=-ylog(\hat y)-(1-y)log(1-\hat y)$$

#### 对于多分类

softmax分类器：

$$p(c|x)=\dfrac{exp(\sum_{i=1}^Nw_if_i(c,x))}{\sum_{c’\in C}exp(\sum_{i=1}^Nw_if_i(c’,x))}$$

• 假设单个样本 $X:$ (3072,1)

• 总共有10个类别 $c\in C$ (10,)

• 则对应的权重： $W$ (10, 3072)

### Features in Multinomial Logistic Regression

$w_1(x)$ 表示great作为 class + 的权重。

### Classification in Multinomial Logistic Regression

$w_+=(0,0,0,1.9)$,$w__ =(0.7,0.9,-0.8)$

### Learning Logistic Regression

$$\hat w = argamx_w logP(y^{(j)}|x^{(j)})$$

$$\hat w = argamx_w \sum_jlogP(y^{(j)}|x^{(j)})$$

$$L(w) = \sum_jlogP(y^{(j)}|x^{(j)})\tag{7.12}$$

$L’(w)关于权重求导$

### 正则化

#### L2正则化

Euclidean distance

#### L1正则化

Manhattan distance

L1正则化和L2正则化都可以通过贝叶斯来解释～

• L1正则化可以看作是权重满足Laplace分布.

• L2正则化可以看做是权重满足均值为0的高斯分布

### Feature Selection 特征选择

information gain 这部分参考宗成庆老师的《统计自然语言处理》

$P(c_i)$ 表示训练样本中 $c_i$ 类文档的概率。 $P(w)$ 表示训练样本中包含特征w的文档占总文档数的概率。假设某一个文档中有两个词 ‘great’,那么需要将它数量变为1，这在chapter6中有讲到。 $P(c_i|w)$ 表示文档中包含特征w且类别为 $c_i$ 的概率。

$$H(C|w) = P(w)\sum_{i=1}^CP(c_i|w)logP(c_i|w)$$

### Choosing a classifier and features

The overly strong conditional independence assumptions of Naive Bayes mean that if two features are in fact correlated naive Bayes will multiply them both in as if they were independent, overestimating the evidence. Logistic regression is much more robust to correlated features; if two features f 1 and f 2 are perfectly correlated, regression will simply assign half the weight to w 1 and half to w 2 .

• 偏差bias 较高: 欠拟合 underfitting

• 方差variance 较高： 过拟合 overfitting

• low bias : SVM with polynomial or RBF kernels, downweighting or removing features

• low variance: naive bayes, add more features

feature interactions :特征工程很重要。

### 总结

• Speech and language Processing，Chapter7

• 知乎：L1正则化与L2正则化

• 宗成庆，《统计自然语言处理》，第13章

• 李航，《统计学习方法》，第5章

Xie Pan

2018-04-16

2021-06-29