diff --git a/Chapter1/README.md b/Chapter1/README.md deleted file mode 100644 index c75702c..0000000 --- a/Chapter1/README.md +++ /dev/null @@ -1 +0,0 @@ -# 第1章 绪论 \ No newline at end of file diff --git a/Chapter1/chapter1.md b/Chapter1/chapter1.md deleted file mode 100644 index e69de29..0000000 diff --git a/Chapter2/README.md b/Chapter2/README.md deleted file mode 100644 index 022ab89..0000000 --- a/Chapter2/README.md +++ /dev/null @@ -1,13 +0,0 @@ -# 第2章 模型评估 - -### 2.1 经验误差与过拟合 -### 2.2 评估方法 -### 2.3 性能度量 -- [2.20](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter2/chapter2.md) -- [2.21](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter2/chapter2.md) -### 2.4 比较检验 -### 2.5 偏差与方差 - - - - diff --git a/Chapter2/chapter2.md b/Chapter2/chapter2.md deleted file mode 100644 index 7eec05c..0000000 --- a/Chapter2/chapter2.md +++ /dev/null @@ -1,36 +0,0 @@ -### 2.20 - -$$ AUC=\cfrac{1}{2}\sum\_{i=1}^{m-1}(x\_{i+1} - x\_i)\cdot(y\_i + y\_{i+1}) $$ - -[解析]:由于图2.4(b)中给出的ROC曲线为横平竖直的标准折线,所以乍一看这个式子的时候很不理解其中的$ \cfrac{1}{2} $和$ (y\_i + y\_{i+1}) $代表着什么,因为对于横平竖直的标准折线用$ AUC=\sum\_{i=1}^{m-1}(x\_{i+1} - x\_i) \cdot y\_i $就可以求出AUC了,但是图2.4(b)中的ROC曲线只是个特例罢了,因为此图是所有样例的预测值均不相同时的情形,也就是说每次分类阈值变化的时候只会划分新增**1个**样例为正例,所以下一个点的坐标为$ (x+\cfrac{1}{m^-},y) $或$ (x,y+\cfrac{1}{m^+}) $,然而当模型对某个正样例和某个反样例给出的预测值相同时,便会划分新增**两个**样例为正例,于是其中一个分类正确一个分类错误,那么下一个点的坐标为$ (x+\cfrac{1}{m^-},y+\cfrac{1}{m^+}) $(当没有预测值相同的样例时,若采取按固定梯度改变分类阈值,也会出现一下划分新增两个甚至多个正例的情形,但是此种阈值选取方案画出的ROC曲线AUC值更小,不建议使用),此时ROC曲线中便会出现斜线,而不再是只有横平竖直的折线,所以用**梯形面积公式**就能完美兼容这两种分类阈值选取方案,也即 **(上底+下底)\*高\*$ \cfrac{1}{2} $** - -### 2.21 - -$$ l\_{rank}=\cfrac{1}{m^+m^-}\sum\_{x^+ \in D^+}\sum\_{x^- \in D^-}(||(f(x^+)t\rbrace$ 和 $\lbrace{a} \leq{t}\rbrace$ 的特征,计算新特征的信息增益,找到信息增益最大的 $t$ 值即为该特征的最优划分点。 -$$ -\begin{split} -Gain(D,a) &= \max\limits_{t \in T_a} \ Gain(D,a) \\\\ -&= \max\limits_{t \in T_a} \ Ent(D)-\sum_{\lambda \in \{-,+\}} \frac{\left | D_t^{\lambda } \right |}{\left |D \right |}Ent(D_t^{\lambda }) \end{split} \tag{4.8} -$$ \ No newline at end of file diff --git a/Chapter5/READEME.md b/Chapter5/READEME.md deleted file mode 100644 index 3885b51..0000000 --- a/Chapter5/READEME.md +++ /dev/null @@ -1,12 +0,0 @@ -# 第5章 神经网络 - -### 5.1 神经元模型 -### 5.2 感知机与多层网络 -- [5.2](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter5/chapter5.md) -### 5.3 误差逆传播算法 -- [5.12](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter5/chapter5.md) -- [5.13](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter5/chapter5.md) -- [5.14](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter5/chapter5.md) -### 5.4 全局最小与局部极小 -### 5.5 其他常见神经网络 -### 5.6 深度学习 \ No newline at end of file diff --git a/Chapter5/chapter5.md b/Chapter5/chapter5.md deleted file mode 100644 index ec8bb64..0000000 --- a/Chapter5/chapter5.md +++ /dev/null @@ -1,64 +0,0 @@ -### 5.2 -$$\Delta w\_i = \eta(y-\hat{y})x\_i$$ -[推导]:此处感知机的模型为: -$$y=f(\sum\_{i} w\_i x\_i - \theta)$$ -将$\theta$看成哑结点后,模型可化简为: -$$y=f(\sum\_{i} w\_i x\_i)=f(\boldsymbol w^T \boldsymbol x)$$ -其中$f$为阶跃函数。
根据《统计学习方法》§2可知,假设误分类点集合为$M$,$\boldsymbol x\_i \in M$为误分类点,$\boldsymbol x\_i$的真实标签为$y\_i$,模型的预测值为$\hat{y\_i}$,对于误分类点$\boldsymbol x\_i$来说,此时$\boldsymbol w^T \boldsymbol x\_i \gt 0,\hat{y\_i}=1,y\_i=0$或$\boldsymbol w^T \boldsymbol x\_i \lt 0,\hat{y\_i}=0,y\_i=1$,综合考虑两种情形可得: -$$(\hat{y\_i}-y\_i)\boldsymbol w \boldsymbol x\_i>0$$ -所以可以推得损失函数为: -$$L(\boldsymbol w)=\sum\_{\boldsymbol x\_i \in M} (\hat{y\_i}-y\_i)\boldsymbol w \boldsymbol x\_i$$ -损失函数的梯度为: -$$\nabla\_w L(\boldsymbol w)=\sum\_{\boldsymbol x\_i \in M} (\hat{y\_i}-y\_i)\boldsymbol x\_i$$ -随机选取一个误分类点$(\boldsymbol x\_i,y\_i)$,对$\boldsymbol w$进行更新: -$$\boldsymbol w \leftarrow \boldsymbol w-\eta(\hat{y\_i}-y\_i)\boldsymbol x\_i=\boldsymbol w+\eta(y\_i-\hat{y\_i})\boldsymbol x\_i$$ -显然式5.2为$\boldsymbol w$的第$i$个分量$w\_i$的变化情况 -### 5.12 -$$\Delta \theta\_j = -\eta g\_j$$ -[推导]:因为 -$$\Delta \theta\_j = -\eta \cfrac{\partial E\_k}{\partial \theta\_j}$$ -又 -$$ -\begin{aligned} -\cfrac{\partial E\_k}{\partial \theta\_j} &= \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot\cfrac{\partial \hat{y}\_j^k}{\partial \theta\_j} \\\\ -&= (\hat{y}\_j^k-y\_j^k) \cdot f’(\beta\_j-\theta\_j) \cdot (-1) \\\\ -&= -(\hat{y}\_j^k-y\_j^k)f’(\beta\_j-\theta\_j) \\\\ -&= g\_j -\end{aligned} -$$ -所以 -$$\Delta \theta\_j = -\eta \cfrac{\partial E\_k}{\partial \theta\_j}=-\eta g\_j$$ -### 5.13 -$$\Delta v\_{ih} = \eta e\_h x\_i$$ -[推导]:因为 -$$\Delta v\_{ih} = -\eta \cfrac{\partial E\_k}{\partial v\_{ih}}$$ -又 -$$ -\begin{aligned} -\cfrac{\partial E\_k}{\partial v\_{ih}} &= \sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot \cfrac{\partial \beta\_j}{\partial b\_h} \cdot \cfrac{\partial b\_h}{\partial \alpha\_h} \cdot \cfrac{\partial \alpha\_h}{\partial v\_{ih}} \\\\ -&= \sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot \cfrac{\partial \beta\_j}{\partial b\_h} \cdot \cfrac{\partial b\_h}{\partial \alpha\_h} \cdot x\_i \\\\ -&= \sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot \cfrac{\partial \beta\_j}{\partial b\_h} \cdot f’(\alpha\_h-\gamma\_h) \cdot x\_i \\\\ -&= \sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot w\_{hj} \cdot f’(\alpha\_h-\gamma\_h) \cdot x\_i \\\\ -&= \sum\_{j=1}^{l} (-g\_j) \cdot w\_{hj} \cdot f’(\alpha\_h-\gamma\_h) \cdot x\_i \\\\ -&= -f’(\alpha\_h-\gamma\_h) \cdot \sum\_{j=1}^{l} g\_j \cdot w\_{hj} \cdot x\_i\\\\ -&= -b\_h(1-b\_h) \cdot \sum\_{j=1}^{l} g\_j \cdot w\_{hj} \cdot x\_i \\\\ -&= -e\_h \cdot x\_i -\end{aligned} -$$ -所以 -$$\Delta v\_{ih} = -\eta \cdot -e\_h \cdot x\_i=\eta e\_h x\_i$$ -### 5.14 -$$\Delta \gamma\_h= -\eta e\_h$$ -[推导]:因为 -$$\Delta \gamma\_h = -\eta \cfrac{\partial E\_k}{\partial \gamma\_h}$$ -又 -$$ -\begin{aligned} -\cfrac{\partial E\_k}{\partial \gamma\_h} &= \sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot \cfrac{\partial \beta\_j}{\partial b\_h} \cdot \cfrac{\partial b\_h}{\partial \gamma\_h} \\\\ -&= \sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot \cfrac{\partial \beta\_j}{\partial b\_h} \cdot f’(\alpha\_h-\gamma\_h) \cdot (-1) \\\\ -&= -\sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot w\_{hj} \cdot f’(\alpha\_h-\gamma\_h)\\\\ -&=e\_h -\end{aligned} -$$ -所以 -$$\Delta \gamma\_h= -\eta e\_h$$ \ No newline at end of file diff --git a/Chapter6/README.md b/Chapter6/README.md deleted file mode 100644 index d0d0168..0000000 --- a/Chapter6/README.md +++ /dev/null @@ -1,11 +0,0 @@ -# 第6章 支持向量机 - -## 6.1 间隔与支持向量 -- [6.9-6.10](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter6/chapter6.md) -- [6.11](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter6/chapter6.md) -## 6.3 核函数 -## 6.4 软间隔与正则化 -- [6.39](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter6/chapter6.md) -- [6.40](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter6/chapter6.md) -## 6.5 支持向量回归 -## 6.6 核方法 \ No newline at end of file diff --git a/Chapter6/chapter6.md b/Chapter6/chapter6.md deleted file mode 100644 index 8b7de37..0000000 --- a/Chapter6/chapter6.md +++ /dev/null @@ -1,75 +0,0 @@ -### 6.9-6.10 -$$\begin{aligned} -w &= \sum\_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i \\\\ -0 &=\sum\_{i=1}^m\alpha\_iy\_i -\end{aligned}​$$ -[推导]:式(6.8)可作如下展开: -$$\begin{aligned} -L(\boldsymbol{w},b,\boldsymbol{\alpha}) &= \frac{1}{2}||\boldsymbol{w}||^2+\sum\_{i=1}^m\alpha\_i(1-y\_i(\boldsymbol{w}^T\boldsymbol{x}\_i+b)) \\\\ -& = \frac{1}{2}||\boldsymbol{w}||^2+\sum\_{i=1}^m(\alpha\_i-\alpha\_iy\_i \boldsymbol{w}^T\boldsymbol{x}\_i-\alpha\_iy\_ib)\\\\ -& =\frac{1}{2}\boldsymbol{w}^T\boldsymbol{w}+\sum\_{i=1}^m\alpha\_i -\sum\_{i=1}^m\alpha\_iy\_i\boldsymbol{w}^T\boldsymbol{x}\_i-\sum\_{i=1}^m\alpha\_iy\_ib -\end{aligned}​$$ -对$\boldsymbol{w}$和$b$分别求偏导数​并令其等于0: - -$$\frac {\partial L}{\partial \boldsymbol{w}}=\frac{1}{2}\times2\times\boldsymbol{w} + 0 - \sum\_{i=1}^{m}\alpha\_iy\_i \boldsymbol{x}\_i-0= 0 \Longrightarrow \boldsymbol{w}=\sum\_{i=1}^{m}\alpha\_iy\_i \boldsymbol{x}\_i$$ - -$$\frac {\partial L}{\partial b}=0+0-0-\sum\_{i=1}^{m}\alpha\_iy\_i=0 \Longrightarrow \sum\_{i=1}^{m}\alpha\_iy\_i=0$$ - -### 6.11 -$$\begin{aligned} -\max\_{\boldsymbol{\alpha}} & \sum\_{i=1}^m\alpha\_i - \frac{1}{2}\sum\_{i = 1}^m\sum\_{j=1}^m\alpha\_i \alpha\_j y\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j \\\\ -s.t. & \sum\_{i=1}^m \alpha\_i y\_i =0 \\\\ -& \alpha\_i \geq 0 \quad i=1,2,\dots ,m -\end{aligned}$$ -[推导]:将式 (6.9)代人 (6.8) ,即可将$L(\boldsymbol{w},b,\boldsymbol{\alpha})$ 中的 $\boldsymbol{w}$ 和 $b$ 消去,再考虑式 (6.10) 的约束,就得到式 (6.6) 的对偶问题: -$$\begin{aligned} -\min\_{\boldsymbol{w},b} L(\boldsymbol{w},b,\boldsymbol{\alpha}) &=\frac{1}{2}\boldsymbol{w}^T\boldsymbol{w}+\sum\_{i=1}^m\alpha\_i -\sum\_{i=1}^m\alpha\_iy\_i\boldsymbol{w}^T\boldsymbol{x}\_i-\sum\_{i=1}^m\alpha\_iy\_ib \\\\ -&=\frac {1}{2}\boldsymbol{w}^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i-\boldsymbol{w}^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i+\sum \_{i=1}^m\alpha\_ -i -b\sum \_{i=1}^m\alpha\_iy\_i \\\\ -& = -\frac {1}{2}\boldsymbol{w}^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i+\sum \_{i=1}^m\alpha\_i -b\sum \_{i=1}^m\alpha\_iy\_i -\end{aligned}$$ -又$\sum\limits\_{i=1}^{m}\alpha\_iy\_i=0$,所以上式最后一项可化为0,于是得: -$$\begin{aligned} -\min\_{\boldsymbol{w},b} L(\boldsymbol{w},b,\boldsymbol{\alpha}) &= -\frac {1}{2}\boldsymbol{w}^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i+\sum \_{i=1}^m\alpha\_i \\\\ -&=-\frac {1}{2}(\sum\_{i=1}^{m}\alpha\_iy\_i\boldsymbol{x}\_i)^T(\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i)+\sum \_{i=1}^m\alpha\_i \\\\ -&=-\frac {1}{2}\sum\_{i=1}^{m}\alpha\_iy\_i\boldsymbol{x}\_i^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i+\sum \_{i=1}^m\alpha\_i \\\\ -&=\sum \_{i=1}^m\alpha\_i-\frac {1}{2}\sum\_{i=1 }^{m}\sum\_{j=1}^{m}\alpha\_i\alpha\_jy\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j -\end{aligned}$$ -所以 -$$\max\_{\boldsymbol{\alpha}}\min\_{\boldsymbol{w},b} L(\boldsymbol{w},b,\boldsymbol{\alpha}) =\max\_{\boldsymbol{\alpha}} \sum\_{i=1}^m\alpha\_i - \frac{1}{2}\sum\_{i = 1}^m\sum\_{j=1}^m\alpha\_i \alpha\_j y\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j $$ -### 6.39 -$$ C=\alpha\_i +\mu\_i $$ -[推导]:对式(6.36)关于$\xi\_i$求偏导并令其等于0可得: -​ -$$\frac{\partial L}{\partial \xi\_i}=0+C \times 1 - \alpha\_i \times 1-\mu\_i -\times 1 =0\Longrightarrow C=\alpha\_i +\mu\_i$$ - -### 6.40 -$$\begin{aligned} -\max\_{\boldsymbol{\alpha}}&\sum \_{i=1}^m\alpha\_i-\frac {1}{2}\sum\_{i=1 }^{m}\sum\_{j=1}^{m}\alpha\_i\alpha\_jy\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j \\\\ - s.t. &\sum\_{i=1}^m \alpha\_i y\_i=0 \\\\ - & 0 \leq\alpha\_i \leq C \quad i=1,2,\dots ,m - \end{aligned}$$ -将式6.37-6.39代入6.36可以得到6.35的对偶问题: -$$\begin{aligned} - \min\_{\boldsymbol{w},b,\boldsymbol{\xi}}L(\boldsymbol{w},b,\boldsymbol{\alpha},\boldsymbol{\xi},\boldsymbol{\mu}) &= \frac{1}{2}||\boldsymbol{w}||^2+C\sum\_{i=1}^m \xi\_i+\sum\_{i=1}^m \alpha\_i(1-\xi\_i-y\_i(\boldsymbol{w}^T\boldsymbol{x}\_i+b))-\sum\_{i=1}^m\mu\_i \xi\_i \\\\ -&=\frac{1}{2}||\boldsymbol{w}||^2+\sum\_{i=1}^m\alpha\_i(1-y\_i(\boldsymbol{w}^T\boldsymbol{x}\_i+b))+C\sum\_{i=1}^m \xi\_i-\sum\_{i=1}^m \alpha\_i \xi\_i-\sum\_{i=1}^m\mu\_i \xi\_i \\\\ -& = -\frac {1}{2}\sum\_{i=1}^{m}\alpha\_iy\_i\boldsymbol{x}\_i^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i+\sum \_{i=1}^m\alpha\_i +\sum\_{i=1}^m C\xi\_i-\sum\_{i=1}^m \alpha\_i \xi\_i-\sum\_{i=1}^m\mu\_i \xi\_i \\\\ -& = -\frac {1}{2}\sum\_{i=1}^{m}\alpha\_iy\_i\boldsymbol{x}\_i^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i+\sum \_{i=1}^m\alpha\_i +\sum\_{i=1}^m (C-\alpha\_i-\mu\_i)\xi\_i \\\\ -&=\sum \_{i=1}^m\alpha\_i-\frac {1}{2}\sum\_{i=1 }^{m}\sum\_{j=1}^{m}\alpha\_i\alpha\_jy\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j -\end{aligned}$$ -所以 -$$\begin{aligned} -\max\_{\boldsymbol{\alpha},\boldsymbol{\mu}} \min\_{\boldsymbol{w},b,\boldsymbol{\xi}}L(\boldsymbol{w},b,\boldsymbol{\alpha},\boldsymbol{\xi},\boldsymbol{\mu})&=\max\_{\boldsymbol{\alpha},\boldsymbol{\mu}}\sum \_{i=1}^m\alpha\_i-\frac {1}{2}\sum\_{i=1 }^{m}\sum\_{j=1}^{m}\alpha\_i\alpha\_jy\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j \\\\ -&=\max\_{\boldsymbol{\alpha}}\sum \_{i=1}^m\alpha\_i-\frac {1}{2}\sum\_{i=1 }^{m}\sum\_{j=1}^{m}\alpha\_i\alpha\_jy\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j -\end{aligned}$$ -又 -$$\begin{aligned} -\alpha\_i &\geq 0 \\\\ -\mu\_i &\geq 0 \\\\ -C &= \alpha\_i+\mu\_i -\end{aligned}$$ -消去$\mu\_i$可得等价约束条件为: -$$0 \leq\alpha\_i \leq C \quad i=1,2,\dots ,m$$ - - diff --git a/Chapter7/README.md b/Chapter7/README.md deleted file mode 100644 index b433e52..0000000 --- a/Chapter7/README.md +++ /dev/null @@ -1,12 +0,0 @@ -# 第7章 贝叶斯分类器 - -### 7.1 贝叶斯决策论 - -- [7.5](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter7/chapter7.md) -- [7.8](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter7/chapter7.md) - -### 7.2 极大似然估计 -### 7.3 朴素贝叶斯分类器 -### 7.4 半朴素贝叶斯分类器 -### 7.5 贝叶斯网 -### 7.6 EM算法 \ No newline at end of file diff --git a/Chapter7/chapter7.md b/Chapter7/chapter7.md deleted file mode 100644 index 268f7c8..0000000 --- a/Chapter7/chapter7.md +++ /dev/null @@ -1,54 +0,0 @@ -### 7.5 -$$R(c|\boldsymbol x)=1−P(c|\boldsymbol x)$$ -[推导]:由式7.1和式7.4可得: -$$R(c_i|\boldsymbol x)=1\*P(c_1|\boldsymbol x)+1\*P(c_2|\boldsymbol x)+...+0\*P(c_i|\boldsymbol x)+...+1\*P(c_N|\boldsymbol x)$$ -又$\sum_{j=1}^{N}P(c_j|\boldsymbol x)=1$,则: -$$R(c_i|\boldsymbol x)=1-P(c_i|\boldsymbol x)$$ -此即为式7.5 -### 7.8 -$$P(c|\boldsymbol x)=\cfrac{P(c)P(\boldsymbol x|c)}{P(\boldsymbol x)}$$ -[解析]:最小化误差,也就是最大化P(c|x),但由于P(c|x)属于后验概率无法直接计算,由贝叶斯公式可计算出: -$$P(c|\boldsymbol x)=\cfrac{P(c)P(\boldsymbol x|c)}{P(\boldsymbol x)}$$ -$P(\boldsymbol x)$可以省略,因为我们比较的时候$P(\boldsymbol x)$一定是相同的,所以我们就是用历史数据计算出$P(c)$和$P(\boldsymbol x|c)$。 -1. $P(c)$根据大数定律,当样本量到了一定程度且服从独立同分布,c的出现的频率就是c的概率。 -2. $P(\boldsymbol x|c)$,因为$\boldsymbol x$在这里不对单一元素是个矩阵,涉及n个元素,不太好直接统计分类为c时,$\boldsymbol x$的概率,所以我们根据假设独立同分布,对每个$\boldsymbol x$的每个特征分别求概率 -$$P(\boldsymbol x|c)=P(x_1|c)\*P(x_2|c)\*P(x_3|c)...\*P(x_n|c)$$ -这个式子就可以很方便的通过历史数据去统计了,比如特征n,就是在分类为c时特征n出现的概率,在数据集中应该是用1显示。 -但是当某一概率为0时会导致整个式子概率为0,所以采用拉普拉斯修正 - -当样本属性独依赖时,也就是除了c多加一个依赖条件,式子变成了 -$$∏_{i=1}^n P(x_i|c,p_i)$$ -$p_i$是$x_i$所依赖的属性 - -当样本属性相关性未知时,我们采用贝叶斯网的算法,对相关性进行评估,以找出一个最佳的分类模型。 - -当遇到不完整的训练样本时,可通过使用EM算法对模型参数进行评估来解决。 - -### 附录 -##### sklearn调包 - -```python - import numpy as np - X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]]) - Y = np.array([1, 1, 1, 2, 2, 2]) -from sklearn.naive_bayes import GaussianNB - clf = GaussianNB() -clf.fit(X, Y) -GaussianNB(priors=None, var_smoothing=1e-09) -print(clf.predict([[-0.8, -1]])) -``` -##### 参数: -priors : array-like, shape (n_classes,) -Prior probabilities of the classes. If specified the priors are not adjusted according to the data. - -var_smoothing : float, optional (default=1e-9) -Portion of the largest variance of all features that is added to variances for calculation stability. - -##### 贝叶斯应用 - -1. 中文分词 -分词后,得分的假设是基于两词之间是独立的,后词的出现与前词无关 -2. 统计机器翻译 -统计机器翻译因为其简单,无需手动添加规则,迅速成为了机器翻译的事实标准。 -3. 贝叶斯图像识别 -首先是视觉系统提取图形的边角特征,然后使用这些特征自底向上地激活高层的抽象概念,然后使用一个自顶向下的验证来比较到底哪个概念最佳地解释了观察到的图像。 \ No newline at end of file diff --git a/README.md b/README.md index 9988657..9dfbcb5 100644 --- a/README.md +++ b/README.md @@ -1,7 +1,6 @@ -

南瓜书PumpkinBook

- +# 南瓜书PumpkinBook [西瓜书(周志华《机器学习》)](https://book.douban.com/subject/26708119)是机器学习领域的经典入门教材之一,周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述,但是这对那些想深究公式推导细节的读者来说可能“不太友好”,本书旨在对西瓜书里比较难理解的公式加以解析,以及对部分公式补充具体的推导细节,诚挚欢迎每一位西瓜书读者前来参与完善本书:一个人可以走的很快,但是一群人却可以走的更远。 - +# 选用的西瓜书版本 > 书名:机器学习
@@ -10,26 +9,31 @@ > 版次:2016年1月第1版
> 勘误表:http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/MLbook2016.htm - -## 目录 - -- 第1章 [绪论](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter1) -- 第2章 [模型评估与选择](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter2) -- 第3章 [线性模型](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter3) -- 第4章 [决策树](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter4) -- 第5章 [神经网络](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter5) -- 第6章 [支持向量机](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter6) -- 第7章 [贝叶斯分类器](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter7) - -## 在线阅读须知 - -由于目前Github暂不支持在Markdown中嵌入LaTeX公式,所以在线阅读时需要用 -Chrome浏览器+[MathJax Plugin for Github](https://chrome.google.com/webstore/detail/mathjax-plugin-for-github/ioemnmodlmafdkllaclgeombjnmnbima)扩展的方式才能看到公式,扩展离线安装包参见`plugin/chrome-extensions/MathJax-Plugin-for-Github_v0.2.4.crx` - - -## 协作规范 - -##### 文档书写规范: +# 在线阅读地址 +https://datawhale18.github.io/pumpkin-book/ + +# 目录 + +- 第1章 [绪论](https://datawhale18.github.io/pumpkin-book/#/chapter1/chapter1) +- 第2章 [模型评估与选择](https://datawhale18.github.io/pumpkin-book/#/chapter2/chapter2) +- 第3章 [线性模型](https://datawhale18.github.io/pumpkin-book/#/chapter3/chapter3) +- 第4章 [决策树](https://datawhale18.github.io/pumpkin-book/#/chapter4/chapter4) +- 第5章 [神经网络](https://datawhale18.github.io/pumpkin-book/#/chapter5/chapter5) +- 第6章 [支持向量机](https://datawhale18.github.io/pumpkin-book/#/chapter6/chapter6) +- 第7章 [贝叶斯分类器](https://datawhale18.github.io/pumpkin-book/#/chapter7/chapter7) +- 第8章 集成学习 +- 第9章 聚类 +- 第10章 降维与度量学习 +- 第11章 特征选择与稀疏学习 +- 第12章 计算学习理论 +- 第13章 半监督学习 +- 第14章 概率图模型 +- 第15章 规则学习 +- 第16章 强化学习 + +# 协作规范 + +### 文档书写规范: 文档采用Markdown语法编写,数学公式采用LaTeX语法编写,数学符号规范参见西瓜书《主要符号表》。 | | 格式 | 参考资料 | @@ -38,56 +42,32 @@ Chrome浏览器+[MathJax Plugin for Github](https://chrome.google.com/webstore/d | 数学公式 | LaTeX | 1. CSDN Latex语法编写数学公式 http://t.cn/E469pdI
2.Latex 在线编辑工具 http://latex.codecogs.com/eqneditor/editor.php | -##### 目录结构规范: +### 目录结构规范: ``` pumpkin-book -├─Chapter1 # 第1章 -│ ├─resources # 资源文件夹 -| | └─images # 图片资源 -| ├─chapter1.md # 第1章公式全解 -| └─README.md # 章节目录 -└─Chapter2 -``` -##### 公式全解文档规范: -``` -### 公式编号 -$$公式的LaTeX表达式$$ -[推导]:公式推导步骤 -[解析]:公式解析说明 -### 附录 -附录内容 +├─docs +| ├─chapter1 # 第1章 +| | ├─resources # 资源文件夹 +| | | └─images # 图片资源 +| | └─chapter1.md # 第1章公式全解 +| ├─chapter2 +... ``` -样例参见`Chapter2/chapter2.md`和`Chapter3/chapter3.md` -##### 章节目录文档规范: +### 公式全解文档规范: ``` -# 章节编号和名称 -### 子章节编号和名称 -- [公式编号](公式全解文档链接) +## 公式编号 +$$(公式的LaTeX表达式)$$ +[推导]:(公式推导步骤) or [解析]:(公式解析说明) +## 附录 +(附录内容) ``` -样例参见`Chapter2/README.md`和`Chapter3/README.md` - -## 基础工作 - -1. [大纲梳理] 西瓜书输出一个目录 [@spareribs](https://github.com/spareribs) - - 参考 [《统计学习方法》](https://github.com/WenDesi/lihang_book_algorithm) 和 [《Python 数据分析与挖掘实战 》](https://github.com/apachecn/python_data_analysis_and_mining_action) 制作《南瓜书》大纲 - -2. [推导示例] 简单输出一个推导的demo提供参考 [@Sm1les](https://github.com/Sm1les) - -3. [文档规范] 指定相关规范文档 - -4. [文档展示] 暂时先用浏览器扩展辅助展示,后期考虑用Github Pages或者自建网站展示 #TODO - - -## 未来计划 - -1. 内部试行第0期 -2. 总结第0期经验,后期带学员一起推导 +样例参见`docs/chapter2/chapter2.md`和`docs/chapter3/chapter3.md` ## 关注我们
- +# LICENSE +[GNU General Public License v3.0](https://github.com/Datawhale18/pumpkin-book/blob/master/LICENSE) diff --git a/docs/README.md b/docs/README.md index 8dd99a9..3e643bb 100644 --- a/docs/README.md +++ b/docs/README.md @@ -1,2 +1,17 @@ -

南瓜书PumpkinBook

-Loading... \ No newline at end of file +# 南瓜书PumpkinBook +[西瓜书(周志华《机器学习》)](https://book.douban.com/subject/26708119)是机器学习领域的经典入门教材之一,周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述,但是这对那些想深究公式推导细节的读者来说可能“不太友好”,本书旨在对西瓜书里比较难理解的公式加以解析,以及对部分公式补充具体的推导细节,诚挚欢迎每一位西瓜书读者前来参与完善本书:一个人可以走的很快,但是一群人却可以走的更远。 +# 选用的西瓜书版本 + + +> 书名:机器学习
+> 作者:周志华
+> 出版社:清华大学出版社
+> 版次:2016年1月第1版
+> 勘误表:http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/MLbook2016.htm + +## 关注我们 + +
+ +# LICENSE +[GNU General Public License v3.0](https://github.com/Datawhale18/pumpkin-book/blob/master/LICENSE) \ No newline at end of file diff --git a/plugin/chrome-extensions/MathJax-Plugin-for-Github_v0.2.4.crx b/plugin/chrome-extensions/MathJax-Plugin-for-Github_v0.2.4.crx deleted file mode 100644 index 3e799e3..0000000 Binary files a/plugin/chrome-extensions/MathJax-Plugin-for-Github_v0.2.4.crx and /dev/null differ