Skip to content

Commit

Permalink
glossary; symbol
Browse files Browse the repository at this point in the history
  • Loading branch information
SmirkCao committed May 28, 2019
1 parent 3222fee commit 1929045
Show file tree
Hide file tree
Showing 4 changed files with 105 additions and 24 deletions.
3 changes: 2 additions & 1 deletion CH15/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -20,11 +20,12 @@
### 导读

- SVD是线性代数的概念,但在统计学中有广泛应用,PCA和LSA中都有应用,在本书中定义为基础学习方法。
- SVD是矩阵分解方法,特点是分解的矩阵正交。还有另外一种矩阵分解方法叫做NMF,其特点是分解的矩阵非负。
- 奇异值分解是在平方损失意义下对矩阵的最优近似,即**数据压缩**。图像存储是矩阵,那么图像也可以用SVD实现压缩。
- 任意给定一个实矩阵,其奇异值分解一定存在,但并不唯一。$\mit\Sigma$是唯一的,$U$和$V^\mathrm{T}$是可变的。
- 奇异值分解有明确的几何意义,事实上,整个线性代数都有明确的几何意义。
- 提到旋转或**反射变换**。关于反射变换,定点或者定直线对称,定点的叫做中心反射,定直线的叫做轴反射。
- 奇异值分解可以扩展到Tensor
- 奇异值分解可以扩展到Tensor
- 推荐阅读部分推荐了MIT的18.06SC,这里也推荐下[3Blue1Brown](https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab),快速建立线性代数相关定义的几何直观,如果有具体的哪个点不清楚,不形象,也可以考虑查下。其实,还得多用。
- 接上条,MIT 18.06SC的教材,《Introduction to linear algebra》这个书不错,推荐看。
- 图15.1好好体会下,那个图里面,左上角的图形,两个轴是基矢量,单位长度,所以右侧的图基矢量的长度是$\sigma_1,\sigma_2$,这说明了奇异值的意义。另外,思考下怎么实现。
Expand Down
83 changes: 79 additions & 4 deletions glossary_index.md
Original file line number Diff line number Diff line change
Expand Up @@ -47,8 +47,29 @@
- 将数据规范化为每个变量均值为0,方差为1。
- 对数据做正交变换,原来由线性相关的变量表示的数据,通过正交变换变成由若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差的和最大的,方差表示在新变量上信息的大小。

### 概率潜在语义分析

发现由隐变量表示的话题,即潜在语义。一个文本的内容由其相关话题决定,一个话题的内容由其相关单词决定。

### LDA的收缩吉布斯抽样算法
$P_{412}$

### 变分推理
$P_{412}$

### PageRank算法
$P_{415}$ 在有向图上定义一个随机游走模型,即一阶马尔可夫链,描述随机游走者沿着有向图随机访问各个结点的行为。

### PageRank一般定义
$P_{421}$ 基本定义的基础上导入平滑项

## Glossary

### 贝叶斯学习
$P_{391}$ LDA属于贝叶斯学习
$P_{369}$ 贝叶斯学习中经常需要进行三种积分运算:规范化,边缘化,数学期望。
$P_{401}$ 变分推理是贝叶斯学习中常用的含有隐变量模型的学习和推理方法。

### 信息

$P_{297}$ 新变量上信息的大小。
Expand Down Expand Up @@ -80,6 +101,7 @@ $P_{225}$附录C
$P_{182}$ BW算法中求Q函数极大化,因为$\pi,A,B$都满足等式约束条件

$P_{301}$ PCA中关于总体主成分的定理的证明。
$P_{346}$ EM算法M步

### 样本

Expand All @@ -92,18 +114,40 @@ $P_{4}$ 输入和输出对又称为样本
### 经验

提到经验,说的都是和训练数据集相关的
$P_{352}$ 从样本得到经验分布,从而估计总体分布;或者从样本计算样本均值,从而估计总体期望。

### 对偶

感知机里面有提到,支持向量机里面有提到

### 生成模型
$P_{339}$

### 共现模型
$P_{339}$ 概率潜在语义分析

### 图模型
$P_{341}$ 生成模型属于概率有向图模型
$P_{386}$ 潜在狄利克雷模型是含有隐变量的概率图模型。

### 随机游走
$P_{351}$

### 分离超平面

$P_{26}, P_{102}$ 支持向量机里面也有

### 内积

$P_{25}, P_{78}, P_{117}$在感知机、逻辑回归、支持向量机里面都有用到
$P_{323}$ 词向量的相似度

### 非负矩阵分解

$P_{331}$

### 满条件分布
$P_{372}$

### 指示函数

Expand Down Expand Up @@ -137,8 +181,8 @@ $P_{57}$决策树学习通常采用启发式方法,得到的决策树是次最
### 单纯形

$P_{81}$,$P_{96}$单纯形是$n$维欧式空间中的$n+1$个仿射无关的点的集合的凸包。

$P_{348}$ 模型的参数分布可以由参数空间中的单纯形表示。
$P_{344}$ 单词单纯形与话题单纯形

### 熵,条件熵

Expand All @@ -148,6 +192,10 @@ $P_{80}$最大熵原理部分也有提到,并有引用到第五章中的内容

$P_{166}$ $F$函数的定义中,有定义分布$\hat P(Z)$的熵

### KL散度

$P_{332}$ 或者相对熵

### 特征函数

$P_{82}$ $f(x,y)$描述输入$x$和输出$y$之间的某一事实。
Expand All @@ -165,6 +213,7 @@ $P_{184}$维特比算法实际上是用动态规划求解隐马尔可夫模型

### 贝叶斯估计
$P_{59}$ 强调朴素贝叶斯和贝叶斯估计是不同的概念。

### 目标函数

$P_9$在经验风险最小化的策略或者结构风险最小化策略的情况下,经验或结构风险函数是最优化的目标函数
Expand All @@ -177,6 +226,17 @@ $P_{27},P_{97}$在[感知机](CH02/README.md)和[支持向量机](CH07/README.md

$P_{162}$ 高斯分布密度, 书中的内容扩展下去看二维混合高斯模型, 对协方差矩阵的理解会有帮助.

### 多项分布

$P_{385}$ 多项分布定义
$P_{340}$ 条件概率分布属于多项分布

### 二项分布
$P_{388}$

### 指数族分布
$P_{389}$ 狄利克雷分布属于指数族分布

### 对数似然损失

$P_7$ 对数损失函数或者对数似然损失函数 $L(Y,P(Y|X))=-\log P(Y|X)$
Expand Down Expand Up @@ -213,7 +273,7 @@ $P_{147}$ 上面这两个不是一个概念
### 琴声不等式

$P_{159}$ EM算法导出部分讨论收敛性

$P_{455}$ KL散度定义
$P_{90}$ IIS算法导出部分确定界

### 约束最优化问题
Expand All @@ -236,8 +296,6 @@ $P_{115}$

$P_{213}$也有说明

*

$P_{206}$预测最优解,条件概率最大的输出序列(标记序列)$y^*$

### 极大似然估计
Expand All @@ -255,6 +313,7 @@ $P_{456}$
$P_{320}$

### 向量空间模型
Vector Space Model, VSM

$P_{322}$

Expand All @@ -267,20 +326,36 @@ $P_{116}$
$P_{279}$ 线性变换很重要,在[SVD](./CH15/README.md)中第一次提到。
$P_{300}$ 在总体主成分的定义中也提到了线性变换,这真的是线性代数中一个非常重要的概念。

### 张成

$P_{451}$ 向量空间
$P_{325}$ 张成话题空间向量

### 因子负荷量

$P_{305}$ 第$k$个主成分$y_k$与变量$x_i$的相关系数$\rho(y_k,x_i)$称为因子负荷量,表示第$k$个主成分$y_k$与变量$x_i$的相关关系。

### 方差贡献率
$_{308}$ 第$k$主成分$y_k$的方差贡献率定义为$y_k$的方差与所有方差之和的比值,记作$\mu_k$

### EM算法
$P_{345}$ PLSA也是含有隐变量的模型,通常使用EM算法求解。
$P_{401}$ 变分EM算法
### 文本集合
### 单词文本矩阵
### 词向量
$P_{321}$
### 非负矩阵分解
$P_{321}$

### 反射变换

$P_{279}$

### 正交变换

$P_{297}$ 把线性相关的变量表示的观测数据转换成少数几个线性无关变量表示的数据,线性无关的变量称为主成分。

### 正交矩阵

$P_{304}$ 正交矩阵满足$A^\mathrm{T}A=AA^\mathrm{T}=I$
Expand Down
2 changes: 1 addition & 1 deletion math_markdown.md
Original file line number Diff line number Diff line change
Expand Up @@ -63,7 +63,7 @@
| $\int x\,{\rm d}x$ | \int x\,\{\rm d}x | $\bigsqcup$ | \bigsqcup | $\lgroup \rgroup$ | \lgroup \rgroup |
| $\coprod$ | \coprod | $\bigodot$ | \bigodot | $\partial$ | \partial |
| $\det$ | **\det** | $\max$ | \max | $\min$ | \min |
| | | | | | |
| $\log$ | \log | | | | |

### 表 6: 常用箭头

Expand Down
41 changes: 23 additions & 18 deletions symbol_index.md
Original file line number Diff line number Diff line change
@@ -1,31 +1,36 @@
# 符号表

1. $X=[x_{ij}]_{m\times n}$ 矩阵
1. $X=\{x_1, x_2, \dots ,x_n\}$ $n$个样本的集合 $P_{263}$
1. $X$ 定义在输入空间$\mathcal X$上的随机向量
1. $Y$ 定义在输出空间$\mathcal Y$上的随机向量
1. $\mathcal{Z}$隐式结构空间 $P_8$
1. $A_G$类的样本散布矩阵 $P_{259}$
1. $C^*$ 最优划分 $P_{261}$
1. $D_G$ 类的直径
1. $D=[d_{ij}]_{n \times n}$ $n$个样本之间的距离矩阵$D$ $P_{261}$
1. $D=\{d_1,d_2,\cdots,d_n\}$ $n$个文本的集合 $P_{322}$
1. $D(A||B)=\sum\limits_{i,j}\left(a_{ij}\log\frac{a_{ij}}{b{ij}}-a_{ij}+b_{ij}\right)$ 散度损失函数$P_{322}$
1. $\Lambda$ $n$阶对角矩阵
1. $\mathcal{M}$是$\mathbf{R}^{m\times n}$中所有秩不超过$k$的矩阵集合,$0<k<r$ $P_{287}$
1. $m, M$ 样本特征数,维数 $P_{261}$
1. $m$ 协方差矩阵的特征值之和 $P_{309}$
1. $n,N,n_G$ 样本数,类的样本数
1. $\theta$ 参数
1. $U$ 训练数据 $P_8, P_{248}, P_{245}$
1. $U$ 表示$m$阶正交矩阵 ,$V$表示$n$阶正交矩阵,$\mit\Sigma$表示矩形对角矩阵,$P_{271}$
1. $T$ 训练数据集 $P_{59}$
1. $T$ 和$V$给定的两个正数 $P_{259}$
1. $T$ 决策树 $P_{78}$
1. $T:x\rightarrow Ax$ 线性变换 $P_{279}$
1. $A_G$类的样本散布矩阵 $P_{259}$
1. $R(A)$ $A$的值域 $P_{275}$
1. $R(A)^\bot$ 表示$R(A)$的正交补 $P_{276}$
1. $r$ 矩阵的秩 $P_{277}$
1. $S_G$类的样本协方差矩阵 $P_{259}$
1. $D_G$ 类的直径
1. $D=[d_{ij}]_{n \times n}$ $n$个样本之间的距离矩阵$D$ $P_{261}$
1. $C^*$ 最优划分 $P_{261}$
1. $\mathcal{S}$ 状态空间 $P_{360}$
1. $T$ 训练数据集 $P_{59}$
1. $T$ 和$V$给定的两个正数 $P_{259}$
1. $T$ 决策树 $P_{78}$
1. $T:x\rightarrow Ax$ 线性变换 $P_{279}$
1. $U$ 训练数据 $P_8, P_{248}, P_{245}$
1. $U$ 表示$m$阶正交矩阵 ,$V$表示$n$阶正交矩阵,$\mit\Sigma$表示矩形对角矩阵,$P_{271}$
1. $W(C)$ 能量,表示相同类中的样本的相似程度。越相似,越小。 $P_{264}$
1. $W=A^\mathrm TA$ 对称矩阵 $P_{282}$
1. $\Lambda$ $n$阶对角矩阵
1. $\mathcal{M}$是$\mathbf{R}^{m\times n}$中所有秩不超过$k$的矩阵集合,$0<k<r$ $P_{287}$
1. $W=\{w_1,w_2,\cdots, w_m\}$ $m$个单词集合 $P_{322}$
1. $\mathcal{W}=\{w_1,w_2,\cdots, w_k\}$ $k$个元素组成的集合 $P_{389}$
1. $x_i^*$是$x_i$的规范化随机变量。 $P_{309}$
1.
1. $X=[x_{ij}]_{m\times n}$ 矩阵
1. $X=\{x_1, x_2, \dots ,x_n\}$ $n$个样本的集合 $P_{263}$
1. $X$ 定义在输入空间$\mathcal X$上的随机向量
1. $X=\{X_0,X_1,\cdots,\X_t,\cdots\}$ 马尔可夫链 $P_{360}$
1. $Y$ 定义在输出空间$\mathcal Y$上的随机向量
1. $\mathcal{Z}$隐式结构空间 $P_8$

0 comments on commit 1929045

Please sign in to comment.