|
| 1 | +# CH17 潜在语义分析 |
| 2 | + |
| 3 | +[TOC] |
| 4 | + |
| 5 | +## 前言 |
| 6 | + |
| 7 | +### 章节目录 |
| 8 | + |
| 9 | +1. 单词向量空间与话题向量空间 |
| 10 | + 1. 单词向量空间 |
| 11 | + 1. 话题向量空间 |
| 12 | +1. 潜在语义分析算法 |
| 13 | + 1. 矩阵奇异值分解算法 |
| 14 | + 1. 例子 |
| 15 | +1. 非负矩阵分解算法 |
| 16 | + 1. 非负矩阵分解 |
| 17 | + 1. 潜在语义分析模型 |
| 18 | + 1. 非负矩阵分解的形式化 |
| 19 | + 1. 算法 |
| 20 | + |
| 21 | +### 导读 |
| 22 | + |
| 23 | +- 潜在语义分析主要用于文本的话题分析,通过矩阵分解发现文本与单词之间的**基于话题**的语义关系。 |
| 24 | +- 词向量通常是稀疏的,词向量不考虑同义性,也不考虑多义性。 |
| 25 | +- 一个文本(Doc)一般有多个话题(Topic)。涉及到语义分析,要清楚什么是文本,什么是话题,什么是伪文本。 |
| 26 | +- NMF那个文章[参考文献3]发的是Nature,1999年的,不过他引不高,才9979。文章中对比了在矩阵分解框架下的VQ,PCA和NMF,说明了NMF和其他两种方法的区别。 |
| 27 | +- NMF的推导过程见参考文献4 |
| 28 | +- 潜在语义分析使用的是**非概率**的话题分析模型。 |
| 29 | +- 潜在语义分析是**构建话题向量空间的方法**(话题分析的方法) |
| 30 | +- 单词向量转化成话题向量。文本在不同空间下的相似度用在不同空间下的向量内积表示。 |
| 31 | +- 话题向量空间$T$,单词-话题矩阵$T$,文本在话题空间的表示$Y$,话题-文本矩阵$Y$ |
| 32 | +- 本章第一个参考文献做了很多的文字说明,也有个实际的例子,可以参考下。 |
| 33 | +- 所谓**表示**,可以认为是在某个坐标系(空间)下的坐标。 |
| 34 | +- 非负矩阵分解旨在用较少的基向量、系数向量来表示较大的数据矩阵。 |
| 35 | +- 感觉这章的章节结构看起来不是很清晰,在内容部分重新梳理了下结构。 |
| 36 | +- 在sklearn中LSA就是截断奇异值分解,作为一种降维的手段进行处理。而NMF是单独的一个模型,都是矩阵分解的范畴。 |
| 37 | + |
| 38 | +## 内容 |
| 39 | +### 向量空间模型 |
| 40 | +#### 单词向量空间 |
| 41 | +每个向量对应一个文本,单词向量空间行对应单词,话题向量空间行对应话题。 |
| 42 | +单词-文本矩阵 |
| 43 | +$$ |
| 44 | +X= |
| 45 | +\left[ |
| 46 | +\begin{matrix} |
| 47 | +x_{11}&x_{12}&\cdots&x_{1n}\\ |
| 48 | +x_{21}&x_{22}&\cdots&x_{2n}\\ |
| 49 | +\vdots&\vdots&&\vdots\\ |
| 50 | +x_{m1}&x_{m2}&\cdots&x_{mn} |
| 51 | +\end{matrix} |
| 52 | +\right] |
| 53 | +$$ |
| 54 | +元素$x_{ij}$代表单词$w_i$在文本$d_j$中出现的频数或者权值。 |
| 55 | +$X$可以写作$X=[\begin{array}&x_1&x_2 &\cdots &x_n\end{array}]$ |
| 56 | + |
| 57 | +单词多,文本少,这个矩阵是稀疏矩阵。 |
| 58 | + |
| 59 | +权值通常用TFIDF |
| 60 | +$$ |
| 61 | +TFIDF_{ij}=\frac{tf_{ij}}{tf_{\cdot j}}\log\frac{\mathrm{d}f}{\mathrm{d}f_i}\\ |
| 62 | +i=1,2,\cdots,m;\\ |
| 63 | +j=1,2,\cdots,n |
| 64 | +$$ |
| 65 | + |
| 66 | +一个单词在一个文本中的TFIDF是两种重要度的乘积,表示综合重要度。 |
| 67 | +#### 话题向量空间 |
| 68 | +每个话题由一个定义在单词集合$W$上的$m$维向量表示,称为**话题向量**。 |
| 69 | +$t_l=[\begin{array}&t_{1l} &t_{2l} & \cdots & t_{ml}\end{array}]^\mathrm{T}, l=1,2,\cdots,k$ |
| 70 | + |
| 71 | +$k$个话题向量张成一个话题向量空间,维数为$k$。 |
| 72 | +$$ |
| 73 | +T=\left[ |
| 74 | +\begin{matrix} |
| 75 | +&t_{11} &t_{12} &\cdots &t_{1k} \\ |
| 76 | +&t_{21} &t_{22} &\cdots &t_{2k} \\ |
| 77 | +&\vdots &\vdots & &\vdots \\ |
| 78 | +&t_{m1} &t_{12} &\cdots &t_{mk} \\ |
| 79 | +\end{matrix} |
| 80 | +\right] |
| 81 | +$$ |
| 82 | +矩阵$T$可以写成$T=[\begin{array}&t_1 &t_2&\cdots&t_k\end{array}]$ |
| 83 | +$$ |
| 84 | +Y=\left[ |
| 85 | +\begin{matrix} |
| 86 | +&y_{11} &y_{12} &\cdots &y_{1n} \\ |
| 87 | +&y_{21} &y_{22} &\cdots &y_{2n} \\ |
| 88 | +&\vdots &\vdots & &\vdots \\ |
| 89 | +&y_{k1} &y_{k2} &\cdots &y_{kn} \\ |
| 90 | +\end{matrix} |
| 91 | +\right] |
| 92 | +$$ |
| 93 | +矩阵$Y$可以写做$Y=[\begin{array}&y_1 &y_2 &\cdots &y_n\end{array}]$ |
| 94 | + |
| 95 | +$$ |
| 96 | +x_j\thickapprox y_{1j}t_1+y_{2j}t_2+\cdots+y_{kj}t_k,j=1,2,\cdots,n |
| 97 | +$$ |
| 98 | + |
| 99 | +这样,单词-文本矩阵$X$可以近似的表示为单词-话题矩阵$T$与话题-文本矩阵$Y$的乘积形式。这就是潜在语义分析。 |
| 100 | +$$ |
| 101 | +X\thickapprox TY |
| 102 | +$$ |
| 103 | + |
| 104 | +### 基于SVD的潜在语义分析模型 |
| 105 | + |
| 106 | +#### 单词-文本矩阵 |
| 107 | + |
| 108 | +文本集合$D=\{d_1, d_2,\cdots,d_n\}$ |
| 109 | +单词集合$W=\{w_1,w_2,\cdots,w_m\}$ |
| 110 | + |
| 111 | +表示成单词-文本矩阵$X_{m\times n}$ |
| 112 | +$$ |
| 113 | +X=\left[ |
| 114 | +\begin{matrix} |
| 115 | +&x_{11} &x_{12} &\cdots &x_{1n} \\ |
| 116 | +&x_{21} &x_{22} &\cdots &x_{2n} \\ |
| 117 | +&\vdots &\vdots & &\vdots\\ |
| 118 | +&x_{m1} &x_{m2} &\cdots &x_{mn} \\ |
| 119 | +\end{matrix} |
| 120 | +\right] |
| 121 | +$$ |
| 122 | + |
| 123 | +#### 截断奇异值分解 |
| 124 | + |
| 125 | +$$ |
| 126 | +X\thickapprox U_k\mit{\Sigma_k}V_k^\mathrm{T} |
| 127 | +\bf |
| 128 | +=\left[ |
| 129 | +\begin{matrix} |
| 130 | +u_1 &u_2 &\cdots &u_k |
| 131 | +\end{matrix} |
| 132 | +\right] |
| 133 | +\left[ |
| 134 | +\begin{matrix} |
| 135 | +\sigma_1 &0 &0 &0\\ |
| 136 | +0 &\sigma_2 &0 &0 \\ |
| 137 | +0 &0 &\ddots &0\\ |
| 138 | +0 &0 &0 &\sigma_k |
| 139 | +\end{matrix} |
| 140 | +\right] |
| 141 | +\left[ |
| 142 | +\begin{matrix} |
| 143 | +v_1^\mathrm{T}\\ |
| 144 | +v_2^\mathrm{T}\\ |
| 145 | +\vdots\\ |
| 146 | +v_k^\mathrm{T} |
| 147 | +\end{matrix} |
| 148 | +\right] |
| 149 | +$$ |
| 150 | +这中间$k\le n \le m$ 这里假设了文档数量要比单词数量少,其实这个假设也不一定成立。 |
| 151 | +1. $U_k$是$m\times k$矩阵,前$k$个相互正交的左奇异向量 |
| 152 | +1. $\mit\Sigma$是$k$阶方阵,前$k$个最大奇异值 |
| 153 | +1. $V_k$是$n\times k$矩阵,前$k$个相互正交的右奇异向量 |
| 154 | + |
| 155 | + |
| 156 | + |
| 157 | +#### 话题空间向量 |
| 158 | + |
| 159 | +每一列$u_l$表示一个话题,$k$个话题张成一个子空间,称为话题向量空间。 |
| 160 | +$U_k=\left[\begin{matrix}u_1&u_2&\cdots&u_k\end{matrix}\right]$ |
| 161 | + |
| 162 | +#### 文本的话题空间向量表示 |
| 163 | +如果$u_l$表示话题向量空间,那么将文本表示成$u_l$的线性组合,就是文本在这个空间的表示。 |
| 164 | +但是,奇异值分解得到三个矩阵,最左边的是话题向量空间,那么右边的两个矩阵的乘积,则对应了话题-文本矩阵(文本的话题空间向量表示)。 |
| 165 | + |
| 166 | +这里有个点 |
| 167 | +$$ |
| 168 | +V^\mathrm{T}= |
| 169 | +\left[ |
| 170 | +\begin{matrix} |
| 171 | +v_{11}& v_{21}& \cdots& v_{n1}\\ |
| 172 | +v_{12}& v_{22}& \cdots& v_{n2}\\ |
| 173 | +\vdots& \vdots& & \vdots\\ |
| 174 | +v_{1k}& v_{2k}& \cdots& v_{nk}\\ |
| 175 | +\end{matrix} |
| 176 | +\right] |
| 177 | +$$ |
| 178 | + |
| 179 | +问题:这个矩阵是$k\times n$的,右下角标感觉应该是$v_{kn}$这种形式? |
| 180 | +这个矩阵是$V^\mathrm{T}$,是$k$个特征值对应的特征向量做了归一化之后的结果,参考$P_{258}$中相应的描述,$A^\mathrm{T}A$的特征向量构成正交矩阵$V$的列。$V$是右奇异向量。 |
| 181 | +这就是为什么这个矩阵下标如此表示。 |
| 182 | + |
| 183 | +$$ |
| 184 | +\begin{aligned} |
| 185 | +x_j&\thickapprox U_k(\mit\Sigma_k V_k^\mathrm{T})_j\\ |
| 186 | +&= |
| 187 | +\left[ |
| 188 | +\begin{matrix} |
| 189 | +u_1& u_2& \cdots& u_k |
| 190 | +\end{matrix} |
| 191 | +\right] |
| 192 | +\left[ |
| 193 | +\begin{matrix} |
| 194 | +\sigma_1v_{j1}\\ |
| 195 | +\sigma_2v_{j2}\\ |
| 196 | +\vdots\\ |
| 197 | +\sigma_kv_{jk} |
| 198 | +\end{matrix} |
| 199 | +\right] |
| 200 | +\\ |
| 201 | +&=\sum_{l=1}^k\sigma_lv_{jl}u_l,j=1,2,\cdots,n |
| 202 | +\end{aligned} |
| 203 | +$$ |
| 204 | + |
| 205 | +上式是文本$d_j$的近似表达式,由$k$个话题向量$u_l$的线性组合构成。 |
| 206 | +矩阵$(\mit\Sigma_kV_k^\mathrm{T})$的每一个列向量是一个文本在话题向量空间的表示。 |
| 207 | + |
| 208 | +#### 例子 |
| 209 | +书中这个例子原始数据是这样的: |
| 210 | +1. The Neatest Little Guide to Stock Market Investing |
| 211 | +1. Investing For Dummies, 4th Edition |
| 212 | +1. The Little Book of Common Sense Investing: The Only Way to Guarantee Your Fair Share of Stock Market Returns |
| 213 | +1. The Little Book of Value Investing |
| 214 | +1. Value Investing: From Graham to Buffett and Beyond |
| 215 | +1. Rich Dad's Guide to Investing: What the Rich Invest in, That the Poor and the Middle Class Do Not! |
| 216 | +1. Investing in Real Estate, 5th Edition |
| 217 | +1. Stock Investing For Dummies |
| 218 | +1. Rich Dad's Advisors: The ABC's of Real Estate Investing: The Secrets of Finding Hidden Profits Most Investors Miss |
| 219 | + |
| 220 | +去了停用词之后,做词频统计,得到了数据表。这个数据在[概率潜在语义分析](../CH18/README.md)部分的习题中再次引用了。 |
| 221 | +对应的这部分数据,实际上还可以做一些事情。可以尝试可视化下。 |
| 222 | + |
| 223 | + |
| 224 | +上图中三个话题ABC,和不同单词的关系可以可以看出。也可以绘制单词-话题的雷达图。 |
| 225 | + |
| 226 | +这个例子里面书中给出的参考结果是按照V做了符号调整,保证V中每一行的最大值,符号为正。 |
| 227 | + |
| 228 | + |
| 229 | + |
| 230 | + |
| 231 | +### 基于NMF的潜在语义分析模型 |
| 232 | + |
| 233 | +#### NMF |
| 234 | + |
| 235 | +$X$是非负矩阵则表示为$X\ge0$ |
| 236 | +$X\thickapprox WH, W\ge 0, H \ge 0$ 称为非负矩阵分解 |
| 237 | +非负矩阵分解旨在通过较少的基向量、系数向量来表达较大的数据矩阵。注意这里用到了基向量和数据矩阵,因为这部分内容介绍的是非负矩阵分解,和话题向量空间以及文本在话题向量空间的表示这些还没有联系在一起,是一个抽象的数学描述。 |
| 238 | + |
| 239 | +#### 模型定义 |
| 240 | +$m\times n$的非负矩阵$X\ge 0$。 |
| 241 | +假设文本集合包含$k$个话题,对$X$进行非负矩阵分解。即求$m\times k$的非负矩阵和$k\times n$的非负矩阵满足$X\thickapprox WH$ |
| 242 | + |
| 243 | +其中 |
| 244 | +$W=\left[\begin{matrix}w_1& w_2& \cdots& w_k\end{matrix}\right]$表示话题向量空间 |
| 245 | +$w_1, w_2, \cdots, w_k$表示文本集合的$k$个话题 |
| 246 | +$H=\left[\begin{matrix}h_1& h_2& \cdots& h_k\end{matrix}\right]$表示文本在话题向量空间的表示 |
| 247 | +$h_1, h_2, \cdots, h_k$表示文本集合的$n$个文本 |
| 248 | +以上是基于非负矩阵分解的潜在语义分析模型。 |
| 249 | + |
| 250 | +非负矩阵分解有很直观的解释,话题向量和文本向量都非负,对应着“伪概率分布”,向量的线性组合表示**局部构成总体**。这个其实和DL里面的意思是一样的。 |
| 251 | + |
| 252 | +#### 算法 |
| 253 | +可以形式化为最优化问题求解。 |
| 254 | +##### 损失函数 |
| 255 | +1. 平方损失 |
| 256 | +两个非负矩阵$A=[a_{ij}]_{m\times n}$和$B=[b_{ij}]_{m\times n}$的平方损失定义为 |
| 257 | +$$ |
| 258 | +\left\|A-B\right\|^2=\sum_{i,j}(a_{ij}-b_{ij})^2 |
| 259 | +$$ |
| 260 | +下界是0 |
| 261 | +2. 散度 |
| 262 | +$$ |
| 263 | +D(A\|B)=\sum_{i,j}\left(a_{ij}\log\frac{a_{ij}}{b_{ij}}-a_{ij}+b_{ij}\right) |
| 264 | +$$ |
| 265 | +下界是0 |
| 266 | +$A$和$B$不对称。 |
| 267 | +当$\sum\limits_{i,j}a_{ij}=\sum\limits_{i,j}b_{ij}=1$时散度损失函数退化为Kullback-Leiber散度或相对熵,这时$A$和$B$是概率分布。 |
| 268 | +##### 问题定义 |
| 269 | +针对不同的损失函数有不同的问题定义 |
| 270 | +1. 平方损失 |
| 271 | +$$ |
| 272 | +\min_{W,H} \|X-WH\|^2\\ |
| 273 | +s.t. W,H\ge 0 |
| 274 | +$$ |
| 275 | +2. 散度损失 |
| 276 | +$$ |
| 277 | +\min_{W,H} D(X\|WH)\\ |
| 278 | +s.t. W,H\ge 0 |
| 279 | +$$ |
| 280 | +##### 更新规则 |
| 281 | +这里提到目标函数只是对$W$和$H$之一的凸函数,而不是同时两个变量的凸函数,所以通过数值优化求解局部最优解。 |
| 282 | + |
| 283 | +1. 平方损失 |
| 284 | +$$ |
| 285 | +H_{lj}\leftarrow H_{lj}\frac{(W^\mathrm{T}X)_{lj}}{(W^\mathrm{T}WH)_{lj}}\\ |
| 286 | +W_{il}\leftarrow W_{il}\frac{(XH^\mathrm{T})_{il}}{(WHH^\mathrm{T})_{il}} |
| 287 | +$$ |
| 288 | +2. 散度损失 |
| 289 | +$$ |
| 290 | +H_{lj}\leftarrow H_{lj}\frac{\sum\limits_i[W_{il}X_{ij}/(WH)_{ij}]}{\sum\limits_iW_{il}}\\ |
| 291 | +W_{il}\leftarrow W_{il}\frac{\sum\limits_j[H_{lj}X_{ij}/(WH)_{ij}]}{\sum\limits_jH_{lj}} |
| 292 | +$$ |
| 293 | + |
| 294 | +##### NMF |
| 295 | +1. 平方损失 |
| 296 | +$$ |
| 297 | +J(W,H)=\frac{1}{2}\|X-WH\|^2=\frac{1}{2}\sum_{i,j}[X_{ij}-(WH)_{ij}]^2 |
| 298 | +$$ |
| 299 | +采用梯度下降法求解 |
| 300 | +这里用到了矩阵求导 |
| 301 | +$$ |
| 302 | +\begin{aligned} |
| 303 | +\frac{\partial J(W,H)}{\partial W_{il}}&=-\sum_j[X_{ij}-(WH)_{ij}]H_{lj}=-[(XH^\mathrm{T})_{il}-(WHH^\mathrm{T})_{il}]\\ |
| 304 | +\frac{\partial J(W,H)}{\partial H_{lj}}&=-[(W^\mathrm{T}X)_{lj}-(W^\mathrm{T}WH)_{lj}] |
| 305 | +\end{aligned} |
| 306 | +$$ |
| 307 | +根据更新规则有 |
| 308 | +$$ |
| 309 | +W_{il}=W_{il}+\lambda_{il}[(XH^\mathrm{T})_{il}-(WHH^\mathrm{T})_{il}]\\ |
| 310 | +H_{lj}=H_{lj}+\mu_{lj}[(W^\mathrm{T}X)_{lj}-(W^\mathrm{T}WH)_{lj}]\\ |
| 311 | +\lambda_{il}=\frac{W_{il}}{(WHH^\mathrm{T})_{il}}\\ |
| 312 | +\mu_{lj}=\frac{H_{lj}}{(W^\mathrm{T}WH)_{lj}} |
| 313 | +$$ |
| 314 | +##### 算法 |
| 315 | +输入:单词-文本矩阵$X\ge 0$,文本集合的话题个数$k$,最大迭代次数$t$; |
| 316 | +输出:话题矩阵$W$,文本表示矩阵$H$ |
| 317 | +1. 初始化 |
| 318 | +$W\ge 0$,**并对$W$的每一列数据归一化** |
| 319 | +$H\ge 0$ |
| 320 | +2. 迭代 |
| 321 | +对迭代次数从$1$到$t$执行下列步骤: |
| 322 | +a. 更新$W$的元素,每次迭代对$W$的列向量归一化,**使基向量为单位向量**。 |
| 323 | +b. 更新$H$的元素 |
| 324 | + |
| 325 | +## 习题 |
| 326 | + |
| 327 | +习题18.3 |
| 328 | + |
| 329 | +## 参考 |
| 330 | + |
0 commit comments