Skip to content

Commit

Permalink
Update 04.1-最小二乘法.md (microsoft#502)
Browse files Browse the repository at this point in the history
* Update 04.1-最小二乘法.md

* Update 05.3-样本特征数据标准化.md
  • Loading branch information
Erik Xu authored May 6, 2020
1 parent 6b4afbd commit 712778f
Show file tree
Hide file tree
Showing 2 changed files with 2 additions and 2 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -40,7 +40,7 @@ $J$称为损失函数。实际上就是试图找到一条直线,使所有样

假设我们计算出初步的结果是虚线所示,这条直线是否合适呢?我们来计算一下图中每个点到这条直线的距离,把这些距离的值都加起来(都是正数,不存在互相抵消的问题)成为误差。

因为上图中的几个点不在一条直线上,所以不能有一条直线能同时穿过它们。所以,我们只能想办法不断改变红色直线的角度和位置,让总体误差最小(用于不可能是0),就意味着整体偏差最小,那么最终的那条直线就是我们要的结果。
因为上图中的几个点不在一条直线上,所以不能有一条直线能同时穿过它们。所以,我们只能想办法不断改变红色直线的角度和位置,让总体误差最小(永远不可能是0),就意味着整体偏差最小,那么最终的那条直线就是我们要的结果。

如果想让误差的值最小,通过对w和b求导,再令导数为0(到达最小极值),就是w和b的最优解。

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -7,7 +7,7 @@

### 5.3.1 发现问题的根源

仔细分析一下屏幕打印信息,前两次迭代的损失值已经是天文数字了,后面的W和B的值也在不断变大,说明网络发散了。难度我们遇到了传说中的梯度爆炸!数值太大,导致计算溢出了。第一次遇到这个情况,但相信不会是最后一次,因为这种情况在神经网络中太常见了。
仔细分析一下屏幕打印信息,前两次迭代的损失值已经是天文数字了,后面的W和B的值也在不断变大,说明网络发散了。难道我们遇到了传说中的梯度爆炸!数值太大,导致计算溢出了。第一次遇到这个情况,但相信不会是最后一次,因为这种情况在神经网络中太常见了。

回想一个问题:为什么在第4章中,我们没有遇到这种情况?把第4章的数据样本拿来看一看,如表5-4所示。

Expand Down

0 comments on commit 712778f

Please sign in to comment.