Skip to content

Commit

Permalink
全局更新目录,及有些格式
Browse files Browse the repository at this point in the history
  • Loading branch information
scutan90 committed Nov 14, 2018
1 parent 40a56d5 commit 65e6f9f
Show file tree
Hide file tree
Showing 43 changed files with 254 additions and 518 deletions.
247 changes: 125 additions & 122 deletions ch02_机器学习基础/第二章_机器学习基础.md

Large diffs are not rendered by default.

Binary file not shown.
Original file line number Diff line number Diff line change
@@ -1,4 +1,8 @@
# 第五章 卷积神经网络(CNN)(修改版)
[TOC]



# 第五章 卷积神经网络(CNN)

标签(空格分隔): 原创性 深度学习 协作
卷积神经网络负责人:
Expand All @@ -7,14 +11,10 @@

铪星创新科技联合创始人-杨文英;

# 第五章 卷积神经网络(CNN)

标签(空格分隔): 深度学习
---
Markdown Revision 1;
Date: 2018/11/08
Editor: 李骁丹-杜克大学
Contact: xiaodan.li@duke.edu
Date: 2018/11/08
Editor: 李骁丹-杜克大学
Contact: xiaodan.li@duke.edu
## 5.1 卷积神经网络的组成层
在卷积神经网络中,一般包含5种类型的层:
> * 输入层
Expand Down Expand Up @@ -158,7 +158,7 @@ http://www.sohu.com/a/159591827_390227
1. 实现信息的跨通道交互和整合。

2. 对卷积核通道数进行降维和升维,减小参数量。

下面详细解释一下:
**第一点 实现信息的跨通道交互和整合**
对1×1卷积层的探讨最初是出现在NIN的结构,论文作者的动机是利用MLP代替传统的线性卷积核,从而提高网络的表达能力。文中从跨通道池化的角度进行解释,认为文中提出的MLP其实等价于在传统卷积核后面接cccp层,从而实现多个feature map的线性组合,实现跨通道的信息整合。而查看代码实现,cccp层即等价于1×1卷积层。
Expand Down Expand Up @@ -240,7 +240,7 @@ Xception网络由此诞生。我们首先对每一个通道进行各自的卷积
### 5.14.2 为什么采用宽卷积?

通过将输入边角的值纳入到滑窗中心进行计算,以便损失更少的信息。

## 5.15 在卷积操作后,输出特征图(图像)大小如何计算?
在进行卷积操作时,往往根据需要,我们需设定一些参数。常见的参数有卷积核大小k, 窗口滑动的步长s, 进行填充的像素p, 假设输入特征图大小为Iw*Iw。则由以下公式可计算出输出特征图的大小Ow。

Expand Down
Original file line number Diff line number Diff line change
@@ -1,3 +1,7 @@
[TOC]



# 第六章 循环神经网络(RNN)

Markdown Revision 2;
Expand Down
38 changes: 21 additions & 17 deletions ch07_生成对抗网络(GAN)/第七章_生成对抗网络(GAN).md
Original file line number Diff line number Diff line change
@@ -1,24 +1,28 @@
[TOC]



# 第七章_生成对抗网络(GAN)

## GAN的「生成」的本质是什么?
## 7.1 GAN的「生成」的本质是什么?
GAN的形式是:两个网络,G(Generator)和D(Discriminator)。Generator是一个生成图片的网络,它接收一个随机的噪声z,记做G(z)。Discriminator是一个判别网络,判别一张图片是不是“真实的”。它的输入是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。

GAN*生成*能力是*学习分布*,引入的latent variable的noise使习得的概率分布进行偏移。因此在训练GAN的时候,latent variable**不能**引入均匀分布(uniform distribution),因为均匀分布的数据的引入并不会改变概率分布。

## GAN能做数据增广吗?
## 7.2 GAN能做数据增广吗?
GAN能够从一个模型引入一个随机数之后「生成」无限的output,用GAN来做数据增广似乎很有吸引力并且是一个极清晰的一个insight。然而,纵观整个GAN的训练过程,Generator习得分布再引入一个Distribution(Gaussian或其他)的噪声以「骗过」Discriminator,并且无论是KL Divergence或是Wasserstein Divergence,本质还是信息衡量的手段(在本章中其余部分介绍),能「骗过」Discriminator的Generator一定是能在引入一个Distribution的噪声的情况下最好的结合已有信息。

训练好的GAN应该能够很好的使用已有的数据的信息(特征或分布),现在问题来了,这些信息本来就包含在数据里面,有必要把信息丢到Generator学习使得的结果加上噪声作为训练模型的输入吗?

## VAE与GAN有什么不同?
## 7.3 VAE与GAN有什么不同?
1. VAE可以直接用在离散型数据。
2. VAE整个训练流程只靠一个假设的loss函数和KL Divergence逼近真实分布。GAN没有假设单个loss函数, 而是让判别器D和生成器G互相博弈,以期得到Nash Equilibrium。

## 有哪些优秀的GAN?
## 7.4 有哪些优秀的GAN?

### DCGAN
### 7.4.1 DCGAN

### WGAN/WGAN-GP
### 7.4.2 WGAN/WGAN-GP

WGAN及其延伸是被讨论的最多的部分,原文连发两文,第一篇(Towards principled methods for training generative adversarial networks)非常solid的提了一堆的数学,一作Arjovsky克朗所的数学能力果然一个打十几个。后来给了第二篇Wasserstein GAN,可以说直接给结果了,和第一篇相比,第二篇更加好接受。

Expand Down Expand Up @@ -53,42 +57,42 @@ $$JS(P_1||P_2)=\frac{1}{2}KL(P_1||\frac{P_1+P_2}{2})$$
**如何理解Wasserstein距离?**
Wasserstein距离与optimal transport有一些关系,并且从数学上想很好的理解需要一定的测度论的知识。

### condition GAN
### 7.4.3 condition GAN

### InfoGAN
### 7.4.4 InfoGAN
通过最大化互信息(c,c’)来生成同类别的样本。

$$L^{infoGAN}_{D,Q}=L^{GAN}_D-\lambda L_1(c,c')$$
$$L^{infoGAN}_{G}=L^{GAN}_G-\lambda L_1(c,c')$$

### CycleGAN
### 7.4.5 CycleGAN

**CycleGAN与DualGAN之间的区别**

### StarGAN
### 7.4.6 StarGAN
目前Image-to-Image Translation做的最好的GAN。

## Self-Attention GAN
### 7.4.7 Self-Attention GAN

## GAN训练有什么难点?
## 7.5 GAN训练有什么难点?
由于GAN的收敛要求**两个网络(D&G)同时达到一个均衡**

## GAN与强化学习中的AC网络有何区别?
## 7.6 GAN与强化学习中的AC网络有何区别?
强化学习中的AC网络也是Dual Network,似乎从某个角度上理解可以为一个GAN。但是GAN本身
## GAN的可创新的点
## 7.7 GAN的可创新的点
GAN是一种半监督学习模型,对训练集不需要太多有标签的数据。

## 如何训练GAN?
## 7.8 如何训练GAN?
判别器D在GAN训练中是比生成器G更强的网络

Instance Norm比Batch Norm的效果要更好。

使用逆卷积来生成图片会比用全连接层效果好,全连接层会有较多的噪点,逆卷积层效果清晰。

## GAN如何解决NLP问题
## 7.9 GAN如何解决NLP问题

GAN只适用于连续型数据的生成,对于离散型数据效果不佳,因此假如NLP方法直接应用的是character-wise的方案,Gradient based的GAN是无法将梯度Back propagation(BP)给生成网络的,因此从训练结果上看,GAN中G的表现长期被D压着打。
## Reference
## 7.10 Reference
### DCGAN部分:

### WGAN部分:
Expand Down
Loading

0 comments on commit 65e6f9f

Please sign in to comment.