Skip to content

Commit

Permalink
add pptsm-v2 attention doc
Browse files Browse the repository at this point in the history
  • Loading branch information
huangjun12 committed Sep 6, 2022
1 parent 1eb6649 commit 2a790a6
Show file tree
Hide file tree
Showing 2 changed files with 16 additions and 5 deletions.
4 changes: 2 additions & 2 deletions docs/zh-CN/model_zoo/recognition/pp-tsm.md
Original file line number Diff line number Diff line change
Expand Up @@ -37,7 +37,7 @@ PP-TSM基于ResNet-50骨干网络进行优化,从数据增强、网络结构

### PP-TSMv2

PP-TSMv2是轻量化的视频分类模型,基于CPU端模型[PP-LCNetV2](https://github.com/PaddlePaddle/PaddleClas/blob/release/2.4/docs/zh_CN/models/PP-LCNetV2.md)进行优化,从骨干网络与预训练模型选择、数据增强、网络结构调整(使用最优的tsm模块插入数量和位置、新增时序attention模块)、输入帧数优化、解码速度优化、dml蒸馏等6个方面进行模型调优,在中心采样评估方式下,精度达到74.38%,输入10s视频在CPU端的推理速度仅需433ms。更多细节参考[PP-TSMv2技术报告](./pp-tsm_v2.md)
PP-TSMv2是轻量化的视频分类模型,基于CPU端模型[PP-LCNetV2](https://github.com/PaddlePaddle/PaddleClas/blob/release/2.4/docs/zh_CN/models/PP-LCNetV2.md)进行优化,从骨干网络与预训练模型选择、数据增强、网络结构调整(使用最优的tsm模块插入数量和位置、新增时序attention模块)、输入帧数优化、解码速度优化、dml蒸馏等6个方面进行模型调优,在中心采样评估方式下,精度达到75.23%,输入10s视频在CPU端的推理速度仅需433ms。更多细节参考[PP-TSMv2技术报告](./pp-tsm_v2.md)


<a name="2"></a>
Expand Down Expand Up @@ -271,7 +271,7 @@ PaddleVideo 提供了基于 Paddle2ONNX 来完成 inference 模型转换 ONNX
| 模型名称 | 骨干网络 | 蒸馏方式 | 测试方式 | 采样帧数 | Top-1% | 训练模型 |
| :------: | :----------: | :----: | :----: | :----: | :---- | :---- |
| PP-TSMv2 | LCNet_v2 | DML | Uniform | 8 | 72.45 | [下载链接](https://videotag.bj.bcebos.com/PaddleVideo-release2.3/PPTSMv2_k400_8f_dml.pdparams) \| [Student模型](https://videotag.bj.bcebos.com/PaddleVideo-release2.3/PPTSMv2_k400_8f_dml_student.pdparams) |
| PP-TSMv2 | LCNet_v2 | DML | Uniform | 16 | 74.38 | [下载链接](https://videotag.bj.bcebos.com/PaddleVideo-release2.3/PPTSMv2_k400_16f_dml.pdparams) \| [Student模型](https://videotag.bj.bcebos.com/PaddleVideo-release2.3/PPTSMv2_k400_16f_dml_student.pdparams) |
| PP-TSMv2 | LCNet_v2 | DML | Uniform | 16 | 75.23 | [下载链接](https://videotag.bj.bcebos.com/PaddleVideo-release2.3/PPTSMv2_k400_16f_dml.pdparams) \| [Student模型](https://videotag.bj.bcebos.com/PaddleVideo-release2.3/PPTSMv2_k400_16f_dml_student.pdparams) |
| PP-TSM | ResNet50 | KD | Uniform | 8 | 75.11 | [下载链接](https://videotag.bj.bcebos.com/PaddleVideo-release2.1/PPTSM/ppTSM_k400_uniform_distill.pdparams) |
| PP-TSM | ResNet50 | KD | Dense | 8 | 76.16 | [下载链接](https://videotag.bj.bcebos.com/PaddleVideo-release2.1/PPTSM/ppTSM_k400_dense_distill.pdparams) |
| PP-TSM | ResNet101 | KD | Uniform | 8 | 76.35 | [下载链接](https://videotag.bj.bcebos.com/PaddleVideo-release2.2/ppTSM_k400_uniform_distill_r101.pdparams) |
Expand Down
17 changes: 14 additions & 3 deletions docs/zh-CN/model_zoo/recognition/pp-tsm_v2.md
Original file line number Diff line number Diff line change
Expand Up @@ -6,10 +6,11 @@
- [2. 模型细节](#2)
- [2.1 骨干网络与预训练模型选择](#21)
- [2.2 数据增强](#22)
- [2.3 网络结构调整](#23)
- [2.3 tsm模块调优](#23)
- [2.4 输入帧数优化](#24)
- [2.5 解码速度优化](#25)
- [2.6 DML蒸馏](#26)
- [2.7 新增时序attention模块](#27)
- [3. 快速体验](#3)
- [4. 模型训练、压缩、推理部署](#4)

Expand All @@ -19,7 +20,7 @@

视频分类任务是指输入视频,输出标签类别。如果标签都是行为类别,则该任务也称为行为识别。随着AI在各个行业的应用普及,工业及体育场景下对轻量化行为识别模型的需求日益增多,为此我们提出了高效的轻量化行为识别模型PP-TSMv2。

PP-TSMv2沿用了部分PP-TSM的优化策略,从骨干网络与预训练模型选择、数据增强、网络结构调整、输入帧数优化、解码速度优化、dml蒸馏等6个方面进行模型调优,在中心采样评估方式下,精度达到74.38%,输入10s视频在CPU端的推理速度仅需433ms。
PP-TSMv2沿用了部分PP-TSM的优化策略,从骨干网络与预训练模型选择、数据增强、tsm模块调优、输入帧数优化、解码速度优化、dml蒸馏、新增时序attention模块等7个方面进行模型调优,在中心采样评估方式下,精度达到75.23%,输入10s视频在CPU端的推理速度仅需433ms。


<a name="2"></a>
Expand Down Expand Up @@ -54,7 +55,7 @@ PP-TSMv2沿用了部分PP-TSM的优化策略,从骨干网络与预训练模型
| baseline + VideoMix | 69.36(+**0.3**) |

<a name="23"></a>
### 2.3 网络结构调整
### 2.3 tsm模块调优

在骨干网络的基础上,我们添加了时序位移模块提取时序信息。对于插入位置,TSM原论文中将temporal_shift模块插入残差结构之中,但PP-LCNetV2为了加快模型速度,去除了部分残差连接。PP-LCNetV2整体结构分为4个stage,我们实验探索了时序位移模块最佳插入位置。对于插入数量,temporal_shift模块会加大模型的运行时间,我们探索了其最优插入数量,实验结果如下表所示。

Expand Down Expand Up @@ -164,6 +165,16 @@ PP-TSMv2沿用了部分PP-TSM的优化策略,从骨干网络与预训练模型
| DML | PP-TSM_ResNet50 | 71.27%(**+2.20%**) |


<a name="27"></a>
### 2.7 新增时序attention模块

temporal shift模块通过把特征在时间通道上位移,获取时序信息。但这种位移方式仅让局部的特征进行交互,缺少对全局时序信息的建模能力。为此我们提出了轻量化的时序attention模块,通过全局池化组合可学习的fc层,得到全局尺度上的时序attention。在tsm模块之前,添加时序attention模块,使得网络在全局信息的指导下进行时序位移。轻量化的时序attention模块,能够在基本不增加推理时间的前提下,进一步提升模型精度。

| 策略 | Top-1 Acc(\%) |
|:--:|:--:|
| pptsmv2 不加时序attention | 74.38 |
| pptsmv2 加时序attention | 75.23(+**0.85**) |

<a name="3"></a>
## 3. 快速体验

Expand Down

0 comments on commit 2a790a6

Please sign in to comment.