8卡ddp增加batch_size，精度值严重下降

> Multi-GPU Training https://github.com/ultralytics/yolov5/issues/475
## 问题描述

增加 batch_size  ，在300个epoch训练下，mAP_0.5:0.95 精度值下降了`2.4750000000000014` 。

数据表如下所示:

|        | gpu | batch_size | cfg          | metrics/mAP_0.5, | metrics/mAP_0.5:0.95, |
|--------|-----|------------|--------------|------------------|-----------------------|
| 目标   | 2   | 64         | yolov5n.yaml | 45.6             | 27.7                  |
| 实验01 | 8   | 256        | yolov5n.yaml | 44.132           | 26.936                |
| 实验02 | 8   | 512        | yolov5n.yaml | 40.69,           | 24.461,               |

趋势图:
![image](https://user-images.githubusercontent.com/109639975/203886467-6b9ed9a9-3bda-48d9-916a-dcea17d8239c.png)

注意: 
- `实验01` 启动指令  ` python  -m oneflow.distributed.launch --nproc_per_node 8 train.py --data  data/coco.yaml  --weights ' ' --cfg models/yolov5n.yaml  --batch 256`
- `实验02` 启动指令 ` python  -m oneflow.distributed.launch --nproc_per_node 8 train.py --data  data/coco.yaml  --weights ' ' --cfg models/yolov5n.yaml  --batch 512`

## 复现实验数据
1. 在oneflow最新master分支即可
2. one-yolov5 请切换到 `recurrence_batch_have_an_impact_on_mAP` 
3. 不在a100机器 请修改 data/coco.yaml文件中数据集路径 [path:  /data/detection_datasets/coco  # dataset root dir](https://github.com/Oneflow-Inc/one-yolov5/blob/dcad60a263d4af35fef7953e0c836f1e21f78bc4/data/coco.yaml#L11)
4. `实验01` 启动指令  ` python  -m oneflow.distributed.launch --nproc_per_node 8 train.py --data  data/coco.yaml  --weights ' ' --cfg models/yolov5n.yaml  --batch 256`
5. `实验02` 启动指令 ` python  -m oneflow.distributed.launch --nproc_per_node 8 train.py --data  data/coco.yaml  --weights ' ' --cfg models/yolov5n.yaml  --batch 512`


## 实验环境
- 两次实验使用的为同一oneflow版本 同一 one-yolov5代码
- oneflow版本：2deed1b849 (HEAD -> fuse_get_ciou_result )
- one-yolov5版本: 33d2e89 (HEAD -> main)
- 机器: a100 


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

8卡ddp增加batch_size，精度值严重下降 #80

问题描述

复现实验数据

实验环境

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

	gpu	batch_size	cfg	metrics/mAP_0.5,	metrics/mAP_0.5:0.95,
目标	2	64	yolov5n.yaml	45.6	27.7
实验01	8	256	yolov5n.yaml	44.132	26.936
实验02	8	512	yolov5n.yaml	40.69,	24.461,

8卡ddp增加batch_size，精度值严重下降 #80

Description

问题描述

复现实验数据

实验环境

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions