Skip to content

one-yolov5 sync-bn 断点续训精度下降 #26

Closed
@ccssu

Description

@ccssu

目前处于猜测阶段,目前有如下两个依据:

1. 在这个issues: #21

采用syncbn训练,中途有中断继续恢复训练,可以看到在第194个,250个epoch处附近出现明显下降(详细数据可见#21 (comment)
imgs

2. 在isses的map结果: #19

由于服务器重启,下图中在第90个epoch附近有明显下降。
imgs

结合最新的不采用sync 加载torch初始化 训练结果
在第 24个epoch

是否加载torch初始化 metrics/mAP_0.5 metrics/mAP_0.5:0.95
yolov5n 0.2547, 0.14129,
yolov5n 0.25279, 0.14134,

可以看下图两个圈所标注,他们都精度值几乎一致。所以猜测应该是精度值受到 训练中断然后恢复训练的影响。
image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions