Name		Name	Last commit message	Last commit date
parent directory ..
DetAnnoTools.md		DetAnnoTools.md
DetAnnoTools_en.md		DetAnnoTools_en.md
KeyPointAnnoTools.md		KeyPointAnnoTools.md
KeyPointAnnoTools_en.md		KeyPointAnnoTools_en.md
MOTAnnoTools.md		MOTAnnoTools.md
PrepareDetDataSet.md		PrepareDetDataSet.md
PrepareDetDataSet_en.md		PrepareDetDataSet_en.md
PrepareKeypointDataSet.md		PrepareKeypointDataSet.md
PrepareKeypointDataSet_en.md		PrepareKeypointDataSet_en.md
PrepareMOTDataSet.md		PrepareMOTDataSet.md
PrepareMOTDataSet_en.md		PrepareMOTDataSet_en.md
README.md		README.md

README.md

数据准备

数据对于深度学习开发起到了至关重要的作用，数据采集和标注的质量是提升业务模型效果的重要因素。本文档主要介绍PaddleDetection中如何进行数据准备，包括采集高质量数据方法，覆盖多场景类型，提升模型泛化能力；以及各类任务数据标注工具和方法，并在PaddleDetection下使用

在深度学习任务的实际落地中，数据采集往往决定了最终模型的效果，对于数据采集的几点建议如下：

任务类型、数据的类别和目标场景这些因素决定了要收集什么数据，首先需要根据这些因素来确定整体数据收集的工作方向。

在实际场景中数据采集成本其实十分高昂，完全靠自己收集在时间和金钱上都有很高的成本，开源数据集是帮助增加训练数据量的重要手段，所以很多时候会考虑加入一些相似任务的开源数据。在使用中请遵守各个开源数据集的license规定的使用条件。

开源数据一般不会覆盖实际使用的的目标场景，用户需要评估开源数据集中已包含的场景和目标场景间的差异，有针对性地补充目标场景数据，尽量让训练和部署数据的场景一致。

在采集阶段，也需要尽量保持类别均衡，帮助模型正确学习到目标特征。