本文记录在学习数据标注时的一些笔记。
内容来自:
-
《数据标注工程》这本书
-
互联网众多数据标注公司官网中关于业务的介绍
实际上也是对数据标注行业的介绍
这些公司有:
阿里数据标注:http://www.alilabel.com/
冰山数据:http://www.mark.hk/
本文采用自问自答的形式。
数据标注就是通过分类、画框、画线、锚点、多边形、标注、注释等方式,对文本、图像、语音、视频等数据进行处理,标注出主要特征,以此作为机器训练的基础素材。
因为人工智能(AI)在做学习时,需要大量训练素材,通过人工对原始数据的标注,可以提高 AI 训练成果。
-
数据采集
通过自有平台采集、通过网络爬虫爬寻数据、购买第三方提供的数据
-
数据清洗
去除掉无用、无效、异常的数据
-
数据标注
标记出数据的主要特征
-
数据质检
通过人工抽检、全检的方式来对数据和标注进行质量检测
若标注不合格,则退回重新标注
-
文本分类
-
内容标签
-
意图标注
-
词槽分析
-
阅读理解
“小明不小心把手里的东西掉在地上了” ,这句话里要标注出
东西是指物品
“我迷路了,已经分不出东西” ,这句话要标注出
东西是指方向
-
图像清洗
-
文字识别
-
区域框选
使用方框,框选出需要甄别的物体
-
语义分隔
-
描边打点
用更加精细化的区域描边勾选方式,精准得到物体的轮廓边缘
“打点” 可以理解为添加锚点,例如人脸关键点、人体关节点等重要点的信息
- 语音转写
- 语音切分
- 噪点标注
- 稀有语种
- 音频分析
- 内容转写
- 信息提取
- 片段切分
- 视频审核
- 摘要编写
凡是需要人工智能的领域,数据标注需求量都比较大,例如智能驾驶、智慧医疗、人脸识别、语音助手等。
-
车道线标注
-
车牌、指示牌、信号灯标注
-
道路区域分割标注
-
车辆、行人框标注
-
车辆多边形标注
-
车辆、行人行进方向标注
-
3D雷达标注
-
车辆3D边框标注
-
3D点云标注
3D点云数据通常为 .pcd 格式的文件,pcd 是英文 Point Cloud Data 的简写。
基于 WebGL 的 Three.js 中,负责加载 .pcd 文件的加载器是 PCDLoader
还有基于 3D 点云标注 和 2D 标注融合的标注形式,简称:3D/2D融合标注
-
跟踪标注
视频或连续图像中跟踪检测车辆,形成有ID关联的运动轨迹
看图说话
点云数据遵循 PCD 标准,文件后缀为 .pcd。
最新 PCD 标准为 2020 年发布的 0.7 版
更多 PCD 相关知识,请查阅我另外一篇学习笔记:点云数据(Point Cloub Data)学习笔记.md
以下图片来源于 数据堂(datatang.com)
第1:3D云分割
第2:3D点云追踪
第3:3D点云单帧
人工智能研究或训练平台他们往往都会将数据标注工作外包给第三方公司。
怎么说呢,毕竟数据标注本质上是一个技术门槛并不特别高,人工劳动密集型行业
数据标注公司会根据客户要求,对数据进行标注。
而数据标注公司又可能会将具体的标注工作进行网站外包,外包给做数据标注兼职人员。
数据标注公司会提供标注工具、数据标注质量检测、数据清洗、最终将结果交付给客户。
-
云测数据
-
数据堂
-
龙猫数据
-
星辰数据
-
文德数慧
-
格物钛
-
点我科技
-
曼孚科技
-
梦动科技
-
标贝科技
-
笑猫科技
-
37°C Data
-
海天瑞声
-
翊澳数据
-
景联文
...
该网站提供:
- 海量公开数据
- 提供私有数据管理
该网站提供:
- 在线标注工具
- 已标注好供 AI 训练的数据