【AI-CAMP三期实践项目:AIS - 条烟检测】

项目信息

  • 项目名称:条烟检测
  • 目标
    • 积极使用AIS平台提供的各项功能,以发现、分析并解决问题,并对AIS平台提出改进建议
    • 算法指标: Precision和Recall达到90%
    • 封装算法仓: 输入图片,输出检测结果
  • 定义:
  • 真实价值:
  • 相关wiki链接/文档/code:

示例图片


小组成员

@刘旭
@吕梦琪

项目现状

  • 等待数据采集和标注完成

需要重点考虑问题

  • AIS平台自动学习能否达到算法指标要求

研究计划细化目标

  1. 采集/标注数据,验收数据
  2. 扩充数据/数据增强(1周)
  3. 转换数据格式并上传到AIS数据集(1周)
  4. AIS自动学习训练,发现、分析并解决问题,提出改进建议(2周)
  5. 算法仓封装,测试(1周)

评价指标/结果

  • 算法指标: Precision和Recall达到90%

条烟数据集(已标注):
数据量:4740
地址:s3://data-for-ais/cylinder-cap/data/labeled/carton_cigarettes_20210701.sds

  1. 数据集已导入AIS系统:
    https://hh-d.brainpp.cn/ais/megvii-face/dataset/Project/6108d7a5f9af3ede617af293/6108d7a5f9af3ede617af291?lang=zh_CN

通过AIS的数据集可视化页面,发现有很多图片与条烟检测无关:

无论怎样,先训练一把试下。。

  1. 创建了一个训练对,训练集与测试集按8:2随机划分
  2. 创建自动学习任务,选择简单模式,4个算法,4小时,评测指标recall@precision 0.9,iou 0.3

等待结果中。。

第一次自动学习训练结果:模型得分0.35311
训练时长:4小时,训练指标:recall@precision0.9 iou0.3

第二次尝试自动学习,还是简单模式4个算法相同指标,选择了更长的学习时间16个小时,但是实际6个多小时就结束了。
最终结果0.3759,只涨了0.02个点。


把数据导出手动清洗了一遍数据集,删除了不相关的图片

清洗后数据集数量为2099

重新导入数据集到到AIS:https://hh-d.brainpp.cn/ais/megvii-face/dataset/Project/6128982ae8dfe090692641e6/6128982ae8dfe090692641e4?lang=zh_CN
创建训练对,划分比例(8:2) https://hh-d.brainpp.cn/ais/megvii-face/trainValidation/61289e8fe8dfe09069264a1c/61289e8fe8dfe09069264a1d?lang=zh_CN


清洗数据后重新训练,相同指标分数提升到0.527


前面使用自动划分的训练对得到的分数并不好,于是尝试手动划分训练集与测试集,测试集多选中一些真实的图片,去除了掉渲染图和烟草店这样的特殊图片,希望测试集能更贴近真实场景。