【AI培训第四期实践作业-人民币纸币】

【实践作业-人民币纸币】

完成人民币纸币的图片爬取

经过手动逐个文件夹筛选,删除上百张照片完全无关照片,再经过编写python,完成

  • 手动去除无关
  • 图像去重
  • 图像清洗
  • 数据汇总

共获得 2411 张照片的初始数据集

实践作业链接

image

因为实践项目数据改为准备好,不需要数据采集等,所以暂时应该不需要处理数据,标注等,
坐等提供数据开始训练和优化模型。

根据课程内容调整,
更新实践作业内容,
当前不需要做数据采集和标注,
直接使用现成的COCO数据集

最新实践项目内容更新:

项目信息

  • 项目名称:【鸟猫狗检测】
  • 定义:动物分类检测,检测出图片中的,猫猫,狗狗,鸟类
  • 相关wiki链接/文档/code:
    数据相关
    数据路径:s3://ai-cultivate/coco/benchmarks (标注)
    数据图片路径:s3://ai-cultivate/coco/imgs (图片)

主要任务

  • 数据准备,清洗/采集
  • 模型训练,算法仓
  • 模型部署

项目现状

  • 2021/10 完成之前的RMB的数据爬取采集,清洗,标注(后期实践项目内容调整已经不需要)

  • 2021/11前,完成新的鸟猫狗等的数据获取,并合并所需数据集label和图片,数据准备工作完成

  • 2021/11中,开始进行对鸟猫狗数据集的训练,基于WEEK5的训练框架调整数据集json等开始训练

  • 2021/11后,因为项目工作的密集导致 AI实践作业 进度缓慢,同时发现WS2环境没有,和邱老师确认后发现为hh-c下线了(里面的内容全部丢失),所以只能重新构建环境,准备数据集和重新训练…

待续工作

  • 数据准备
  • 检测模型训练
  • 初步模型封装
  • 模型优化,调参
  • 模型测试
  • 封装部署
  • 2021/12
    • 重新开始,搭建hh-b的开发环境
    • 完成数据准备:
      1. 拉取coco benchmark数据集
      2. 数据整理,编写脚本快速整理animal train和val数据json
      3. 数据合并,编写脚本快速合并dog cat bird为整个animal类别json
        image

最终完成数据的准备工作
image

PS
可利用如下命令,将原始json转换为格式化的,方便理解学习json信息

cat xxx.json | python -m json.tool > pretty_xxx.json