(待完成)组队学习 – 零基础入门CV赛事 #1

  • 2020 年 5 月 21 日
  • AI

一个人学习可以很快,但一群人在一起可以走得更远

来不及打卡了,快上车,后天(22号)补充详细内容

本文参考: Datawhale 零基础入门CV赛事-Task1 赛题理解

数据来源与解读

本次比赛[1]数据来自于公开数据集“街景房屋号码(The Street View House Numbers Dataset, SVHN)”,图片都来自于谷歌街景中剪切出的房屋号码。
原数据集一共有63万多张图片,根据一定方式采样得到比赛数据集。

训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;测试集A包括4W张照片,测试集B包括4W张照片。
和MNIST相比,SVHN数据集中色彩和视角的不同,背景也更杂乱,这些都会给识别造成一定障碍。我们需要选择适合处理复杂情况的模型。
真正需要我们思考并解决的,是单张图片中含有多个数字,而且不同图片中包含的数字数量不等,也即学习手册中的“不定长字符识别”。

参考

  1. ^零基础入门CV赛事- 街景字符编码识别 //tianchi.aliyun.com/competition/entrance/531795/information