分享 | 免费的数据集来啦!

**人工智能的学习、研究离不开大量的数据。**使用一些开源数据集,一方面可以验证自己算法,另一方面也可以与其他算法进行比较发现自己算法中的不足之处。为了更好的培养AI人才,小堂翻遍全网,收集整理出了计算机视觉、自然语言处理和语音识别三大领域的十个优秀开源数据集供大家参考使用。

** 计算机视觉领域**

01.Real-World Masked Face Dataset

Real-World Masked Face Dataset,简称 RMFD,是2020年3月初,武汉大学国家多媒体软件技术研究中心,开放的一个特殊的人脸识别数据集——口罩遮挡人脸数据集,包括近10万张真实戴口罩与正常人脸图像,以及50万张模拟戴口罩人脸图像。

链接://github.com/X-zhangyang/Real-World-Masked-Face-Dataset

02.Hypersim

对于许多基本的场景理解任务,很难或不可能从真实图像中获得每个像素的地面真相标签。苹果公司通过引入Hypersim(一种用于真实室内场景理解的逼真的合成数据集)来解决这一问题。为了创建此数据集,苹果利用由专业艺术家创建的合成场景的大型存储库,并生成461个室内场景的77400张图像,并带有每个像素的详细标签和相应的地面真实几何形状。

链接://github.com/apple/ml-hypersim

03.OASIS

该数据集采了14万张的互联网图像,人工标注并实现了三维表面像素级重建。该数据集可以在深度估算、三维表面重建、边缘检测、实例分割等方向上发挥作用。

链接://oasis.cs.princeton.edu/

04.Visual Genome

Visual Genome是非常详细的视觉知识库,并带有10万图像的深度学习字幕。相较于ImageNet数据集,这个数据集每张图片所包含的信息更加丰富,将对象、属性之间的关系做注解,是这套数据集的核心。

链接://visualgenome.org/

05.Audi Autonomous Driving Dataset

该数据集2020年发布,标注类型包含目标3D包围框、语义分割、实例分割以及从汽车总线提取的数据,标注的非序列数据41227帧,都含有语义分割标注和点云标签其中含有前置摄像头视野内目标3D包围框标注12497帧。另外,该库还包括392556连续帧的无标注的传感器数据。图像中的车牌和人脸都进行了模糊化处理。该数据集共2.3TB。

链接://www.a2d2.audi/a2d2/en.html

** 语音领域 **

06.Common Voice

Common Voice数据集,包括18种不同的语言,累计记录了超过42000多名贡献者的近1400小时的语音数据。

链接://voice.mozilla.org/zh-CN/datasets

07.aidatatang_1505zh

aidatatang_1505zh数据集时长1505小时,是数据堂中文普通话语音数据库中的一部分。采集区域覆盖全国34个省级行政区域,参与录音人数达6408人,录音内容超30万条口语化句子。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。

链接://www.datatang.com/opensource(请在PC端打开)

08.CN-Celeb

该数据集包含130000条语音段,共收集1000位中国名人,短时语音段,共计274小时。

链接://www.openslr.org/82/

**NLP领域 **

09.WikiText

WikiText英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本,相比于著名的Penn Treebank (PTB) 词库中的词汇数量,前者是其2倍,后者是其110倍。每个词汇还同时保留产生该词汇的原始文章,这尤其适合当需要长时依赖(longterm dependency)自然语言建模的场景。

链接://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

10.SQuAD

SQuAD是斯坦福大学推出的一个阅读理解数据集,给定一篇文章,准备相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,数据集的量为其他数据集的几十倍之多。一共有107785问题,以及配套的536篇文章。

链接://rajpurkar.github.io/SQuAD-explorer/

除了以上的十个免费开源数据集之外,数据堂从2020年起面向全球高校和学术机构等非商业组织群体推出AI数据助研计划,填写相关申请资料可免费获取价值100万元左右AI数据集。

** AI助研计划数据集 **

多国语言OCR数据

该数据涵盖法文、韩文、日文、西班牙文、德文、意大利文、葡萄牙文、俄文8种语言的会议场景PPT,以及中英文自然场景的海报、路标、包装说明、菜单等。自然场景为行级矩形框标注,PPT场景为四边形框标注,且都进行内容转写。

多人种人脸识别数据

以青年人为主,男女比例均为1:1。除人脸多姿态数据中黄种人、黑人、白人和印度人均匀分布,其他数据均为中国人。采集环境为室内、室外两个场景,采集设备有手机、相机。图像的数据格式为jpg。

中文普通话自然对话手机采集语音数据

该数据由440人较年轻的采集人在不指定话题、以自然说话随意交谈的情况下录制,性别比例均衡,在相对安静的室内环境,环境底噪不超过50db,并标注了文本、说话人及有效句子的起止时间。该数据格式为16kHz或22.05kHz,16bit,单声道wav,句准确率不低于97%。

除以上,数据堂助研计划涵盖更多数据集明细如下: