长这么大,才知道数据集不用下载可以直接在线使用

  • 2021 年 4 月 12 日
  • AI

每天清晨打开电脑,搜索所需的数据集,点击“Download”,愉快地眯上眼睛,期待n个小时后醒来乖巧下载好的数据,开始放进模型像小仓鼠进滚轮一样快乐奔跑。

梦醒时分,一个“Error”蹦进眼睛里,美好码农的一天从数据集下载开始崩坏。。。。

小夕最近得知一个国内的好东西——Graviti Open Datasets,数据集免翻墙可高速下载,还支持在线筛选,在线预览,在线可视化等,下载之前可以明明白白地知道数据集的具体内容,标注形式和样本分布,使用还完全免费,这谁见了不直呼好家伙!

随便下载了一个数据集试试水,发现速度竟然很随便地达到17.9MB/s,Open Datasets运营姐姐诚不欺我,快乐地接下运营姐姐的饭,略带羞涩并且眼疾手快地吃下:)

Part 1:其实数据集下载快不是Graviti最大的优点,真正的快,是不用下载直接在线操作!

Open Datasets的数据集覆盖无人驾驶、文本检测、行为/事件检测、语义分割、姿态估计、场景识别、面部检测、目标追踪、ASR、AR/MR、深度估计等 50+ 种AI应用领域;拥有2D分类、2D多边形、2D矩形等 30+ 种标注任务;支持图像、视频、文本、语音、点云、IMU、3D模型等 10+ 种主流数据格式

丰富的数据资源,支持使用者在Open Datasets获取数据集后,选择Fork数据集,之后便能在TensorBay对原数据集进行修改,享受一站式数据管理服务

这边提到Graviti另一神器——TensorBay

面对庞杂的非结构化数据信息,如何存储、查询、分析、挖掘和利用数据显得尤为关键。传统的管理手段已无法满足身处复杂数据环境的智能系统(应用)的AI开发者。为了帮助AI开发者更高效地迭代模型,而不是耗费精力在数据管理上,Graviti打造了TensorBay非结构化数据管理SaaS,为AI开发者与开发团队提供数据托管版本管理数据可视化团队协作等SaaS服务,支持通过开发者工具对数据进行直接管理和使用,与Pipeline轻松集成。

Part 2:除了数据集资源丰富,支持在线管理数据,在Graviti,0代码轻松实现在线可视化不是梦!

非结构化数据管理的最大难点之一是“无法在线预览”。用户在下完数据集后还要写代码做数据可视化,常常会有图片格式错误、标注质量差,甚至根本不是自己想要的数据集等一系列令人头秃的问题……在Open Datasets,用户可以完美跳过下载步骤,无需另写代码,通过Graviti组件式数据可视化工具在线预览原数据、标注数据、数据特性(数据标签及属性分布),还可以通过COPY预览页面的URL/IFRAME将可视化组件嵌入到自己的页面

平台同时支持列表、柱状图、饼图等多种信息统计方式,帮助工程师提前掌握数据细节,试错成本大幅降低(戳戳下方视频查看Demo)

知乎视频www.zhihu.com图标

Part 3:做一只皮卡丘,用爱发电上传数据集,为统一数据集格式一起努力吧!

古有盟主一统武林,今有大G号召各位皮卡丘为标准化数据集格式共同努力!工整的数据集环境,可以支持高效管理共享,避免重复工作,工作流程更加智能流畅!

皮卡丘们可上传符合公开传播标准的数据集,或拿出独家武器——“绝无仅有”原创数据集

用户自助上传数据集指导文档(划掉,武功秘籍)docs.qq.com图标

Part4:最后为各位看官老爷们提供一个数据集大集结

文本识别数据集:MNISTSVHNCCPD-GreenThe IIIT 5K-wordText in the wildICDAR 2013 Handwriting Segmentation Contest

自动驾驶数据集:BDD100KCityScapesDeepRoute Open DatasetKITTI-objectKITTI-rawTLRUrban Object DetectionA2D2CURE-TSD

NLP数据集:20 NewsgroupsTHCHS-30THUCNewsWikiTextaidatatang200zhMobvoiHotwordscurationCorpusTaskMaster2

行人检测数据集:SCUT FIR PedestrianDaimler Stereo Pedestrian DetectionDaimler Pedestrian Segmentation BenchmarkPenn-Fudan Database for Pedestrian Detection and SegmentationGM_ATCI Rear-view Pedestrian

行为/事件检测数据集:COCOVOC2012 Action ClassificationTAOUCF101MPII Human PoseFIRESENSEFurg FireFall detectionOTWTHUMOS14Leeds Sports PoseHiEve

人脸识别数据集:AADBWIDER FACEYouTube Faces DBCelebAIMDB-WIKILFWFaceScrubPubFigFDDBHead Pose ImageVGGFace2MegaAge-AsianCelebA-alignAFLW

独家合作企业数据集:RP2K(智慧零售) ;NICO(OOD Detection)Structured3D Dataset(场景识别) ;RPLAN dataset(Layout Synthesis)DeepRoute Open Dataset(自动驾驶)Neolix OD(自动驾驶)nuScenes(自动驾驶)VVeRI-901(Re-ID)

Open Datasets的数据集覆盖无人驾驶、文本检测、行为/事件检测、语义分割、姿态估计、场景识别、面部检测、目标追踪、ASR、AR/MR、深度估计等 50+ 种AI应用领域;拥有2D分类、2D多边形、2D矩形等 30+ 种标注任务;支持图像、视频、文本、语音、点云、IMU、3D模型等 10+ 种主流数据格式