SBD數據集
- 2019 年 11 月 29 日
- 筆記
原文鏈接:https://blog.csdn.net/zz2230633069/article/details/89335205
數據集下載在百度雲盤:鏈接:https://pan.baidu.com/s/1-kYEZtOo99VJGHrKlOK5dQ 提取碼:jgx7
裡面的benchmark,表示SBD數據集
dataset包含以下:
train.txt 8498行影像的名字索引
val.txt 2857行影像的名字索引
img文件夾,裡面11355全是jpg影像文件(隸屬於voc的JPEGImage文件夾下的17125張jpg影像)
cls文件夾, 裡面11355全是mat文件
inst文件夾, 裡面11355全是mat文件
sbd數據屬於voc2012數據集,但是voc數據集的訓練或者驗證圖片的標籤圖非常少。但是sbd給出的很多,所以可以綜合這兩個數據集得到更加多的驗證集和數據集標籤。
下面給出的一些數據:
voc數據集標籤:
voc_trainval:2913 voc_train:1464 voc_ val:1449
sbd數據集標籤:
sbd_train:8498 sbd_val:2857
因此可以得到增強版的數據集標籤:
train_aug = voc_trian + sbd_train – 重複的圖片 8829
train_aug_val = voc_val – sbd_train(就是剔除掉已經是trian_aug裡面的圖片) 904
上面兩個就是常見的擴增數據集,總共有9733張標註圖。
但是我們注意到sbd也有val集合,所以標註影像可以繼續進行擴增:
val_aug = voc_val + sbd_val – 重複的圖片 – train_aug 3202
所以train_aug和val_aug兩個加起來就是最大的擴充數據集,總共有12031張標註圖。