語音和噪聲相關數據集(持續更新)
博客地址://www.cnblogs.com/LXP-Never/p/15474948.html(轉載請註明出處)
博客作者:凌逆戰
語音數據集
TIMIT
官方提供的下載地址://catalog.ldc.upenn.edu/LDC93S1
免費下載地址://goo.gl/l0sPwz(420M)
TIMIT 共包含 6300 個句子,10 個句子由來自美國 8 個主要方言區的 630 位說話人。
Timit原始數據雖然是以wav結尾的但是格式卻不是wav,而是sphere格式,用python中的sphfile庫把他轉換成wav:


from sphfile import SPHFile import glob import os if __name__ == "__main__": path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TRAIN/*/*/*.WAV' sph_files = glob.glob(path) print(len(sph_files),"train utterences") for i in sph_files: sph = SPHFile(i) sph.write_wav(filename=i.replace(".WAV","_.wav")) os.remove(i) path = 'D:/pycharm_proj/corpus/data/lisa/data/timit/raw/TIMIT/TEST/*/*/*.WAV' sph_files_test = glob.glob(path) print(len(sph_files_test),"test utterences") for i in sph_files_test: sph = SPHFile(i) sph.write_wav(filename=i.replace(".WAV","_.wav")) os.remove(i) print("Completed")
View Code
VCTK
下載地址:傳送門(10.94Gb)
CSTR VCTK 語料庫包括 110 位具有各種口音的英語使用者的語音數據。每個發言者讀出大約 400 個句子,所有語音數據都是使用相同的錄音設置錄製的:全向麥克風 (DPA 4035)和一個小振膜電容麥克風,具有非常寬的帶寬(Sennheiser MKH 800),96kHz 採樣頻率,24 位,在愛丁堡大學的半消聲室中。所有錄音都轉換為 16 位,下採樣到 48 kHz,並手動設置終點。
AISHELL-ASR0009-OS1 開源中文語音數據庫
下載地址:傳送門(14.51Gb)
時長178小時,錄音文本涉及智能家居、無人駕駛、工業生產等11個領域。錄製過程在安靜室內環境中, 同時使用3種不同設備: 高保真麥克風(44.1kHz,16-bit);Android系統手機(16kHz,16-bit);iOS系統手機(16kHz,16-bit)。高保真麥克風錄製的音頻降採樣為16kHz。400名來自中國不同口音區域的發言人參與錄製。
AISHELL-2 中文語音數據庫
時長為1000小時,其中718小時來自AISHELL-ASR0009,282小時來自AISHELL-ASR0010。錄音文本涉及喚醒詞、語音控制詞、智能家居、無人駕駛、工業生產等12個領域。錄製過程在安靜室內環境中, 同時使用3種不同設備: 高保真麥克風(44.1kHz,16bit);Android系統手機(16kHz,16bit);iOS系統手機(16kHz,16bit)。AISHELL-2採用iOS系統手機錄製的語音數據。1991名來自中國不同口音區域的發言人參與錄製。
AISHELL-3 高保真中文語音數據庫
時長為85小時88035句,可做為多說話人合成系統。錄製過程在安靜室內環境中, 使用高保真麥克風(44.1kHz,16bit)。218名來自中國不同口音區域的發言人參與錄製。
AISHELL-WakeUp-1 中英文喚醒詞語音數據庫
AISHELL-DMASH 中文普通話麥克風陣列家居場景語音數據庫
AISHELL-4 多通道中文會議語音數據庫
Mozilla Common Voice
下載地址://commonvoice.mozilla.org/zh-CN
時長:1965小時(目前為止)
最早2017年發佈,持續更新,該基金會表示,通過 Common Voice 網站和移動應用,他們正在積極開展 70 種語言的數據收集工作。
Mozilla 宣稱其擁有可供使用的最大的人類語音數據集,當前數據集有包括 29 種不同的語言,其中包括漢語,從 4萬多名貢獻者那裡收集了近 2454 小時(其中1965小時已驗證)的錄音語音數據。並且做出了開放的承諾:向初創公司、研究人員以及對語音技術感興趣的任何人公開我們收集到的高質量語音數據。
Tatoeba
下載地址:傳送門
項目始於2006年tatoeba是一個用於語言學習的句子、翻譯和口語音頻的大型數據庫。收集面向外語學習者的例句的網站,用戶無須註冊便可以搜索任何單詞的例句。如果例句含有對應的真人發音,也可以點擊收聽。註冊用戶可以添加、翻譯、接管、改進、討論句子。還可以在留言板上和其他註冊用戶討論。在留言板上,所有的語言都是平等的,註冊用戶可以使用自己喜歡的語言與其他用戶交流。
噪聲數據集
noise-92
下載地址:傳送門(250M)
音頻參數:19980Hz;單通道,16位深
以mat格式存儲,可以通過下面的腳本轉換到wav格式,所有噪聲的持續時間為 235 秒,19.98 KHz 的採樣率、具有 16 位的模數轉換器 (A/D)、抗混疊濾波器和無預加重級獲得。包含15種噪聲類型:White Noise、Pink Noise、Speech Babble、Factory Floor Noise 1、Factory Floor Noise 2、Cockpit Noise 1 (Buccaneer Jet Traveling at 190 knots)、Cockpit Noise 2 (Buccaneer Jet Traveling at 450 knots)、Cockpit Noise 3 (F-16)、Engine Room Noise (Destroyer)、Operations Room Background Noise (Destroyer)、Military Vehicle Noise (Leopard)、Military Vehicle Noise (M109)、Machine Gun Noise、Vehicle Interior Noise (Volvo 340)、HF Channel Noise
將mat格式的音頻轉成wav


mat_file=dir('./*.mat'); sr=19980; for n=1:length(mat_file) disp(mat_file(n).name); load(mat_file(n).name); name = eval(mat_file(n).name(1:end-4)); % 為了避免寫入被截斷,需要歸一化到(-1,1) % 方法1 % max_val = max(name); % min_val = min(name); % name = ((name-min_val)./(max_val-min_val) - 0.5 ) *2; % 方法2 name = rescale(name, -1, 1); audiowrite(strrep(mat_file(n).name,'mat','wav'),name,sr); end
View Code
NOIZEUS數據集
下載地址:NOIZEUS:用於評估語音增強算法的嘈雜語音語料庫(噪聲和純凈語音對)
包含30個IEEE 句子(由三名男性和三名女性發言者產生),被不同 SNR 下的八種不同的真實世界噪聲破壞。噪音包括郊區火車噪音、雜音、汽車、展覽廳、餐廳、街道、機場和火車站噪音。
DEMAND
下載地址:傳送門(7.4Gb)
音頻參數:48 kHz 和 16 kHz 採樣率在一個目錄中以 16 個單通道 WAV 文件的形式提供
16 通道環境噪聲記錄數據庫
麥克風陣列是幾個麥克風的(通常規則的)排列,允許使用許多有趣的信號處理技術。例如,來自彼此相距很近的麥克風的音頻信號的相關性可以用於確定聲源相對於陣列的空間位置,或基於聲音到達陣列的方向隔離或增強信號。
通常,考慮聲學背景噪聲的麥克風陣列實驗使用受控環境或模擬環境。這種人工設置在噪聲源方面通常是稀疏的。其他已經存在的真實世界噪聲數據庫(例如AURORA-2語料庫、CHiME背景噪聲數據或NOISEX-92數據庫)往往只提供非常有限的環境多樣性,最多只能提供2個通道。
這裡介紹的DEMAND(多元環境多通道聲學噪聲數據庫)提供了一組錄音,允許在各種設置下使用真實環境的噪聲測試算法。這個版本提供了15個錄音。所有錄音都使用16通道陣列,麥克風之間的最小距離為5厘米,最大距離為21.8厘米。
PNL 100 Nonspeech Sounds
下載地址:傳送門(~10M)
音頻格式:20kHz採樣率,單聲道,16位深
這些非語音、環境聲音可以用作評估語音分離系統等的非語音噪聲
Crowd 人群噪音:N1-N17 Machine 機器噪音:N18-N29 Alarms 警報和警報器:N30-N43 Traffic 交通和汽車噪音: N44-N46 Animal 動物聲音:N47-N55 water 水聲:N56-N69 Wind 風:N70-N78 Bell 鈴:N79-N82 Cough 咳嗽:N83-N85 clap hands 拍手:N86 Snoring 打鼾:N87 Click 點擊:N88 lol 笑:N88-N90 Yawn 打哈欠:N91-N92 cry 哭:N93 Shower 淋浴:N94 Brush your teeth 刷牙:N95 Footsteps 腳步聲:N96-N97 Door Movement 門移動:N98 Telephone dialing 電話撥號:N99-N100
rnnoise_ontributions
RNNoise提供的捐贈數據集,大部分是一些辦公室噪聲,下載地址:傳送門(6.41G)。
ESC-50:環境聲音分類數據集
下載地址://github.com/karolpiczak/ESC-50(~600MB)
國內鏡像://www.heywhale.com/mw/dataset/5ea9337c366f4d002d731d83
音頻參數:44.1kHz;單通道,16位深
ESC-50數據集是從Freesound.org中剪輯得到的2000份環境音頻的標記集合,適用於環境聲音分類。該數據集由5秒長的錄音組成,組織成5大類,每個大類有10小類(每個小·類有40個示例),
- 動物:狗、公雞、豬、奶牛、青蛙、貓、母雞、昆蟲(飛行)、羊、烏鴉
- 自然聲音和水聲:雨、海浪、噼啪作響的火、蟋蟀、鳥鳴、水滴、風、倒水、沖水馬桶、雷雨
- 人類的非語音聲音:嬰兒啼哭、打噴嚏、鼓掌、呼吸、咳嗽、腳步聲、笑、刷牙、打鼾、喝酒,啜飲
- 室內/家庭聲音:敲門聲、鼠標點擊、鍵盤打字、門,木頭吱吱作響、開罐頭、洗衣機、吸塵器、時鐘鬧鐘、時鐘滴答聲、玻璃破碎
- 外部/城市噪聲:直升機、電鋸、警笛、汽車喇叭、引擎、火車、教堂的鐘聲、飛機、煙花、手鋸


# -*- coding:utf-8 -*- # Author:凌逆戰 | Never.Ling # Date: 2022/8/8 """ 對ESC-50數據集,根據噪聲類別分類 """ import os import librosa import pandas as pd import soundfile csv_path = "./esc50.csv" dataset_path = "G:/dataset/noise_dataset/ESC-50" class_basepath = "G:/dataset/noise_dataset/ESC-50/class" sr = 16000 trainData = pd.read_csv(csv_path) for filename, category in zip(trainData["filename"], trainData["category"]): noise_path = os.path.join(dataset_path, "audio", filename) class_path = os.path.join(class_basepath, category) if not os.path.exists(class_path): os.makedirs(class_path) new_path = os.path.join(class_path, "ESC50_" + filename) print("new_path", new_path) y = librosa.load(noise_path, sr, mono=True)[0] soundfile.write(new_path, data=y, samplerate=sr)
分類腳本
ESC環境噪音分類數據集
下載地址:傳送門(26.8GB)
音頻參數:44.1kHz,單通道,5 秒長剪輯
ESC 數據集是一組以統一格式提供的短期環境記錄。所有剪輯都從通過項目項目獲得的公共Freesound.org中提取。
數據集由三部分組成:
- ESC-50:一組有 2000 個環境記錄(50 個類,每類 40 個剪輯),
- ESC-10:一組有 400 個環境記錄(每類 10 個類,40 個剪輯)(這是 ESC-50 的子集 – 創建初始化,作為概念驗證/簡單錄製的標準化選擇),
- ESC-US:一個未標記的數據集,包含 25 萬個環境記錄(5 秒長的剪輯),適合無監督的預培訓。
嬰兒啼哭數據集
//github.com/giulbia/baby_cry_detection(310M)
//github.com/gveres/donateacry-corpus(48.2M)
科大訊飛嬰兒啼哭聲識別挑戰賽(810M)
- 鏈接://pan.baidu.com/s/1qP-9sd0v31zKnpD5w2kvwQ
- 提取碼:wh47
MS-SNSD
下載地址:傳送門
音頻格式:16kHz,單聲道,16位深
冷氣機、機場公告、Babble、複印機、咀嚼、鄰居、關門、打字、吸塵器
QUT-NOISE
下載地址:傳送門(7.70Gb)
音頻格式:採樣率48kHz;雙聲道;16位深
音頻參數:街道、咖啡廳、汽車、家庭、混響、
freesound-datasets
下載地址:傳送門
STARSS22:Sony-TAu Realistic Spatial Soundscapes 2022
下載地址:傳送門
VOICe Dataset
下載地址:傳送門(3.23GB)
音頻格式:44.1kHz;單聲道;32位(浮點)位深
用於開發和評估通用聲音事件檢測域適應方法的新數據集!
嬰兒哭聲
玻璃破碎
槍聲
VOICe 由三種不同聲音事件的 1449 種不同混合組成:
-
1242 個混合了三種不同類別的聲學場景(「車輛」、「戶外」和「室內」)的背景噪聲,在 2 個 SNR 值(-3,-9 dB)下混合,即 207 個混合 x 3 個聲學場景 x 2 個信噪比 = 1242
-
207 種沒有任何背景噪音的混合物。
In-Vehicle Noise Dataset
下載地址:傳送門(~2.47GB)
音頻參數:44.1 kHz,16 位,2通道
這個開源數據集包含來自多個來源的 5.08 小時車內噪聲,其中包含 7 條噪聲。噪聲源可能包括
輪胎噪聲
發動機噪聲
收音機
人聲
Vehicle Interior Sound Dataset
下載地址:傳送門VISC Dataset SON(1.2GB)
音頻參數:44.1kHz;雙聲道;16位深
使用的數據集是從 YouTube 的不同車輛類型的駕駛視點 (PoV) 收集的。這些只是車內聲音。沒有司機,也沒有人聲。5980個聲音被記錄了8個類。這些車輛在露天的柏油路上行駛。我們不喜歡在雨天在未鋪砌的道路上收集車內聲音。
這些數據的文件格式是 wav。使用聲音的長度在 3-5 秒的範圍內,頻率為 48 kHz。選擇的車輛類型是公共汽車、小巴、皮卡、跑車、吉普車、卡車、跨界車和轎車(汽車)。收集的車輛內部聲音 (VIS) 數據集的屬性總結在表中。
Bus(公交車):850個樣本
Minibus(麵包車):850個樣本
Pickup(小卡車):850個樣本
Sports Car(跑車):850個樣本
Jeep(吉普車):850個樣本
Truck(卡車):850個樣本
Crossover(轉線路):850個樣本
Car (C級 – 4K):850個樣本
total:5980
MAVD交通數據集
下載地址:傳送門(~1.3G)
音頻參數:44.1kHz,單聲道,32位浮點
MAVD:城市環境中聲音事件檢測的數據集,該版本主要關注馬路邊收集交通噪聲,因此得名MAVD-traffic,除了音頻記錄,它還包括同步視頻文件。聲音事件注釋遵循一個交通聲音本體,該本體是一組兩種分類的組合:車輛類型(如汽車、公共汽車)和車輛組件(如發動機、剎車),以及一組與之相關的動作(如空轉、加速)。
Dataset-AOB:城市聲音事件分類
下載地址://zenodo.org/record/4319802#.YY4s8PlBxjU(~2G)
音頻參數:採樣率:22KHz – 44KHz,< 4 秒
數據集 Dataset-AOB 是使用卷積神經網絡為碩士論文收集和手動編輯的城市聲音事件分類的音頻數據集:
警報器
兒童玩耍
狗吠
引擎
腳步聲
玻璃破碎
槍聲
地鐵列車
下雨和尖叫聲
CHiME-Home
任務描述:DCASE 2016 Domestic audio tagging
下載地址:傳送門(3.9GB)
音頻格式:音頻數據以兩個採樣率(48kHz 和 16kHz)的 4 秒塊提供,其中 48kHz 數據為立體聲,16kHz 數據為單聲道。16kHz 錄音是通過對 48kHz 錄音的右手通道進行下採樣獲得的。
聲學環境中的主要聲源是兩個成人和兩個兒童、電視和電子產品、廚房用具、人類活動產生的腳步聲和敲擊聲,以及來自屋外的聲音[Christensen2010]。音頻數據以兩個採樣率(48kHz 和 16kHz)的 4 秒塊提供,其中 48kHz 數據為立體聲,16kHz 數據為單聲道。16kHz 錄音是通過對 48kHz 錄音的右手通道進行下採樣獲得的。每個音頻文件對應一個塊。
所有可用的音頻數據都可用於系統開發,但將使用以 16kHz 採樣的單聲道音頻數據進行評估,目的是接近商用硬件的典型錄音能力。
UrbanSound
下載地址:傳送門(17.9 GB)
音頻格式:44.1kHz;雙聲道;16位深
該數據集包含 1302 條帶標籤的錄音。每個錄音都標有 10 個類別的聲音事件的開始和結束時間。每個錄音可能包含多個聲音事件,但對於每個文件,僅標記來自單個類的事件。這些類來自城市聲音分類。
空調設備 air_conditioner
汽車喇叭 car_horn
小孩玩耍 children_playing
狗吠 dog_bark
鑽孔 drilling
發動機 enginge_idling
槍射擊 gun_shot
手提 jackhammer
汽笛,警報器 siren
街頭音樂 street_music
UrbanSound8K
下載地址:傳送門(6.60GB)
音頻格式:44.1kHz;雙聲道;16位深
該數據集包含來自 10 個類別的城市聲音的 8732 個標記聲音摘錄 (<=4s)。這些類來自城市聲音分類。
空調設備 air_conditioner
汽車喇叭 car_horn
小孩玩耍 children_playing
狗吠 dog_bark
鑽孔 drilling
發動機 enginge_idling
槍射擊 gun_shot
手提 jackhammer
汽笛,警報器 siren
街頭音樂 street_music
Isolated urban sound database
下載地址:傳送門(2.3G)
音頻格式:44.1kHz;雙聲道;16位深
數據集包含兩個文件夾:
- 事件:包括 231 個被視為突出的簡短聲音樣本,持續時間為 1 到 20 秒,分為 21 個聲音類別(鈴聲、哨聲、汽車喇叭、過往汽車、鎚子、吠狗、警笛、腳步聲、金屬噪音、聲音……)
- 背景:包括 162 個持續時間較長的聲音(~1mn30),其聲學特性不會隨時間變化。此類別包括鳴叫的鳥鳴、人群噪音、下雨、在校園裡玩耍的孩子、持續的交通噪音……
Acoustic Event Dataset
下載地址:傳送門(1.2GB)
acoustic guitar:原聲吉他
airplane:飛機
applause:掌聲
bird:鳥
car:車
cat:貓
child:小孩
church bell:教堂鐘聲
crowd:人群
dog_barking:狗吠
engine:發送機
fireworks:煙火
footstep:腳步
glass_breaking:玻璃破碎
hammer:敲擊
helicopter:直升機
knock:敲,擊;碰撞
laughter:笑
mouse click:鼠標點擊
ocean surf:海浪
rustle:沙沙聲
scream:尖叫
speech:演說,發言,談話
squeak:吱吱叫,嘎吱作響
tone:聲調,音調
violin:小提琴
water tap:水龍頭
whistle:口哨聲
BBC音效
下載地址://sound-effects.bbcrewind.co.uk/
可能需要爬蟲才能把數據下載下來
飛機、動物、掌聲、氣氛、鐘聲、鳥類、時鐘、喜劇、人群、日常生活、破壞、電子產品、活動、火、腳步聲、工業、機器、醫療、軍事、自然、運動、玩具、交通、
NAR 數據集
下載地址:傳送門(35MB)
在 多個真實的家庭環境中錄製
廚房:吃東西、窒息、餐具、裝滿杯子、打開水龍頭、打開/關閉抽屜、移動椅子、打開微波爐、關閉微波爐、微波爐、冰箱、烤麵包機
辦公室:關門、開門、鑰匙、敲門、撕紙、拉鏈、(另一個)拉鏈
非語言:拍手、拍手、拍舌
語音:1,2,3,4,5,6,7,8,9,10, Hello, Left, Right, Turn, Move, Stop, Nao, Yes, No, What
asr-noises
下載地址:傳送門(4.7GB)
這個數據集下載不來了,不知道咋回事
DCASE
dataset、mobile dataset、openset 的區別:
使用四個同時捕獲音頻的設備進行錄音。
主要錄音設備包括Soundman OKM II Klassik/studio A3、駐極體雙耳麥克風和使用 48kHz 採樣率和 24 位分辨率的Zoom F8錄音機。麥克風經過專門設計,看起來像耳機,戴在耳朵里。因此,錄製的音頻與到達佩戴設備的人的人類聽覺系統的聲音非常相似。該設備進一步稱為設備 A。
其他設備是常見的客戶設備:設備 B 是三星 Galaxy S7,設備 C 是 iPhone SE,設備 D 是 GoPro Hero5 Session。所有同時錄製的內容都是時間同步的。
TAU Urban Acoustic Scenes 2019 開發數據集:僅包含使用設備 A 錄製的材料,包含 40 小時的音頻,在課程之間保持平衡。數據來自12個城市中的10個。TAU Urban Acoustic Scenes 2019 評估數據集包含來自所有 12 個城市的數據。
TAU Urban Acoustic Scenes 2019 移動開發數據集:包含使用設備 A、B 和 C 錄製的材料。它由使用設備 A 錄製的 TAU Urban Acoustic Scenes 2019 數據和使用設備 B 和 C 錄製的一些並行音頻組成。來自設備的數據A 被重新採樣並平均到單個通道中,以與設備 B 和 C 記錄的數據的屬性保持一致。數據集總共包含 46 小時的音頻(40h + 3h + 3h)。TAU Urban Acoustic Scenes 2019 移動評估數據集還包含來自設備 D 的數據。
TAU Urban Acoustic Scenes 2019 開放集開發數據集:僅包含使用設備 A 記錄的材料,由 TAU Urban Acoustic Scenes 2019 和開放分類問題的其他音頻示例組成。「開放」數據由TUT Acoustic Scenes 2017 數據集的「海灘」和「辦公室」類以及 2019 年記錄的其他材料組成。數據集總共包含 46 小時的音頻(40 小時 + 6 小時)。TAU Urban Acoustic Scenes 2019 開放集評估數據集包含來自 10 個已知類別和其他未知類別的數據。
TUT Sound events 2016
下載地址:
- Development dataset(1.0GB)
- Evaluation dataset(471.2MB)
音頻參數:44.1kHz,雙聲道,24位深
包含來自兩個聲學場景的 22 段錄音:
家庭(室內),10 個錄音,共 36:16
住宅區(室外),12個錄音,共42:00
TUT Acoustic scenes 2016
下載地址:
- Development dataset (8.0 GB)
- Evaluation dataset (2.7 GB)
音頻參數:44.1kHz,雙聲道,24位深
由來自 15 個聲學場景的 30 秒音頻片段組成,每個聲學場景有 78 個片段,總共 39 分鐘的音頻。
Bus 公共汽車-在城市乘坐公共汽車(車輛) Cafe / Restaurant 咖啡廳/餐廳 - 小咖啡廳/餐廳(室內) Car 汽車 - 在城市中駕駛或作為乘客旅行(車輛) City center 市中心(室外) Forest path 林間小徑(室外) Grocery store 雜貨店 - 中型雜貨店(室內) Home 家(室內) Lakeside beach 湖濱海灘(室外) Library 圖書館(室內) Metro station 地鐵站(室內) Office 辦公室 - 多人,典型工作日(室內) Residential area 住宅區(室外) Train 火車裏面(旅行,車輛) Tram 有軌電車(旅行,車輛) Urban park 城市公園(室外)
smart cars 2017 test4
任務描述:DCASE 2017 Large-scale weakly supervised sound event detection for smart cars
Development: Training (Psswd Training file: DCASE_2017_training_set)
Development: Testing (Psswd Testing file: DCASE_2017_testing_set)
Evaluation dataset (863 MB) password “DCASE_2017_evaluation_set”
音頻參數:44.1kHz,單聲道,16位深
鳴笛: - 火車喇叭 (441) - 氣喇叭、卡車喇叭 (407) - 汽車防盜器 (273) - 倒車提示音 (337) - 救護車(警笛) (624) - 警車(警笛) (2,399) - 消防車、消防車(警笛) (2,399) - 民防警報器 (1,506) - 尖叫 (744) 車輛聲音: - 單車 (2,020) - 滑板 (1,617) - 汽車 (25,744) - 路過的汽車 (3,724) - 公共汽車 (3,745) - 卡車 (7,090) - 摩托車 (3,291) - 火車 (2,301)
TUT Rare sound events 2017
下載地址:開發數據集 (17.5 GB) | 評估數據集 (7.4 GB)
音頻參數:44.1kHz,單聲道,16位深
包含用於創建稀有聲音事件(嬰兒哭聲、槍聲、玻璃破碎等)與背景音頻的混合的源文件,以及一組易於生成的mixtures 和用於生成它們的配方。
數據集的「source」部分由兩個子集組成:
-
來自 15 個不同聲學場景的背景錄音
- Bus 公共汽車-在城市乘坐公共汽車(車輛vehicle) - Cafe / Restaurant 咖啡廳/餐廳 - 小咖啡廳/餐廳(室內indoor) - Car 汽車 - 在城市中駕駛或作為乘客旅行(車輛vehicle) - City center 市中心(室外outdoor) - Forest path 林間小徑(室外outdoor) - Grocery store 雜貨店 - 中型雜貨店(室內indoor) - Home 家(室內) - Lakeside beach 湖濱海灘(室外outdoor) - Library 圖書館(室內indoor) - Metro station 地鐵站(室內indoor) - Office 辦公室 - 多人,典型工作日(室內indoor) - Residential area住宅區(室外outdoor) - Train 火車(旅行,車輛) - Tram 有軌電車(旅行,車輛) - Urban park 城市公園(室外outdoor)
-
來自三類目標罕見聲音事件的錄音,並附有它們的時間發生的注釋,
-
一組提供交叉驗證設置的元文件:背景和目標事件記錄列表分為訓練和測試子集(分別稱為「devtrain」和「devtest」,表示它們作為開發數據集提供,而不是評估數據集單獨發佈)。
mixture set 由兩個子集(訓練和測試)組成,每個子集包含約 1500 個混合(每個子集中每個目標類約 500 個,其中一半的混合不包含任何目標類事件)。
TUT Acoustic Scenes 2017
下載地址:
音頻參數:44.1kHz,雙聲道,24位深
TUT Acoustic Scenes 2017,開發數據集由來自 15 個聲學場景的 10 秒音頻片段組成:
- Bus 公共汽車-在城市乘坐公共汽車(車輛vehicle) - Cafe / Restaurant 咖啡廳/餐廳 - 小咖啡廳/餐廳(室內indoor) - Car 汽車 - 在城市中駕駛或作為乘客旅行(車輛vehicle) - City center 市中心(室外outdoor) - Forest path 林間小徑(室外outdoor) - Grocery store 雜貨店 - 中型雜貨店(室內indoor) - Home 家(室內) - Lakeside beach 湖濱海灘(室外outdoor) - Library 圖書館(室內indoor) - Metro station 地鐵站(室內indoor) - Office 辦公室 - 多人,典型工作日(室內indoor) - Residential area住宅區(室外outdoor) - Train 火車(旅行,車輛) - Tram 有軌電車(旅行,車輛) - Urban park 城市公園(室外outdoor)
TUT Sound events 2017
下載地址:
- Development dataset (1.3 GB)
- Evaluation dataset (388.2 MB)
音頻參數:44.1kHz,雙聲道,24位深
這些錄音是在不同的街道上拍攝的。對於每個錄製位置,都會捕獲 3-5 分鐘長的錄音。用於錄音的設備包括雙耳Soundman OKM II Klassik/studio A3駐極體入耳式麥克風和使用 44.1 kHz 採樣率和 24 位分辨率的Roland Edirol R-09波形記錄器。
街道,包含了(剎車吱吱作響、車、孩子們、大型車輛、說話的人、行走的人)
沒有純凈噪聲,只有噪聲起止點。
TUT Urban Acoustic Scenes 2018
下載地址:
- Development dataset (21.4 GB)
- Evaluation dataset (8.9 GB)
- Leaderboard dataset (3.0 GB)
音頻參數:48kHz,雙聲道,24位深
TUT Urban Acoustic Scenes 2018,排行榜數據集由來自 10 個聲學場景的 10 秒音頻片段組成:
機場 - airport 室內購物中心-shopping_mall 地鐵站 - metro_station 步行街 - street_pedestrian 公共廣場 - public_square 街道交通 - street_traffic 乘坐有軌電車 - tram 公交車上- bus 乘地鐵旅行 - metro 城市公園- park
TAU Urban Acoustic Scenes 2019
下載地址:
- Development dataset (35.6 GB)
- Evaluation dataset (17.9 GB)
- Leaderboard dataset (3.0 GB)
音頻參數:48kHz,雙聲道,24位深
包含來自 10 個聲學場景的 10 秒音頻片段,每個聲學場景有 1440 個片段(240 分鐘的音頻)。該數據集總共包含 40 小時的音頻。
- 機場 -airport - 室內購物中心 - shopping_mall - 地鐵站 - metro_station - 步行街 - street_pedestrian - 公共廣場 - public_square - 街道交通 - street_traffic - 乘坐有軌電車 - tram - 公交車上- bus - 乘地鐵旅行 - metro - 城市公園- park
TAU Urban Acoustic Scenes 2020 Mobile
下載地址:
- Development dataset (27.4 GB)
- Evaluation dataset (13.1 GB)
音頻參數:48kHz,雙聲道,24位深
TUT城市聲學場景2020移動開發數據集由10個聲學場景中的10秒音頻片段組成
機場 - airport 室內購物中心-shopping_mall 地鐵站 - metro_station 步行街 - street_pedestrian 公共廣場 - public_square 街道交通 - street_traffic 乘坐有軌電車 - tram 公交車上 - bus 乘地鐵旅行 - metro 城市公園- park
TAU Urban Acoustic Scenes 2020 3Class
下載地址:
- Development dataset (35.5 GB)
- Evaluation dataset (20.9 GB)
音頻參數:48kHz,雙聲道,24位深
TAU Urban Acoustic Scenes 2020 3Class 數據集由來自 10 個聲學場景的 10 秒音頻片段組成,分為以下三大類 :
- 室內場景——*室內*: 機場:airport 室內商場:indoor shopping mall 地鐵站:metro station - 戶外場景-*戶外*: 步行街:pedestrian street 公共廣場:public square 中等交通街道:street with medium level of traffic 城市公園:urban park - 交通相關場景-*交通*: 乘坐公共汽車:travelling by a bus 乘坐電車:travelling by a tram 乘坐地鐵:travelling by an underground metro
TAU Urban Audio-Visual Scenes 2021
下載地址:
- Development dataset (107.7 GB)
- Evaluation dataset (61.2 GB)
音頻參數:
機場 - airport 室內購物中心-shopping_mall 地鐵站 - metro_station 步行街 - street_pedestrian 公共廣場 - public_square 街道交通 - street_traffic 乘坐有軌電車 -tram 公交上 -bus 乘地鐵旅行 -metro 城市公園-park
TAU Urban Acoustic Scenes 2021 Mobile
下載地址:Evaluation dataset (8.8 GB)
音頻參數:44.1kHz;單聲道;24位深
機場 - airport 室內購物中心-shopping_mall 地鐵站 - metro_station 步行街 - street_pedestrian 公共廣場 - public_square 街道交通 - street_traffic 乘坐有軌電車 -tram 公交車上 -bus 乘地鐵旅行 -metro 城市公園-park
TAU Urban Acoustic Scenes 2022 Mobile
下載地址:
- Development dataset (27.5 GB)
- Evaluation dataset (13.2 GB)
音頻參數:44.1kHz;單聲道;24位深
機場 - airport 室內購物中心 - shopping_mall 地鐵站 - metro_station 步行街 - street_pedestrian 公共廣場 - public_square 街道交通 - street_traffic 乘坐有軌電車 - tram 公交車上- bus 地鐵 - metro 城市公園- park
綜合數據集
綜合數據集是 既有語音又有噪聲的數據集
MUSAN
地址:傳送門(11G)
音樂、語音和噪音的語料庫
FSDnoisy18k
下載地址:傳送門 (9.5 GB)
FSDnoisy18k 是一個音頻數據集,旨在促進對聲音事件分類中標籤噪聲的調查。它包含 20 個聲音類別的 42.5 小時音頻,包括少量手動標記的數據和大量真實世界的嘈雜數據。
DS_10283_2791
乾淨和嘈雜的並行語音數據庫。該數據庫旨在訓練和測試以 48kHz 運行的語音增強方法。更詳細的描述可以在與數據庫相關的論文中找到。對於 28 個說話人數據集,詳細信息可參見:C. Valentini-Botinhao、X. Wang、S. Takaki 和 J. Yamagishi,「使用深度循環神經網絡的噪聲魯棒文本到語音合成系統的語音增強」 「,在過程中。Interspeech 2016。對於 56 位說話者數據集:C. Valentini-Botinhao、X. Wang、S. Takaki 和 J. Yamagishi,「研究基於 RNN 的語音增強方法以實現抗噪文本到語音」,In Proc. SSW 2016. 用於創建嘈雜語音的一些噪音來自需求數據庫,可在此處獲得://parole.loria.fr/DEMAND/。語音數據庫來自 CSTR VCTK 語料庫,可在此處獲取://doi.org/10.7488/ds/1994。用於創建此數據集的語音和 babble 噪聲文件可在此處獲得://homepages.inf.ed.ac.uk/cvbotinh/se/noises/。
CSTR NAM TIMIT Plus
下載地址:傳送門(1.342G)
綜合數據集就是啥也有
DNS-Challenge://github.com/microsoft/DNS-Challenge/tree/master/datasets
Noisy speech database for training speech enhancement algorithms and TTS models
OpenSLR://openslr.org/
- 12:LibriSpeech ASR 語料庫
- 17:A corpus of music, speech, and noise
- 18:THCHS-30清華大學發佈的免費中文語音語料庫
- 28:OpenSLR 房間脈衝響應和噪聲數據庫
- 38:衝浪科技的免費中文普通話語料庫,包含855個說話者的話語,102600個話語;
- 60:LibriTTS語料庫,自LibriSpeech語料庫原始資料的大規模英語語音語料庫
- 62:aidatatang_200zh,北京數據堂科技有限公司的中文普通話語音語料庫,包含來自600位說話者的200小時語音數據。每個句子的轉錄準確率大於 98%
- 68:MAGICDATA 漢語普通話朗讀語料庫,魔數據科技有限公司的語料庫,包含 755 小時的腳本閱讀語音數據,來自中國大陸的 1080 位母語為普通話的人。句子轉錄準確率高於98%。
參考
【知乎】語音數據集整理
【github】open-speech-corpora