利用ARCHS4進行大規模RNA-seq數據挖掘
- 2019 年 10 月 7 日
- 筆記
大家好,我是白介素2同學,想必小夥伴們早已開工了,白介素同學這個春節實在是沒怎麼學習呀(所謂人在江湖,身不由己,容我甩個鍋),慚愧慚愧,悟已往之不諫,知來者之可追。新的一年,我們都是追夢人!
追夢,分享一個神器,向科研更深處探索。
咱不來虛的,只分享乾貨,不談枯燥的理論,只來通俗易懂的操作。先來看一張圖:

通過這張圖展示的是 GEO資料庫中的 RNA-seq數據與晶片數據積累隨時間的變化,很顯然測序數據從2015年開始就已經超過了晶片數據的累積。大批量的數據產生固然是個好事,同時也帶來了一個問題,公開的RNA-seq數據大多提供的是原始數據,這樣就對數據的重新挖掘使用帶來了很大困難。為啥嘞,數據量太大,臨床醫生,小實驗室你確定做得了,就連測序數據從原始數據開始的分析都會遇到很多困難?
今天要介紹的神器呢叫做 ARCHS4,它的誕生呢就是為了解決這個問題,過程講的比較複雜,簡單講就是有一個團隊人家用有效的設備演算法把 GEO/SRA的 原始數據整合,分析,預處理成方便後續分析的矩陣格式,就像 TCGA那樣的資料庫,之所以應用廣泛,數據整理的格式就是原因之一呀。該資料庫包括人和鼠的sample 187,946 , 其中人84,863,鼠103,083。接下來就看下具體這個神器有哪些功能吧:
數據下載功能Download
https://amp.pharm.mssm.edu/archs4/download.html

可供下載的數據包括:


這裡只列舉了部分,甚至還包括了 TCGA的數據,數據都整理為 H5格式,數據包括原始的 read count數據和 meta data資訊,簡單講這些數據都整理成了方便後續分析的矩陣格式,可以這樣全部下載。
當然也可以挑選自己感興趣的下載,可以挑選自己感興趣的組織,細胞系,也可以手動選擇,基因集,Download部分會自動產生下載數據的 R程式碼,放到 Rstudio運行即可。

這裡白介素同學,隨便測試下在了一個程式碼,可以看看長啥樣,有R基礎的小夥伴應該更容易理解:

大概就是這樣,運行下就可以啦。
https://amp.pharm.mssm.edu/archs4/data.html#
此外數據下載後,就是做數據解析了,H5文件格式的解析,批次效應移除等,都有提供相應的程式碼:

提供程式碼鏈接:https://amp.pharm.mssm.edu/archs4/help.html
查詢功能
按 meta data資訊查詢,可以看下自己感興趣的組織, 細胞系等的。

查找 signature,輸入數據為上調和下調基因,尋找match這些基因的sample。

富集查詢,找到富集某些基因集的sample然後下載,可以從8個基因集庫中選擇感興趣的,比如KEGG庫,GO庫,其實這是一個反向的操作,與咱們通常的差異分析得到基因集進行富集不同,這是一種通過感興趣的通路,基因集來找sample。

基因查詢功能,遇到一個感興趣的基因,這時候這個功能就派上用場啦,比如案例給出的 FOXM1基因

點擊下就可以得到很多資訊:


主要功能就是這些啦,提供處理過的數據下載和查詢功能。然後就是了解下這個資料庫的背景,文章在2018年4月發表在 Nature Communcations上。
內容就分享到這兒啦,白介素同學祝大家學習愉快!