GEO資料庫挖掘(1)–SCI文章速成

  • 2019 年 10 月 6 日
  • 筆記

最近這段時間,相信好多人都在忙著寫國自然標書,一晃2019年的2月份已經過去,今年只剩下10個月了,留給我們的時間不多啦(像不像導師或者主任開會時的講話啊

不管標書寫的滿意與否,也都到了該交的時候,交完標書,工作重心又要回到日常的科研工作中,繼續做實驗·發文章的日子。

說到發文章,相信大家公認的套路都是「找分子 · 養細胞 · 養老鼠「的濕實驗套路,這樣的實驗一旦做起來,至少要耗掉1-2年,乃至更長時間。那有沒有什麼發文章的捷徑,無需做實驗,無需花錢,無需耗費大量寶貴青春,輕鬆發表SCI文章,走上人生巔峰呢?答案是:有!

現今到處可見「大數據」、「資料庫「、」數據挖掘」等熱門辭彙,在我們的身邊有大量寶貴的生物醫學大數據,如果能夠加以合理利用,幾天時間完成一篇SCI文章也絕非難事。

從本篇推文起, 科研貓 公眾號將帶領大家學習生物醫學領域內的大數據挖掘。第一課先從一個相對簡單,而又非常重要的資料庫入手:GEO (Gene Expression Ominibus)。

基因表達資料庫 (Gene Expression Omnibus, GEO)隸屬於美國國立衛生研究院的NCBI。GEO(www.ncbi.nlm.nih.gov/geo/)是當今最大、最全面的公共基因表達數據資源。目前GEO資料庫中共包含了近11萬個數據集,約290萬個標本,是一個極其龐大的巨無霸型公共資料庫。GEO中主要存儲了關於基因表達譜的數據,其中一大部分是晶片(microarray)和測序(RNA sequencing)的數據,有mRNA的,也有lncRNA和miRNA的,還包含一部分甲基化和SNP array的數據。

GEO作為一個公共資料庫資源,對所有人公開免費。近幾年使用GEO進行數據挖掘發表的SCI文章也日趨增多,說爆髮式增長也不為過。為了檢驗GEO在數據挖掘當中的重要性和普適性,我們用「GEO「、「Data mining」和」TCGA「這三個關鍵詞分別在PubMed中進行搜索,統計從1991年迄今為止每年的相關文章數量,其結果如下圖所示。可以看出,自2008年開始,有關GEO數據挖掘的文章呈指數式爆發,從每年不到100篇,到每年3000篇以上。相對於另一個重要的腫瘤資料庫TCGA而言,GEO的相關文章可謂遙遙領先。

現在我們開始正式的學習吧。

首先,先來看看GEO資料庫的構成。GEO當中的數據主要分為兩大類:用戶提交的數據和GEO整理後的數據。其中,用戶在提交數據的時候,GEO對數據定義了以下幾個概念:Sample (樣本),Series(系列)和 Platform(平台)。

其中「Sample」可以理解為被檢測的樣本;「Series」可以理解為一項研究中多個樣本構成的數據集;而「Platform」可以理解為檢測樣本表達時所用的晶片/檢測方法。GEO要求上傳者在上傳數據時,必須提供以上基本資訊。GEO在得到用戶上傳的數據後,將產生DataSet和Profile兩類數據。

GEO首先把提交的樣本集中到有生物學意義和統計學上可比較的GEO數據集組(DataSets),能夠提供關於一個實驗的相關更改,作為下游數據挖掘和數據顯示工具的基礎。而表達譜(Profile)則來自於DataSets基因表達譜資訊,其存儲了單個基因表達的數據資料。

(輕點圖片,查看高清大圖~)

熟悉了GEO的構成,後續就是如何分析其中的數據了。為了方便用戶對數據進行初步的分析,GEO本身就提供了如GEO2R及聚類、箱線圖、基因查找等工具,這些分析工具可以為我們提供關於數據資訊的初步挖掘結果,但是如果想要深入探討臨床表型與基因表達的相關性,或者篩選出發揮重要調控作用的核心基因出來,GEO自帶的分析工具就顯得有些捉襟見肘了。

後面的課程中,我們會帶領大家一步步學習如何由淺入深地分析GEO當中的數據,實現較為複雜的挖掘和繪圖,正如下圖所示的層次聚類、火山圖、主成分分析等高級操作。敬請關注