GEO資料庫挖掘(2)–快速鎖定目標數據

  • 2019 年 10 月 6 日
  • 筆記

在上一期的推文 GEO資料庫挖掘(1)–SCI文章速成 ,我們講解了關於GEO資料庫的背景知識,想必大家也了解了GEO是一個非常實用和權威的基因表達譜資料庫。那麼如何檢索自己想要的數據呢?

GEO中的數據千千萬萬條,能夠準確篩選出符合我們研究方向的數據至關重要,是整個數據挖掘工作的核心和基礎如果沒有合適的數據,後續的所有分析都是紙上談兵。那麼今天就帶領大家來進行實戰演練,學習一下如何從GEO中找到我們想要的數據。為了讓演練更加貼近實際,我們先設定一個問題,然後逐步帶領大家進行操作。

研究課題:比較肝癌及正常肝組織的表達譜差異

實戰操作

1

Step1:查找

打開GEO官方網頁,在搜索框中輸入「Hepatocellular carcinoma」,並點擊Search(紅框所示),結果如下圖所示,出現了一個下拉菜單,一個是「results in GEO DataSets」,另一個是「results in GEO Profiles」,我們選擇上面一個(綠框所示)。

2

Step2:過濾

點擊上面的檢索結果後,然後我們會進入到GEO DataSets的結果頁面,如下圖所示。在這裡面有3萬多個條目匹配到我們輸入的關鍵詞「Hepatocellular carcinoma」,但是這麼多條目我不可能一個個看過來啊,該怎麼辦呢?

我們注意到,在結果頁面中的左邊欄和右邊欄有可供篩選的篩選條件。這些篩選條件可以幫我們快速過濾掉無用資訊,並準確地指向我們需要的數據集。那麼有哪些是我們常用的篩選條件呢?

  1. Entry type:即檢索出來的結果類型,包括DataSet、Series、Sample、Paltform等,這裡我們選擇Series。(不知道這幾個名詞概念的,自行查閱上一篇文章:GEO資料庫挖掘(1)–SCI文章速成
  2. Study type:研究類型,也即數據類型,這裡面內容就非常多了,因為我們做的事表達譜,所以常用的一般就是「Expression profiling by array「或者「Non-coding RNA profiling by array」。點擊下方的」Customize」可以查看更多數據類型。
  3. Attribue name:其實就是樣本來源,或者樣本類型,這裡我一般都是選擇「tissue」。
  4. Organism: 在右側邊欄中可以選擇物種,這裡我們根據自己的研究目的自行篩選,我這裡就選擇「Homo sapiens」。

選定好篩選條件之後,可以發現,原先的結果從3萬多條變成了240條,這裡面基本就是我們想要的結果了。那麼問題又來了,在這240個裡面,怎麼知道到底哪個才是我最終需要的呢?或者我們在寫文章的時候如何選定最為重要的數據集呢?最好的辦法只有:點擊詳情,逐個查看

可能有人會覺得這個方法太笨。其實不然。因為我們做的是數據挖掘的文章,這裡面的「數據」就是我們的研究對象,如果不能選定足夠大的樣本量,我們在分析數據的過程中就會漏掉一些重要的資訊,或者editor直接就會覺得你的文章意義不大。那為了避免漏掉數據集的情況發生,當數據檢索進行到這一步的時候,後續我一般都會逐個去查看每個數據集的詳情,並判斷是否符合我的研究目的。

3

Step3:挑選

點擊打開每個data series的詳情,我們以檢索條目中的第5條為例(因為這個數據集的數據較多,共有198個樣本),如下圖所示,點擊進入到該研究的詳細介紹頁面。

在詳情頁面中,有幾個需要我們注意的地方:

  1. 數據集編號,在右上角有顯示(紅框),這個編號很重要,我們寫文章的時候一般在Methods & Material中會提及。
  2. 數據集介紹,如下圖紅框所示,這個裡面包含了關於數據集的詳細介紹及實驗設計思路,讀了這兩段之後我們就知道這個數據集是不是我們想要的了。
  3. 檢測平台,即Platform號碼,一般是GPLxxxx的格式,這個裡面包含了檢測平台的基因注釋資訊,也很重要。
  4. 樣本資訊,在Samples(紅框所示)中會顯示樣本總量及每個樣本的編號,默認是摺疊起來的,點擊「More」可以顯示完整。同時,如果要查看每個樣本的詳細臨床資訊,點擊樣本的GSMxxxx編號即可。

此外,還有一個需要我們知道的就是一個分析工具—GEO2R,這個工具是GEO官方開發的使用R語言來進行差異表達分析的工具,十分好用,通過GEO2R可以快速便捷地篩選出我們想要的差異表達基因。

當然僅僅進行差異表達分析,發文章是遠遠不夠的,後面的文章,我們會繼續給大家講解GEO2R的使用以及我們自行開發的一整套GEO數據挖掘自動化工具,賣個關子,敬請期待喲~

本期重點回顧(Take home message):

如何在GEO中檢索並篩選目標數據集,以及數據集中需要注意的關鍵資訊。