GEO數據庫的這個功能你知道嗎

  • 2020 年 3 月 27 日
  • 筆記

不知不覺在單細胞轉錄組領域做知識分析也快兩年了,很幸運聚集了一些小夥伴攜手共進,我們承諾不間斷更新5個月,把我們這兩年的學習成果全部掏出來給大家,希望大家都能有所收穫!當然也歡迎大家加入我們,勇於分享。

你現在看到的是隨機投稿欄目!

大家都想學單細胞轉錄組數據處理,可是如果你不會R語言,沒玩過GEO數據庫挖掘,沒有這些背景知識點,你會學的很辛苦,所以這裡接受大家的投稿帶領大家一起學習R及bioconductor技能!!!

首先來一個簡單的GEO數據庫挖掘吧!

前言

今天在技能樹學徒班聽了一節關於GEO數據庫的課,GEO是什麼,又是一頭霧水,強迫基因受環境影響出現短暫的表達,趕緊搜索了解下,GEO(Gene Expression Omnibus database)是由NCBI負責維護的一個數據庫,設計初衷是為了收集整理各種表達芯片數據,但是後來也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各種芯片,甚至高通量測序數據,從文章拿到了GSE的study ID號,登錄GEO網站,輸入GSE的study ID,就可以看到關於該study的所以描述信息,是用的什麼測序平台,測了多少個樣本,數據分析等等(GEO的解釋摘自於生信菜鳥團的整理:http://www.bio-info-trainee.com/tag/geo)

GEO2R分析

但是有些GSE序列在GEO網站沒有提供GEO2R分析(如GSE111229)。

利用GEO數據庫的GEO2R工具分析一個GSE的study ID,操作如下:

  • 登錄GEO官網 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?
  • 輸入study ID號 GSE24673 點擊「Go」
  • 用GEO2R分析,翻到最底頁,就會看到有藍色圖標「Analyze with GEO2R」點擊運行。
  • 分組,這裡分兩組,輸入英文名字後,按enter鍵
  • 分別命兩個組的名字,自己命名如「tumor」,「normal」
  • 選中3個GSM序列放到tumor里,歸為第一組。
  • 選中4個GSM序列放到normal里,歸為第二組
  • 點擊運行,翻到頁底,點擊「top 250」運行。
  • 運行中,這過程有點慢,需要耐心等待…
  • 查看結果1,運行好之後會主動展現一些結果。
  • 查看結果2,根據自己想要查看的結果,可以輸出(保存)已分析好的結果。
  • 也可根據自己的需求查看其它運行的代碼,比如查看R腳本,而且可以複製。如果在操作上有不懂的,可以看GEO官網上的視頻,視頻里有整個過程的詳細講解,點擊「YouTube」。

結語

今天感謝生信技能樹齊老師的授課與指導。