GEO數據庫的這個功能你知道嗎
- 2020 年 3 月 27 日
- 筆記
你現在看到的是隨機投稿欄目!
大家都想學單細胞轉錄組數據處理,可是如果你不會R語言,沒玩過GEO數據庫挖掘,沒有這些背景知識點,你會學的很辛苦,所以這裡接受大家的投稿帶領大家一起學習R及bioconductor技能!!!
首先來一個簡單的GEO數據庫挖掘吧!

前言
今天在技能樹學徒班聽了一節關於GEO數據庫的課,GEO是什麼,又是一頭霧水,強迫基因受環境影響出現短暫的表達,趕緊搜索了解下,GEO(Gene Expression Omnibus database)是由NCBI負責維護的一個數據庫,設計初衷是為了收集整理各種表達芯片數據,但是後來也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各種芯片,甚至高通量測序數據,從文章拿到了GSE的study ID號,登錄GEO網站,輸入GSE的study ID,就可以看到關於該study的所以描述信息,是用的什麼測序平台,測了多少個樣本,數據分析等等(GEO的解釋摘自於生信菜鳥團的整理:http://www.bio-info-trainee.com/tag/geo)

GEO2R分析
但是有些GSE序列在GEO網站沒有提供GEO2R分析(如GSE111229)。
利用GEO數據庫的GEO2R工具分析一個GSE的study ID,操作如下:
- 登錄GEO官網 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?

- 輸入study ID號 GSE24673 點擊「Go」

- 用GEO2R分析,翻到最底頁,就會看到有藍色圖標「Analyze with GEO2R」點擊運行。

- 分組,這裡分兩組,輸入英文名字後,按enter鍵

- 分別命兩個組的名字,自己命名如「tumor」,「normal」

- 選中3個GSM序列放到tumor里,歸為第一組。

- 選中4個GSM序列放到normal里,歸為第二組

- 點擊運行,翻到頁底,點擊「top 250」運行。

- 運行中,這過程有點慢,需要耐心等待…

- 查看結果1,運行好之後會主動展現一些結果。

- 查看結果2,根據自己想要查看的結果,可以輸出(保存)已分析好的結果。

- 也可根據自己的需求查看其它運行的代碼,比如查看R腳本,而且可以複製。如果在操作上有不懂的,可以看GEO官網上的視頻,視頻里有整個過程的詳細講解,點擊「YouTube」。


結語
今天感謝生信技能樹齊老師的授課與指導。