這個Nature推薦的程式碼海洋竟然有文章作者上傳的所有可重現性腳本,涉及單細胞、微生物組、轉錄組分析、機器學習等相關

  • 2019 年 10 月 7 日
  • 筆記

可重複性研究一直是學術發表希望實現的方式,更有助於判斷研究結果的準確性和幫助後人以此為基礎進行深入研究。計算分析類型的研究,是能夠比較容易實現可重複性的 – 只要分享程式碼和數據就可以 (當然配置運行環境也需要一定的功底),如使用R markdown或Bookdown 或者 Jupyter notebook等,像宏基因組主編劉永鑫老師的植物根系菌群分析的NBT文章那樣,把程式碼存放在Github上面也是一種比較好的方式。

CodeOcean是Nature推薦過的一個可重現性程式碼共享平台。其實質類似於一個雲平台,可以直接在上面配置環境、開展項目分析,合作者之間協作並存放數據和程式碼,發表時提供給雜誌社或讀者,實現從原始數據到文章圖表的整個可重複過程,並且可以進行衍生分析,或者上傳自己的文件數據測試。而且有部分雜誌要求作者發表時要把自己的程式碼和數據上傳到CodeOcean上面。

?
?

我們以2019年9月份發表在Nature microbiology上的一篇文章Life cycle progression and sexual development of the apicomplexan parasite Cryptosporidium parvum為例,查看下其程式碼的可重用性使用方式。作者在CodeOcean上面提供了其從原始數據到基因定量、差異分析、火山圖、熱圖、功能注釋用到的BashR的程式碼,只需要在右側點一下Reproducible Run按鈕就可以重現分析。(Note: 從Rmarkdown中可以看到Bash相關程式碼默認沒有執行,因為沒有存放原始數據,可以自己從NCBI的SRA資料庫下載,修改eval=T再繼續分析)

具體可見下面的圖和錄製的影片。

從影片中可以看到,CodeOccean不是一個簡單的程式碼存放平台,是可以根據自己的需求配置環境、安裝軟體、R/Python包、存儲數據和運行程式的平台,相當於一台共享的雲伺服器。所有的配置資訊也都在對應的文件中有記錄,如果我們想用於分析自己的數據,就在自己伺服器配置對應的環境、下載程式碼和數據進行運行即可。

?
?

瀏覽過程中,發現一篇Microbiome上發表的人和狗腸道菌群的比較文章,作者提供了全部分析的Python程式碼,腳本很多,是學習宏基因組分析和Python的好文檔。

?
?

還有2019年發表在eLife上的一篇單細胞分析的文章,Identifying Gene Expression Programs of Cell-type Identity and Cellular Activity with Single-Cell RNA-Seq,用Jupyter notebook的形式列出了各個分析部分的所有程式碼,還貼心的提供了目錄。

?
?

更多文章和程式碼等著你去探索了。

?

https://codeocean.com/