lncRNA-seq數據分析之新lncRNA鑒定和注釋視頻課程眾籌
- 2020 年 3 月 17 日
- 筆記
前面我系統性的總結了:lncRNA的一些基礎知識 ,和lncRNA芯片的一般分析流程 ,還有LncRNA-seq的一般分析流程 ,裏面提到了一個目前非常小眾的分析方向,就是新lncRNA鑒定和注釋,因為大部分人研究的物種的human或者mouse,已經被分析的很透徹了,encode計劃等資源非常豐富,很少需要鑒定新的lncRNA。
不過對於其它物種,貓狗豬,甚至其它你叫不出來名字的昆蟲,魚類,這個分析策略還是蠻常見的。比如發表在Front. Genet., 18 March 2019 | https://doi.org/10.3389/fgene.2019.00196的文章
- Transcriptome Analysis Suggests the Roles of Long Intergenic Non-coding RNAs in the Growth Performance of Weaned Piglets
就是重新下載一個公共數據,然後進行新lncRNA鑒定和注釋,分析部分主要是分成兩個大塊,首先是hisat2+stringtie流程,然後是組裝好的gtf文件的後,細緻的進行新lncRNA鑒定和注釋。

LncRNA-seq數據分析的兩個部分
分析流程如下:

新lncRNA鑒定和注釋圖解流程
前面的hisat2+stringtie流程流程很簡單
就是參考:豬狗的參考基因組構建索引,還有使用ebi數據庫直接下載fastq測序數據 ,做好準備工作,然後使用conda安裝一些軟件,建立好目錄
conda create -n lncRNA conda activate lncRNA conda install -y -c bioconda hisat2 stringtie samtools fastp gffcompare # conda search gffcompare mkdir 0.qc 1.raw_fq 2.clean_fq 3.hisat2_bams 4.stringtie_gtfs 5.lncRNA
流程基本上3個軟件,銜接一些即可
conda activate lncRNA index=/home/jmzeng/reference/genome/pig/pig_hisat2 gtf=/home/jmzeng/reference/genome/pig/Sus_scrofa.Sscrofa11.1.99.chr.gtf fastp -i 1.raw_fq/${id}_1.fastq.gz -o 2.clean_fq/${id}_1.fastp.fq.gz -I 1.raw_fq/${id}_2.fastq.gz -O 2.clean_fq/${id}_2.fastp.fq.gz -l 36 -q 20 --compression=6 -R ${id} -h ${id}.html fq1=2.clean_fq/${id}_1.fastp.fq.gz fq2=2.clean_fq/${id}_2.fastp.fq.gz hisat2 -p 4 -x $index -1 $fq1 -2 $fq2 | samtools sort -@ 4 -o 3.hisat2_bams/$sample.bam - stringtie -p 4 -G $gtf -o 4.stringtie_gtfs/$sample.gtf -l $sample 3.hisat2_bams/$sample.bam
當然,你需要自己去搜索理解軟件的參數啦。
後面的新lncRNA鑒定和注釋還是蠻耗費時間的
而且不同物種的新lncRNA鑒定和注釋細節還不一樣,不同的gtf文件版本可以對比印證。
我們研發的步驟是:

新lncRNA鑒定和注釋的具體步驟
完整課程思維導圖在:https://mubu.com/doc/ISk-Ev1tg
課程錄製需要一些反饋和動力,所以採取眾籌模式,吸納部分真正有興趣的朋友進入微信群參與討論哈。(畢竟新lncRNA鑒定和注釋是一個小眾方向,大部分朋友就是看個熱鬧)
眾籌模式
再次強調,你完全無需參與眾籌,視頻會完全免費共享在B站!!!
- https://space.bilibili.com/338686099/#/
只不過是B站這個途徑不方便共享這些學習素材,所以大家統一添加我們的加群小助手二維碼然後進入微信群,我們錄製視頻過程會選擇性跟大家互動,整理好資料後騰訊微雲發送給群里的朋友!
(注意,不是答疑,不是售後,也不講解Linux和R基礎知識),你需要自己跟着我們生信技能樹的系統性基礎入門視頻學習背景知識!
首先是LINUX學習
我在《生信分析人員如何系統入門Linux(2019更新版)》把Linux的學習過程分成6個階段 ,提到過每個階段都需要至少一天以上的學習:
- 第1階段:把linux系統玩得跟Windows或者MacOS那樣的桌面操作系統一樣順暢,主要目的就是去可視化,熟悉黑白命令行界面,可以僅僅以鍵盤交互模式完成常規文件夾及文件管理工作。
- 第2階段:做到文本文件的表格化處理,類似於以鍵盤交互模式完成Excel表格的排序、計數、篩選、去冗餘,查找,切割,替換,合併,補齊,熟練掌握awk,sed,grep這文本處理的三駕馬車。
- 第3階段:元字符,通配符及shell中的各種擴展,從此linux操作不在神秘!
- 第4階段:高級目錄管理:軟硬鏈接,絕對路徑和相對路徑,環境變量
- 第5階段:任務提交及批處理,腳本編寫解放你的雙手
- 第6階段:軟件安裝及conda管理,讓linux系統實用性放飛自我
然後是R學習
我在在生信分析人員如何系統入門R(2019更新版) 裏面給初學者的知識點路線圖如下:
- 了解常量和變量概念
- 加減乘除等運算(計算器)
- 多種數據類型(數值,字符,邏輯,因子)
- 多種數據結構(向量,矩陣,數組,數據框,列表)
- 文件讀取和寫出
- 簡單統計可視化
- 無限量函數學習