有趣的基因命名
- 2019 年 12 月 5 日
- 筆記
gene symbol 是非常官方的,由HUGO 組織負責維護,有專門的數據庫
HGNC database of human gene names | HUGO
以前分析數據的時候,有一些基因的symbol很奇怪,讓我百思不得其解,比如:
- C orf 系列基因,
- HS.系列基因,
- KRTAP系列基因,
- LOC系列基因,
- MIR系列基因,
- LINC系列基因
它們往往一個系列,就有好幾百個基因,
- C12orf44; Chromosome 12 Open Reading Frame 44; 這個是C orf系列基因的意思
- MIR系列基因應該是 miRNA相關的基因
- LINC系列基因應該就是long intergenic non-protein coding RNA
- OC系列基因,是非正式的,推定的,日後可能被更合適的名字替代
還有一些RNA基因,根本就沒有symbol,比如:CTA/B/C/D-系列的
- Aliases for ENSG00000271971 Gene
- CTD-2006H14.2 5
- External Ids for ENSG00000271971 Gene
- Ensembl: ENSG00000271971
還有,如果你看到HS.開頭的基因,它是unigene的ID了,已經不再是symbol啦。
當然了,本來就有很多基因家族裏面的成員的名字就很類似,也可以理解哈。
關於非編碼蛋白的基因
如果有一個很接近的蛋白編碼基因,lncRNA的名字應該以這個編碼基因名字開始,然後制定以後後綴,這個後綴可以下方式分類: ● 反義 (antisense,AS),BACE1-AS; ● 內含子(intronic,IT),例如,SPRY4-IT1; ● 重疊 (overlapping,OT),例如,OSX2-OT; ● 長鏈基因間lncRNA(Long intergenic lncRNAs,lincRNAs),以LINC為前綴,數字為後綴,例如LINC00485。
上述命名的基本架構適用於大多數lncRNA,但對於基因密集區域的lncRNA可能就不適用了,這種情況下,你應該與HGNC溝通來解決。
關於Excel表格的日期基因
當然了,如果你是Excel表格操作,你還有可能遇到日期基因:

image-20191129123404482
具體見:Excel-坑你的基因名沒商量!-計算機基礎-生信技能樹 www.biotrainee.com/thread-908-1-1