有趣的基因命名

  • 2019 年 12 月 5 日
  • 筆記

gene symbol 是非常官方的,由HUGO 組織負責維護,有專門的數據庫HGNC database of human gene names | HUGO

以前分析數據的時候,有一些基因的symbol很奇怪,讓我百思不得其解,比如:

  • C orf 系列基因,
  • HS.系列基因,
  • KRTAP系列基因,
  • LOC系列基因,
  • MIR系列基因,
  • LINC系列基因

它們往往一個系列,就有好幾百個基因,

  • C12orf44; Chromosome 12 Open Reading Frame 44; 這個是C orf系列基因的意思
  • MIR系列基因應該是 miRNA相關的基因
  • LINC系列基因應該就是long intergenic non-protein coding RNA
  • OC系列基因,是非正式的,推定的,日後可能被更合適的名字替代

還有一些RNA基因,根本就沒有symbol,比如:CTA/B/C/D-系列的

  • Aliases for ENSG00000271971 Gene
  • CTD-2006H14.2 5
  • External Ids for ENSG00000271971 Gene
  • Ensembl: ENSG00000271971

還有,如果你看到HS.開頭的基因,它是unigene的ID了,已經不再是symbol啦。

當然了,本來就有很多基因家族裏面的成員的名字就很類似,也可以理解哈。

關於非編碼蛋白的基因

如果有一個很接近的蛋白編碼基因,lncRNA的名字應該以這個編碼基因名字開始,然後制定以後後綴,這個後綴可以下方式分類: ● 反義 (antisense,AS),BACE1-AS; ● 內含子(intronic,IT),例如,SPRY4-IT1; ● 重疊 (overlapping,OT),例如,OSX2-OT; ● 長鏈基因間lncRNA(Long intergenic lncRNAs,lincRNAs),以LINC為前綴,數字為後綴,例如LINC00485。

上述命名的基本架構適用於大多數lncRNA,但對於基因密集區域的lncRNA可能就不適用了,這種情況下,你應該與HGNC溝通來解決。

關於Excel表格的日期基因

當然了,如果你是Excel表格操作,你還有可能遇到日期基因

image-20191129123404482

具體見:Excel-坑你的基因名沒商量!-計算機基礎-生信技能樹 www.biotrainee.com/thread-908-1-1