知識的價值不在于占有,而在于使用。

生信自學網-速科生物-生物信息學數據庫挖掘視頻教程

當前位置: 主頁 > GEO >

Ensembl Gene ID轉換成gene symbol ID

時間:2017-07-21 02:18來源:原創 作者:BioWolf 點擊:
基因ID種類很多,很多時候數據庫下載的基因ID并不是symbol ID,那么就需要做個轉換,當然不采用手工這種模式,需要使用程序自動轉換,一個矩陣就有4-6萬行記錄。
基因怎么有那么多種類的ID?這個問題著實困擾著很多初學者,就算是有多年GEO、TCGA數據庫分析經驗的大牛也會被這些問題迷惑,有時候數據下載下來,滿心歡喜本以為馬上可以得到差異基因,去做后續分析了,打開文件一看眼睛大了,怎么和平時的基因不同,這黑乎乎一大串是個什么東東。
生物數據量之大,大到電腦卡機,一個上G的文本文件,不要輕易用excel去打開,否則你會很傷心的看著電腦屏幕發呆。前人也許沒有預料到生物分子學會發展如此迅速,基因數目會如此龐大,最終還是把命名這個問題給搞復雜了,隨著生物數據庫越來越多,做大做強的數據庫開始擁有自己的一套基因命名規則,于是乎,就變成了幾大ID共同存在的大雜燴局面。
我們首先來認識一下Ensembl Gene ID,Ensembl Gene ID的命名比較長,也是后起之秀,使用比較廣泛,就是這么一串字符:ENSG00000279964,我們可以到ensembl的在線工具直接搜索這個ID,得到的是“Gene: AC009949.1 ENSG00000279964”,解釋是這樣的:“No overlapping RefSeq annotation found”,很顯然這是一個lncRNA也就是非編碼的RNA。那么我們就可以看到ENSG00000279964對應的gene symbol ID就是AC009949.1。
ensembl網站截圖
gene symbol ID是使用最早,使用最廣泛的ID形式 ,一般我們做差異都是要用symbol的矩陣來做,大部分miRNA靶基因預測網站得到的miRNA靶基因也是用symbol ID。可以說,不管數據記錄時用的是什么ID,最后出結果,寫報告,發表論文,都是公認symbol ID的,所以在看到我們下載的矩陣不是Gene Symbol ID時,我們就要想辦法轉換成symbol ID。
如果是單個,少量的Ensembl Gene ID需要轉換成gene symbol ID,那么直接在ensembl網站一個一個去檢索就可以得到結果。然而現實卻不是如此的,一個矩陣下來就是4萬行,這個數量級的ID要檢索,手工當然不現實,當然不服氣的可以去試試。
喬幫主說過“編程可以讓一個人變得睿智”,這個觀點不知道是否正確,但處理生物信息時,腳本給我們帶來了福音,只需要把后臺數據庫下載下來,跑下腳本就可以得到結果。看著輸出的結果,就會感到,學習還是有點用啊,至少不要花半年時間去檢索。
回到問題本身,需要先到ensembl網站下載相關物種的ID文件,點擊“Download”,進入下載頁面,點擊右邊的Download data via FTP,進入FTP下載頁面。
FTP下載頁面
進到FTP頁面,這里需要選擇物種,例如做人,就選擇Human后面的GTF文件,進到下載頁面,直接下載Homo_sapiens.GRCh38.89.chr.gtf.gz這個文件,這個文件是30多M,解壓之后是1個G,有一次感覺生物數據庫的龐大。
Human下載截圖


下載界面
做好準備工作,就要運行腳本了,在CMD環境下輸入命令:perl getsymbol.pl Homo_sapiens.GRCh38.89.chr.gtf.gz sample.txt symbol.txt ,輸入命令之后瀟灑的按下回車鍵,就可以放松一下神經,等win10慢慢去跑,當然這個過程也很快,如果還是學習機,那時間就不確定了,等待是漫長的,時間是寶貴的,裝備不行的趕緊升級。生物信息的處理,沒有一個好機子,寸步難行。
運行結果



責任編輯:樂偉
作者申明:本文版權屬于生信自學網(微信號:18520221056)未經授權,一律禁止轉載!
馬上與樂老師QQ聯系 生信自學連
BioWolf二維碼生成器
頂一下
(5)
83.3%
踩一下
(1)
16.7%
------分隔線----------------------------
發表評論
請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
評價:
表情:
用戶名: 驗證碼:點擊我更換圖片
BioWolf騰訊課堂
推薦內容
秒殺活動
生物信息學在線培訓
三字竟