知識的價值不在于占有,而在于使用。

生信自學網-速科生物-生物信息學數據庫挖掘視頻教程

當前位置: 主頁 > 生信數據庫 >

GSEA富集分析如何操作(GO/KEGG的第三個富集分析)

時間:2019-05-13 13:52來源:生信自學網 作者:樂偉 點擊:
除了做GO分析和KEGG分析外,最常用的,其實是GSEA分析(Gene Set Enrichment Analysis)。GSEA和普通的KEGG和GO分析不一樣的地方,是GSEA構建了一個分子標簽數據庫(MolecularSignaturesDatabase,MSigDB)
GSEA富集分析
除了做GO分析和KEGG分析外,最常用的,其實是GSEA分析(Gene Set Enrichment Analysis)。GSEA和普通的KEGG和GO分析不一樣的地方,是GSEA構建了一個分子標簽數據庫(MolecularSignaturesDatabase,MSigDB),在此數據庫中首先將已知基因按照染色體位置(position)、已建立的基因集(curate、模序(motif)、腫瘤相關基因集(computationalgenesets)和GO基因集(geneontologygenesets)進行分組歸類。
生信自學網給大家介紹一下如何簡單操作GSEA軟件,得到高大上的GSEA富集圖像 
GSEA是免費軟件,大家沒事就都能去練練手。首先去GESA的網站上去down下來這個軟件,不過要注冊一下才行,然后下載到Java,這個是在java基礎上的軟件。很快就能下載完。


接著打開,打開后是這樣的界面:

首先是load數據,但這個數據是有嚴格要求的,需要符合這樣的格式

其他比如txt文檔就有別的格式要求,當然,GSEA的優點就是超人性,萬一錯了,會給你完整的提示。但也超沒人性,萬一格式錯了一點點,比如表格里多了個空格,都是不能導入的。具體規則點這里:
http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats
成功導入數據后,可以進入run環節,但是也要填一堆,比如你要用什么樣的標簽數據庫進行分析,分組是怎么分的等等,我這里用的是上周的那篇兩分半文獻里所用的GSE21815這個GEO系列進行分析的。

隨機序列數默認是1000啦,但是千萬別填這么高,這個是為了檢測FDR的,為了順利運行,開始可以選擇5或者10。
剛開始可能會運行失敗,但是經過調整,可以獲得成功的結果,那直接點擊“Success 5”就能進入結果頁面了。

這個就是結果頁面,數據并不理想,可以看到FDA<25%的都沒有。點擊“Snapshot”就能進入到大家常見的這種ES圖中的,也就是富集組(Enrichment Sets)的圖中。

這些圖中,曲線的最高點就是ES值,當ES值為正,表示某一功能基因集富集在排序序列的前方,當ES值為負,表示某一功能基因集富集在排序序列的后方。ES值越高可以說明這些基因在通路中有富集,非散在分布,此外,這還可以說明這些基因在通路中有共同的表達趨勢。

當然也可以看到這個標簽下富集基因的熱圖。
大家就自己再試試看吧。
 
GSEA其實還是挺常用的一個技術,是將芯片數據通過GSEA的標簽database來進行基因富集的,大概就是這樣:

唯一煩躁的是導入數據的格式,很多人不好把握,輸入的一旦是錯的,那就全部結束關掉了。
大家已經學會了嗎?
當然也可以學習生信自學網給大家準備的課程《GSEA富集分析基于GEO芯片》《單基因GSEA富集分析基于TCGA數據庫》《單基因發文套路課程》里面也有GSEA富集分析哦,而且是直接代碼準備文件,無需繁瑣的操作。

責任編輯:樂偉
作者申明:本文版權屬于生信自學網(微信號:18520221056)未經授權,一律禁止轉載!
馬上與樂老師QQ聯系 生信自學連
BioWolf二維碼生成器
頂一下
(2)
100%
踩一下
(0)
0%
------分隔線----------------------------
發表評論
請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
評價:
表情:
用戶名: 驗證碼:點擊我更換圖片
BioWolf騰訊課堂
推薦內容
秒殺活動
生物信息學在線培訓
三字竟