知識的價值不在于占有,而在于使用。

生信自學網-速科生物-生物信息學數據庫挖掘視頻教程

當前位置: 主頁 > 免費視頻 >

TCGA臨床數據下載提取臨床數據

時間:2017-08-16 10:09來源:原創 作者:BioWolf 點擊:
臨床數據的統計是分析TCGA數據庫的門檻,也正是因為TCGA數據庫為大家提供臨床數據,才讓TCGA變得頂級重要,從此收到全球癌癥研究人員的青睞。
每當想到TCGA數據庫,閉上眼睛,我想到的是在美國的服務器得有多么大,保存和處理如此龐大的數據,一個樣本的甲基化數據就有100多M,一個癌癥的甲基化數據就有60個G,當然對于數據,我們只關心自己需要的,不是自己研究相關的,再大再多又何干。如果是做胃癌的,那么肺癌的數據對于我來說,多一個都是占用內存。既然這么說,那么TCGA數據庫的基礎數據,每篇論文都要先統計的數據,就是研究TCGA數據庫的門檻,不跨過去,后續還談什么分析。
既然說得那么重要,那就必須下載并整理好,得到我們有用的數據,TCGA數據庫后臺工作人員的思路非常清晰,做事相當有條理,就命名這一項就可以看出,對如此龐大的數據,整理的井井有條,實屬不易,說到臨床數據,TCGA采用的是比較流行的儲存格式,XML文件,大眼一看,好陌生的樣子,有學習或接觸過網站設計的朋友就很熟悉,這個就是網站地圖文件,百度抓取時會檢索這些文件,你用txt或瀏覽器打開會發現,是一群代碼,有用的信息也就藏在這些代碼里面,如果是一個樣本,一個XML文件,我相信,很多學員會一句一句去讀,大不了花一天時間提取出來,但是問題來了,一個癌癥可是有300-500個樣本,手工得要花300-500天,那可是一年的時間,喔的天,這有點夸張了。


如果手機不支持在線播放,那么可以選擇電腦瀏覽器播放,或者關注微信公眾號,里面有視頻資料-免費視頻教程,也可以學習免費視頻。
責任編輯:樂偉
作者申明:本文版權屬于生信自學網(微信號:18520221056)未經授權,一律禁止轉載!
馬上與樂老師QQ聯系 生信自學連
BioWolf二維碼生成器
頂一下
(16)
88.9%
踩一下
(2)
11.1%
------分隔線----------------------------
發表評論
請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
評價:
表情:
用戶名: 驗證碼:點擊我更換圖片
BioWolf騰訊課堂
推薦內容
秒殺活動
生物信息學在線培訓
三字竟