侵權(quán)投訴
訂閱
糾錯
加入自媒體

熱圖繪制的小技巧

在組學研究中,我們常常會用到熱圖(Heatmap)。色彩豐富的熱圖總能吸引讀者的眼球,給文章增色。但一堆堆的色塊讓人眼花繚亂,背后的分析方法更讓人不知從何下手。今天我們先來初步探一探門道。

熱圖的解讀

熱圖如下(Nucleic Acids Res (2015) 43 (W1): W566-W570.),本質(zhì)上它是表現(xiàn)一個數(shù)值矩陣,圖上每一個小方格都是一個數(shù)值,按一條預設(shè)好的色彩變化尺(稱為色鍵,Color Key),來給每個數(shù)值分配顏色,雖然看起來眼花,但道理卻很簡單。這幅圖就是24個樣本(列)中,30類基因(行)的表達情況。

     但不同基因在不同樣本中的表達量,可能會跨越好幾個數(shù)量級,這樣就會把色鍵分得很細,所以通常會對表達量取對數(shù),或取Z-score,這樣色鍵的范圍一般就在個位數(shù)內(nèi)變化。

     上方兩條色彩稍微簡單的橫條,是根據(jù)實驗分組,用顏色標出組別。兩個橫條表示兩種分組方式,也就是兩個變量(normal tumor和tissue)。就這幅圖來說,第一行的黃色表示正常組織,紫色表示腫瘤組織;第二行的藍綠色表示乳腺,紅色表示前列腺。

   圖外圍那些線條,是聚類分析的樹形圖。越靠下游的子目錄中的個體關(guān)系越近,最先聚為一類,之后小類與小類又聚為一個大類。而且有些節(jié)點走了很遠才跟其他組別聚成一類,有些節(jié)點沒走多遠就聚了,所以這些支線的長短,就代表了距離。

   高通量測序的數(shù)據(jù),通常比較磅礡,生成的熱圖,每個方格就會很小,基本看不清。這時就可以用一些處理技巧,比如上面那幅圖,研究納入了54675個基因,如果都畫出來,這圖就會很長,色塊也會很密。所以它先通過K均值聚類算法,把這些基因聚成30類。

熱圖的繪制

     繪制熱圖,最常用的是R語言,當然也能用GraphPad Prism做。但如果數(shù)據(jù)量不是特別大的話,這里推薦一個在線工具ClustVis,但數(shù)據(jù)量大時還是容易卡頓。

     另一個不太卡的在線工具叫Morpheus,博大研究所開發(fā)的。還有桌面軟件HemI,華中科技大學開發(fā)的。三者都是免費又好用的神器,功能上大同小異。

獲取在線熱圖繪制網(wǎng)站,公眾號后臺回復:熱圖在線。注意不要輸錯了。

下面以ClustVis為例來演示熱圖的制作吧。

進入網(wǎng)站界面如下:

1.按照網(wǎng)站的要求,它需要的數(shù)據(jù)格式如下,綠色部分是必須的,紅色的是分組信息,可以根據(jù)研究需要進行增刪:

小編自行在excel中完成了上圖的輸入:

2.點擊data import:

可以選擇粘貼或者上傳excel文件。上傳之后,點選第一個數(shù)值單元格,就可區(qū)分哪些是數(shù)值,哪些是標簽和注釋(列和行):

3.點擊輸出熱圖即可:

點OK,一幅主圖就出來了。

4.調(diào)整數(shù)據(jù)展示選項:

根據(jù)自己需要進行相關(guān)調(diào)整。

5.最后保存為自己想要的Figure格式即可。

最終結(jié)果展示:

還有問題可以查閱文獻(或點擊文末原文鏈接):Metsalu, Tauno and Vilo, Jaak. Clustvis: a web tool for visualizing clustering of multivariate data using Principal Component Analysis and heatmap. Nucleic Acids Research, 43(W1):W566–W570, 2015. doi: 10.1093/nar/gkv468.


聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

醫(yī)療科技 獵頭職位 更多
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號