2020.9.15丨Chip-seq結果可視化之peak檢測（上）

2023-08-02 07:27:12

macs2運作參數
- macs2 callpeak -t K1_ChIPed_S1_L007_R1.bam -c K1_Input_S5_L007_R1.bam -f BAM -g mm -n K1 -B -q 0.01
  
  -t -c 實驗組和對照組結果
  
  -f 輸入檔案格式
  
  -g 參考基因組有效大小，人類選擇hs，也可以根據基因組大小直接輸入數值
  
  -n 輸出字首
  
  -B 輸出bdg格式檔案，可以上傳到UCSC生成峰圖
  
  -q q值，預設0.05
  
  -p p值，未校正值
- 導入到R中
  - d.c1 <- read.table('C1_result/C1_peaks.xls'，header = TRUE)
    
    header = TRUE表示第一行為列名稱
生成列并處理清單資料
- head(d.c1)
  - 染色體位置起始位點終止位點區域長度峰值位點峰值高度
  - 1 chr start end length abs_summit pileup
  - 2 NC_000067.6 24611563 24616156 4594 24615334 149
  - 3 NC_000067.6 73948825 73948947 123 73948886 13
  - 4 NC_000067.6 75360214 75360329 116 75360218 10
  - 5 NC_000067.6 81725035 81725163 129 81725075 12
  - 6 NC_000067.6 134956043 134956222 180 134956160 17
  - P值富集倍數校正後的Q值 peak名稱
  - 1 -log10(pvalue) fold_enrichment -log10(qvalue) name
  - 2 26.0732 2.72183 19.7407 C1_peak_1
  - 3 9.26951 5.71575 4.7134 C1_peak_2
  - 4 8.14861 5.59441 3.64848 C1_peak_3
  - 5 10.87 6.91483 6.24174 C1_peak_4
  - 6 16.4718 9.15449 11.5107 C1_peak_5
- column<-as.numeric(d.c1[,'col_name'])
  
  d.c1[,'co_name']選擇生成圖檔的列
  
  as.numberic()用于将字元串轉換為數值
- 注：XLS裡的坐标起始坐标需要減1才與narrowPeak的起始坐标一樣。
  
  2020.9.15丨Chip-seq結果可視化之peak檢測（上）
生成富集峰的寬度分布圖
- 運作代碼
  - width<-as.numeric(d.c1[,'length'])
  - hist(width,breaks = 1000,xlim = range(1:1000),main = 'C1_ChIPed_vs_C1_Input',xlab = 'insert_size',col = 'aquamarine1')
  - 圖示
    
    2020.9.15丨Chip-seq結果可視化之peak檢測（上）
生成富集倍數直方圖
- 運作代碼
  - fold<-as.numeric(d.c1[,'fold_enrichment'])
  - hist(fold,ylim = range(1:300),xlim = range(1:30),main = 'C1_ChIPed_vs_C1_Input',xlab = 'fold_enrichment',col = 'aquamarine1')
  - 圖示
    
    2020.9.15丨Chip-seq結果可視化之peak檢測（上）
生成顯著性水準分布圖
- 運作代碼
  - pvalue<-as.numeric(d.c1[,"X.log10.pvalue."])
  - hist(pvalue,breaks = 100,xlim = range(0:100),main = 'C1_ChIPed_vs_C1_Input',xlab = '-10*log10(pvalue)',col = 'aquamarine1')
  - 圖示
    
    2020.9.15丨Chip-seq結果可視化之peak檢測（上）

2020.9.15丨Chip-seq結果可視化之peak檢測（上）

繼續閱讀

bam格式轉換為Fastq/Fasta格式bam格式轉換為Fastq/Fasta格式

生信學習筆記：fastp質控處理生成的report結果解讀fastp report

非參數統計分析

R語言實戰 - 基本統計分析（1）- 描述性統計分析

跟着Cell學單細胞轉錄組分析(十二):轉錄因子分析

轉錄組分析資料準備資料的下載下傳

序列相似度定義

R語言|繪制三維圖

資料的歸一化（Normalization）、标準化（Standardization）

R語言| 中介效應分析，Mediation包和BruceR包，循環Process函數

【R語言】GARCH模型的應用一、資料來源二、資料分析三、模型建立四、模型優化五、結論六、實作代碼七、參考資料

Python TensorFlow循環神經網絡RNN-LSTM神經網絡預測股票市場價格時間序列和MSE評估準确性

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

Lagrange插值的R語言實作

R語言-相關性分析函數

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化