服务热线02152235399
当前位置:博客 > 生物信息

全基因组甲基化软件bismark安装及使用说明

时间:2018-10-19    |    阅读量:22922


在WGBS测序中,我们选用bismark(http://www.bioinformatics.bbsrc.ac.uk/projects/bismark/)软件对fq文件进行mapping,该软件基于bowtie或者bowtie2,BS-seq reads C→T G→A分别转化。再分别mappingBS转化过的基因组。得到的四个alignment结果来判断最合适的unique alignment。同时软件还可以统计出甲基化的类型如CpGCHG或者CHH等

1、软件安装

下载地址(github):https://github.com/FelixKrueger/Bismark.git

关联软件:samtools,bowtie/bowtie2

安装方法:

git clonehttps://github.com/FelixKrueger/Bismark.git

tar-zxvf bismark_v0.15.0.tar.gz

2、软件使用方法

bismark软件分析BSSeq数据主要分为三个步骤:构建基因组并创建bowtie2索引,4次DNAmapping,统计bam文件中的信息

※构建基因组创建索引

选择bismark软件中的bismark_genome_preparation工具,需要给定bowtie2的路径以及参考基因的路径(包含fa和fai文件),操作代码如下:

bismark_genome_preparation--path_to_bowtie2/usr/local/bowtie2/--verbose/data/genomes/homo_sapiens/GRCh37/

※mapping

选择bismark工具进行mapping,需要给出基因组路径(第一步中--verbose路径),用法如下

bismark[options]{-1-2|}

例如:bismark--bowtie2--path_to_bowtie/home/novelbio/software/bowtie2/../GRCH37/-1 filtered.1.fq.gz-2 filtered.2.fq.gz-o result/

双端数据需要输入-1与-2,单端数据直接输入即可

※统计bam文件信息

选择bismark_methylation_extractor工具进行统计,用法如下:

用法:bismark_methylation_extractor[options]

测试使用代码./bismark_methylation_extractor SRR534203_filtered.fq.gz_bismark_bt2.bam-s--gzip--bedGraph--genome_folder../ath_tair10/

其中输入文件为第二部生成的bam文件,-s代表单端bam文件,-p代表双端bam文件--gzip代表对结果文件进行压缩--bedGragh代表生成带有甲基化率的bed文件

3、结果展示

※创建参考基因组

bismark将基因组的fa文件转化为两份,并分别使用bowtie2构建索引

※Mapping结果

Mapping的结果中提供了reads的Mapping率,uniqueMapping情况,以及不同种类的甲基化程度

bam文件记录展示:SRR534203.2_SN608_VA028:5:1101:24.50:89.20_length=50 16 chr3 6025118 42 49M*0 0

CTCACATCAATAAAATCTAATTCAATCCTCACCTCATCTTCAAAATAAA

FGIIIHDEJHDJIIGGIGIHHCHHGCJHFGCIHFJIHHHHHHFFDDD=1

NM:i:8 MD:Z:9G1G1G0G3G0G23G0G4

XM:Z:.........x.h.hh...xh.......................hh....XR:Z:CT XG:Z:GA

在每条reads记录中提供了该位点的甲基化情况,在XM:Z:记录中,"."代表不是甲基化位点,"z/Z"代表CpG位点,其中z代表未发生甲基化位点,Z代表发生甲基化的位点,

“x/X"代表CHG位点,"h/H"代表CHH位点,“u/U"代表CN或CHN位点

在生成的mapping Report结果汇总提到的发生CpG甲基化的位点个数其实就是全部reads中出现"Z"的数量总和,其他种类甲基化的算法也是一样,甲基化率则根据(发生甲基化数量/(发生+未发生))计算

※统计结果

结果统计信息截图

其中.bismark.cov.gz文件记录了每个甲基化位点的覆盖度,包含发生甲基化的reads数,未发生甲基化的reads数以及甲基化频率,截图如上右

bedGraph.gz文件以bed文件的格式记录了甲基化位点的甲基化频率

CpG_report.txt.gz文件记录了位点,覆盖度以及附近的位点信息

CpG_OT/OB文件记录了每一条reads的CpG甲基化情况,OT代表original top strand,OB代表original bottom strand,文件截图如下: