一 引言
1.1编写目的
进行该测试以及撰写此报告有以下几个目的:
1) 通过使用Trinity软件,进行不同组装策略的转录组组装测试,得到组装效果最好的组装策略;
2) Trinity组装所需时间,内存及存储峰值评估;
1.2背景
由于第二代测序测序读长短、质量值偏低、数据量大。目前转录组组装面临的问题主要有:1)转录本覆盖度不均匀,一些转录本覆盖度很低,一些则会跟高;2)由于序列本身的偏向性,转录本内reads覆盖度存在不一致的可能;3)与一个测序正确但低表达的转录本相比,一个有测序错误但高表达的转录本,其表达丰度可能更高;4)由于可变剪切,构建数据结构需考虑到一个基因有多个转录本的可能;5)来自不同基因的重复序列可能给组装带来歧义。
本次工作的目的在于通过不同组装策略的测试,以得到一种最优的组装方案。组装策略主要有以下几种:
1) 6个样品单独组装,然后将组装结果进行聚类;
2) 6个样品数据放在一起组装;
3) 6个样品提取高质量数据,进行组装,低质量数据,进行组装;然后联合组装;
4) 使用Genome-guided参数与不使用该参数
1.3用户群
主要读者:公司研发部,公司管理人员。
其他读者:项目及销售相关人员。
1.4 数据对象
物种 |
数据类型 |
样品个数 |
测序类型 |
水稻 |
mRNA |
6个 |
PE90 |
1.5 测试阶段
软件测试
1.6测试工具
1) Perl;
2) Trinity
1.7 参考资料
1) Brian J Haas, Alexie Papanicolaou, Moran Yassour V, et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis, 11 July 2013; doi:10.1038.
2) Geo Pertea, Xiaoqiu Huang , et al. TIGR Gene Indices clustering tools (TGICL): a software system for fast clustering of large EST datasets, Vol. 19 no. 5 2003,
二 .测试概要
关于此项测试工作从2014年4月10日开始预计到2014年5月30日结束。
2.1 主要测试内容如下:
1) Trinity安装以及测试;
2) 测试数据获取及处理;
3) 编写任务脚本及任务提交;
4) TCICL安装以及测试;
5) 组装结果质量评估及统计;
6) 不同组装方法结果比较;
7) 编写结果报告
2.2 测试详细思路描述:
1) 6个样品单独组装;
2) 6个样品组装结果,使用TGICL进行聚类,组装成UniGene;
3) 6个样品各取约2.5G数据,合起来共约16G数据组装,(因6个样品所有数据24G,数据量太大,trinity跑不通);
4) 取一个样品使用Genome-guided 参数,用有参考序列的组装方式进行组装;
5) 比较使用一个样品(4G数据),与使用6个样品(16G数据)的组装结果差异
6) 比较使用6个样品单独组装,然后聚类成的UniGene,与6个样品数据合起来(16G数据)组装结果差异
7) 比较使用Genome-guided 参数,和不使用Genome-guided 参数结果差异
2.3工作计划进展
测试内容 |
计划开始时间 |
实际开始时间 |
计划完成时间 |
实际完成时间 |
工作完成情况 |
软件安装以及测试 |
2014年4月10日 |
2014年4月10日 |
2014年4月10日 |
已完成 |
|
测试数据获取及前期处理 |
2014年4月10日 |
2014年4月18日 |
2014年4月14日 |
2014年4月18日 |
已完成 |
编写任务脚本及任务提交 |
2014年4月20日 |
2014年4月19日 |
2014年4月28日 |
2014年5月4日 |
已完成 |
TCICL安装以及测试 |
2014年4月21日 |
2014年4月28日 |
2014年4月29日 |
2014年5月15日 |
完成 |
组装结果质量评估及统计 |
2014年4月29日 |
2014年5月16日 |
2014年5月15日 |
2014年5月20日 |
完成 |
不同组装方法结果比较 |
2014年5月17日 |
2014年5月20日 |
2014年5月21日 |
2014年5月21日 |
完成 |
编写结果报告 |
2014年5月21日 |
2014年5月21日 |
2014年5月22日 |
2014年5月22日 |
完成 |
2.2测试执行
此次测试严格按照项目计划和测试计划执行,按时完成了测试计划规定的测试对象的测试。针对测试计划制定规定的测试策略,依据测试计划和测试用例,将网络数据以及我们观测的关键参数进行了完整的测试。
2.3测试用例
2.3.1功能性
1) 1.测试Trinity软件,可以正常运行。
2) 2.测试TGICL软件,可以正常运行
3) 3.评估不同组装策略组装质量状况。
三 测试环境
3.1软硬件环境
硬件环境 |
服务器 |
硬件配置 |
CPU:Intel Xeon 2.66GHz *20 Memory:90GB HD:29TB |
软件配置 |
OS:Fedora release 14,Ubuntu 12.10 Trinity |
网络环境 |
20M LAN |
四 测试结果
使用不同方法组装统计结果见如下表格:
物种 |
水稻 |
|||||||||
组装策略 |
直接组装 |
直接组装 |
直接组装 |
直接组装 |
直接组装 |
直接组装 |
6个样品部分数据合并组装 |
3个样品单独组装后,再聚类 |
4个样品单独组装后,再聚类 |
5个样品单独组装后,再聚类 |
数据量 |
4G |
4G |
4G |
4G |
4G |
4G |
16G |
12G |
16G |
20G |
样品名称 |
CQ9522_2mm_1A |
CQ9522_2mm_2A |
CQ9522_4mm_1A |
CQ9522_4mm_2A |
CQ9522_6mm_1A |
eg1D34_1A |
Sample6All |
Sample3Culster |
Sample4Culster |
Sample5Culster |
Total sequences |
45444 |
45345 |
47746 |
47915 |
48173 |
48561 |
283184 |
53007 |
58131 |
62566 |
Total bases |
42320514 |
42218957 |
44463230 |
44589916 |
44968574 |
45256330 |
263817521 |
52432158 |
59334530 |
65271000 |
Min sequence length |
201 |
201 |
201 |
201 |
201 |
201 |
201 |
201 |
201 |
201 |
Max sequence length |
13797 |
13797 |
12820 |
14676 |
14693 |
13288 |
14693 |
13797 |
15307 |
15307 |
Average sequence length |
931.27 |
931.06 |
931.25 |
930.6 |
933.48 |
931.95 |
931.61 |
989.16 |
1020.7 |
1043.23 |
Median sequence length |
583 |
582 |
601 |
582 |
580 |
601 |
587 |
627 |
642 |
657 |
N25 length |
2398 |
2398 |
2331 |
2414 |
2415 |
2320 |
2379 |
2545 |
2654 |
2723 |
N50 length |
1504 |
1503 |
1483 |
1498 |
1520 |
1474 |
1496 |
1612 |
1681 |
1732 |
N75 length |
773 |
773 |
788 |
770 |
782 |
780 |
778 |
867 |
910 |
946 |
N90 length |
375 |
375 |
378 |
375 |
375 |
381 |
376 |
398 |
409 |
420 |
N95 length |
282 |
282 |
284 |
285 |
282 |
289 |
284 |
286 |
289 |
290 |
querygene number |
39461 |
39376 |
40564 |
40759 |
40673 |
41318 |
109371 |
44589 |
48253 |
51281 |
subjectgene number |
41754 |
41609 |
41338 |
41977 |
41652 |
41396 |
46500 |
43770 |
44768 |
45443 |
gene region alignment percentage |
61.11% |
61.17% |
61.97% |
62.81% |
62.49% |
62.49% |
67.13% |
62.73% |
64.21% |
64.33% |
组装reads使用率 |
91.76% |
90.79% |
91.36% |
91.45% |
90.11% |
91.42% |
94.43% |
92.69% |
93.28% |
93.72% |
存储峰值 |
35G |
35G |
35G |
35G |
35G |
35G |
200G |
80G |
80G |
80G |
内存峰值 |
38G |
38G |
38G |
38G |
38G |
38G |
90G |
78G |
78G |
78G |
运行时间(小时) |
3 |
3 |
3 |
3 |
3 |
3 |
18 |
3+1 |
3+1.2 |
3+1.5 |
4.1 软件安装
1) 安装新版2014年4月新版Trinity( trinityrnaseq_r20140413.tar.bz);
2) 安装perl 模块PerlIO-gzip-0.18.tar.gz;
3) 安装TGICL(TGICL-2.1.tar.gz) ;
4) 安装CD-HIT;
5) 安装GMAP and GSNAP(gmap-gsnap-2014-04-20.tar.gz );
五.测试结论与讨论
从上述统计结果可以看出
1) 对于Contigs N50:样品单独组装与合并clean data数据后组装的N50差不多,样品单独组装后合并略有提升。
2) Contigs数量:样品单独组装后合并contigs数量比单个样品组装contigs数量稍多,合并并clean data数据后组装contigs数量明显增多(但是,数量太多)
3) Reads 使用率:合并clean data数据后组装、样品单独组装后合并 reads使用率略高于单个样品组装
4) 基因区域覆盖度:合并clean data数据后组装、样品单独组装后合并 reads使用率略高于单个样品组装
5) 另外:
6) Genome-guided 模式没有测通,故不在此次比较范围内;
7) 6个样品单独组装后聚类,TGICL没有跑通,故使用了3个样品聚类、4个样品聚类、5个样品聚类的结果进行比较。
8) CD-HIT是另外一种聚类软件,2个样品聚类可以成功运行,但是3个样品聚类时,一直显示任务运行但是无结果,也不报错。
六.测试总结
根据本次测试结果,综合考虑到内存、运行时间、组装结果、存储等因素,样品单独组装后聚类的效果比较好。