服务热线02152235399
当前位置:博客 > 生物信息

Trinity转录组组装测试计划

时间:2018-10-18    |    阅读量:7903


引言

1.1编写目的

进行该测试以及撰写此报告有以下几个目的:

1) 通过使用Trinity软件,进行不同组装策略的转录组组装测试,得到组装效果最好的组装策略;

2) Trinity组装所需时间,内存及存储峰值评估;

1.2背景

由于第二代测序测序读长短、质量值偏低、数据量大。目前转录组组装面临的问题主要有:1)转录本覆盖度不均匀,一些转录本覆盖度很低,一些则会跟高;2)由于序列本身的偏向性,转录本内reads覆盖度存在不一致的可能;3)与一个测序正确但低表达的转录本相比,一个有测序错误但高表达的转录本,其表达丰度可能更高;4)由于可变剪切,构建数据结构需考虑到一个基因有多个转录本的可能;5)来自不同基因的重复序列可能给组装带来歧义。

本次工作的目的在于通过不同组装策略的测试,以得到一种最优的组装方案。组装策略主要有以下几种:

1) 6个样品单独组装,然后将组装结果进行聚类;

2) 6个样品数据放在一起组装;

3) 6个样品提取高质量数据,进行组装,低质量数据,进行组装;然后联合组装;

4) 使用Genome-guided参数与不使用该参数

1.3用户群

主要读者:公司研发部,公司管理人员。

其他读者:项目及销售相关人员。

1.4 数据对象

物种

数据类型

样品个数

测序类型

水稻

mRNA

6个

PE90

1.5 测试阶段

软件测试

1.6测试工具

1) Perl;

2) Trinity

1.7 参考资料

1) Brian J Haas,  Alexie Papanicolaou, Moran Yassour V, et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis, 11 July 2013; doi:10.1038.

2) Geo Pertea, Xiaoqiu Huang , et al. TIGR Gene Indices clustering tools (TGICL): a software system for fast clustering of large EST datasets, Vol. 19 no. 5 2003,

.测试概要

关于此项测试工作从2014年4月10日开始预计到2014年5月30日结束。

2.1 主要测试内容如下:

1) Trinity安装以及测试;

2) 测试数据获取及处理;

3) 编写任务脚本及任务提交;

4) TCICL安装以及测试;

5) 组装结果质量评估及统计;

6) 不同组装方法结果比较;

7) 编写结果报告

2.2 测试详细思路描述:

1) 6个样品单独组装;

2) 6个样品组装结果,使用TGICL进行聚类,组装成UniGene;

3) 6个样品各取约2.5G数据,合起来共约16G数据组装,(因6个样品所有数据24G,数据量太大,trinity跑不通);

4) 取一个样品使用Genome-guided  参数,用有参考序列的组装方式进行组装;

5) 比较使用一个样品(4G数据),与使用6个样品(16G数据)的组装结果差异

6) 比较使用6个样品单独组装,然后聚类成的UniGene,与6个样品数据合起来(16G数据)组装结果差异

7) 比较使用Genome-guided  参数,和不使用Genome-guided  参数结果差异

2.3工作计划进展

测试内容

计划开始时间

实际开始时间

计划完成时间

实际完成时间

工作完成情况

软件安装以及测试

2014年4月10日

2014年4月10日

2014年4月10日

2014年4月10日

已完成

测试数据获取及前期处理

2014年4月10日

2014年4月18日

2014年4月14日

2014年4月18日

已完成

编写任务脚本及任务提交

2014年4月20日

2014年4月19日

2014年4月28日

2014年5月4日

已完成

TCICL安装以及测试

2014年4月21日

2014年4月28日

2014年4月29日

2014年5月15日

完成

组装结果质量评估及统计

2014年4月29日

2014年5月16日

2014年5月15日

2014年5月20日

完成

不同组装方法结果比较

2014年5月17日

2014年5月20日

2014年5月21日

2014年5月21日

完成

编写结果报告

2014年5月21日

2014年5月21日

2014年5月22日

2014年5月22日

完成

2.2测试执行

此次测试严格按照项目计划和测试计划执行,按时完成了测试计划规定的测试对象的测试。针对测试计划制定规定的测试策略,依据测试计划和测试用例,将网络数据以及我们观测的关键参数进行了完整的测试。

2.3测试用例

2.3.1功能性

1) 1.测试Trinity软件,可以正常运行。

2) 2.测试TGICL软件,可以正常运行

3) 3.评估不同组装策略组装质量状况。

测试环境

3.1软硬件环境

硬件环境

服务器

硬件配置

CPU:Intel Xeon 2.66GHz *20

Memory:90GB

HD:29TB

软件配置

OS:Fedora release 14,Ubuntu 12.10

Trinity

网络环境

20M LAN

测试结果

使用不同方法组装统计结果见如下表格:

物种

水稻

组装策略

直接组装

直接组装

直接组装

直接组装

直接组装

直接组装

6个样品部分数据合并组装

3个样品单独组装后,再聚类

4个样品单独组装后,再聚类

5个样品单独组装后,再聚类

数据量

4G

4G

4G

4G

4G

4G

16G

12G

16G

20G

样品名称

CQ9522_2mm_1A

CQ9522_2mm_2A

CQ9522_4mm_1A

CQ9522_4mm_2A

CQ9522_6mm_1A

eg1D34_1A

Sample6All

Sample3Culster

Sample4Culster

Sample5Culster

Total sequences

45444

45345

47746

47915

48173

48561

283184

53007

58131

62566

Total bases

42320514

42218957

44463230

44589916

44968574

45256330

263817521

52432158

59334530

65271000

Min sequence length

201

201

201

201

201

201

201

201

201

201

Max sequence length

13797

13797

12820

14676

14693

13288

14693

13797

15307

15307

Average sequence length

931.27

931.06

931.25

930.6

933.48

931.95

931.61

989.16

1020.7

1043.23

Median sequence length

583

582

601

582

580

601

587

627

642

657

N25 length

2398

2398

2331

2414

2415

2320

2379

2545

2654

2723

N50 length

1504

1503

1483

1498

1520

1474

1496

1612

1681

1732

N75 length

773

773

788

770

782

780

778

867

910

946

N90 length

375

375

378

375

375

381

376

398

409

420

N95 length

282

282

284

285

282

289

284

286

289

290

querygene number

39461

39376

40564

40759

40673

41318

109371

44589

48253

51281

subjectgene number

41754

41609

41338

41977

41652

41396

46500

43770

44768

45443

gene region alignment percentage

61.11%

61.17%

61.97%

62.81%

62.49%

62.49%

67.13%

62.73%

64.21%

64.33%

组装reads使用率

91.76%

90.79%

91.36%

91.45%

90.11%

91.42%

94.43%

92.69%

93.28%

93.72%

存储峰值

35G

35G

35G

35G

35G

35G

200G

80G

80G

80G

内存峰值

38G

38G

38G

38G

38G

38G

90G

78G

78G

78G

运行时间(小时)

3

3

3

3

3

3

18

3+1

3+1.2

3+1.5

4.1 软件安装

1) 安装新版2014年4月新版Trinity( trinityrnaseq_r20140413.tar.bz);

2) 安装perl 模块PerlIO-gzip-0.18.tar.gz;

3) 安装TGICL(TGICL-2.1.tar.gz) ;

4) 安装CD-HIT;

5) 安装GMAP and GSNAP(gmap-gsnap-2014-04-20.tar.gz  );

五.测试结论与讨论

从上述统计结果可以看出

1) 对于Contigs N50:样品单独组装与合并clean data数据后组装的N50差不多,样品单独组装后合并略有提升。

2) Contigs数量:样品单独组装后合并contigs数量比单个样品组装contigs数量稍多,合并并clean data数据后组装contigs数量明显增多(但是,数量太多)

3) Reads 使用率:合并clean data数据后组装、样品单独组装后合并 reads使用率略高于单个样品组装

4) 基因区域覆盖度:合并clean data数据后组装、样品单独组装后合并 reads使用率略高于单个样品组装

5) 另外:

6) Genome-guided 模式没有测通,故不在此次比较范围内;

7) 6个样品单独组装后聚类,TGICL没有跑通,故使用了3个样品聚类、4个样品聚类、5个样品聚类的结果进行比较。

8) CD-HIT是另外一种聚类软件,2个样品聚类可以成功运行,但是3个样品聚类时,一直显示任务运行但是无结果,也不报错。

六.测试总结

根据本次测试结果,综合考虑到内存、运行时间、组装结果、存储等因素,样品单独组装后聚类的效果比较好。