【3.6】 一级核酸数据库-SRA(二代测序的原始数据)

跟GEO类似,NCBI的SRA(Sequence ReadArchive,https://www.ncbi.nlm.nih.gov/sra/ )数据库是专门用于存储二代测序的原始数据,包括 454, IonTorrent, Illumina, SOLiD, Helicos and CompleteGenomics等。 除了原始序列数据外,SRA现在也存在raw reads在参考基因的aligment information。

该数据库也是International Nucleotide Sequence Database Collaboration (INSDC) 的一部分。INSDC包含:NCBI Sequence Read Archive (SRA), European Bioinformatics Institute (EBI), 和 DNA Database of Japan (DDBJ)。数据提交给其中任何一个数据库中后,数据都是共享的。

一、数据库结构

每个数据库都有自己最小的可发表单元。例如:PubMed最小可发表单元是一篇文献,SRA中最小可发表单元是一次实验(标签为:SRX#)。

NCBI中SRA数据结构的层次关系:Studies,Experiments, Samples,Runs:

Studies是就实验目标而言的,一个study可能包含多个experiment。
Experiments包含了样本,DNA source,测序平台,数据处理等信息。
一个experiment可能包含一个或多个runs。
Runs 表示测序仪运行所产生的reads.

SRA数据库用不同的前缀加以区分:ERP or SRP for Studies, SRS for samples, SRX for Experiments, and SRR for Runs。

二、数据上传

2.1 登陆NCBI账号

2.2 注册你的项目和生物样本

注册项目:https://www.ncbi.nlm.nih.gov/bioproject/

注册样本:https://www.ncbi.nlm.nih.gov/biosample/

2.3 上传SRA数据

上传SRA metadata (关于该项目、实验的等信息)

上传序列数据

更详细的说明,参见 https://www.ncbi.nlm.nih.gov/sra/docs/submit/

三、数据下载

如果要下载每个study对应的runs的所有数据,我们需要下载安装SRA Toolkit!

链接地址: http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

SRA toolkit常用命令的说明文档见:

http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc。

这里我们需要使用prefetch命令进行下载

$prefetch SRR776503  SRR776505  SRR776506

下载完成后,会在你的工作主目录下生成一个ncbi的文件夹。

Sra子文件夹中的.sra文件就是对应的runs文件。 ‘.sra’的后缀是SRA数据库对fastq文件的特殊压缩。使用前,我们需要将其解压为fastq文件。SRA Toolkit 包含了解压函数fastq-dump : $fastq-dump SRR776503.sra

通过命令行来下载

for ((i=204;i<=209;i++)) ;
do 
wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR620$i/SRR620$i.sra;
done
ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;done

四、其他

4.1 1. 上传或下载数据遇到问题,可咨询:sra@ncbi.nlm.nih.gov

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学