【5.2.1.2】interproscan安装及使用
Interpro是一个数据库,它里面有蛋白功能,蛋白家族等信息。而Interproscan就是可以将你的蛋白序列跟这个这个数据比对,从而给你的序列功能注释。
Interproscan5新增了一些功能
- Phobius用来预测跨膜和信号肽
- 可以把结果map到上传的数据上
- 寻找蛋白可能的生物学代谢途径
- 新的输出格式XML和GFF3.0
- 提升了图形界面的
一、配置要求
至少2 cores and 4 GB of RAM, 这样才能同时分析5 - 10 sequences 软件要求:
Linux, 32 bit or 64 bit (64 bit recommended).
Perl (default on most Linux distributions)
Oracle’s Java JDK/JRE version 6u4 and higher (which also includes Java 7) Environment variables set
JAVA_HOME should point to the location of the JVM
$JAVA_HOME/bin should be added to the CLASSPATH
查看我的配置:
sam@sam-Precision-WorkStation-T7500[sam] uname -a
Linux sam-Precision-WorkStation-T7500 3.5.0-42-generic #65~precise1-Ubuntu SMP Wed Oct 2 20:57:18 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux
其中x86_64代表64 Bit,如果是686代表的是32 Bit
sam@sam-Precision-WorkStation-T7500[sam] java -version [
java version "1.7.0_45"
Java(TM) SE Runtime Environment (build 1.7.0_45-b18)
Java HotSpot(TM) 64-Bit Server VM (build 24.45-b08, mixed mode)
现在仅仅支持 version1.6 or 1.7
(这里是建议用Oracle JDK ,如果你的是OpenJDK。可以根据我之前的博客中安装java: http://blog.sina.com.cn/s/blog_670445240101iy3d.html)
sam@sam-Precision-WorkStation-T7500[sam] perl -version [
This is perl 5, version 14, subversion 2 (v5.14.2) built for x86_64-linux-gnu-thread-multi
(with 56 registered patches, see perl -V for more detail)
因为之前各种安装软件,所以这些软件我现在都是已经安装好了的。
二、安装interproscan5
1、获得InterProScan software core(针对我的64位机)
mkdir my_interproscan;
cd my_interproscan;
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.2-45.0/interproscan-5.2-45.0-64-bit.tar.gz
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.2-45.0/interproscan-5.2-45.0-64-bit.tar.gz.md5
# Recommended checksum to confirm the download was successful:
md5sum -c interproscan-5.2-45.0-64-bit.tar.gz.md5
# Must return *interproscan-5.2-45.0-64-bit.tar.gz: OK*
# If not - try downloading the file again as it may be a corrupted copy.
因为文件比较大,所以用md5值检验了下载是否完整。4.8G啊
解压缩
tar -pxvzf interproscan-5.2-45.0-*-bit.tar.gz
# where:
# p = preserve the file permissions
# x = extract files from an archive
# v = verbosely list the files processed
# z = filter the archive through gzip
# f = use archive file
2 、安装Panther Models
下载Panther Models到刚解压缩的文件的子目录/data下面
cd [InterProScan5 home]/data/
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-8.1.tar.gz
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-8.1.tar.gz.md5
这个文件大小大概为12 GB,下载结束后需要检查一下MD5
md5sum -c panther-data-8.1.tar.gz.md5
出现# This must return *panther-data-8.1.tar.gz: OK*证明下载的没问题,否则重新下载
解压缩
tar -pxvzf panther-data-8.1.tar.gz
如果想把这个放在其他的文件的话,可以修改[InterProScan5 home]/interproscan.properties 文件,改下面的东西
panther.models.dir.8.1=PATH_TO/panther/8.1/model
3. 使用Pre-calculated Match Lookup 服务器
The pre-calculated match lookup网页服务器能够提供超过3千万蛋白序列的比对,包括所有的UniProtKB蛋白序列.
InterProScan 5使用这个服务器能够加速本地服务器的速度。
这是这个版本的特低昂要想使用这个服务器的话,需要电脑能上网:http://www.ebi.ac.uk to use it.
如果你的电脑防火墙阻止访问这个网站,你课以下载本地化的InterProScan 5 lookup service(https://code.google.com/p/interproscan/wiki/LocalLookupService)
或者关掉这个功能关掉这个功能的时候,你可以在命令行加入-dp 或者修改interproscan.properties
在前面加一个#注释掉即可
precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup
三、使用interproscan
./interproscan.sh -i /path/to/sequences.fasta –o /san/ –goterms –iprlookup –pa -f xml
可以运行其提供的例子: ./interproscan.sh -i test_proteins.fasta -f tsv 会得到tsv格式的结果,里面包含了很多数据库Gene3d, PIRSF,PRINTS,PANTHER,SUPERFAMILY,PFAM,TIGERFAM等比对的结果。
Cd /interproscan
可以直接在终端输入./interproscan.sh,你会看到用法信息
-appl 单独分析,没有这个的话,所有的结果都将呈现
指定数据库,可以不加数据库的版本
./interproscan.sh -appl PfamA -i /path/to/sequences.fasta
If you wish to specifically run two or more analyses you can include multiple -appl arguments:
也可以指定多个数据库
./interproscan.sh -appl PfamA-27.0 -appl PRINTS-42.0 -i /path/to/sequences.fasta
or you can use a single -appl option with a comma-separated list of analyses:
或者可以通过,把多个数据放在一起。
./interproscan.sh -appl PfamA,PRINTS -i /path/to/sequences.fasta
A list of all available analyses is in the section "Included Analyses"
-b base output filename指定生成文件路径,跟-o效果一样,如果不加,默认的名字和路径。自动往生成文件名加指定文件后缀。
-d output directory, 跟-b ,-o互斥,
-dp 关闭precalculated match lookup service,默认的是开启。根据md5值来快速检验这上传的数据是否已经被注释了,如果是已经注释了就直接出结果。节省时间。
-f 输出文件的格式,支持的格式为TSV, XML, GFF3, HTML and SVG。蛋白默认的格式为
TSV, XML 和 GFF3, 核酸的格式之前为GFF3 和XML,现在都可以了哦。
./interproscan.sh -f XML -f HTML -i /path/to/sequences.fasta -b /path/to/output_file
or
./interproscan.sh -f XML, HTML -i /path/to/sequences.fasta -b /path/to/output_file
集中输出格式的区别:https://code.google.com/p/interproscan/wiki/OutputFormats
-i 输入的为fasta格式文件。
-goterms开启GO注释,但前面要加上-iprlookup参数
-iprlookup开启interpro注释
-ms 最小核酸ORF的大小,如果设置的小的话,花的时间会长。
-o 跟前面的-b.-d不能同时出现,如果设置了这个,就必须设置-f
-pa 开启可能的代谢注释
-T 默认的临时文件在/tmp,这个是可以设置临时文件的位置
-t 输入序列的类型。默认的是蛋白, 可以为dna或者为rna
涉及到的数据库:
可以直接用的。
TIGRFAM-XX.X : TIGRFAMs 基于隐马尔可夫模型的蛋白家族库
ProDom-XXXX.X: ProDom 是由UniProt Knowledge Database自动生成的蛋白域家族。
Panther-X.X : The PANTHER (Protein ANalysis THrough Evolutionary Relationships)是
一个独立的根据功能来分类平台,使用已公布的实验证据和进化关系来预测没有直接实验证据的基因的功能,
SMART-X.X : SMART 可以用来鉴别和分析基于隐马尔可夫模型的域构架 PrositeProfiles-XX.XX : PROSITE 包含描述蛋白域,家族,功能位点和关系的入口文件,用来
区别这些蛋白的编号。
PrositePatterns-XX.X.XX :同上
SuperFamily-X.XX : SUPERFAMILY可以给核酸和蛋白做功能和结果注释的数据库。 PRINTS-XX.X : A fingerprint是一个保守的模型用来描述蛋白家族。 Gene3d-X.X.X :通过使用 CATH域结构数据库来对全基因和基因组进行结构分析
PIRSF-X.XX : The PIRSF是用来但做一个指导把UniProtKB序列进行无重叠和深度分类,来反映他们进化关系
PfamA-XX.X : 一大类蛋白家族,每一个代表对序列比对和隐马尔可夫的结果。
HAMAP-XXXXXX.XX : High-quality Automated and Manual Annotation of Microbial Proteomes高质量自动注释和手工注释微生物的蛋白组
Coils-X.X :对蛋白组卷曲螺旋区域的预测
无效的分析:
SignalP-GRAM_NEGATIVE-X.X : Analysis SignalP-GRAM_NEGATIVE-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path
SignalP-GRAM_POSITIVE-X.X : Analysis SignalP-GRAM_POSITIVE-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path
SignalP-EUK-X.X : Analysis SignalP-EUK-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path
Phobius-X.XX : Analysis Phobius-X.XX is deactivated, because the following parameters are not set in the interproscan.properties file: binary.phobius.pl.path.X.XX
TMHMM-X.Xc : Analysis TMHMM-X.Xc is deactivated, because the following parameters are not set in the interproscan.properties file: binary.tmhmm.path
核酸序列的扫描
Emboss getorf.是内嵌在interproscan中的基因预测的软件,如果你想本地安装这个软件的话,必须修改interproscan.sh script
# set environment variables for getorf
export EMBOSS_ACDROOT=bin/nucleotide
export EMBOSS_DATA=bin/nucleotide
如果输入的是核酸序列,在运行命令的时候需要加入-t这个参数
./interproscan.sh -t n -i /path/to/nucleic_acid_sequences.fasta
格式转换
可以将xml转化为其他的格式,注意哦,仅仅是转化xml格式
./interproscan.sh -mode convert -f tsv,gff3,svg -i /path/to/impact.xml -o /path/to/output_file_basename
四、报错
4.1 Interproscan:unable to delete temporary directory
为什么用Interproscan的结果不能输入到指定的文件夹中呢?
sam@sam-Precision-WorkStation-T7500[interproscan] ./interproscan.sh -i
/sam/syn/result/cluster9/orf/cluster9_proteins.fasta –o
/sam/syn/result/cluster9/proscan/cluster9 –goterms –iprlookup -pa -f
XML
10/01/2014 09:23:03:647 Welcome to InterProScan-5.2-45.0
10/01/2014 09:23:15:703 Running the following analyses:
[jobTIGRFAM-13.0, jobProDom-2006.1, jobPanther-8.1, jobSMART-6.2,
jobPrositePatterns-20.97, jobSuperFamily-1.75, jobPRINTS-42.0,
jobGene3d-3.5.0, jobHAMAP-201310.09, jobPIRSF-2.84, jobPfamA-27.0,
jobPrositeProfiles-20.97, jobCoils-2.2]
10/01/2014 09:23:15:708 Running InterProScan v5 in STANDALONE mode...
Loading file /sam/syn/result/cluster9/orf/cluster9_proteins.fasta
Available matches will be retrieved from the pre-calculated match
lookup service.
Matches for any sequences that are not represented in the lookup
service will be calculated locally.
10/01/2014 23:55:28:499 25% completed
11/01/2014 03:37:23:414 50% completed
11/01/2014 03:52:30:150 75% completed
11/01/2014 04:04:42:828 90% completed
2014-01-11 04:25:50,398
[uk.ac.ebi.interpro.scan.management.model.implementations.WriteOutputStep:245]
WARN - At run completion, unable to delete temporary directory
/sam/interproscan/temp/sam-Precision-WorkStation-T7500_20140110_092329954_cd8z/jobPIRSF-2.84
2014-01-11 04:25:50,401
[uk.ac.ebi.interpro.scan.management.model.implementations.WriteOutputStep:250]
WARN - At run completion, unable to delete temporary directory
/sam/interproscan/temp/sam-Precision-WorkStation-T7500_20140110_092329954_cd8z
11/01/2014 04:25:54:297 100% done: InterProScan analyses completed
原来在于我的这个-o这个参数,名字后面应该跟上文件名格式; 或者用-d这个参数,只要指定文件夹就行,不用跟文件名和文件名格式
ps:
没什么要说的,他们这个官网的介绍真新详细,这是目前我唯一从头看到尾的一份说明说,翻译理解水平有限,查证的话可以看官网的说明。
参考资料
官网:http://code.google.com/p/interproscan/wiki/Introduction
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn