interproscan安装及使用

Interpro是一个数据库,它里面有蛋白功能,蛋白家族等信息。而Interproscan就是可以将你的蛋白序列跟这个这个数据比对,从而给你的序列功能注释。
Interproscan5新增了一些功能
Phobius用来预测跨膜和信号肽
可以把结果map到上传的数据上
寻找蛋白可能的生物学代谢途径
新的输出格式XML和GFF3.0
提升了图形界面的

一、配置要求

至少2 cores and 4 GB of RAM, 这样才能同时分析5 – 10 sequences
软件要求:
Linux, 32 bit or 64 bit (64 bit recommended).
Perl (default on most Linux distributions)
Oracle’s Java JDK/JRE version 6u4 and higher (which also includes Java 7)
Environment variables set
JAVA_HOME should point to the location of the JVM
$JAVA_HOME/bin should be added to the CLASSPATH

二、安装interproscan5

1、获得InterProScan software core(针对我的64位机)

2 、安装Panther Models

3. 使用Pre-calculated Match Lookup 服务器

三、使用interproscan

可以运行其提供的例子: ./interproscan.sh -i test_proteins.fasta -f tsv
会得到tsv格式的结果,里面包含了很多数据库Gene3d, PIRSF,PRINTS,PANTHER,SUPERFAMILY,PFAM,TIGERFAM等比对的结果。
如果运行不了,请参考该网页提供的问题解决方案:

Cd /interproscan
可以直接在终端输入./interproscan.sh,你会看到用法信息

涉及到的数据库:
可以直接用的。
TIGRFAM-XX.X : TIGRFAMs 基于隐马尔可夫模型的蛋白家族库
ProDom-XXXX.X: ProDom 是由UniProt Knowledge Database自动生成的蛋白域家族。
Panther-X.X : The PANTHER (Protein ANalysis THrough Evolutionary Relationships)是一个独立的根据功能来分类平台,使用已公布的实验证据和进化关系来预测没有直接实验证据的基因的功能,
SMART-X.X : SMART 可以用来鉴别和分析基于隐马尔可夫模型的域构架 PrositeProfiles-XX.XX : PROSITE 包含描述蛋白域,家族,功能位点和关系的入口文件,用来
区别这些蛋白的编号。
PrositePatterns-XX.X.XX :同上
SuperFamily-X.XX : SUPERFAMILY可以给核酸和蛋白做功能和结果注释的数据库。 PRINTS-XX.X : A fingerprint是一个保守的模型用来描述蛋白家族。 Gene3d-X.X.X :通过使用 CATH域结构数据库来对全基因和基因组进行结构分析
PIRSF-X.XX : The PIRSF是用来但做一个指导把UniProtKB序列进行无重叠和深度分类,来反映他们进化关系
PfamA-XX.X : 一大类蛋白家族,每一个代表对序列比对和隐马尔可夫的结果。
HAMAP-XXXXXX.XX : High-quality Automated and Manual Annotation of Microbial Proteomes高质量自动注释和手工注释微生物的蛋白组
Coils-X.X :对蛋白组卷曲螺旋区域的预测

无效的分析:
SignalP-GRAM_NEGATIVE-X.X : Analysis SignalP-GRAM_NEGATIVE-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path
SignalP-GRAM_POSITIVE-X.X : Analysis SignalP-GRAM_POSITIVE-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path
SignalP-EUK-X.X : Analysis SignalP-EUK-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path
Phobius-X.XX : Analysis Phobius-X.XX is deactivated, because the following parameters are not set in the interproscan.properties file: binary.phobius.pl.path.X.XX
TMHMM-X.Xc : Analysis TMHMM-X.Xc is deactivated, because the following parameters are not set in the interproscan.properties file: binary.tmhmm.path

核酸序列的扫描
Emboss getorf.是内嵌在interproscan中的基因预测的软件,如果你想本地安装这个软件的话,必须修改interproscan.sh script
# set environment variables for getorf
export EMBOSS_ACDROOT=bin/nucleotide
export EMBOSS_DATA=bin/nucleotide
如果输入的是核酸序列,在运行命令的时候需要加入-t这个参数
./interproscan.sh -t n -i /path/to/nucleic_acid_sequences.fasta

格式转换
可以将xml转化为其他的格式,注意哦,仅仅是转化xml格式
./interproscan.sh -mode convert -f tsv,gff3,svg -i /path/to/impact.xml -o /path/to/output_file_basename

参考资料:
官网:http://code.google.com/p/interproscan/wiki/Introduction

ps:没什么要说的,他们这个官网的介绍真新详细,这是目前我唯一从头看到尾的一份说明说,翻译理解水平有限,查证的话可以看官网的说明。

《interproscan安装及使用》有1个想法

  1. 博主,你好。请教你个关于interproscan5使用的问题。我用的是ubuntu15.04系统,安装了java6u45,运行interproscan时报错:bin/prosite/pfscan: error while loading shared libraries: libgfortran.so.3: cannot open shared object file: No such file or directory但我在/usr/lib/x86_64-linux-gnu下发现是有libgfortran.so.3的,像是找不到库,怎么解决这个问题呢?另外方便加你QQ吗?看过你的几篇博文,受益匪浅,

发表评论

电子邮件地址不会被公开。 必填项已用*标注