biopython实践

这两天处理数据的时候,需要解析Blast的结果。经管之前写过解析blast的xml结果的程序,用起来还是不够优雅。刚好,借这次机会来接触一下biopython。

一、简介

biopython是基于python语言来帮助生物信息学工作这解决问题的工具。它可以做:

1.将生物信息学文件解析为Python可用的数据结构,包含以下支持的格式:

    •  Blast输出结果 – standalone和在线Blast
    • Clustalw
    • FASTA
    • GenBank
    • PubMed和Medline
    • ExPASy文件, 如Enzyme和Prosite
    • SCOP, 包括‘dom’和‘lin’文件
    • UniGene
    • SwissProt

2.被支持格式的文件可以通过记录来重复或者通过字典界面来索引。
3.处理常见的生物信息学在线数据库的代码:

  • NCBI – Blast, Entrez和PubMed服务
  • ExPASy – Swiss-Prot和Prosite条目, 包括Prosite搜索

4.常见生物信息学程序的接口,例如:

  •  NCBI的Standalone
  • Clustalw比对
  • EMBOSS命令行工具

5.一个能处理序列、ID和序列特征的标准序列类。
6.对序列实现常规操作的工具,如翻译,转录和权重计算。
7.利用k最近邻接、Bayes或SVM对数据进行分类的代码。
8.处理比对的代码,包括创建和处理替换矩阵的标准方法。
9.分发并行任务到不同进程的代码。
10.实现序列的基本操作,翻译以及BLAST等功能的GUI程序。
11.使用这些模块的详细文档和帮助,包括此文件,在线的wiki文档,网站和邮件列表。
12.整合BioSQL,一个也被BioPerl和BioJava支持的数据库架构。

感觉好厉害的样子,还是从解析xml开始学起来吧。

biopython下载地址:http://biopython.org/wiki/Download

biopython官网说明:http://biopython-cn.readthedocs.io/zh_CN/latest/index.html

二、实战

1.解析xml文件
blastrecord

后面用到,再来接着补充吧

 

《biopython实践》有1个想法

发表评论

电子邮件地址不会被公开。 必填项已用*标注