【9.6.3】UTR库--AURA

http://aura.science.unitn.it/about/

UTR 监管活动图集 (AURA,Atlas of UTR Regulatory Activity) 是一个人工策划的综合人类 UTR 和 UTR 监管注释目录。通过其直观的网络界面,它提供了对大量信息的完全访问,这些信息整合了来自科学文献和专业数据库的 RNA 序列和结构数据、调控和变异位点、基因同线性、基因和蛋白质表达以及基因功能描述,所有这些信息都可以通过其 各种数据挖掘工具

一、下载相关数据:

wget -c http://aura.science.unitn.it/site_media/download/UTR_hg19.fasta
wget -c http://aura.science.unitn.it/site_media/download/AURA_mysql_dump.sql.gz

其他比较好玩的UTR库

http://aura.science.unitn.it/cite/

二、背景介绍

基因表达的转录后调控 (PTR,Post-transcriptional regulation) 现在被认为是细胞表型的主要决定因素。最近在整个转​​录组(如 RIP、CLIP 及其变体)以及全球多核糖体和核糖体分析技术,绘制蛋白质-RNA 相互作用的方法的可用性,正在推动关于细胞中 mRNA 接触的大量数据呈指数级积累,以及PTR事件的相应预测。然而,这种异常数量的信息不能被最好地利用来重建潜在的 PTR 网络,因为它仍然分散在几个数据库中和单个交互的孤立报告中。为了解决这个问题,我们开发了 UTR 监管活动图谱 (AURA 2) 的第二个和大大增强的版本,这是一个元数据库,专注于映射反式因子与人类和小鼠 UTR 的相互作用。 AURA 2 包括实验证明的 RBP、ncRNA、数千个顺式元件、变异、RNA 表观遗传学数据等的结合位点。其用户友好的界面提供了各种数据挖掘功能,包括协同监管搜索、网络生成和监管丰富测试。许多组织和细胞系的基因表达谱也可以与这些分析相结合,以仅显示所研究系统中可能的相互作用。 AURA 2 旨在成为 PTR 研究的宝贵工具箱,并为 PTR 网络构建工具的设计路径指明方向。 AURA 2 可在 http://aura.science.unitn.it 上获得。

  • AURA 2 目前包括两种模式物种的数据,即智人和小家鼠。然而,它的结构允许插入任意数量的模型物种,其他物种,例如Danio rerio、Caenorhabditis elegans和Saccharomyces cerevisiae,将在稍后推出。
  • 两个包括的物种共享一个基本注释层,从从 UCSC 基因组注释15获得的基因、转录本和 UTR 模型到系统发育保守性、二级结构折叠和基因本体论术语关联。
  • 人类数据还包括两个不同的转录本半衰期测量数据集,通过微阵列和高通量测序获得分别为。
  • 最后,翻译组和转录组基因表达变异之间的解偶联,表明转录后调控的发生,基于对包含此类配置文件的数据集的荟萃分析对人和小鼠基因进行量化和显示。在这些注释之上,收集并集成了许多不同的 PTR 数据库和各种数据集。我们决定只考虑实验得出的数据,因此排除了预测。
  • 这是从 AREsite 获得的富含 AU 元素的显着例外,以及 mRNA 的二级结构,因为这些预测在 mRNA 及其 UTR 中普遍存在,并且可以帮助制定有趣的假设作为相互作用数据的补充。
  • 一方面,排除预测会导致限制可利用信息的数量,另一方面,我们相信这种选择可以为 PTR 网络提供强度和可靠性,这可以通过 AURA 2 和生物学假设推断此后制定。关于 RBP 及其在 UTR 上的结合位点,AURA 2 包含通过单个 mRNA 实验获得的数据,例如荧光素酶测定(通过筛选为每个 RBP 产生的文献并从相关论文中提取监管事件和结合位点获得),以及通过高通量技术,例如 CLIP 系列方法7 - 9 ; RBP 功能描述19和来自 RBPdb 20和 CISBP-RNA 21 的绑定基序标志也包括在可用时。目前,有 158 个 RBP 的数据可用,其中 32 个在小鼠中。MicroRNA-mRNA 相互作用通过包含几个数据集聚合来自低通量技术的结果(主要通过现有数据库集成获得,参见补充表 2)来表示,涵盖 312 个 microRNA;分析 Argonaute 结合位点(见附加文件 1)和 CLASH 22衍生的 microRNA-mRNA 相互作用的高通量数据集也包括在内。目前,AURA 2 中共有 985 个映射的 microRNA。寻找并收集了各种顺式元件类别的数据。我们包括富含AU的元件从AREsite获得18个ALU重复序列,15个替代聚腺苷酸化事件,14个替代翻译起始位点23,24从全基因组分析中,TOP基因注释25和地图上的非编码区的超保守元素,我们先前在26 中描述。我们还包括 RNA 转录后修饰图谱:特别是 A 到 I RNA 编辑(来自 DARNED 27)、m5C 和 m6A 甲基化在此版本中被考虑,因为这些现象越来越重要。12 , 13所有这些数据目前总计超过 5 万个监管站点。最终,为了让用户能够估计序列变异对 UTR 及其调控的潜在影响,来自 dbSNP 28 的SNP和来自 COSMIC 29 的癌症体细胞突变也包括在 AURA 2(总共超过一百万个变异)中,并且与反式因子和顺式元件位点一起显示在独立的轨道中。

综合考虑反式因子、顺式元件和变异,AURA 2 目前包含超过 250 万个调控位点。完整的集成数据库列表可以在补充表 1 中找到,关于 AURA 2 的统计数据总结在补充表 2 中,集成的高通量数据集最终列在补充表 3 中。

结合我们刚刚描述的大量数据,AURA 2 提供了各种为 PTR 定制的搜索和分析工具,作为利用这个数据仓库的强大方式。一方面,它的用户界面经过调整,可为不喜欢命令行的生物学家提供直观且无缝的搜索体验;另一方面,面向数据挖掘的工具将使生物信息学家能够以自动化的方式快速查询和检索大量数据。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn