我所成员开发了在线微生物关联分析平台
MicroEXPERT:跨项目研究宏基因组与环境数据关联的在线微生物组分析平台
随着各种大规模微生物组测序项目的完成,微生物组数据量呈现指数增长,并且其配套的样本信息和环境条件(即元数据)的数据收集也变得愈加详细和复杂。这些大型宏基因组测序项目和多样化的元数据使得对数据网站的数据管理和数据分析提出了更大的挑战。
因此,我们开发了MicroEXPERT平台,该平台专注于宏基因组数据的数据分析和数据挖掘。MicroEXPERT平台有三个亮点。首先,MicroEXPERT平台为庞大的宏基因组数据提供了高效的数据管理系统。其次,MicroEXPERT平台整合了现有数据搜索流程,将基因搜索、物种识别和样本搜索进行统一整合。第三,为了获得高分辨率的宏基因组和元数据之间的关联关系,本平台整合了大量的统计方法用于宏基因组范围的关联分析(MWAS)。为了使MWAS更易于被微生物学家使用,我们开发了配套的交互式界面,允许用户定制化进行MWAS分析并展示MWAS的结果。我们的MicroEXPERT平台提供了一个强大的宏基因组管理和分析系统,用于微生物组数据管理、数据分析、数据挖掘和MWAS分析,帮助理解宏基因组和其生态环境之间的关联性。MicroEXPERT平台的可访问网址为https://MicroEXPERT.aimicrobiome.cn/。
MicroEXPERT的界面设计以用户友好和功能齐全为宗旨。MicroEXPERT的主页展示了数据库的介绍,并在页面顶部提供了所有分析的接口(图1A)。MicroEXPERT已经收录了4.5TB的原始宏基因组数据和相关元数据。“Biome”页面展示了按MGnify分类的235个生物群落的样本(图1B,C)。“Project”页面展示了样本的数据处理结果(图1D)。为了方便样本搜索和导航,“Sample"网页展示了所有样本和run的信息(图1D)。通过查询核苷酸序列,“Search"网页提供了一整套生物信息学工具,用于基因注释、物种识别和样本来源监控。“MWAS"提供了超过40种工具,用于基于我们数据库中存储的元数据和样本分析结果进行深入的数据挖掘。“help"页面详细介绍了平台以及数据处理流程。
图 1. MicroEXPERT(https://microexpert.aimicrobiome.cn/)的界面截图和用户案例示例。
MicroEXPERT平台致力于提供基于MWAS的全面的统计方法。例如,MicroEXPERT中的示例MWAS分析为一个包含来自Tara Oceans数据集的10个样本的数据集,这些样本的收集温度不同(图2A)。通过根据温度对样本进行分类,MWAS分析可以通过环境关联分析来识别两组之间的差异,通过共现网络分析来研究细菌群落内的关联模式,并通过LEfSe分析确定导致分组差异的关键物种。此外,该平台允许构建机器学习模型,具体来说是随机森林算法,用于根据样本的温度变化进行分类和新样本的预测。
图2. MWAS工作流程的截图 (https://microexpert.aimicrobiome.cn/mwas)。
许多宏基因组数据库在数据查询、可视化和处理后数据的比较分析方面表现出色。然而,为了进一步增强数据搜索功能并简化用户操作,有必要开发一个一键式的数据搜索机制(图3)。为此,我们设计了一个多层数据挖掘的处理流程,构建了基因注释、物种识别、样本映射和查询序列之间的关联:首先,在基因水平上,使用BLAST+(版本2.7.1)和NR数据库(下载日期2018.1.10)实现基因注释功能(图3A)。在物种水平上(图3B),对于基因的注释不仅包括与NR数据库中匹配基因的物种信息。而且,为了更加准确地鉴定序列的物种信息,我们提供了基于物种识别工具Kraken的快速而精确的物种鉴定流程。在生物群落水平上(图3C),通过将所有的分类学分析结果都存储在一个单独的MySQL数据库中的形式,可以在我们的数据库样本中探索查询物种的样本分布。
图3.使用单个序列(https://microexpert.aimicrobiome.cn/search)研究基因-物种-样本关系。
作为一个用于收集和分析微生物样本的平台,MicroEXPERT收录了4,236个测序项目,涵盖了328,417个样本,每个样本都经过统一的样本处理流程,拥有详细的分类学和功能学特征分析结果。我们的服务器已经收集了大量的项目来支持我们的MWAS分析和基因搜索模块。值得我们继续努力的是,我们应该收集更多的数据,以更加深入地了解微生物群落。此外,改善MWAS的有效性需要攻克微生物组采样、测序、生物信息学分析和功能特性表征等方面的更多的挑战。因此,在MicroEXPERT的未来更新中,我们将开发一个更精确、更高分辨率的分析流程,用于识别微生物物种和功能。此外,我们还将使用更为先进的人工智能技术,例如用于样本分类和宿主状态预测的深度学习技术,以及更加先进的数据挖掘技术,如基因挖掘工具和多组学数据整合工具,来挖掘微生物中存在的“暗物质”。