以分子生物学为基础的生物信息学的诞生和发展最早可以追溯到20世纪60年代,两届诺贝尔奖得主鲍林的分子进化理论的出现,预示着生物信息学的来临[1]。2001年,随着人类基因组测序工作的完成和人类基因组草图的公布,生物信息学的研究走向了一个高潮[2]。生物信息学的根本目标是增加对生物学过程的认识,具体而言,就是发展和应用有效的计算方法(如模式识别、数据挖掘、机器学习算法和可视化技术等)来达到对生物学更深层次的理解[3]。
宏基因组学是专门针对复杂微生物群落发展起来的基因组学技术,其研究基本上可以分为核糖体核糖核酸(ribosomal robonucleic acid,rRNA)基因(细菌和古菌的16S rRNA基因或真菌的18S rRNA、28S rRNA基因和ITS基因)的分类和鉴定(扩增子测序)、功能基因的多样性和分类分析以及全部宏基因组脱氧核糖核酸(deoxyribonucleic acid,DNA)的整体测序(全基因组测序)和分析等[4]。扩增子测序利用独立培养的分子生物学技术、方法和手段对宏基因组进行系统研究,分析微生物在研究对象中的基因序列集合,研究其群落结构与预测功能等。1986年,OLSENGJ等[5]提出,直接从环境中克隆核糖体小亚基RNA编码基因,即16S rRNA基因,开启了以独立培养的分子生物学方法研究微生物多样性的新大门。1996年,STEIN J L等[6]通过构建海水微生物克隆文库,鉴定出了未培养过的古菌的16SrRNA基因,成为宏基因组在微生物领域研究的里程碑。基于宏基因组数据的生物信息学方法广泛用于微生物学研究,根据微生物来源,可以分为土壤微生物、海洋微生物、肠道微生物、农业微生物、食品微生物等。与其他领域相比,扩增子测序数据的生物信息学分析在传统发酵食品微生物研究中的应用起步晚、发展慢,仍存在差距,但最近的相关研究逐渐增多,本文归纳和比较了近几年发展的主要的生物信息学分析方法,以期为今后的研究提供参考。
中国传统发酵食品风味独特、营养丰富,参与发酵过程的微生物种类众多,形成的菌群结构复杂[7]。面对中国传统发酵食品中如此复杂的微生物,仅凭借低通量、纯培养的方法效率很低。随着扩增子测序技术在微生物研究中的应用以及生物信息学分析的渗入,为复杂微生物菌群多样性的阐明、功能和相互作用的预测提供了更为迅速的解决方案。扩增子测序技术在微生物研究中的应用极大的促进了科研人员对于复杂微生物菌群的认识,其规避了无法培养的微生物对群落中微生物种类认识的局限。自扩增子测序技术应用于传统发酵食品微生物研究以来,产生了大量的生物序列数据,为了充分利用这些序列数据,揭示数据背后隐藏的生物学信息,需要使用信息科学的方法和技术进行管理和分析。生物信息学以低成本和高通量的方式从大量的生物学数据中挖掘出对研究对象有价值的信息,为实验研究提供参考和指导。
生物信息学研究主要包括数据库、算法和工具。核酸数据库按照构建方式有一级和二级之分。最权威的三大国际核酸一级数据库为GenBank[8]、EMBL[9]、DDBJ[10]。二级数据库是基于一级数据库,增加相关信息并经加工和构建而成的具有特殊生物学意义和专门用途的数据库,如能够对三域微生物(细菌、古菌、真核)rRNA基因序列分类的数据库SILVA等。自1994年以来,每年“Nucleic Acids Research”期刊的第一期刊物为分子生物学数据库特刊,回顾当前的分子生物学数据库资源,截至2018年已收录数据库1 898个[2,11]。
生物信息学研究的常用算法有模式分类、统计算法、特征提取、数据压缩等。这些算法在宏基因组数据处理中均有应用,如模式分类中的聚类方法用于挖掘基因之间的调控关系,K近邻法(k-nearest neighbor,k-NN)用于系统发生树的构建;统计算法中的隐马尔可夫模型用于基因预测;特征提取算法用于基于序列特征的宏基因组数据的分装;数据压缩用于主成分分析(principalcomponentanalysis,PCA)等,为实验人员提供了大规模数据分析的手段和实验设计的重要参考。
生物信息学为生物学研究提供了有力的分析工具,通过分析和处理实验数据进行提示、指导甚至替代部分实验操作。基于扩增子测序的宏基因组分析常用生物信息学工具见表1[1]。
表1 基于扩增子测序的宏基因组分析常用生物信息学工具
Table 1 Bioinformatics tools commonly used for metagenome analysis based on amplicon sequencing
Fastx-Toolki、FastQC、Trimmomatic、Seqtk、NGS QC Toolkit、PrinSeq Greengeens、Silva、RDP、ITS2[12]、UNITE[13]、EzBioCloud[14]ChimeraSlayer、Uchime UCLUST、UPARSE、CD-hit、DOTUR、DADA2[15]、UNOISE2[16]ARB、PAML、Fast Tree、Phylip、PAUP MEGAN、PICRUST、Tax4FUN、FAPROTAX[17]、BugBase[18]、MMinte[19]、FUNGuild[20]分析步骤 常用工具质量控制(quality control)数据库(database)嵌合体分析(chimera analysis)OTU聚类(operational taxonomic unit clustering)进化发育分析(evolutionary analysis)功能分析(functional analysis)
图1 基于扩增子测序的宏基因组数据生物信息学分析流程
Fig.1 Bioinformatics analysis process of metagenomic data based on amplicon sequencing
基于扩增子测序的宏基因组数据生物信息学分析基本流程见图1[1],主要包括:提取样本总DNA;聚合酶链式反应(polymerase chain reaction,PCR)扩增目标区域;构建质粒文库测序;测序数据去噪处理(如去除接头、序列标签、引物序列、低质量的序列及嵌合序列等);去噪序列聚类生成分类单元(operational taxonomic units,OTUs),并进行后续生物信息学分析(OTU代表序列分类学注释、系统发育树绘制及多样性分析等),同时可以结合实时荧光定量聚合酶链式反应(real-time quantitative polymerase chain reaction,RT-qPCR)进而实现菌群分布定量及差异比较分析。目前,主流的菌群鉴定软件QIIME和MOTHUR都是按照图1流程实现的[21-22]。QIIME无论在时间消耗,还是在聚类结果的准确性及可信性上,都优于MOTHUR聚类方法,更适合高通量测序数据和复杂环境样本[1]。2018年,QIIME2.0正式上线,QIIME2.0中DADA2[15]代替了原先的UCLUST。DADA2根据扩增子测序数据推断确切的扩增子序列变体(amplicon sequence variant,ASV),取代较粗糙的操作分类单元(OTU)聚类方法;DADA2改善了菌群多样性和差异性的下游分析,并可能使扩增子测序方法探测到菌株水平的变化;DADA2通过准确重建扩增子测序的群落提高了研究人员对微生物群落的研究,比较表明,DADA2比MOTHUR[21]、QIIME(UCLUST)[22]、UPARSE[23]、MED[24]方法更准确[15]。今后,QIIME2流程将会越发广泛的应用于扩增子测序结果分析。
通过聚类获得的OTU代表序列,需要与相应数据库比对注释以进行下一步的分析。目前微生物学研究常用的数据库有rRNA基因数据库(RDP、SILVA、Greengenes、EzBioCloud等)和内部转录间隔(internal transcript space,ITS)序列数据库(UNITE、ITS2等)。RDP和SILVA是目前微生物学研究rRNA基因比对注释常用的数据库。RDP的Classifier功能可用于rRNA基因测序后的物种分类鉴定,能够方便地确定某条rRNA基因序列从门到属/种水平的分类信息并给出各水平相应的置信度。SILVA结合ARB软件进行rRNA质量检测和序列比对,是MOTHUR分析工具中推荐的数据库。Greengenes和EzBioCloud是仅收录16S rRNA的数据库。Greengenes数据库收录有微生物的功能信息,结合PICRUST分析工具能够对微生物群落功能进行预测。对于EzBioCloud,主要是利用数据库的Identify功能确定16S rRNA基因序列的近缘可培养或模式种,较少用于高通量测序16S rRNA的参比。UNITE(仅收录ITS序列)和ITS2(仅收录ITS2序列)是真菌的专属数据库。UNITE和ITS2在应用上有所区别,前者通常用于分类注释,后者通常用于真菌鉴定。
OTU聚类及物种注释后的分析由于研究目的不同会呈现出一定的差异。但核心分析主要包括两个方面:物种组成分析和功能组成预测分析。群落的组成分析、系统发育分析、相似性分析、PCA/主坐标分析(principal co-ordinates analysis,PCoA)是常用的物种组成分析方法。功能组成预测分析主要包括群落组成功能预测分析、群落基因功能与环境相关性分析、代谢途径相关分析等。一般分析思路为:对物种或功能先进行整体描述,然后分析总体差异和分组差异,最后进行微生物组和环境因子关系的关联分析并用无菌体系进行验证以证实因果。
Microbiome Helper[47]是一款整理优化了多套扩增子(16S/18S/ITS)、metagenome分析流程的开源软件。作者提供了一系列的辅助脚本,使宏基因组数据分析更加自动化,显著提高使用者的分析效率。2018年6月发表的基于Galaxy的微生物数据分析框架ASaiM[26]集成了100多种分析工具,内置了多种参考分析流程,能够通过Docker方式快速部署,方便非组学分析研究领域的使用。
现阶段,采用基于扩增子测序的宏基因组学方法研究中国传统发酵食品微生物,旨在识别、鉴定传统发酵食品微生物的菌群结构,预测代谢功能,阐明相互作用关系。基于扩增子测序的宏基因组数据生物信息学分析方法在传统发酵食品微生物研究中的代表性成果见表2。
表2 基于扩增子测序分析的宏基因组数据生物信息学分析方法在传统发酵食品微生物中的代表性研究
Table 2 Representative studies of bioinformatics analysis methods of metagenome data based on amplicon sequencing analysis in traditional fermented food microorganisms
微生物来源 测序技术 生物信息学分析工具 参考文献白酒(大曲发酵剂)醋(大曲发酵剂、发酵过程)中国泡菜(卤水微生物)扩增子测序(16S rRNA、ITS)扩增子测序(16S rRNA、ITS)单分子测序(16S rRNA)、扩增子测序(16S rRNA、ITS)QIIME流程、USEARCH/UCLUST/UPARSE进行聚类、RDP(V2.2)分类注释QIIME/MOTHUR流程、UPARSE聚类、RDP分类注释PacBio(V2.7)原始序列处理、QIIME流程提取高质量序列、PyNAST检验序列同一性、UCLUST/USEARCH聚类、RDP和GREENGENS分类注释、FastTree[27-30][31-34][35-37]发酵肉(酸鱼)黄酒(发酵剂、酿造过程)发酵普洱茶发酵谷物粥(酸粥)扩增子测序(16S rRNA、ITS)扩增子测序(16S rRNA、ITS)扩增子测序(16S rRNA、ITS)构建从头分类树QIIME流程、UCLUST聚类、RDP分类注释QIIME流程、USEARCH聚类、RDP分类注释MOTHUR流程MOTHUR流程[38][39][40][41]
由表2可以看出,现阶段用于传统发酵食品微生物研究的基于扩增子测序的核酸序列处理流程主要为QIIME和MOTHUR,聚类方法主要是USEARCH和UPARSE。而最近出现的QIIME2流程优于QIIME流程,DADA2算法也优于USEARCH、UPARSE算法。另一个比较先进的算法是UNOISE2[16],该算法经过纠正点错误获得准确扩增子序列及过滤嵌合扩增子,序列比对后聚类生成零半径分类单元(zero-radius operational taxonomic unit,ZOTU)。与DADA2不同,UNOISE2使用一次性聚类策略,该策略不使用质量分数(Q)并且只有两个预设值,能够在不同的数据集上很好的工作。ZOTU在大多数情况下优于传统的97%OTU,使用97%的同一性可能将不同序列表型不同的菌株合并成同一OTU[15,42]。
基于扩增子测序数据进行功能预测的生物信息学工具见表3。功能预测的常用软件有利用16S rRNA序列对细菌群落功能进行预测的分析工具FAPROTAX[17]、BugBase[18]、MMinte[19]、PICRUSt[43]及Tax4Fun[44],利用ITS序列对真菌群落功能进行预测的分析工具FUNGuild[20]等。现阶段功能预测主要集中在海洋微生物(WANG K等[45]通过PICRUSt预测得到了硫代谢相关基因的丰度信息)、肠道微生物(VRIEZE J D等[46]使用Tax4Fun对厌氧消化过程的总细菌、古菌和活跃细菌、古菌的菌群功能进行了分析,发现对活跃菌进行功能预测能够获得消化过程菌群活动和实现对消化过程机理系统层面的理解)、土壤微生物(TOJU H等[47]使用FUNGuild对ITS测序数据进行分析,揭示了土壤真菌的微共生现象)、农业微生物(LOUCA S等[48]使用FAPROTAX分析凤梨科植物微生物纤维素分解、发酵、氮呼吸等功能的菌群结构组成,发现尽管微生物群落具有稳定的功能结构,但其分类学水平的微生物群落结构具有较高的变异性,证明了相同生态系统之间的微生物群落结构变异并不意味着群落功能具有差异)研究中。然而对于微生物群落功能预测的应用,应采取谨慎的态度。一方面,由于功能预测工具都是基于一定的参考序列数据库进行功能预测,预测结果受到参考序列数据库的局限。另一方面,预测过程的数据预处理也会造成原始数据的部分损失,对预测结果产生一定的影响。同时,功能预测不能替代全基因组研究(只能对已知微生物的已知功能进行预测),但可以对后续实验设计作出指导。
表3 基于扩增子测序数据进行功能预测的生物信息学工具
Table 3 Bioinformatics tools for functional prediction based on amplicon sequencing data
注:“/”代表可选择;“+”代表分析顺序。
方法 目标微生物 用途 使用数据库 分析平台 参考文献FAPROTAX BugBase MMinte FUNGuild PICRUSt Tax4Fun细菌、古菌细菌细菌、古菌真菌细菌、古菌细菌、古菌功能预测表型预测代谢物互作预测生态型分类功能预测功能预测SILVA/Greengenes+FAPROTA Database Greengenes+IMG/M+KEGG NCBI+16S rRNA数据库FUNGuild Greengenes+IMG/M+KEGG/COG/Pfam SILVA+NCBI+KEGG QIIME QIIME+在线网页QIIME/mothur+ModelSEED QIIME+在线网页QIIME+在线网页SILVAngst/QIIME+R[17][18][19][20][43][44]
目前,对于扩增子测序数据的分析已相对成熟,可供选择的各种数据库、算法、工具和平台日益增多。根据数据分析的需要,选择合适的分析工具,并对分析工具和原理进行深入的了解有利于分析过程参数调节和结果的进一步处理。随着宏基因组技术的发展,新的算法和计算平台将会不断出现。积极采用最新算法,比较不同算法之间的准确性和差异,将会加速对传统发酵食品微生物的研究。此外,为了规范传统发酵食品样本信息,有效存取海量数据信息,提供更多公用的数据源,需要建立规范的传统发酵食品微生物宏基因组信息存储平台,为宏基因组技术在传统发酵食品微生物研究中的广泛应用提供坚实的基础。
[1]樊龙江.生物信息学[M].杭州:浙江大学出版社,2017:5,305.
[2]刘伟,张纪阳,谢红卫.生物信息学[M].北京:电子工业出版社,2014:5-15.
[3]Bioinformatics[EB/OL].(2018-07-16).https://en.wikipedia.org/wiki/Bioinformatics.
[4]魏子艳,金德才,邓晔.环境微生物宏基因组学研究中的生物信息学方法[J].微生物学通报,2015,42(5):890-901.
[5]OLSEN G J,LANE D J,GIOVANNONI S J,et al.Microbial ecology and evolution:a ribosomal RNA approach[J].Annual Review of Microbiology,1986,40(1):337-365.
[6]STEIN J L,MARSH T L,WU K Y,et al.Characterization of uncultivated prokaryotes:isolation and analysis of a 40-kilobase-pair genome fragment from a planktonic marine archaeon[J].J Bacteriol,1996,178(3):591-599.
[7]任聪,杜海,徐岩.中国传统发酵食品微生物组研究进展[J].微生物学报,2017,57(6):885-898.
[8]BENSON D A,CAVANAUGH M,CLARK K,et al.GenBank[J].Nucleic Acids Res,2018,46(Database):D41-D47.
[9]COCHRANE G,ALDEBERT P,ALTHORPE N,et al.EMBL Nucleotide Sequence Database:developments in 2005[J].Nucleic Acids Res,2006,34(Database):10-5.
[10]MASHIMA J,KODAMA Y,KOSUGE T,et al.DNA data bank of Japan(DDBJ)progress report[J].Nucleic Acids Res,2016,44(Database):D51-D57.
[11]Nucleic Acids Research database issue[EB/OL].(2018-07-25).https://academic.oup.com/nar/issue/46/D1.
[12]MERGET B,KOETSCHAN C,HACKL T,et al.The ITS2 Database[J].J Visual Exp Jove,2012(61):3806.
[13]Unite[EB/OL].(2018-12-08).https://unite.ut.ee/.
[14]YOON S H,HA S M,KWON S,et al.Introducing EzBioCloud:a taxonomically united database of 16S rRNA gene sequences and wholegenome assemblies[J].Int J Syst Evol Micr,2017,67(5):1613-1617.
[15]CALLAHAN B J,MCMURDIE P J,ROSEN M J,et al.DADA2:High resolution sample inference from Illumina amplicon data[J].Nat Methods,2016,13(7):581-583.
[16]EDGAR,R C.UNOISE2:improved error-correction for Illumina 16S and ITS amplicon sequencing[J].Biorxiv,2016,doi:https://doi.org/10.1101/081257.
[17]LOUCA S,PARFREY L W,DOEBELI M.Decoupling function and taxonomy in the global ocean microbiome[J].Science,2016,353(6305):1272-1277.
[18]WARD T,LARSON J,MEULEMANS J,et al.BugBase predicts organism level microbiome phenotypes[J].Biorxiv,2017,doi:http://dx.doi.org/10.1101/133462.
[19]MENDES-SOARES H,MUNDY M,SOARES L M,et al.MMinte:an application for predicting metabolic interactions among the microbial species in a community[J].BMC Bioinformatics,2016,17:343.
[20]NGUYEN N H,SONG Z,BATES S T,et al.FUNGuild:An open annotation tool for parsing fungal community datasets by ecological guild[J].Fungal Ecol,2016,20:241-248.
[21]SCHLOSS P D,WESTCOTT S L,RYABIN T,et al.Introducing MOTHUR:Open-source,platform-independent,community-supported software for describing and comparing microbial communities[J].Appl Environ Microbiol,2009,75(23):7537-7541.
[22]CAPORASOJ G,KUCZYNSKIJ,STOMBAUGHJ,et al.QIIME allows analysis of high-throughput community sequencing data.Nat Met 7:335-336[J].Nat Methods,2010,7(5):335-336.
[23]EDGAR R C.UPARSE:highly accurate OTU sequences from microbial amplicon reads[J].Nat Methods,2013,10(10):996.
[24]EREN A M,MORRISON H G,LESCAULT P J,et al.Minimum entropy decomposition:Unsupervised oligotyping for sensitive partitioning of high-throughput marker gene sequences[J].ISME J,2015,9(4):968-979.
[25]COMEAU A M,DOUGLAS G M,LANGILLE M G I.Microbiome helper:A custom and streamlined workflow for microbiome research[J].Msystems,2017,2(1):e00127-16.
[26]BATUT B,GRAVOUIL K,DEFOIS C,et al.ASaiM:A Galaxy-based framework to analyze microbiota data[J].Gigascience,2018,7(6):doi:10.1093/gigascience/giy057.
[27]PANG X N,HAN B Z,HUANG X N,et al.Effect of the environment microbiota on the flavour of light-flavour Baijiu during spontaneous fermentation[J].Sci Rep,2018,8(1):3396.
[28]WANG X,DU H,ZHANG Y,et al.Environmental microbiota drives microbial succession and metabolic profiles during Chinese liquor fermentation[J].Appl Environ Microbiol,2017,84(4):e02369-17.
[29]WANG P,WU Q,JIANG X,et al.Bacillus licheniformis affects the microbial community and metabolic profile in the spontaneous fermentationof Daqustarter for Chinese liquor making[J].Int J Food Microbiol,2017,250:59-67.
[30]WANG J,ZHONG Q,YANG Y,et al.Comparison of bacterial diversity between two traditional starters and the round-koji-maker starter for traditional cantonese Chi-flavor liquor brewing[J].Front Microbiol,2018,9:1053.
[31]LI P,LIN W,LIU X,et al.Effect of bioaugmented inoculation on microbiota dynamics during solid-state fermentation of Daqu starter using autochthonousof Bacillus,Pediococcus,Wickerhamomyces and Saccharomycopsis[J].Food Microbiol,2017,61:83-92.
[32]NIE Z,ZHENG Y,XIE S,et al.Unraveling the correlation between microbiota succession and metabolite changes in traditional Shanxi aged vinegar[J].Sci Rep,2017,7(1):9240.
[33]LI S,LI P,LIU X,et al.Bacterial dynamics and metabolite changes in solid-state acetic acid fermentation of Shanxi aged vinegar[J].Appl Microbiol Biot,2016,100(10):4395-4411.
[34]LI P,LIANG H,LIN W T,et al.Microbiota dynamics associated with environmental conditions and potential roles of cellulolytic communities in traditional Chinese cereal starter solid-state fermentation[J].Appl Environ Microbiol,2015,81(15):5144-5156.
[35]YANG J,CAO J,XU H,et al.Bacterial diversity and community structure in Chongqing radish paocai brines revealed using PacBio SMRT sequencing technology[J].J Sci Food Agr,2018,98(9):3234-3245.
[36]CAO J,YANG J,HOU Q,et al.Assessment of bacterial profiles in aged,home-made Sichuan paocai brine with varying titratable acidity by PacBio SMRT sequencing technology[J].Food Control,2017,78:14-23.
[37]LIANG H,CHEN H,ZHANG W,et al.Investigation on microbial diversity of industrial Zhacai,paocai during fermentation using high-throughput sequencing and their functional characterization[J].LWT-Food Sci Tech,2018,91:460-466.
[38]ZANG J,XU Y,XIA W,et al.Dynamics and diversity of microbial community succession during fermentation of Suan yu,a Chinese traditional fermented fish,determined by high throughput sequencing[J].Food Res Int,2018,111:565-573.
[39]HONG X,JING C,LIN L,et al.Metagenomic sequencing reveals the relationship between microbiota composition and quality of Chinese Rice Wine[J].Sci Rep,2016,6:26621.
[40]ZHAO M,ZHANG D L,SU X Q,et al.An integrated metagenomics/metaproteomics investigation of the microbial communities and enzymes in solid-state fermentation of Pu-erh tea[J].Sci Rep,2015,5:10117.
[41]QIN H,SUN Q,PAN X,et al.Microbial diversity and biochemical analysis of Suanzhou:A traditional Chinese fermented cereal gruel[J].Front Microbiol,2016,7:1311.
[42]TIKHONOV M,LEACH R W,WINGREEN N S.Interpreting 16S metagenomic data without clustering to achieve sub-OTU resolution[J].ISME J,2015,9(1):68-80.
[43]LANGILLE M G I,ZANEVELD J,CAPORASO J G,et al.Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences[J].Nat Biotechnol,2013,31(9):814-821.
[44]AßHAUER K P,WEMHEUER B,DANIEL R,et al.Tax4Fun:predicting functional profiles from metagenomic 16S rRNA data[J].Bioinformatics,2015,31(17):2882-2884.
[45]WANG K,YE X,ZHANG H,et al.Regional variations in the diversity and predicted metabolic potential of benthic prokaryotes in coastal northern Zhejiang,East China Sea[J].Sci Rep,2016,6(1):38709.
[46]VRIEZE J D,PINTO A J,SLOAN W T,et al.The active microbial community more accurately reflects the anaerobic digestion process:16S rRNA(gene)sequencing as a predictive tool[J].Microbiome,2018,6(1):63.
[47]TOJU H,KISHIDA O,KATAYAMA N,et al.Networks depicting the fine-scale co-occurrences of fungi in soil horizons[J].Plos One,2016,11(11):e0165987.
[48]LOUCA S,JACQUES S M S,PIRES A P F,et al.High taxonomic variability despite stable functional structure across microbial communities[J].Nature Ecol Evol,2016,1:0015.
Amplicon sequencing analysis enhancing the understanding on microbial diversity of traditional Chinese fermented foods