(一)标本前处理
标本液化、浓缩及去除宿主核酸等前处理方法和设备使用应标准化。所有标本应具有唯一标识,防止在信息录入和标本分拣过程中交叉污染。根据申请要求提前准备被检测微生物所需的文库资料及生物信息分析软件。建立临床标本的前处理程序,包括复杂标本、微量标本和组织标本的前处理程序,针对真菌和/或分枝杆菌等特殊微生物的破壁处理程序。建立RNA病毒、微生物游离核酸测序的前处理方法。建立组织标本研磨方法,具体方法见表3。
(二)核酸提取
1.使用经性能确认的核酸提取试剂:临床标本中存在不同类型的病原微生物,核酸提取方法的可重复性和提取效率对保证核酸的完整性及纯度至关重要。实验室应根据临床标本类型和微生物种类建立针对性的标准化提取程序。建议使用经性能验证的商品化提取试剂及设备。
2.核酸质量验证:(1)高质量的DNA A260/A280应在1.7~1.9,A260/A230应>2,可用1%琼脂糖凝胶电泳验证DNA质量(无杂带、无拖尾、背景无蛋白污染)。(2)DNA完整性(如Agilent 2100 Bioanalyzer)检测,如果大部分片段在200 nt(血浆游离DNA除外,140 nt)以下说明DNA降解严重,需重提。(3)高质量的RNA A260/A280应在1.8~2.0,A260/A230应>2。(4)微量的核酸采用Qubit荧光染料法进行定量测定[15]。
3.核酸含量极低样本的处理:如CSF、房水等,应在标本中加50 μl ATL(DX)研磨珠,低频震荡10 min,离心后取150 μl。加入150 μl裂解液和8 μl蛋白酶K,涡旋震荡混匀30 s,56 ℃恒温震荡15 min(若无恒温震荡仪,可用金属浴代替,期间每3 min混匀1次);取裂解后的样本300 μl,加入磁珠240 μl,震荡混匀,室温静置5 min,上清提核酸。按照商品化的操作说明进行。
4.去除人源DNA的方法:多数临床标本存在大量宿主细胞和宿主游离核酸,微生物核酸丰度相对较低。因此,在核酸提取环节中可考虑建立高效去宿主DNA方法,提高mNGS微生物检测的灵敏度[4, 48],去除人源核酸的方法选择需要结合临床检测目的,举例如下。
去污剂处理:因人源细胞的细胞膜较微生物外壁脆弱,在核酸提取前用温和去污剂(如皂苷)裂解宿主细胞释放DNA,再用脱氧核糖核酸酶Ⅰ降解人源DNA,通常可使微生物富集效率提高1 000倍[49]。
低渗溶液破坏宿主细胞:使用细胞膜不透性的叠氮碘化丙锭结合暴露在溶液中的宿主DNA[48]。
抗甲基化DNA磁珠:因人源DNA甲基化程度高,大多数微生物基因组中缺乏甲基化DNA,使用抗甲基化DNA磁珠可有效去除人源DNA,可实现3~5倍富集[26]。
使用CRISPR-Cas9(基因编辑技术)剥离目标序列:此法对构建RNA文库较为有利,可提高非编码rRNA序列含量,但对DNA文库构建意义不大,不推荐花费更大财力去除全部人源DNA。
5.qPCR预估人源核酸的去除效率:去除宿主DNA后,对宿主及微生物常用的标志基因,如β肌动蛋白基因、甘油醛-3-磷酸脱氢酶基因和16S rRNA基因等,进行实时荧光定量PCR(quantitative real-time PCR,qPCR)定量检测,通过经验积累大概预估宿主残余比例及有效数据比例,必要时可提高测序数据量。
(三)文库制备
文库制备是将基因组DNA片段化并在片段末端连接寡核苷酸接头的过程,文库质量直接影响测序数据质量。目前常用的建库方法有超声波打断建库、酶切建库及转座酶建库等,选用操作简单的方法对降低污染有利。
1.明确核酸质量及文库产出标准:实验室根据文库制备方法及测序平台明确起始核酸质量标准(纯度、浓度)及文库产出标准(文库浓度、片段大小等)。
2.建议使用配套试剂:若起始DNA在10 ng以上,可采用普通建库试剂盒;若DNA在100 pg~10 ng之间,则采用超微量DNA建库试剂盒;若DNA量低于下限,应先行全基因组扩增,再进行建库。
3.构建RNA文库:逆转录前需在冰上操作,防止RNA降解。应添加RNA酶抑制剂,必要时在建库前采用杂交捕获法或核糖体分离法去除rRNA[15]。
4.文库质量:可采用Qubit荧光染料法检测文库浓度,qPCR检测文库中有效连接接头的核酸浓度。上机前需根据不同的测序平台对文库浓度的要求进行。高质量的文库DNA,其A260/A280通常在1.75~2.00。此外,还应采用生物分析设备检测文库片段大小及峰型,文库片段大小为插入片段和接头序列的总长度,合格文库插入片段长度大于100 bp,文库应主峰明显、无杂峰、无接头、无引物二聚体[15]。
建议6 实验室应具备针对不同类型临床标本的前处理方法,尤其针对复杂和极微量标本应具备经验证的灵敏的手段。无论DNA还是RNA核酸提取质量应满足测序要求。在核酸提取的过程中应引入经验证的降低人源核酸处理方法。推荐使用配套试剂构建文库,根据初始核酸浓度选择文库建库试剂盒,若DNA量低于下限应先行全基因组扩增再进行建库,文库核酸浓度、纯度及长度应达到测序(包括靶向测序和宏基因组测序)要求。文库制备方法需用已知临床标本或模拟样品或质控品进行验证或开展实验室间比对,合格后方可用于临床。
(四)上机测序
测序数据量指每个样本测序所得的序列数或碱基数(nt),二者可相互转换,一般宏基因组测序用序列数表示。测序数据量与预期用途(如微生物检测、耐药基因检测、微生物组学分析、宏基因组学分析等)、样本中微生物与人源核酸占比、测序灵敏度以及测序成本等因素相关。
mNGS微生物检测的灵敏度与标本人源核酸含量有关,不同类型临床样本人源核酸平均含量不一样,为保证结果可靠性,在相同样本处理和核酸提取方法时,通常不同类型临床标本推荐不同测序数据量,原则上背景简单的标本如CSF、血浆等(人源核酸含量低)较低的测序数据量即可满足病原微生物检出。在条件允许的情况下可增加测序数据量以提高检测灵敏度。可通过数据抽样,即从下机数据中(如20 M)随机抽取15 M组成一个模拟的15 M测序数据集模拟分析不同测序数据量、不同物种的检测限,从而最终确定不同标本类型的最佳测序数据量。通常靶向测序的数据量应≥3万条序列,宏基因组测序鸟枪法测序数据量应≥2 000万(20 million,20 M)高质量序列,准确度Q30比例≥85%。也有文献推荐CSF600万条(6 M)序列[26, 35]、血液游离DNA 2 400万条序列(24 M)[50]、咽拭子病毒检测1 000万条(10M)序列[51]等。测序数据量提升可显著提高灵敏度,以血流感染为例,每个标本平均20 M序列时,总体灵敏度为31%[52],每个标本平均24 M序列时,总体灵敏度达到48%[50],当每个标本平均数据量达到33 M序列时,总体灵敏度达到71%[53]。
(五)生物信息学分析
生物信息分析是对测序得到的原始序列进行数据分析和处理的过程,以预定程序执行。该流程由多个软件组成,包括去除人源序列、处理微生物序列及相关元数据、检测候选目标微生物,实现检测与数据的转换。数据分析中应考虑预期用途、软硬件功能、数据存储位置、版本号及信息备份等。同时应确保患者信息安全,设置读取规则、人员权限、数据异常提取的警报。目前已经具有商业化的自动分析系统可以选择,实验室也可选择与国际同步的算法和软件,搭建实验室自己的分析流程,搭建过程中应选已知阴阳性样本或质控品进行生物信息学分析能力模拟测试。
1.序列质量:碱基质量值是衡量测序质量的重要指标,用于评估下机序列数的准确度。质量值(Q)越高代表碱基被测错的概率(P)越低,两者关系为Q=-10 lgP。Q20对应的测序错误概率为1%、准确率99%。Q30对应的测序错误概率为1‰、准确率99.9%。常用Q20和Q30分别代表质量值≥20或30的碱基所占百分比。实验室应要求保证Q30至少达到85%[54]。在对测序数据进行分析之前,应首先进行质量控制,去除读长过短(如<50 bp)和低质量的序列,获得的高质量序列再与人源基因组比对去除,剩余序列进入后续的微生物检测分析[11, 14, 15]。
2.判读标准:判读标准与测序数据量密切相关,在生物信息学分析流程搭建和优化过程中,应确定判读标准,以区分阴阳性结果。实验室应对不同类型的临床标本和不同类型微生物建立不同的判读标准。判读标准应包括但不限于检出序列数、基因组覆盖度、微生物丰度、测序深度、离散度、RPM比值等技术指标[7, 11, 14, 26, 35]。
高通量测序得到的是大量短序列(通常在100 bp以内),因此,当序列比对到参考序列时,如同时出现人源和某种微生物,则优先判为宿主序列。判读为某微生物属水平的序列数应大于种水平。当种水平序列数越接近属水平,则该物种的可能性越高。比对到微生物的序列数与基因组测序覆盖度呈正相关。实验室可根据基因组覆盖度、序列特异性等参数计算出病原微生物检测可信度(%),便于临床判断。
其他判读方法:有文献通过自建参考品先设定判读标准,再采用临床标本进行判读标准的确认。也有文献通过检测一定数量的已知阴阳性样本,采用统计学方法,如受试者工作特征曲线或准确率-召回率(precision-recall,PR)曲线来确定合理的判读标准[27]。
3.阳性阈值:判读为阳性的界值即为阳性阈值。阈值的设置与检出序列数、检出序列的特异性、特异序列的基因覆盖度、该物种同源性复杂程度以及检测灵敏度有关。即使病原微生物也应制定阳性阈值。针对某些特殊传染病病原微生物,在排除污染的前提下,即使检出1条序列也应视为阳性,如MTB、鼠疫耶尔森菌及流行性出血热病毒等[7, 29, 55]。
4.数据库:包含两个部分,即微生物检测数据库和人源数据库。微生物检测数据库包含细菌、真菌、病毒和寄生虫基因组序列信息,其中支原体、衣原体、螺旋体、立克次体视情况可独立也可并入细菌类别中。公共数据库需经验证方可使用。构建微生物数据库应优先选择全长参考基因组以及测序质量高、样本来源、临床信息完整的序列。临床重要的病原微生物应入选具有时间和地域代表性的毒菌株基因组。有条件应构建科研数据库二级数据,以确保重要的病原微生物不错报、不漏报。人源数据库是为去除人源序列干扰而设计,包含染色体基因组、线粒体基因组及转录组等序列信息。收录的信息应确保准确、完整、有详细注释,不是越多越好。推荐采用模拟数据对数据库的有效性进行验证(见本文第四章第三节分析性能确认)[56]。
5.具备数据库更新能力:实验室应持续跟踪使用版本的数据库。应使用标准化数据集对更新后的数据库进行验证,确保数据的准确性和可重复性。
6.建立背景微生物数据库:mNGS可能含有多种微生物信息,其中不乏正常菌群、污染微生物及背景微生物[57]。应建立人体不同部位正常种群数据库,并纳入报告分析解读流程。虽然有些微生物存在于标本中,但与疾病无关,应在报告中去除或说明。此外,mNGS流程中所用的各种试剂中也可能存在微生物个体或核酸,应建立试剂背景微生物序列数据库,在报告中予以去除。
7.建立错误数据修正机制:mNGS同样存在测序错误的情况,因此需去除原始下机数据中的低质量序列,包括测序接头污染的序列、质量值低的序列及短重复序列等。由于mNGS为批量标本平行上机测序,难以完全避免标签跳跃,应通过技术手段与分析流程防止高拷贝微生物序列污染平行上机样本。
建议7 实验室需通过已知标本确立不同类型标本个性化的测序数据量、验证序列质量值、确定判读标准及不同类型微生物阳性阈值。在进行序列比对时掌握如下原则:序列比对一致性相同优先考虑人源序列,该序列与数据库中微生物种属匹配度高、属水平序列数大于种水平、种序列数越接近属水平则确认该种的可能性越大、结果的可靠性与基因组覆盖度成正比、低于阳性阈值的病原微生物不可轻易放过,需结合临床或复检或重留标本再测。
建议8 实验室应使用国际公认或经验证或文献推荐的公共数据库,包括人源数据库与微生物数据库。实验室可在临床用库的基础上建立二级科研数据库,以便应对罕见或新发微生物。建立生物信息学分析程序并进行性能确认,确定测序数据量与不同类型微生物的判读标准。生物信息学分析程序满足预期检测性能参数,结果应符合预期要求。实验室应建立监测生物信息学分析程序,记录分析流程中各组分改变或版本更新(如软件升级、数据库更新、脚本更改等),定义流程及数据库的版本号,以保证报告的可溯源性。
(六)检验报告
1.基本要求:过滤后的序列才可用于微生物检测报告,用于种属检测的短序列应为特异序列,特异序列作为最后报告的阳性阈值。正式报告单应包括测序总序列数、内标检测数据量、检测病原微生物列表、检出病原特异序列数量、检测病原范围、测序数据质量、检测方法及检测技术说明。同时对相关专业术语进行解释说明,并注明检测方法的局限性、检测的灵敏度和特异性以及疑似背景微生物等。由于测序可检出以往罕见的病原菌,需解释物种来源、致病性、流行病学特点及最新研究结论等[58]。科研mNGS报告应满足用户要求。实验室应保留所有检出的微生物参数,包括但不限于比对序列数、相对丰度、基因组覆盖度和测序深度等。
2.报告单的使用:从技术角度讲,mNGS阳性或阴性结果不能作为临床诊疗决策的唯一依据,即使无菌部位标本的mNGS结果也需结合临床表现或其他检查结果进行综合判断。mNGS检出或未检出某物种的核酸片段,提示患者标本中含有或不含有该物种核酸,但不能明确该物种与感染的关系,即mNGS阳性不一定是病原微生物。另一方面,受取样及病程变化、测序策略本身的灵敏度局限、实验室检测能力和生物信息学分析水平的影响,mNGS检测阴性结果也需结合临床进行判定。从法律角度讲,无认证实验室的检测结果不能成为诊断依据,仅做研究所用。因此,目前国内任何实验室出具的mNGS微生物检测报告均不可直接用于临床诊断,也不应成为医疗文书[59]。
建议9 用于临床辅助诊断的mNGS报告应包括测序总序列数、检测病原微生物列表、检出病原特异序列数量、检测病原范围、覆盖度、测序深度、检测方法及检测技术说明。mNGS结果的本质与PCR相似,代表临床标本中检出或未检出某微生物的核酸片段,不能明确该物种与感染的关系,即使阴性结果也需结合临床表现及其他检查结果进行综合判断。