NEWS CENTER
新闻中心
公司始终坚持,品质至上,精益求精,用户至上,诚实取信,服务尽善尽美
一种质谱图分析方法、装置、计算机设备以及存储介质
[ 时间:2024-06-22 阅读:4685次 ]
[0034] 在质谱仪的实际使用中,大型质谱仪的使用对于空间有一定的要求,并不能满足所有的使用场景的分析需求,小型质谱仪由于体积更小,所以小型质谱仪的适用范围更广,本申请通过对小型质谱仪得到质谱图进行拼接处理,提高小型质谱仪的质谱图中包含特征数据的数量,在提高小型质谱仪的质谱图的数据质量的基础上,通过构建质谱分析模型,完成对肿瘤样品的肿瘤边界的描绘,提高确定肿瘤边界的准确性。[0035] 以下结合附图对本申请作进一步详细说明。[0036] 本实施例中如图1所示,质谱图分析方法的整个流程包括:使用采样试剂盒对外科手术中的肿瘤样品进行组织采样,使用小型质谱仪对采样得到的部分样品进行质谱分析,得到多个质谱图,然后使用小型质谱仪每个采样点的多个质谱图进行多谱合成,得到拼接质谱图,通过质谱分析模型对拼接质谱图进行分析,可以描绘出肿瘤边界,为肿瘤切除手术提供切除参考方案。上述质谱分析模型是使用临床的术中样品形成的代谢谱图数据库进行模型训练得到的,根据代谢谱图数据库的更新对质谱分析模型进行迭代更新,实现质谱分析模型的迭代,提高质谱仪分析模型的分析准确度。[0037] 在一实施例中,本申请公开了一种质谱图分析方法,具体包括如下步骤:步骤S101:对肿瘤样品进行多点采样,得到采样点的质谱图。
[0038] 具体地,采样点为肿瘤样品中的一部分,每个采样点的质谱图有多个。在手术过程中,医生在多点多方位采集特定微少量肿瘤组织后,通过试剂盒快速完成采样、萃取和离子化等操作,对毫克级的组织样品进行分析,将试剂盒带有电喷雾离子化针尖插入小型质谱仪器中,在高电压辅助下将含有代谢物的萃取溶剂喷出形成带电液滴,通过质谱设备对带电液滴进行分析自动化生成对应的质谱图,从而得到每个采样点对应的多个质谱图。[0039] 例如,对于某一个采样点得到的肿瘤样品,需要获取质荷比范围在200‑1000的质谱图,可以理解的是,使用小型质谱仪可以一次性获取到质荷比范围在200‑1000的质谱图,但是不同质合比对应的代谢物互相之间会产生影响,导致质荷比范围在200‑1000的质谱图中的强度峰值特征较少。如果将质荷比范围在200‑1000的质谱图分成多次获取,例如,依次获取质荷比范围在200‑400的质谱图、质荷比范围在400‑600的质谱图、质荷比范围在600‑800的质谱图、质荷比范围在800‑1000的质谱图,这样可以降低不同代谢物之间的影响,将上述四张质谱图进行拼接得到质荷比范围在200‑1000的质谱图,这种方式得到的质谱图的强度峰值特征相较于一次性得到的质谱图的增多。
基于上述描述,所以每个采样点对应多个质谱图。[0040] 步骤S102:对每个采样点对应的多个质谱图进行图像拼接处理,得到每个采样点对应的拼接质谱图。[0041] 具体地,对每个采样点的多个质谱图进行图像拼接处理,在本申请提供的实施例中,上述每个采样点对应的多个质谱图均为一级质谱图,且每个一级质谱图的质荷比范围不同。对于每一个采样点的多个质谱图,根据质荷比范围的不同进行拼接,例如,对于某一个采样点的多张一级质谱图,一级质谱图对应的质荷比范围有200‑400、400‑600、600‑800、800‑1000,质谱图的横轴为质荷比,纵轴为强度,图像拼接处理就是将上述四张质谱图的数据放置在一张质谱图中即拼接质谱图,拼接质谱图的横轴为质荷比,质荷比为200‑1000,纵轴为强度,即每一个质荷比对应的强度。[0042] 例如,通过小型质谱仪器对质谱图进行图像处理,收集5段一级质谱图,然后将五段一级质谱图拼接得到预设质荷比范围内的拼接质谱图,如图2所示,以139个胶质瘤样本为例,在正模式下获得的谱峰特征从常规的平均6个上升为40个,负模式下从11个变化为33个。在正模式下如果一次性得到较大质荷比范围的质谱图,则该质谱图对应的谱峰特征只有6个,如果使用上述质谱图拼接的方法将多个较小质荷比范围的质谱图拼接得到较大质荷比范围的拼接质谱图,则该拼接质谱图的谱峰特征有40个。
同理,在负模式下如果一次性得到较大质荷比范围的质谱图,则该质谱图对应的谱峰特征只有11个,如果使用上述质谱图拼接的方法将多个较小质荷比范围的质谱图拼接得到较大质荷比范围的拼接质谱图,则该拼接质谱图的谱峰特征有33个。通过图2的数据显示,通过图谱拼接的方式得到的拼接质谱图可以反映更多的谱峰特征,也为后续肿瘤样本的分析提供了更多的数据基础,进而可以提高对肿瘤样本分析的准确率。上述正模式为在物质离子化过程中让物质带上正电,对应地,上述负模式为在物质离子化过程中让物质带上负电。[0043] 参照图3,图3为某一采样点的肿瘤样品对应的拼接质谱图。本申请实施例的预设质荷比范围设置为60‑220质荷比,质谱图的横轴为质荷比范围,纵轴为质荷比对应的强度。[0044] 具体地,通过小型质谱仪器快速获取采样试剂盒电离后的带电液滴中的代谢物谱图,通过直接电离技术的采样试剂盒和小型质谱设备的结合,可以快速对大于80种代谢物进行术中同时检测,通过小型质谱设备对每个代谢物的带电液滴进行质谱分析得到对应的特定质谱图,并对每种代谢物的拼接质谱图中的代谢谱峰位置和电离子带电情况进行分析,得到对应代谢物的代谢谱峰特征强度。
[0045] 步骤S103:将拼接质谱图输入至预设的质谱分析模型中进行病理状态分析,得到病理分析结果。[0046] 具体地,获取上述拼接质谱图中每种代谢物的强度特征峰值;将上述强度特征峰值与上述质谱分析模型中预设的强度峰值阈值进行比较,得到每种代谢物的特征峰值强度差;根据上述特征峰值强度差,对上述强度特征峰值进行筛选,得到标准强度特征峰值。将上述标准强度特征峰值输入至预设的机器学习分类模型中,得到上述拼接质谱图对应的病理分析结果。[0047] 进一步地,拼接质谱图中包括各种代谢物的强度特征峰值,但是这些强度特征峰值可能会存在噪音,所以质谱分析模型中设置有每种代谢物对应的强度峰值阈值,当某一种代谢物的强度特征峰值超过上述代谢物对应的强度峰值阈值时,会将该强度特征峰值从拼接质谱图中的剔除,得到标准强度特征峰值,以减少拼接质谱图中的噪音,提高拼接质谱图中的强度特征峰值的数据质量,进而保证对肿瘤样品分析结果的准确性。[0048] 在一种具体的实施方式中,根据各种代谢物的强度特征峰值以及该代谢物对应的强度峰值阈值,计算得到特征峰值强度差,对上述特征峰值强度差进行判断,是否属于噪音数据,如果是则剔除,如果不是则保留,最终得到标准强度特征峰值。
[0049] 得到标准强度特征峰值之后,就可以使用标准强度特征峰值来进行肿瘤样品的病理状态分析,将标准强度特征峰值输入至预设的机器学习分类模型,得到病理分析结果,病理分析结果包括病理状态和病理状态对应的状态分布值。可以理解的是,机器学习分类模型是将判断某一个数据是否属于预设的A类、B类和C类,同时还会给出属于某一类的状态分布值,不同范围的状态分布值对应不同的病理状态。[0050] 在一种具体的实施方式中,上述病理状态表示肿瘤样品的类型,参照图4,肿瘤类型包括正常型、突变型和野生型。[0051] 参照图5,图5为根据本申请提供的实施例中使用降维聚类对异柠檬酸脱氢酶(IDH)野生型、突变型胶质瘤组织和癌旁进行聚类的结果。根据聚类的结果可以区分突变型、野生型和正常患者。[0052] 上述质谱分析模型通过以下方式确定:获取拼接质谱图数据集,上述拼接质谱图数据集根据以往手术中的肿瘤样品的相关信息得到,上述拼接质谱图数据集包括多个拼接质谱图和拼接质谱图对应的病理状态;将多个拼接质谱图和拼接质谱图对应的病理状态输入至预设的机器学习模型,构建拼接质谱图和病理状态的关联关系,得到质谱分析模型。[0053] 方法还包括:获取最新的病理分析结果,根据病理分析结果,得到肿瘤样品的分型信息,上述分型信息表示肿瘤样品的肿瘤形态和/或肿瘤类型,上述肿瘤形态可以为胶质瘤、垂体瘤等,上述肿瘤类型可以为野生型、突变型等。
根据分型信息的不同,将病理分析结果进行分类存储。根据质谱分析模型的实际分析需求,使用不同分型信息的病理分析结果和病理分析结果对应的拼接质谱图对质谱分析模型进行迭代训练,优化质谱分析模型。[0054] 在一种具体的实施方式中,以肿瘤类型为指标对病理分析结果进行分类存储,然后通过预设的机器学习模型对每个肿瘤类型下存储的病理分析结果进行数据训练,并根据训练结果对病理分析结果的质谱分析模型进行更新迭代,对质谱分析模型的肿瘤分析数据进行参数优化,从而得到优化后的质谱分析模型。[0055] 完成对上述质谱分析模型的训练之后,通过使用AUC(area under curve)评价质谱分析模型的训练情况。其中,AUC是指ROC曲线下与坐标轴围成的面积,由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。其中,接受者操作特性曲线(receiveroperating characteristic curve,ROC曲线),又称为感受性曲线(sensitivity curve)。接受者操作特性曲线就是以虚惊概率为横轴,击中概率为纵轴所组成的坐标图,和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。
[0056] 在具体的质谱分析模型的使用过程中,通过对139例肿瘤样品的研究,对使用质谱诊断模型诊断IDH突变情况的AUC超过0.95,同时对肿瘤组织和正常组织情况判断的AUC为0.867,如图6所示。通过AUC可以得知,质谱分析模型的真实性很高,所以可以使用质谱分析模型实现对肿瘤组织进行正常情况和IDH突变情况的病理分析并得到病理分析结果。[0057] 步骤S104:根据病理分析结果进行肿瘤边界模拟描绘,得到肿瘤边界。[0058] 具体地,根据病理状态和采样点对应的采样位置,确定病理状态在肿瘤样品上的分布情况;根据分布情况和病理状态对应的状态分布值,描绘肿瘤样品对应的肿瘤边界。[0059] 进一步地,获取在预设置信区间内的状态分布值和状态分布值对应的采样位置;根据状态分布值对应的采样位置,对在预设置信区间的状态分布值进行拟合,得到肿瘤边界。[0060] 在一种具体的实施方式,状态分布值的范围为0‑1,状态分布值越接近1表示越接近肿瘤的核心位置,状态分布值越接近0表示越远离肿瘤的核心,例如,将状态分布值为0.5对应的采样点的采样位置定义为肿瘤和正常组织的边界。当某一采样点对应的状态分布值低于0.5,表示该采样点的采样位置在肿瘤外部即属于正常组织;当采样点的对应的状态分布值高于0.5,表示该采样点的采样位置在肿瘤内部即属于肿瘤组织。
根据采样点的采样位置和采样点的状态分布值,拟合出一条状态分布值均为0.5的边界线,上述边界线即为肿瘤边界。[0061] 在另一种具体的实施方式中,状态分布值的范围为0‑1,状态分布值越接近1表示越接近肿瘤的核心位置,状态分布值越接近0表示越远离肿瘤的核心。设置预设置信区间为0.45‑0.55,将状态分布值位于预设置信区间的采样位置标注出来,根据标注出的采样位置和采样位置对应的状态分布值进行拟合,拟合出状态分布值为0.5的边界线,上述边界线即为肿瘤边界。[0062] 在其他的实施方式中,当采样点足够多时,状态分布值为0.5的采样位置较多,将状态分布值为0.5的采样位置依次连接形成肿瘤边界。[0063] 参照图7,其中包括12个采样点以及每个采样点的状态分布值,例如,1号采样点的状态分布值为1.90,2号采样点的状态分布值为2.00,3号采样点的状态分布值为1.14,4号采样点的状态分布值为2.42,5号采样点的状态分布值为7.65,6号采样点的状态分布值为3.74,7号采样点的状态分布值为1.03,8号采样点的状态分布值为3.06,9号采样点的状态分布值为0.80,10号采样点的状态分布值为0.03,11号采样点的状态分布值为0.03,12号采样点的状态分布值为0.02。
其中,10号采样点、11号采样点和12号采样点的状态分布值低于0.5,在肿瘤外部,其他点均高于0.5,位于肿瘤内部。通过对12个采样点进行空间位置匹配和数值拟合,可以识别出肿瘤的阈值边界轮廓,通过采样位置的状态分布值对肿瘤边界进行描绘,使得到的肿瘤边界更加流畅、更接近于实际肿瘤的肿瘤边界。[0064] 通过采用上述技术方案,根据病理分析结果得到每个采样点的病理状态以及病理状态对应的状态分布值,可以得到病理状态在肿瘤样品上的分布情况,根据状态分布值可以确定哪些采样点更接近肿瘤的边界,将根据接近肿瘤边界的采样点的位置,描绘肿瘤边界,可以为肿瘤的精确切除提供数据基础。同时根据状态分布值的不同,选择更接近肿瘤边界采样点的采样位置,然后根据多个接近肿瘤边界的采样位置对应的状态分布值进行拟合,使得描绘出的肿瘤边界更接近于实际的肿瘤边界,相较于将采样位置直接连线,提高了肿瘤边界的准确性。[0065] 应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。[0066] 在一实施例中,提供一种质谱图分析装置,该质谱图分析装置与上述实施例中质谱图分析方法一一对应。
如图8所示,该质谱图分析装置包括数据获取模块、图谱拼接模块、病理分析模块和边界描绘模块。各功能模块详细说明如下:数据获取模块201,用于对肿瘤样品进行多点采样,得到采样点的质谱图,采样点为肿瘤样品中的一部分,每个采样点的质谱图有多个;图谱拼接模块202,用于对每个采样点对应的多个质谱图进行图像拼接处理,得到每个采样点对应的拼接质谱图;病理分析模块203,用于将拼接质谱图输入至预设的质谱分析模型中进行病理状态分析,得到病理分析结果;边界描绘模块204,用于根据病理分析结果进行肿瘤边界模拟描绘,得到肿瘤边界。[0067] 优选的,图谱拼接模块202中进行图像拼接处理,具体包括:根据质谱图对应的质荷比范围的不同,将每个采样点的多个质谱图进行拼接,得到采样点对应的拼接质谱图。[0068] 优选的,病理分析模块203具体包括:特征获取子模块,用于获取拼接质谱图中每种代谢物的强度特征峰值;强度差计算子模块,用于将强度特征峰值与质谱分析模型中预设的强度峰值阈值进行比较,得到每种代谢物的特征峰值强度差;特征筛选子模块,用于根据特征峰值强度差,对强度特征峰值进行筛选,得到标准强度特征峰值;特征分析子模块,用于将标准强度特征峰值输入至预设的机器学习分类模型中,得到拼接质谱图对应的病理分析结果。
[0069] 优选的,边界描绘模块204进行肿瘤边界模拟描绘具体包括:情况确定子模块,用于根据病理状态和采样点对应的采样位置,确定病理状态在肿瘤样品上的分布情况;状态分布值描绘子模块,用于根据分布情况和病理状态对应的状态分布值,描绘肿瘤样品对应的肿瘤边界。[0070] 优选的,状态分布值描绘子模块具体包括:信息获取子模块,用于获取在预设置信区间内的状态分布值和状态分布值对应的采样位置;拟合描绘子模块,用于根据状态分布值对应的采样位置,对在预设置信区间的状态分布值进行拟合,得到肿瘤边界。[0071] 上述质谱分析模型的确定具体包括:数据集获取子模块,用于获取拼接质谱图数据集,拼接质谱图数据集包括多个拼接质谱图和拼接质谱图对应的病理状态;模型训练子模块,用于将多个拼接质谱图和拼接质谱图对应的病理状态输入至预设的机器学习模型,构建拼接质谱图和病理状态的关联关系,得到质谱分析模型。[0072] 上述质谱分析模型的确定具体还包括:分类存储子模块,用于根据病理分析结果,得到肿瘤样品的分型信息;根据分型信息,将病理分析结果进行分类存储;优化训练子模块,用于使用不同分型信息的病理分析结果和病理分析结果对应的拼接质谱图对质谱分析模型进行迭代训练,优化质谱分析模型。
[0073] 关于质谱图分析装置的具体限定可以参见上文中对于质谱图分析方法的限定,在此不再赘述。上述质谱图分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。[0074] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储现场术中样品的代谢谱图数据和对应的质谱分析模型的处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种质谱图分析方法。[0075] 在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种质谱图分析方法的步骤。
[0076] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。[0077] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0078] 以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。