一维色谱峰检测/1D peak detection
项目负责人:徐巨才 博士
目前国内外一维色谱工作站较为成熟,色谱设备均随机销售并安装有相应工作站,此外,Origin、Matlab等均可进行简单的一维色谱峰检测处理,可满足一般的数据分析需求。在此,小编慎重劝告大家:生命的意义在于站在巨人的肩膀上眺望更远的远方,不在于折腾,如非必要,建议采用现有工作站或商业化软件进行数据处理,。
本站因成员攻博期间二维色谱峰检测算法研究需要,根据简单的求导算法,开发了简单的一维色谱峰检测软件(spectradoctor),为进一步促进国内一维色谱峰检测算法的完善和发展,同时帮助其他类似科研人员,特将其开源并介绍如下,欢迎感兴趣的科研学者下载和使用。注意使用以下成果请注明以下任一引用:
[1] Xu J, Zheng L, Su G, et al. An improved peak clustering algorithm for comprehensive two-dimensional liquid chromatography data analysis[J]. Journal of Chromatography A, 2019,1602:273-283.
[2] 徐巨才. 停流型二维液相色谱系统的构建及其在食源性蛋白水解物分离及活性在线检测中的应用[D]. 华南理工大学, 2019.
本软件应用范围包括一维液相色、气相色谱、红外光谱等数据处理,可实现一维色谱峰检测、峰宽及面积计算、色谱峰拟合等,所有源码均开放,使用者可根据自身需求计算其他结果。以下为该软件对一混标RPLC分离图谱的全自动检测结果。以下图(图1)为例,解释该软件参数设置及其含义如下:
图1 spectradoctor对混标RPLC分离图谱的检测结果
2nd D PA:表示当前模式为第二维色谱峰处理,亦可针对单维色谱数据的处理;第二选项1st D PA:第一维色谱峰处理,主要针对第一维色谱峰的组分数进行处理计算处理(试验功能,赞不建议使用);
File Path:文件路径,点击左上角文件按钮打开目标数据后,在此显示该文件路径;目前支持数据类型仅包括:*.xls, *xlsx, *.csv, *.txt, *.mat。 其中,前三种数据格式要求色谱数据为纵向排列,且无任何非数字类型数据(如抬头time,mAU等文字)。*.csv数据类型主要为Agilent Openlab原始数据类型,可直接加载无需处理。*txt数据主要针对Thermo Chromeleon原始数据输出类型,默认设置数据起点位于44行,如加载失败请修改该起点行数(如需帮助可联系本站)。mat数据类型为本软件处理后所存储的Matlab格式数据。
Variable:表示批量处理过程中当前样品序号Y1,依次可分别为Y2、Y3等,注意批量处理时,色谱原始数据应处于同一文件夹下,且其命名需按照最后一位数字递增,如:xx-1.txt;xx-2.txt;xx-10.txt等。
shifting Cor:偏移校正,该参数主要用于在第二维液相色谱中设置当前色谱图较上一图谱的整体微量偏移值(以时间单位计)。
ShowN:当前图谱显示数量,如输入1,表示增加显示前后各样品的图谱,用于显示调整shifting Cor的值。
Confirm:用于输入shifting Cor值后确认进行偏移校正,确认后方可将偏移后的新数据用于色谱数据处理。
Confirm右侧显示框:当前数据处理提示和处理进度显示。
Smooth W:平滑窗宽点数,设置时根据检测器采集频率及峰宽调整,点数越高,平滑效果越强,但点数过高,可能导致失真。
Min Ph:最小峰值,注意是峰值,不是峰高,-inf表示负无穷大。
Min Pp:最小相对峰高,注意是峰高,区别于Ph。
Pw Min 和Max:分别表示最小和最大峰宽。
Min Pd:最小峰间距;
Min Pa:最小峰面积;
ThrY1st:峰边界弯曲程度设置,为峰边界的一阶导数阈值。
ThrY2nd:色谱峰弯曲程度,为二阶导数阈值,该值越大,表示对色谱峰尖锐程度要求越大。
Pw:色谱峰宽计算高度,默认半峰宽0.5。
Isocractic End Point:等度结束点,主要用于梯度分析时,设置梯度分析起点。注意该点前后将采用不同的ThrY1st设置,等度分析段采用ThrY1st值,而梯度分析段的一阶导数将整体减去ThrY1st再检测色谱峰,这有利于改良梯度分析段的峰检测。
Peak End Star Distance:此参数用于设置跨峰时距离,该参数目前存在部分bug,使用时需注意。
ShoulderP:肩峰检测开关,可写入On或off。
ThrY1stforSholderP:肩峰检测阈值,该值越高,肩峰检测约灵敏。
Subtrac Baseline From:用于批处理时扣除基线,注意该参数启用后,所有批量数据均将扣除该序号指定样品基线。
Calculate:待所有参数均合理设置后,点击该选项进行峰检测和积分计算。
Remove Peak:点选该选项后,鼠标将变成十字形,在色谱峰内单击,将去除该色谱峰,注意,该操作不可撤销。此选项主要为峰拟合设置,通常无需使用,注意该选项激活后需再次单击方可进行其他选项。
关于峰拟合:
图2 spectradoctor对混标RPLC分离图谱的拟合结果
二次示例:


图4 某样品的一维色谱峰拟合结果
注:黑色为原洗脱曲线,绿色为拟合去卷积后的峰情况,红色为拟合后的整体曲线,红色*标识峰顶点,蓝色标识基线。
Ps:拟合色谱峰峰形选项,1为高斯峰,2为指数变化型色谱峰(含拖尾)。
PSc:峰拟合漂移检查阈值。
Multipeakfit:峰拟合开关,需在calculate完成后方能进行,拟合后将在右上角提示窗口显示拟合系数,其中红色曲线为最终拟合曲线,绿色为拟合曲线(峰值偏移小于原检测值PSc以内),蓝色为拟合曲线(峰漂移大于原检测值超过PSc),黑色为检测曲线
Pr:输出拟合结果至Matlab FIgure,以便于数据可视化展示。(注意如需输出原检测结果图形,请点击左上角打印按钮)。
Previous,Save and Load, Next均为批处理时所用控件,注意,点击Save and Load后将自动加载下一样品数据,仅需直接点击Calculate即可计算。如下一针样品数据尚未处理,请勿点击Next(Next控件仅用于浏览已处理数据)。
Skip to:输入指定样品序号,主要用于批处理时,浏览指定样品处理结果(必须该样品已处理完方可浏览)。
图形框中参数Pn:峰检测数量;Pc:峰容量;Paw:平均峰宽,主要用于色谱方法优化时参考。
上述程序目前尚依赖于Matlab 2015a运行,请以Debug模式运行,如直接运行可能导致右上角的放大和缩小工失效。上述程序的python升级版正在进行中,敬请期待!
[1] Xu J, Zheng L, Su G, et al. An improved peak clustering algorithm for comprehensive two-dimensional liquid chromatography data analysis[J]. Journal of Chromatography A, 2019,1602:273-283.
[2] 徐巨才. 停流型二维液相色谱系统的构建及其在食源性蛋白水解物分离及活性在线检测中的应用[D]. 华南理工大学, 2019.
文章末尾固定信息


评论