学术交流
动态信息

【JIOHS】好文荐读|西安电子科技大学吕锐婵教授课题组:机器学习与光谱融合用于生物成像及肺癌细胞/组织筛查

来源:   作者:  发布时间:2022年03月10日  点击量:

本文介绍的是西安电子科技大学吕锐婵教授课题组对“机器学习与光谱融合用于肺癌细胞/组织筛查”的研究工作。发表在《Journal of Innovative Optical Health Sciences》期刊2022年第2期。

Early diagnosis and bioimaging of lung adenocarcinoma cells/organs based on spectroscopy machine learning

机器学习与光谱融合用于肺癌细胞/组织生物成像及筛查

Xiangrong Peng, Ruiyi Dai, Yaqun Ma, Bi Lin, Xin Hui, Xueli Chen and Ruichan Lv


研究背景

肺腺癌是常见的肺癌类型,占肺癌总数的40%~50%,更早、更准确地检测出肺腺癌,有助于对实施患者更有效的治疗。近年来,针对肺癌的无损化检测手段是研究的热点,其中傅里叶转换红外光谱技术(FTIR)作为一种高效快速的现代光谱分析技术具有巨大的潜力。FTIR通过探测分子内部的原子振动和旋转等信息来确定分子结构和物质成分,因此可以有望用来区分正常和癌症组织或细胞。研究者通过机器学习融合FTIR,建立光谱与其相应生化性质之间的关系模型。当用于未知样品检测时,就可以使用机器学习模型对待测样品(正常/癌组织)的光谱图进行计算,从而实现对该样品的定性判别。如何确定肺腺癌样本、正常样本与其红外光谱之间的联系是使用红外光谱技术进行癌症诊断的难点。


内容简介

在这项研究中,通过收集来自正常和患者细胞/组织的光谱数据,例如FTIR、紫外可见吸收光谱和荧光光谱,提出了一种肺腺癌的早期快速诊断和体内成像方法。研究者收集人正常肺上皮细胞(BEAS-2B细胞)和人肺腺癌细胞(A549细胞)的FTIR光谱。数据清洗后,采用特征选择算法选择重要波长,然后采用支持向量机(SVM)分类模型和网格搜索法选择最优模型参数(训练集准确率:96.89%;测试集准确率:88.57%)。采用最优模型对所有样本进行分类,准确率为94.37%。此外,本文还探究了制备花青素并用于细胞内吸光度和荧光,并使用机器学习算法进行分类(训练集准确率:91.38%;测试集准确率:80.77%)。最重要的是,可以使用花青素进行体内癌症成像。结果表明,肺腺癌与正常肺组织在分子水平上存在差异,反映了该算法辅助花青素成像在肺癌诊断中的准确性、直观性和可行性,有望成为为基础研究和临床诊断提供准确有效的技术手段。


图文导读

1.FTIR原始曲线

图1:(a)原始样品FTIR光谱;(b)原始样品各类别平均光谱的FTIR曲线,红色曲线属于A549 细胞,绿色曲线属于 2B 细胞。

所有样本都是混合的,几乎不可能用简单的边界区分这两种。可以发现,2B和A549的变化趋势非常相似,没有出现新的特征峰(图1(b)),但部分特征峰的峰高或峰面积或局部存在差异。波段,这些差异主要位于波数 400 cm1 处。在 400~1300 cm1 和 2000~3500 cm1 有两个明显的低噪声带,在 500~2000 cm1 和 3500~4000 cm1 有高噪声带。这些特征峰的高度反映了不同细胞之间的差异。

2.异常样本检测

图2:使用孤立森林算法对(a) 2B 和 (b) A549 样本进行异常样本检测。

在光谱采集过程中,光谱仪存在光源抖动、光源温升和环境变化等随机因素,使得采集的光谱数据成为随机变量。当误差强度大于有用信号的强度时,光谱数据无法真实反映物质成分含量等信息。如果使用这些异常样本直接建立模型,所得模型的可靠性和鲁棒性存在严重问题。孤立森林算法是一种适用于连续数据的无监督异常数据检测方法。在孤立森林中,数据集被递归地随机划分,直到所有样本点都被孤立。在这种随机分割策略下,异常点通常具有较短的路径,并使用路径长度或异常分数进行排序,以及适当的阈值根据具体任务选择。图 2(a) 和 2(b) 显示了使用孤立森林算法检测 2B 和 A549 中的异常样本,得分低于 -0.09 的样本被认为是异常样本。第 23、30、33、 73是去除2B中去除的样本; 第 4、15、17、54 和 107 号是 A549 中去除的样本。

3.在FTIR中选取特征波长

图3:(a)CARS算法关键参数与MC采样次数的关系。第一行:每次采样后保留的变量个数;第二行:PLSR模型每次采样的系数回归图;第三行:建立的PLSR模型修正了集合的均方根误差;(b)使用CARS 算法选择的波长。(c)SPA算法选择的变量数量及其对应的RMSE。(d) SPA算法选择的重要波长。

我们采用CARS算法和SPA 算法来寻找特征波长。对于CARS 算法,图3(a)的第一行显示了每次采样后保留的频谱波数。从图中可以看出,当使用EDF 计算每次采样的保留变量个数时,执行的是 CARS算法的初始阶段,没有任何信息的波长被快速过滤掉,经过多次 MC 采样后,保留的波长数量趋于稳定。图3(a)的第二行显示了在每个波长的每个 MC 采样之后建立的 PLS 的回归系数记录。图3(a)的第三行显示了根据每次采样后保留的谱变量建立的 PLS 模型的验证集的均方根误差(RMSECV)。具有最低 RMSECV 值的最佳子集由垂直虚线标记。初始阶段删除了大量波长,但均方根误差确实下降缓慢,说明删除的波长均无信息冗余;当进行第121 次 MC 采样时,此时 RMSECV 值达到最低值,保留波长数为 24。如图3(b)所示,所选变量集中在 3700 cm1 附近。特征数量从 7469 个下降到 24 个,减少了 99.67%。当采样次数继续增加时,RMSECV迅速增加,说明信息波长数开始被删除。对于 SPA 算法,如图3(c) 所示,当最大选择变量为 200 时,F 检验表明,当保留波长变量的数量为 7 时,保留变量数量的增加没有对减少RMSECV 的显著影响,如图3(d) 所示。这7个波长是SPA算法提取的重要光谱特征,特征数量从7469个下降到7个,减少了99.91%。

4.不同分类模型性能分析

图4:(a) 使用特征选择加上 SVM 网格搜索性能分析的 AUC 和准确度值。 (b) 不同特征提取策略的模型性能(检测时间和准确度值)分析。

基线模型使用SVM 网格搜索而不使用特征选择算法获得的最优模型。因为没有信息丢失,所以基线模型具有最高的 AUC 值。 LASSO、UVE、SPA 和 CARS 的 AUC 值接近基线模型,说明这些特征算法可以减少波长并保持模型稳定,但 UVE 算法保留的波长远多于其他三种算法,说明提取的波长仍然包含许多未知的波长。CARS模型具有最低的AUC值、训练集精度和测试集精度,这意味着它提取的特征波长具有最少的光谱信息。Union模型是LASSO、SPA、CARS三种特征选择算法的结果的并集,采用SVM网格搜索,是一种特征融合策略。直观的发现Union的AUC值几乎和基线模型是一样的,即具有基线模型一样的稳定性,这证明了3种算法的特征融合几乎保留了谱中的所有信息特征, 是所有模型中训练集和测试集性能中最好的,很容易超过基线模型。特别是测试集的准确率远高于其他模型,显示了Union模型强大的泛化能力。Union模型的优异性能证明了特征融合策略可以有效地融合各个特征提取算法的优势,更大程度地保留频谱中的有效信息。

5. 花青素数据和特征波长选择

图5:(a) 不同 pH 值下花青素的原始吸收光谱和 (b) 平均吸收光谱。 (c) CARS算法关键参数与MC采样次数的关系。第一行:每次采样后保留的变量数;第二行:PLSR模型每次采样的系数回归图;第三行:建立的PLSR模型修正了集合的均方根误差。(d) 使用 CARS 算法选择的波长。

由于癌细胞的异常增殖,导致肿瘤细胞与正常细胞具有不同的微环境pH值,癌细胞及微环境为弱酸性。因此,我们采用花青素这种pH敏感型染料对细胞进行标记。如图5(a)和5(b)所示,随着pH值的降低(从7到6.2),吸光度会降低,5(c)和5(d)为使用特征波长选择算法筛选的结果,使用优化算法进行分类(准确度:86.90%)。此外,花青素荧光可用于细胞内和体内成像。

6.花青素对正常/肺癌细胞的生物成像

图6:(a)花青素的°荧光光谱和(b)花青素的细胞内荧光。所有比例尺均为 50 m。(c)是(b) 的荧光强度的定量分析。请注意,强度是通过将每个图像切割成 20*20 块获得的。

花青素的荧光光谱(激发和发射光谱)如图9(a)所示。从9(b)可以看出,肿瘤细胞和正常细胞的荧光强度在0 h时处于相同水平。随着时间从0 h到2 h,肿瘤细胞的荧光强度逐渐高于正常细胞。在 2 h 时,两者之间的荧光强度差异达到最大值。在这里,当我们将图 9(b)中的图像切割成 20*20 块并获得每块的荧光强度时,0 h 和 0.5 h 组的正常细胞和肿瘤细胞之间的 P 值没有显着性,不能区分两者差别。当染料分别进入正常细胞和肿瘤细胞时,各组1h 和 2 h的P值有显著差异。结果表明,癌细胞可以比正常细胞更快、更高地进入细胞内,表明其不仅可以用于机器学习算法的快速分析还能进一步进行体内的成像。


通讯作者简介

吕锐婵,西安电子科技大学教授/博导。洪堡学者,陕西省普通高校“青年杰出人才”“华山学者”“菁英人才”。“生物材料与信息转化BIT”团队负责人,近年来主要从事影像材料、生物信息、疾病诊疗等。主持多项国家自然科学基金和横向项目,国家重点研发计划骨干,并与医院和企业合作推进生物材料、影像探针的临床应用。发表第一/通讯作者SCI论文47篇,封面论文10篇,授权专利、软著等9项。现任中国医药生物技术协会造影技术分会委员(2019-2023),中国光学学会生物医学光子学专委会青年委员(2021-2026);获“徐叙瑢发光学优秀青年学术论文奖”、珠海分子影像“青年学子奖“等。