本文介绍的是天津医科大学口腔医院张娟主任课题组应用拉曼光谱技术结合机器学习算法构建分类模型,对常见口腔牙周致病菌进行鉴别的研究,发表在《Journal of Innovative Optical Health Sciences》期刊2022年第3期。
Discrimination of periodontal pathogens using Raman spectroscopy combined with machine learning algorithms
拉曼光谱技术结合机器学习算法鉴别牙周致病菌
Juan Zhang, Yiping Liu, Hongxiao Li, Shisheng Cao, Xin Li, Huijuan Yin, Ying Li, Xiaoxi DongandXu Zhang
研究背景
牙周炎被公认为与全身性疾病密切相关,牙周感染引起上调的炎症介质可能通过血液传播并引发有害的全身性疾病。牙周致病菌是牙周炎的始动因子,多项研究发现全身性疾病标本中可检测出牙周致病菌,提示牙周致病菌及其毒素的全身传播可能导致全身性感染和炎症。为了研究牙周炎与全身性疾病之间的关系,正确鉴别牙周致病菌是极其重要的。近年来,应用拉曼光谱技术实现对细菌的无创、高效、快速鉴别,逐渐引起病原微生物学研究人员的关注。基于分子基团振动产生的拉曼光谱被认为是生物分子结构和组成的“指纹光谱”,机器学习的发展正在潜移默化地影响着医学发展模式,帮助研究人员作出更加准确的判断,拉曼光谱技术与机器学习算法相结合,广泛应用于微生物学的研究中。
内容简介
本文使用便携式拉曼光谱仪(恩威,美国)获取牙龈卟啉单胞菌(Porphyromonas gingivalis, Pg),具核梭杆菌(Fusobacterium nucleatum, Fn)和伴放线放线杆菌(Actinobacillus actinomycetemcomitans, Aa)的拉曼光谱数据,对拉曼光谱数据进行SNIP基线校正后,应用八种常见的机器学习算法构建分类模型,对这三种牙周致病菌的拉曼光谱进行区分。本研究为发现与牙周炎相关的全身性疾病的潜在致病机制提供了一种鉴别牙周致病菌的新策略。
图文导读
1.实验流程

图1:实验工作流程图
对三种牙周致病菌进行纯培养,调整样本菌液浓度至3x109CFU/ml,使用拉曼光谱仪获取菌液拉曼光谱数据,每个样本重复测量10次。将拉曼光谱数据随机分为训练集(75%)数据和测试集(25%)数据,应用八种常见的机器学习算法构建分类模型,对三种牙周致病菌的拉曼光谱进行区分。
2.三种牙周致病菌的拉曼光谱分析

图2:三种牙周致病菌的平均拉曼光谱
拉曼光谱信号提供了有关细菌的蛋白质、核酸、脂质和碳水化合物的信息,三种细菌的拉曼光谱特征峰表现出高度的相似性,说明三种细菌菌体物质如核酸、蛋白质、脂类和碳水化合物等含量接近,而机器学习算法可以发现人肉眼难以区分的拉曼光谱信息中的差异。
3.机器学习算法区分细菌的最优模型

图3:机器学习算法在样本或光谱级别区分细菌的准确率。横轴代表机器学习算法。ADA:自适应提升,ET:极限树,GB:梯度提升,LDA:线性判别分析,SVM:支持向量机,MLP:多层感知器,PAC:被动攻击分类器,QDA:二次判别分析。纵轴代表模型准确率。图A和 B表示区分三种细菌的最优模型。图例中的标签“Original” 表示模型是在原始数据上训练的。标签“FFT”表示模型是在傅里叶变换数据上训练的。图C和 D表示区分任意两种细菌的最优模型。图例中的标签代表任意两种细菌的区分。
图3中的条形图A和 B显示,在原始数据上训练的 ET算法在样本(准确率为 94.7%)和光谱(准确率为93.9%)级别上具有最高测试准确率。相比之下,在傅里叶变换数据上训练的LDA算法在样本(94.7% 的准确率)和光谱(88.7% 的准确率)级别上具有最高测试准确率。在样本级别,原始数据的最佳算法与傅里叶变换数据的最佳算法具有相同的准确率。然而在光谱级别,原始数据的最佳算法优于傅里叶变换数据的最佳算法。傅里叶变换的预处理方法对本实验而言并不会提高模型分类准确率。图3中的条形图C和 D显示了分类器在样本级别和光谱级别区分两种细菌的准确率。在样本级别(图 3 C),三组二分类数据的最佳模型分别来自LDA算法(AaVSFn,准确率 92.6%);ADA算法(AaVSPg,准确率 96%);以及ADA,SVM,MLP和 QDA四种算法(FnVSPg,准确率 91.7%)。在光谱级别(图3 D),三组二分类数据的最佳模型分别来自 LDA算法(AaVSFn,准确率92.6%);ADA算法(AaVSPg,准确率 95.6%)和 ADA算法(FnVSPg,准确率92.9%)。
4.二分类模型ROC曲线比较

图4:对于三组二分类数据,八种机器学习算法构建模型的ROC曲线:(A)Aa和Fn,(B)Aa和Pg,(C)Fn和Pg。这些结果是在原始数据的光谱级别产生的
图4 B和 C中的 ROC曲线表明,区分“Aa和Pg”和“Fn和Pg”的大多数模型在光谱级别上都具有良好的性能。相比之下,图4 A显示区分“Aa和Fn”的一半以上模型的性能比其他两个数据组的对应模型要弱。这些结果也通过图3 C和 D中的准确率比较得到证实。提示Aa和Fn之间的拉曼光谱捕获的信息差异略小于Pg和Aa、Fn之间的信息差异。
作者简介

张娟,天津医科大学口腔医院修复科副主任医师,硕士生导师。主要研究方向:骨关节病,口颌面部疼痛及影像学研究(CBCT,fMRI)等。从事调控关节骨和软骨炎症微环境治疗颞下颌关节紊乱病的作用和机制研究,基于医疗大数据构建牙周炎与糖尿病人工智能分析体系。主持天津市教委重大项目1项,参与国家级科研项目1项,省部级课题8项,获国家发明专利授权1项,获天津市科技进步三等奖一项。发表论文50余篇,以第一/通讯作者发表相关论文20余篇,其中SCI收录论文4篇。

李莺,天津医科大学口腔医院主任医师,副教授,硕士生导师。主要研究方向:基于学科交叉和理工医学结合,开展口腔种植材料和牙周药物研发与转化,通过调控种植体和牙周免疫和炎症微环境,促进抗菌、抗炎、种植体骨结合和软组织结合以及牙周软硬组织再生机制研究。主持完成国家自然科学基金1项,省部级项目1项,参与国家级项目3项,省部级项目5项。获天津市科技进步二等奖1项,授权国家发明专利2项、实用新型专利5项。担任Acta Biomaterialia, Materials Today Bio, oral diseases,placenta等杂志审稿人。国内外刊物发表文章40余篇,其中第一/通讯作者SCI论文18篇,中文核心期刊6篇,培养硕士研究生10 余名。

董晓曦,中国医学科学院生物医学工程研究所副研究员,长期从事口腔光医学方向医工结合合作研究。主持国家自然科学基金青年科学基金项目1项,协和青年基金项目1项,中央级公益性科研院所基本科研业务费项目1项;参与国家自然科学基金面上项目、北京市自然科学基金面上项目、天津市自然科学基金面上项目、北京协和医学院创新工程等多项项目,发表SCI文章3篇,在申和已授权专利19项。目前已有2项研究成果用于临床检测,共有131例病人因此获益。

张旭,天津医科大学口腔医院教授,博士生导师。主要从事生物纳米材料、口腔生物材料和组织工程研究。主持3项国家自然科学基金面上项目,主持1项国家自然科学基金青年项目,主持1项天津市应用基础及前沿技术研究计划青年项目,参与1项国家自然科学基金面上项目。同时,还参与了国家科技支撑计划等国家级和省部级课题4项。Journal of Endodontics杂志Scientific advisory board成员以及多个国际期刊审稿人。发表SCI收录论文50余篇,总被引用1224次(单篇最高引用次数70次),单篇最高影响因子30.254,累计影响因子423.184(5年平均)。申请国家发明专利11项,获得国家发明专利6项。