廣東科學(xué)院微生物所吳清平院士團(tuán)隊(duì):基于代謝組學(xué)和深度學(xué)習(xí)的單增李斯特菌快速鑒定新方法
2022年4月26日,廣東省科學(xué)院微生物研究所吳清平院士團(tuán)隊(duì)與暨南大學(xué)食品科學(xué)與工程系丁郁教授合作,提出了一種基于代謝組學(xué)和深度學(xué)習(xí)的單增李斯特菌快速鑒定新方法。相關(guān)研究成果以題為“Novel method for rapid identification of Listeria monocytogenes based on metabolomics and deep learning”發(fā)表在食品領(lǐng)域國(guó)際期刊《Food Control》(中科院1區(qū)Top期刊,IF=6.652)上。
成果簡(jiǎn)介
單核細(xì)胞增生李斯特菌是一種重要的食源性病原體,可導(dǎo)致免疫功能低下的個(gè)體、孕婦、胎兒、新生兒和老年人爆發(fā)李斯特菌病。李斯特菌病的死亡率為 20-30%,單核細(xì)胞增生李斯特菌是與食物中毒相關(guān)的第三大致死病因。因此,快速識(shí)別和檢測(cè)李斯特菌對(duì)食品安全至關(guān)重要。基于質(zhì)譜法的代謝組學(xué)可以作為檢測(cè)病原體和腐敗微生物的平臺(tái)。然而,基于質(zhì)譜的低分子量生物標(biāo)志物的準(zhǔn)確定量通常受到同位素標(biāo)記標(biāo)準(zhǔn)和復(fù)雜規(guī)程的限制,不利于大規(guī)模應(yīng)用。
本文開(kāi)發(fā)了一種將代謝組學(xué)與深度學(xué)習(xí)相結(jié)合的新方法來(lái)鑒定單核細(xì)胞增生李斯特菌。建立了單核細(xì)胞增生李斯特菌三種潛在生物標(biāo)志物的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,預(yù)測(cè)準(zhǔn)確率為82.2%。此外,使用偽靶向代謝組學(xué)方法獲得了由29種代謝產(chǎn)物組成的代謝指紋,在層次聚類(lèi)分析中可以成功區(qū)分六種常見(jiàn)李斯特菌。本研究中建立的CNN模型的二元分類(lèi)器和多分類(lèi)器,用于識(shí)別單核細(xì)胞增生李斯特菌和常見(jiàn)病原體,預(yù)測(cè)準(zhǔn)確率分別為96.7%和96.3%。
實(shí)驗(yàn)流程
圖1. 本研究方法工作流程圖。
研究亮點(diǎn)
● 結(jié)合代謝組學(xué)和深度學(xué)習(xí)的平臺(tái)用于病原體鑒定。
● 篩選了三個(gè)代謝潛在生物標(biāo)志物用于單核細(xì)胞增生李斯特菌的鑒定。
● 建立了基于代謝指紋的CNN模型。
● 與傳統(tǒng)的 LC-MS 方法相比,檢測(cè)時(shí)間縮短至 12 分鐘。
圖文賞析
圖2. 過(guò)程質(zhì)量控制。(A) 正離子模式下質(zhì)量控制(QC)樣品的TIC圖;(B) 正離子模式下質(zhì)控樣品的內(nèi)標(biāo)響應(yīng);(C) 六種常見(jiàn)李斯特菌的主成分分析;(D) QC樣品的標(biāo)準(zhǔn)偏差。
圖3. 單變量和多變量分析。(A) VIP值的柱狀圖;(B) 單核細(xì)胞增生李斯特菌與其他菌株的火山圖,其中紅色和藍(lán)色的點(diǎn)符合P≤ 0.05和log2(FC)>1;(C)具有顯著代謝物的OPLS-DA模型的S圖,其|p(corr)|>0.5和|p|>0.1;(D)候選生物標(biāo)記物相關(guān)含量的箱線圖。
圖4. 通過(guò)t檢驗(yàn)生成的前50個(gè)代謝物的層次聚類(lèi)熱圖。圖中的每個(gè)彩色單元格對(duì)應(yīng)于數(shù)據(jù)表中的濃度,行表示樣本,列表式化合物。右側(cè)的代謝物編號(hào)與表S2中代謝物的編號(hào)相對(duì)應(yīng)。
圖5. 基于三種潛在生物標(biāo)志物的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型的混淆矩陣圖和接收器工作特性(ROC)曲線。(A) 測(cè)試集的ROC曲線(曲線下面積(AUC)為0.92);(B) 以混淆矩陣表示的測(cè)試集的預(yù)測(cè)結(jié)果;預(yù)測(cè)準(zhǔn)確率為82.2%。
圖6. 基于29個(gè)代謝特征作為代謝指紋的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型的混淆矩陣圖和接收器工作特性(ROC)曲線。(A) 測(cè)試集的ROC曲線(曲線下面積(AUC)為0.98);(B)以混淆矩陣表示的測(cè)試集的預(yù)測(cè)結(jié)果。
圖7. 常見(jiàn)病原體測(cè)試集(30%樣本)的卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)混淆矩陣圖。
圖8. 參與前四條通路的代謝物豐度變化。
表1. 內(nèi)標(biāo)響應(yīng)差異。
表2. 單增李斯特菌候選生物標(biāo)志物的單變量和多變量分析結(jié)果。
表3. 經(jīng)過(guò)LC-QQQ-MS確證后的單增李斯特菌候選生物標(biāo)記物的單變量分析結(jié)果。
表4. 通路分析結(jié)果。
研究結(jié)論
本研究開(kāi)發(fā)了一種新的病原體識(shí)別方法,包括使用基于特征代謝物L(fēng)C-QQQ-MS指紋的深度學(xué)習(xí)模型,并使用偽靶向代謝組學(xué)進(jìn)行潛在生物標(biāo)記物驗(yàn)證。該策略是代謝組學(xué)領(lǐng)域的一個(gè)新發(fā)展。篩選了9種差異代謝物作為候選生物標(biāo)記物,并使用LC-QQQ-MS驗(yàn)證了3種代謝物是可以在物種水平上識(shí)別單核細(xì)胞增生李斯特菌的潛在生物標(biāo)記物?;谌N潛在生物標(biāo)志物的CNN模型的最高預(yù)測(cè)準(zhǔn)確率為82.2%。然后選取29個(gè)代謝特征作為代謝指紋,并將其與深度學(xué)習(xí)識(shí)別技術(shù)相結(jié)合,預(yù)測(cè)準(zhǔn)確率提高到96.7%。此外,作者利用CNN模型對(duì)常見(jiàn)病原菌進(jìn)行了鑒定,預(yù)測(cè)準(zhǔn)確率為96.3%。
原文鏈接:https://doi.org/10.1016/j.foodcont.2022.109042