化学衍生化是质谱分析中的一种常用技术,被广泛应用于生物标志物发现、代谢组学及非靶向环境组研究中。但化学衍生化分子(CDMs)普遍缺少标准化的质谱谱图,难以实现高通量结构鉴定,是当前化学衍生组学亟待解决的瓶颈问题。
近日,我校化学学院李峰教授团队开发了一种基于深度学习的质谱谱图预测技术(DeepCDM),利用迁移学习和包含少量实验谱图的训练集,成功将通用性的谱图预测工具转化为针对CDM的专用预测算法,大大提升了CDM质谱谱图预测的准确性。基于DeepCDM,构建了丹磺酰化分子的专用模型Dns-MS,以及包含294647个丹磺酰化分子MS/MS谱图的专用质谱数据库DnsBank,并成功应用于非靶向环境组学,实现了工业废水中新污染物的高通量发现。
图1基于液相色谱-质谱(LC-MS)的化学衍生化分子(CDMs)非靶向分析
该研究以“Deep learning prediction of electrospray ionization tandem mass spectra of chemically derived molecules”为题发表在《Nature Communications》上,四川大学化学学院为第一通讯单位,四川大学化学学院硕士研究生陈斌和李海亮为共同第一作者,四川大学化学学院李峰教授和分析测试中心唐娅楠副研究员为共同通讯作者。
文章链接:https://www.nature.com/articles/s41467-024-52805-5