解放化學傢雙手!自動解譜軟件問世,60秒處理一個數據!解析核磁,以後就交給人工智能吧!

在合成有機分子和天然產物中,結構的確定是一項非常具有挑戰性的工作。結構上接近的異構體和非對映異構體在1D NMR光譜中的差異非常細微,要想區分它們得耗費大量的時間和精力。

利用計算機進行核磁譜圖識別給研究者提供瞭大量幫助,其原理是基於密度泛函理論(DFT)計算所有不確定結構非對映異構體的核磁位移,並使用相關系數、平均絕對誤差(MAE)和校正平均絕對誤差(CMAE)等參數將這些預測結果與已公佈的光譜數據進行比較。其中,DP4分析是一種特別強大的工具,它不僅可以預測分子的立構化學特性,還可以給出每個可能結構是否正確的概率,在天然產物及藥物合成中已有成功應用。

自發佈以來,DP4的計算過程已經進行瞭極大的簡化,用戶輸入越來越少。但是,最耗費用戶精力的仍然是NMR譜圖的歸屬問題,這不僅非常耗時費力,而且容易出錯。

少數商用軟件,如Mestrelab Mnova,雖然為1H NMR譜圖提供瞭歸屬算法,但無法對原始NMR數據進行自動處理和歸屬。

成果介紹

基於以上分析,劍橋大學Jonathan M. Goodman教授課題組針對1H和13C NMR原始數據,提出瞭一種譜圖自動處理和歸屬方法DP4-AI,它可以自動進行有機分子立構化學特性和結構歧義的預測。研究發現NMR-AI可以在1分鐘左右的時間處理完NNR原始數據,而此前同樣的任務大約需要8個小時,速率提升瞭480倍,每天可以處理的分子數量增加瞭60倍,這使得高通量NMR譜圖分析成為可能,為通過機器學習發現新的分子結構鋪平瞭道路。

解放化學傢雙手!自動解譜軟件問世,60秒處理一個數據!解析核磁,以後就交給人工智能吧!

DP4-AI的結構和計算流程

解放化學傢雙手!自動解譜軟件問世,60秒處理一個數據!解析核磁,以後就交給人工智能吧!
圖1. (a)DP4-AI的結構;(b)具有立體化學結構的示例可以使用集成在PyDP4中的DP4-AI進行自動預測。

DP4-AI包含瞭NMR-AI和PyDP4兩部分,其中NMR-AI負責處理用戶輸入的NMR原始數據,並進行化學位移的歸屬,PyDP4則對這一歸屬正確與否的概率進行計算,從而自動闡述分子的立體化學結構。

解放化學傢雙手!自動解譜軟件問世,60秒處理一個數據!解析核磁,以後就交給人工智能吧!
圖2. DP4-AI的整體結構。原始的NMR數據將會進行一系列處理,首先得到實驗性的多重位移值和積分值,然後程序對分子中的每個原子利用DFT計算其化學位移,並將其歸屬到實驗性位移上,最後程序會計算每個非對映異構體進行這種歸屬的DP4概率。

DP4-AI對NMR數據處理的流程如下:當用戶輸入原始NMR數據後,程序首先對相和基線進行校正,然後從中提取出各個峰的化學位移值,並計算積分值,利用DFT方法計算每個原子的化學位移並對其進行歸屬,最後DP4分析這種歸屬的概率,同時給出物質的化學結構。

DP4-AI中NMR峰的提取過程

解放化學傢雙手!自動解譜軟件問世,60秒處理一個數據!解析核磁,以後就交給人工智能吧!
圖3. 峰的提取過程。如果峰值低於二階導數的閾值(橙色)且高於強度閾值(藍色),則提取該峰。最終選擇的峰以綠色表示。

在提取1H NMR位移峰時,使用原始數據的一階和二階導數進行操作:如果峰的一階導數為零,二階導數最小,而且峰值在二階導數的幅度閾值以上以及第二閾值以下時,則提取該峰。以這種方式進行峰值提取時可以將兩個閾值設置得非常低,在盡可能多地過濾掉噪聲的情況下,盡可能少的丟失信號。

解放化學傢雙手!自動解譜軟件問世,60秒處理一個數據!解析核磁,以後就交給人工智能吧!
圖4. 多重峰提取(藍色)示例和反卷積模型(橙色)。信號峰用青色突出顯示,確定為噪聲的峰用紅色突出顯示。

為瞭避免將噪聲誤認為信號峰,研究者開發瞭一種利用目標模型選擇來消除噪聲的算法。間隔小於18 Hz的提取峰被分組在一起,形成瞭一個信號區域,對於每個區域,使用多個廣義洛倫茲線形函數構建線形模型,每個區域模型中的參數進行迭代變化,直到模型的積分收斂到相應光譜區域1%以內。如果模型的貝葉斯信息低於閾值,則認為這些參數描述的是噪聲,相應的峰會被刪除。

DP4-AI中NMR峰的歸屬

解放化學傢雙手!自動解譜軟件問世,60秒處理一個數據!解析核磁,以後就交給人工智能吧!
圖5. 使用分配概率矩陣M將計算出的位移分配給實驗峰。(a)將模擬計算出的光譜中的峰(藍色)分配給實驗光譜中的峰(橙色);(b)計算矩陣M,並計算最佳歸屬(青色);(c)在此示例中找到的最終歸屬。

研究者認為DP4-AI開發過程中最具挑戰性的工作是歸屬算法的開發,該算法將分子的每個非對映異構體中的原子分配給光譜中提取到的峰。研究者采用GIAO方法對不同峰進行分配,歸屬算法的核心是計算分配概率矩陣M,該矩陣的元素Mij是計算出的化學位移i對應於實驗峰值j的概率。矩陣M通過匈牙利線性和最小化方法找到最可能的分配結果。

解放化學傢雙手!自動解譜軟件問世,60秒處理一個數據!解析核磁,以後就交給人工智能吧!
圖6. 根據振幅概率密度函數的二階導數的最小值(右側),峰(左側)按振幅分組(落在虛線之間)。在該模擬示例中,結構中的碳原子數為9,計算每個組下邊界上方的峰的累積總和,分配給每個組的權重是結構中碳原子的數量除以該值,然後將最大的權重固定為1。

13 C NMR的算法還考慮瞭實驗峰的幅度。M中的每一個元素Mij乘以一個從實驗峰值j的幅度得出的權重因子Aj。13 C NMR光譜中的峰通常分為三組,可以通過幅度來區分:噪聲、1-原子信號和對應於多個等效碳原子的峰。為瞭捕獲這種變化,研究者估算瞭譜圖中峰值幅度的概率密度函數,當峰值中該函數的二階導數的最小值位於其振幅之間時,這些峰分為一組,然後使用每組中的峰數和結構中預期的碳原子數來計算振幅權重。

DP4-AI的性能評估

解放化學傢雙手!自動解譜軟件問世,60秒處理一個數據!解析核磁,以後就交給人工智能吧!
圖7. 用於評估DP4-AI性能的47個分子結構。分子AT3、TS3A、TS4和NL1A僅有相應的1H NMR數據,所有其它分子均具有1H和13C NMR數據;分子JB7、JB11、JB5和JB8的譜圖分別在溶劑甲醇、苯、DMSO和甲醇中得到,而所有其它分子則在CDCl3中得到。

研究者為瞭評估NMR-AI的性能,構建瞭由47個分子(每個分子平均3.49個立構中心)組成的測試組,其中包含瞭各種結構的碳骨架。測試組中包含瞭天然產物、合成中間體和天然產物的碎片結構,以盡可能包含更多類型的有機分子結構。

為瞭描述DP4-AI進行NMR預測的誤差概率,研究者測試瞭四個不同的統計模型,結果發現單區域3高斯模型得出的預測誤差最優。

解放化學傢雙手!自動解譜軟件問世,60秒處理一個數據!解析核磁,以後就交給人工智能吧!
圖8. 圖7中化合物的正確預測率,DP4-AI(橙色),成對歸屬算法(藍色)。

在最高的測試理論水平下,DP4-AI的可靠性與耗時的成對歸屬算法相似,而後者需要一位訓練有素的化學傢才能完成。在測試數據集中,正確有效的進行立體化學歸屬的概率約為3×10-8,表明DP4-AI的表現非常可靠。最令人印象深刻的是,DP4-AI在32和64個非對映異構體中正確對分子NP1和NP2的立構化學特性進行瞭歸屬。

解放化學傢雙手!自動解譜軟件問世,60秒處理一個數據!解析核磁,以後就交給人工智能吧!
圖9. NMR-AI處理NNR數據的速率對比。

NMR-AI可以在1分鐘左右的時間處理完NNR數據,而在此之前同樣的任務大約需要8個小時,這相當於每天處理的分子數量可以增加60倍。

小結

為瞭快速有效的處理NMR原始數據,劍橋大學Jonathan M. Goodman教授課題組提出瞭一種譜圖自動處理和歸屬方法DP4-AI,這種方法由NMR-AI和PyDP4兩部分組成,用戶隻需要輸入原始的NMR數據,程序就會自動提取各個峰值,並對其進行歸屬,直接給出最可能的分子結構以及這種歸屬的概率。研究者構建瞭由47個分子組成的測試組,發現程序正確有效的進行立體化學歸屬的概率約為3×10-8,並正確對分子NP1和NP2的立構化學特性進行瞭歸屬。僅需要1分鐘的時間,NMR-AI就可以處理完NNR數據,與之前的方法相比,速率提高瞭480倍,每天處理的分子數量可以增加60倍。

原文鏈接:

https://pubs.rsc.org/en/content/articlehtml/2020/sc/d0sc00442a

相关新闻