本發(fā)明涉及蛋白設(shè)計領(lǐng)域,更具體的是涉及一種基于多重序列比對的序列擴(kuò)散方法及其電子設(shè)備。
背景技術(shù):
1、在生物信息學(xué)領(lǐng)域,多重序列比對(multiple?sequence?alignment,msa)是研究同源生物序列及其進(jìn)化關(guān)系的重要工具。msa不僅用于識別相似序列中的保守區(qū)域,還幫助推測這些序列的共同祖先。隨著高通量測序技術(shù)的發(fā)展,生成的大量序列數(shù)據(jù)為生物學(xué)研究提供了豐富的資源,但同時也帶來了處理和分析這些數(shù)據(jù)的挑戰(zhàn)。
2、近年來,深度學(xué)習(xí)方法在序列分析中顯示出巨大潛力。深度學(xué)習(xí)能夠通過學(xué)習(xí)日益增長的數(shù)據(jù)中的隱含特征,捕捉序列間的復(fù)雜關(guān)系。卷積神經(jīng)網(wǎng)絡(luò)和transformer等架構(gòu)已被應(yīng)用于序列分類、生成和對齊等任務(wù)。然而,這些方法在處理復(fù)雜的生物序列時,仍然面臨著對長距離依賴關(guān)系的建模困難。因此如何提高對序列分析的準(zhǔn)確性從而生成高質(zhì)量且多樣性的序列是目前亟待解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的之一在于提出了一種新的方法,旨在提供能深度提取msa中的成對信息,并在此基礎(chǔ)上通過擴(kuò)散模型進(jìn)行加噪及反向去噪,以優(yōu)化序列生成模型的訓(xùn)練方法。
2、為實現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:一種基于多重序列比對的序列擴(kuò)散訓(xùn)練方法,包括以下步驟:
3、s1進(jìn)化編碼器:輸入msa和初始成對表征,所述初始成對表針以序列距離矩陣的形式呈現(xiàn),對所述msa進(jìn)行掩碼和嵌入獲得msa表征;通過成對更新模塊和msa更新模塊對所述msa表征和初始成對表征進(jìn)行修正,得到更新后的msa和成對表征;
4、s2擴(kuò)散解碼器:從msa中隨機(jī)選取得到初始序列,對所述初始序列進(jìn)行成批加噪得到加噪序列,將所述加噪序列向量化得到單一表征,將單一表征和s1步驟得到的更新的成對表征進(jìn)行融合,并輸入時間步長,經(jīng)去噪模塊去噪,輸出更新的單一表征,根據(jù)更新后的單一表征和msa得到預(yù)測序列信息;
5、通過計算所述預(yù)測序列信息與真實序列信息的總損失函數(shù)以修正去噪模塊、更新模塊和msa更新模塊;
6、重復(fù)s1和s2步驟,直至達(dá)到預(yù)設(shè)的訓(xùn)練結(jié)束條件。
7、作為優(yōu)選,在所述s1步驟中,輸入的msa需進(jìn)行采樣,采樣要求為覆蓋率達(dá)0.75以上;序列的字符維度為21,所述序列的字符包括20種標(biāo)準(zhǔn)氨基酸和間隔字符。
8、作為優(yōu)選,在所述s1步驟中,所述成對更新模塊包括三角更新、三角注意力和過渡層;在所述s1步驟中,所述msa更新模塊包括行注意力和過渡層。
9、作為優(yōu)選,在所述s2步驟中,所述去噪模塊包括注意力層和過渡層。
10、作為優(yōu)選,所述s1步驟反復(fù)迭代6~84層后再進(jìn)行s2步驟;
11、所述s2步驟中,所述單一表征的生成方法為通過12~120層的自適應(yīng)層歸一化的擴(kuò)散變換器為每個加噪序列生成單一表征。
12、作為優(yōu)選,所述s1步驟反復(fù)迭代12~48層后再進(jìn)行s2步驟;
13、所述s2步驟中,所述單一表征的生成方法為通過24~72層的自適應(yīng)層歸一化的擴(kuò)散變換器為每個加噪序列生成單一表征。
14、作為優(yōu)選,在所述s2步驟中,所述單一表征以jax計算圖形式呈現(xiàn),所述jax計算圖為所述單一表征通過vmap進(jìn)行向量化得到。
15、針對現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的之二在于提出了一種新的方法,旨在提供能深度提取msa中的成對信息,精準(zhǔn)捕捉功能位點間的協(xié)同突變,并在此基礎(chǔ)上通過擴(kuò)散模型進(jìn)行反向去噪,以生成正向設(shè)計概率高的序列生成方法。
16、為實現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:
17、一種基于多重序列比對的序列擴(kuò)散生成方法,使用上述基于多重序列比對的序列擴(kuò)散訓(xùn)練方法完成訓(xùn)練后,
18、若原始序列未知,則在s1步驟中輸入不進(jìn)行掩碼的msa,在s2步驟中輸入隨機(jī)高斯分布作為初始序列,進(jìn)行反向過程逐步去噪生成序列;
19、若原始序列未知,則在s1步驟中輸入不進(jìn)行掩碼的msa,在s2步驟中輸入隨機(jī)高斯分布作為初始序列,進(jìn)行反向過程逐步去噪生成序列;
20、若原始序列已知蛋白基序,則在s1步驟中輸入不進(jìn)行掩碼的msa,在s2步驟中輸入所述蛋白基序作為初始序列,進(jìn)行反向過程逐步去噪補(bǔ)全剩余部分生成序列;
21、若原始序列已知,則在s1步驟中輸入不進(jìn)行掩碼的msa,
22、在s2步驟中輸入所述原始序列的蛋白基序作為初始序列,進(jìn)行反向過程逐步去噪補(bǔ)全剩余部分生成序列;
23、或在s2步驟中輸入所述原始序列作為初始序列,先進(jìn)行加噪然后進(jìn)行反向過程逐步去噪生成序列。
24、針對現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的之三在于提出了一種電子設(shè)備,旨在提供能深度提取msa中的成對信息,并在此基礎(chǔ)上通過擴(kuò)散模型進(jìn)行加噪及反向去噪,以優(yōu)化序列生成模型的訓(xùn)練系統(tǒng),該系統(tǒng)為實體,該實體存儲有實現(xiàn)上述訓(xùn)練方法的代碼。
25、為實現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:
26、一種電子設(shè)備,包括:
27、處理器以及
28、存儲器,所述存儲器存儲有可執(zhí)行代碼,當(dāng)所述可執(zhí)行代碼被所述處理器執(zhí)行時,使所述處理器執(zhí)行上述一種基于多重序列比對的序列擴(kuò)散訓(xùn)練方法。
29、針對現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的之四在于提出了一種電子設(shè)備,旨在提供能深度提取msa中的成對信息,精準(zhǔn)捕捉功能位點間的協(xié)同突變,并在此基礎(chǔ)上通過擴(kuò)散模型進(jìn)行反向去噪,以生成正向設(shè)計概率高的序列生成系統(tǒng),該系統(tǒng)為實體,該實體存儲有實現(xiàn)上述訓(xùn)練方法的代碼。
30、為實現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:
31、一種電子設(shè)備,包括:
32、處理器以及
33、存儲器,所述存儲器存儲有可執(zhí)行代碼,當(dāng)所述可執(zhí)行代碼被所述處理器執(zhí)行時,使所述處理器執(zhí)行上述一種基于多重序列比對的序列擴(kuò)散生成方法。
34、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:本發(fā)明采用二階段訓(xùn)練拆分了不同階段訓(xùn)練的目的,更便于模型的可解釋性以及靈活進(jìn)行領(lǐng)域子模型的訓(xùn)練。本發(fā)明聚焦于msa的特征提取,用更深層的注意力層提取msa中隱藏的成對信息,能夠有效捕捉到序列間的生物學(xué)相關(guān)性。本發(fā)明利用序列擴(kuò)散的方式,實現(xiàn)進(jìn)化信息指引的序列生成,能夠生成正確度高且多樣性的序列。
1.一種基于多重序列比對的序列擴(kuò)散訓(xùn)練方法,其特征在于包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于多重序列比對的序列擴(kuò)散訓(xùn)練方法,其特征在于,在所述s1步驟中,輸入的msa需進(jìn)行采樣,采樣要求為覆蓋率達(dá)0.75以上;序列的字符維度為21,所述序列的字符包括20種標(biāo)準(zhǔn)氨基酸和間隔字符。
3.根據(jù)權(quán)利要求1所述的一種基于多重序列比對的序列擴(kuò)散訓(xùn)練方法,其特征在于,在所述s1步驟中,所述成對更新模塊包括三角更新、三角注意力和過渡層;在所述s1步驟中,所述msa更新模塊包括行注意力和過渡層。
4.根據(jù)權(quán)利要求1所述的一種基于多重序列比對的序列擴(kuò)散訓(xùn)練方法,其特征在于,在所述s2步驟中,所述去噪模塊包括注意力層和過渡層。
5.根據(jù)權(quán)利要求1所述的一種基于多重序列比對的序列擴(kuò)散訓(xùn)練方法,其特征在于,所述s1步驟反復(fù)迭代6~84層后再進(jìn)行s2步驟;
6.根據(jù)權(quán)利要求1所述的一種基于多重序列比對的序列擴(kuò)散訓(xùn)練方法,其特征在于,所述s1步驟反復(fù)迭代12~48層后再進(jìn)行s2步驟;
7.根據(jù)權(quán)利要求1所述的一種基于多重序列比對的序列擴(kuò)散訓(xùn)練方法,其特征在于,在所述s2步驟中,所述單一表征以jax計算圖形式呈現(xiàn),所述jax計算圖為所述單一表征通過vmap進(jìn)行向量化得到。
8.一種基于多重序列比對的序列擴(kuò)散生成方法,使用權(quán)利要求1~7任意一項一種基于多重序列比對的序列擴(kuò)散訓(xùn)練方法完成訓(xùn)練后,
9.一種電子設(shè)備,其特征在于,包括:
10.一種電子設(shè)備,其特征在于,包括: