本發(fā)明涉及文本圖像轉(zhuǎn)換識別分析,具體涉及基因組結(jié)構(gòu)變異圖像化檢測方法。
背景技術(shù):
1、在基因組學(xué)研究中,結(jié)構(gòu)變異(sv)在植物遺傳學(xué)和育種中的關(guān)鍵作用日益凸顯,然而,由于小麥基因組的復(fù)雜性和高通量測序數(shù)據(jù)的龐大規(guī)模,結(jié)構(gòu)變異的準(zhǔn)確檢測仍面臨諸多挑戰(zhàn)。
2、六倍體面包小麥(triticum?aestivum?l.,aabbdd)是全球重要的糧食作物之一,其優(yōu)異的產(chǎn)量和適應(yīng)性使其成為全球糧食安全的關(guān)鍵保障。面包小麥的基因組結(jié)構(gòu)復(fù)雜,包含來自三個不同祖先物種的兩個不同基因組(a、b、d),形成aabbdd的基因組構(gòu)成。這種復(fù)雜的基因組結(jié)構(gòu)賦予了面包小麥高度的遺傳多樣性和豐富的適應(yīng)性,但也導(dǎo)致了基因組重排和基因表達(dá)調(diào)控的復(fù)雜性。隨著全球人口增長和氣候變化帶來的挑戰(zhàn),提高小麥的產(chǎn)量和抗逆性已成為農(nóng)業(yè)研究的核心目標(biāo)。
3、在這一背景下,基因組中的結(jié)構(gòu)變異(structural?variants,svs)在小麥的進(jìn)化、適應(yīng)性及性狀形成中起著重要作用。結(jié)構(gòu)變異指的是基因組中長度大于50bp的片段發(fā)生的插入(ins)、刪除(del)、倒位(inv)、重復(fù)(dup)和易位(tl)等變異類型。
4、這些結(jié)構(gòu)變異通過高通量基因組測序技術(shù)得到深入分析,研究揭示了小麥的高產(chǎn)性狀和抗逆性與多個基因群體及調(diào)控網(wǎng)絡(luò)密切相關(guān)。通過比較不同品種的基因組,研究還發(fā)現(xiàn)了與主要農(nóng)藝性狀(如穗重、抗病性、耐旱性)相關(guān)的關(guān)鍵基因。這些發(fā)現(xiàn)為小麥的分子育種提供了理論依據(jù),并為提高小麥的產(chǎn)量和抗逆性提供了有力支持。
5、小麥基因組龐大且復(fù)雜,總基因組約包含170億個堿基對,并富含大量重復(fù)序列和同源基因。傳統(tǒng)的基因組結(jié)構(gòu)變異檢測方法,如熒光原位雜交(fish)、染色體染色技術(shù)和pcr擴(kuò)增等,雖然在小范圍的研究中取得了一定的進(jìn)展,但由于小麥基因組的復(fù)雜性,特別是在識別大規(guī)模重復(fù)序列和高度多態(tài)區(qū)域時,這些方法的準(zhǔn)確性和效率受到了顯著限制。隨著高通量測序技術(shù)(high-throughput?sequencing,hts)的發(fā)展,研究者可以通過全基因組數(shù)據(jù)更全面、精準(zhǔn)地檢測小麥中的結(jié)構(gòu)變異。盡管如此,受限于數(shù)據(jù)分析的復(fù)雜性和結(jié)構(gòu)變異種類繁多等問題,現(xiàn)有的計算方法仍存在一定的局限性。因此,開發(fā)新的方法以提高小麥基因組結(jié)構(gòu)變異的檢測準(zhǔn)確度和全面性,仍然是當(dāng)前亟待解決的研究問題。近年來,深度學(xué)習(xí)技術(shù)已在生物信息學(xué)領(lǐng)域取得顯著進(jìn)展,尤其是在基因組數(shù)據(jù)的分析和解讀方面。深度學(xué)習(xí)通過構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,能夠自動從大量的基因組數(shù)據(jù)中提取出潛在的特征,進(jìn)而對結(jié)構(gòu)變異進(jìn)行準(zhǔn)確識別。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)模型在處理大規(guī)模、高維度數(shù)據(jù)時具有更強(qiáng)的表達(dá)能力和更高的準(zhǔn)確性。在小麥基因組結(jié)構(gòu)變異檢測方面,深度學(xué)習(xí)的優(yōu)勢尤為突出。通過結(jié)合深度神經(jīng)網(wǎng)絡(luò)(dnn)、卷積神經(jīng)網(wǎng)絡(luò)(cnn)等先進(jìn)的學(xué)習(xí)方法,可以實(shí)現(xiàn)對基因組數(shù)據(jù)中復(fù)雜結(jié)構(gòu)變異的自動化識別和分類。尤其是針對一些傳統(tǒng)方法難以捕捉的復(fù)雜變異(如大規(guī)模的插入、缺失、倒位等),深度學(xué)習(xí)有望提供一種更為高效和準(zhǔn)確的解決方案。
6、鑒于高通量基因組學(xué)數(shù)據(jù)的海量、高維和序列化特點(diǎn),深度學(xué)習(xí)作為數(shù)據(jù)驅(qū)動型算法在生物信息學(xué)領(lǐng)域展現(xiàn)出強(qiáng)大可行性和潛力,有望通過深度神經(jīng)網(wǎng)絡(luò)的復(fù)雜函數(shù)擬合能力突破傳統(tǒng)算法的局限,提升任務(wù)準(zhǔn)確率。
7、鑒于以上,本申請?zhí)峁┝嘶谏疃葘W(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測方法用于解決上述問題。
技術(shù)實(shí)現(xiàn)思路
1、針對上述情況,在小麥基因組結(jié)構(gòu)變異檢測的研究中,傳統(tǒng)方法在數(shù)據(jù)讀取困難和預(yù)測精度較低的問題具有局限性,本研究提出了基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測方法,用于預(yù)測缺失和串聯(lián)重復(fù)兩種常見且高頻發(fā)生的結(jié)構(gòu)變異。該方法包含兩個核心步驟:首先,采用基因組結(jié)構(gòu)變異圖像生成算法,將基因組數(shù)據(jù)轉(zhuǎn)化為圖像形式,從而提高數(shù)據(jù)的處理效率;其次,構(gòu)建一個基于深度學(xué)習(xí)的基因結(jié)構(gòu)變異預(yù)測模型,通過對圖像中的變異特征進(jìn)行自動提取和分析,實(shí)現(xiàn)高效、精準(zhǔn)的結(jié)構(gòu)變異預(yù)測。該方法能夠克服傳統(tǒng)手段的不足,為小麥基因組結(jié)構(gòu)變異的研究提供了一種新的思路與工具。
2、基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測方法,其特征在于,包括以下步驟:
3、利用測序儀通過測序數(shù)據(jù)生成的fastq文件與參考基因組使用bwa軟件進(jìn)行比對,從中獲得包含變異信息的sam文件,隨后,使用samtools工具將sam文件轉(zhuǎn)換為二進(jìn)制格式的bam文件,經(jīng)過對bam文件的預(yù)處理,并結(jié)合rd(讀片段深度數(shù)據(jù))、drp(不一致讀片段對數(shù)據(jù))和sr(分裂讀片段數(shù)據(jù)),生成結(jié)構(gòu)變異圖像,將這些圖像輸入到深度學(xué)習(xí)模型中,用于變異預(yù)測的訓(xùn)練。
4、上述技術(shù)方案有益效果在于:
5、(1)本研究能夠高效識別小麥基因組中的各類結(jié)構(gòu)變異,較傳統(tǒng)方法具有更好的預(yù)測性能和更高的檢測精度,為小麥基因組結(jié)構(gòu)變異的高效檢測提供了一種新穎的深度學(xué)習(xí)框架,為小麥的遺傳改良和育種研究提供了有力的技術(shù)支持;
6、(2)采用基因組結(jié)構(gòu)變異圖像生成算法,將基因組數(shù)據(jù)轉(zhuǎn)化為圖像形式,結(jié)構(gòu)變異的相關(guān)信息得以直觀地呈現(xiàn),輸出的圖像能夠清晰展示變異區(qū)域的特征信息從而提高數(shù)據(jù)的處理效率;
7、(3)通過構(gòu)建一個基于深度學(xué)習(xí)的基因結(jié)構(gòu)變異預(yù)測模型,對生成的圖像中變異特征進(jìn)行自動提取和分析,實(shí)現(xiàn)高效、精準(zhǔn)的結(jié)構(gòu)變異預(yù)測,在多個指標(biāo)上優(yōu)于傳統(tǒng)的預(yù)測算法,結(jié)合rd、drp和sr三種數(shù)據(jù)的圖像編碼方案既科學(xué)有效,又顯著提升了模型的分類性能。
1.基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測方法,其特征在于,包括以下步驟:利用測序儀通過測序數(shù)據(jù)生成的fastq文件與參考基因組使用bwa軟件進(jìn)行比對,從中獲得包含變異信息的sam文件,隨后,使用samtools工具將sam文件轉(zhuǎn)換為二進(jìn)制格式的bam文件,經(jīng)過對bam文件的預(yù)處理,并結(jié)合rd(讀片段深度數(shù)據(jù))、drp(不一致讀片段對數(shù)據(jù))和sr(分裂讀片段數(shù)據(jù)),生成結(jié)構(gòu)變異圖像,將這些圖像輸入到深度學(xué)習(xí)模型中,用于變異預(yù)測的訓(xùn)練。
2.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測方法,其特征在于,所述對bam文件的預(yù)處理具體包括:將bam文件通過變異識別工具轉(zhuǎn)化為vcf格式以提取候選變異位點(diǎn)信息,隨后將vcf格式文件轉(zhuǎn)換為bed格式用于基因組坐標(biāo)定位,通過格式轉(zhuǎn)換后的bed文件可結(jié)合基因組注釋數(shù)據(jù)庫進(jìn)行基于基因組坐標(biāo)的精細(xì)化區(qū)域注釋,通過設(shè)定閾值過濾長度小于50bp的候選結(jié)構(gòu)變異,最終獲得僅包含有效結(jié)構(gòu)變異區(qū)域的標(biāo)準(zhǔn)化bed文件。
3.根據(jù)權(quán)利要求2所述的基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測方法,其特征在于,所述結(jié)構(gòu)變異圖像的生成過程包括:圖像編碼方法的設(shè)計、圖像覆蓋范圍的確定、圖像拼接規(guī)則的選擇優(yōu)化。
4.根據(jù)權(quán)利要求3所述的基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測方法,其特征在于,所述圖像編碼方法的設(shè)計具體包括,將bam文件中的候選變異區(qū)域周圍的三種數(shù)據(jù)類型的讀取片段轉(zhuǎn)化為三維張量圖像,即將bam文件中的變異信息映射到圖像中,繪制出rd、drp和sr三種數(shù)據(jù)類型在圖像中的分布,圖像生成基于rgb色彩模式,將rd、drp和sr三種數(shù)據(jù)分別用不同的顏色進(jìn)行編碼,圖像生成算法具體包括:
5.根據(jù)權(quán)利要求3所述的基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測方法,其特征在于,所述圖像覆蓋范圍的確定具體包括,對于每個bam文件中的候選變異區(qū),可以通過公式(1)和(2)計算出左右斷點(diǎn)的具體位置:
6.根據(jù)權(quán)利要求3所述的基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測方法,其特征在于,所述圖像拼接規(guī)則的選擇包括,選擇沿縱坐標(biāo)方向的縱向拼接方式,適應(yīng)后續(xù)所述深度學(xué)習(xí)模型的輸入格式且避免圖像拼接的序列范圍被迫壓縮,且在所述縱向拼接方式的基礎(chǔ)上進(jìn)行左右翻轉(zhuǎn)擴(kuò)增時,需同時交換上下圖的位置。
7.根據(jù)權(quán)利要求3所述的基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測方法,其特征在于,對所述深度學(xué)習(xí)模型的變異預(yù)測訓(xùn)練包括,選取swin-transformer、alexnet、googlenet、efficientnet、shufflenet、regnet和resnet作為深度學(xué)習(xí)模型,通過對生成的所述結(jié)構(gòu)變異圖像進(jìn)行旋轉(zhuǎn)、高斯模糊、亮度和對比度調(diào)節(jié)方式使其作為訓(xùn)練圖像數(shù)據(jù)進(jìn)行增強(qiáng),使得訓(xùn)練樣本多樣化也增強(qiáng)了所述深度學(xué)習(xí)模型的識別能力。