本發(fā)明屬于增材制造質(zhì)量檢測(cè),具體涉及基于三維移位窗多頭自注意的雙光子光刻零件質(zhì)檢方法。
背景技術(shù):
1、雙光子光刻(two-photon?lithography,?tpl)是一種基于非線性光學(xué)效應(yīng)的先進(jìn)增材制造技術(shù),能夠在微米甚至納米尺度上加工復(fù)雜三維結(jié)構(gòu),廣泛應(yīng)用于生物醫(yī)療器件、微光學(xué)元件及柔性電子等領(lǐng)域。然而,tpl工藝的工業(yè)化應(yīng)用面臨核心瓶頸:零件質(zhì)量(如固化、未固化、損壞狀態(tài))的實(shí)時(shí)檢測(cè)高度依賴人工經(jīng)驗(yàn),且激光劑量參數(shù)的動(dòng)態(tài)調(diào)整缺乏高效自動(dòng)化手段。由于tpl加工過程中光敏樹脂的固化效果受激光強(qiáng)度、掃描速度等多參數(shù)耦合影響,傳統(tǒng)離線檢測(cè)方法效率低下,難以滿足大規(guī)模生產(chǎn)需求。因此,開發(fā)一種高精度、低延遲的在線質(zhì)量檢測(cè)技術(shù),成為推動(dòng)tpl產(chǎn)業(yè)化落地的關(guān)鍵。
2、當(dāng)前,基于計(jì)算機(jī)視覺的深度學(xué)習(xí)算法被廣泛用于工業(yè)質(zhì)量檢測(cè),但在tpl場(chǎng)景中仍存在顯著局限:1)傳統(tǒng)3d-cnn模型因固定尺寸卷積核限制,難以建模長(zhǎng)程時(shí)空依賴,導(dǎo)致微小缺陷漏檢;2)cnn-lstm等混合架構(gòu)因串行計(jì)算特性,無法并行處理高幀率視頻,推理延遲顯著;3)vivit等transformer架構(gòu)的全局自注意力機(jī)制計(jì)算復(fù)雜度呈平方級(jí)增長(zhǎng),難以部署至資源受限的工業(yè)設(shè)備;4)現(xiàn)有生成模型(如gan、vae)在缺乏故障樣本時(shí),對(duì)未固化、微損傷等狀態(tài)的分類準(zhǔn)確率大幅下降。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提供基于三維移位窗多頭自注意的雙光子光刻零件質(zhì)檢方法,以解決現(xiàn)有技術(shù)中的問題,本發(fā)明所采用的技術(shù)方案是:
2、基于三維移位窗多頭自注意的雙光子光刻零件質(zhì)檢方法,包括以下步驟:
3、步驟一,通過攝像頭實(shí)時(shí)采集雙光子光刻工藝加工過程的視頻數(shù)據(jù),并按時(shí)間軸采樣生成等長(zhǎng)的10幀序列,構(gòu)建包括已固化、未固化及損壞零件狀態(tài)的訓(xùn)練集、驗(yàn)證集和測(cè)試集;
4、步驟二,將視頻劃分為非重疊的3d塊,通過3d卷積提取初始特征并線性映射至高維嵌入空間,添加可學(xué)習(xí)的類別標(biāo)記和3d位置編碼,保留時(shí)空結(jié)構(gòu)信息;
5、步驟三,設(shè)計(jì)包括3d窗口自注意力與3d移位窗口自注意力的transformer子模塊;
6、步驟四,構(gòu)建video-swtrans層次化transformer架構(gòu),包括四個(gè)階段的層次化transformer結(jié)構(gòu);
7、步驟五,將多層次時(shí)空特征提取的全局信息映射到具體的質(zhì)量分類標(biāo)簽,并通過交叉熵?fù)p失函數(shù)實(shí)現(xiàn)端到端的優(yōu)化;
8、步驟六,將模型部署至邊緣計(jì)算平臺(tái),通過tensorrt引擎進(jìn)行推理優(yōu)化,通過多線程流水線處理實(shí)現(xiàn)并行推理,同步記錄缺陷時(shí)空坐標(biāo)。
9、進(jìn)一步的,步驟一中,視頻分辨率為110×110像素,單通道灰度;在x-y平面上分割出25個(gè)獨(dú)立零件的加工區(qū)域,每個(gè)零件對(duì)應(yīng)一段子視頻,對(duì)各子視頻按時(shí)間軸采樣生成等長(zhǎng)的10幀序列,相鄰窗口重疊5幀;序列的標(biāo)簽根據(jù)物理不可逆性規(guī)則確定:若序列中存在至少一幀標(biāo)記為“損壞”,則整體標(biāo)記為“損壞”;若存在“已固化”幀且無損壞,則標(biāo)記為“已固化”;否則標(biāo)記為“未固化”。
10、進(jìn)一步的,步驟二中,將預(yù)處理后的視頻序列,劃分為非重疊的3d塊,每個(gè)塊的時(shí)間跨度為2幀,空間尺寸為4×4像素;其中,為時(shí)間,為高度,為寬帶,為通道數(shù);
11、通過3d卷積操作對(duì)每個(gè)塊提取塊特征,再經(jīng)過線性變換將通道數(shù)從16提升至96,經(jīng)過處理后得到初始標(biāo)記的維度為;
12、其中,3d卷積核尺寸為,,為嵌入通道數(shù),公式表示為:
13、;
14、在將初始標(biāo)記輸入transformer網(wǎng)絡(luò)之前,將類別標(biāo)記與其拼接并添加位置編碼,形成最終的嵌入表示,以實(shí)現(xiàn)將視頻數(shù)據(jù)轉(zhuǎn)換為適合transformer子模塊處理的輸入標(biāo)記,表示為:
15、;
16、其中,為可學(xué)習(xí)的三維位置編碼張量初始值,且服從均勻分布。
17、進(jìn)一步的,步驟三包括:
18、步驟3.1,設(shè)計(jì)3d窗口多頭自注意力用于捕捉局部時(shí)空特征,將輸入標(biāo)記劃分為多個(gè)非重疊的尺寸為的3d窗口,其中為空間區(qū)域大小,為連續(xù)幀數(shù);
19、在各3d窗口內(nèi)使用多頭自注意力機(jī)制計(jì)算注意力權(quán)重:使用具有可學(xué)習(xí)參數(shù)的權(quán)重矩陣,,對(duì)輸入標(biāo)記進(jìn)行線性變換,以生成查詢、鍵和值向量,單個(gè)注意力頭的計(jì)算方式為:
20、;
21、其中,計(jì)算與的點(diǎn)積,得到注意力分?jǐn)?shù),使用softmax函數(shù)對(duì)注意力分?jǐn)?shù)進(jìn)行歸一化,得到注意力權(quán)重,是鍵向量的維度;
22、將步驟3.1應(yīng)用于多個(gè)不同的、、向量,然后將結(jié)果拼接并線性變換,獲得最終融合的標(biāo)記b,計(jì)算公式為:
23、;
24、其中,是注意力頭的數(shù)量,是最終的輸出權(quán)重矩陣;
25、在計(jì)算自注意力時(shí)將該偏置添加到注意力權(quán)重中,公式如下:
26、;
27、其中,是3d相對(duì)位置偏置,根據(jù)標(biāo)記之間在空間和時(shí)間上的相對(duì)位置進(jìn)行調(diào)整;
28、步驟3.2,在3d窗口多頭自注意力的基礎(chǔ)上,將窗口進(jìn)行移位操作,移位后窗口之間的邊界被打破,引入掩碼機(jī)制,對(duì)于非相鄰的窗口,使用掩碼將注意力權(quán)重設(shè)置為零;
29、步驟3.3,將3d窗口多頭自注意力與3d移位窗口多頭自注意力整合到transformer子模塊中,數(shù)據(jù)在單個(gè)transformer子模塊中的計(jì)算表示為:
30、;
31、;
32、;
33、;
34、其中, w-msa3d為3d窗口多頭自注意力, w-msa3d為3d移位窗口多頭自注意力;表示輸入及輸出標(biāo)記,和分別表示當(dāng)前標(biāo)記的數(shù)量和維度;為層歸一化操作;表示將變換后的標(biāo)記與原始標(biāo)記通過殘差連接相加形成的中間標(biāo)記;mlp為多層感知機(jī)。
35、進(jìn)一步的,步驟四包括:
36、步驟4.1,階段一中構(gòu)建2個(gè)transformer子模塊,對(duì)步驟二中得到的標(biāo)記序列依次執(zhí)行兩次transformer子模塊操作后,保持分辨率為;
37、步驟4.2,階段二中構(gòu)建2個(gè)transformer子模塊,注意力頭數(shù)增至,引入塊合并模塊將輸入標(biāo)記按空間塊拼接并沿通道維度擴(kuò)展至,經(jīng)層歸一化與線性投影壓縮通道至,輸出分辨率降至,依次執(zhí)行兩次transformer子模塊操作;
38、步驟4.3,階段三中構(gòu)建18個(gè)transformer子模塊,注意力頭數(shù)增至,再次應(yīng)用塊合并模塊,通道擴(kuò)展至,輸出分辨率降至,依次執(zhí)行18次transformer子模塊操作;
39、步驟4.4,在階段四中構(gòu)建2個(gè)transformer子模塊,注意力頭數(shù)增至,最后一次應(yīng)用塊合并模塊,通道達(dá)到最大值,輸出分辨率降至,依次執(zhí)行兩次transformer子模塊操作。
40、進(jìn)一步的,步驟五中,通過video-swtrans模型的最終分類階段,模型通過transformer架構(gòu)第四個(gè)階段的類別標(biāo)記提取全局時(shí)空特征,該標(biāo)記經(jīng)過全局平均池化沿時(shí)間與空間維度聚合為高維向量,隨后通過一個(gè)包含兩線性層與gelu激活函數(shù)的多層感知機(jī)將其映射至3維分類空間;最終通過softmax函數(shù)將輸出值轉(zhuǎn)換為歸一化概率分布,并采用交叉熵?fù)p失函數(shù):
41、;
42、其中為真實(shí)標(biāo)簽的one-hot編碼,為預(yù)測(cè)概率,結(jié)合adam優(yōu)化器端到端優(yōu)化模型參數(shù),實(shí)現(xiàn)從原始視頻輸入到質(zhì)量分類的全自動(dòng)推理。
43、進(jìn)一步的,步驟六中,將訓(xùn)練完成的video-swtrans模型部署至計(jì)算平臺(tái)進(jìn)行推理優(yōu)化,實(shí)時(shí)接收四路視頻流輸入,通過多線程流水線處理實(shí)現(xiàn)并行推理;檢測(cè)到“損壞”類別時(shí),立即降低激光強(qiáng)度10%-20%并觸發(fā)聲光報(bào)警,同時(shí)記錄缺陷時(shí)空坐標(biāo);檢測(cè)到“未固化”時(shí),通過pid控制器以固定步長(zhǎng)動(dòng)態(tài)調(diào)整掃描速度。
44、進(jìn)一步的,video-swtrans模型的檢測(cè)性能采用準(zhǔn)確度accuracy、精確率precision、召回率recall和f1-score四個(gè)指標(biāo)進(jìn)行定量評(píng)估:
45、;
46、;
47、;
48、;
49、其中,tn、tp、fn、fp分別代表真陰性、真陽性、假陰性、假陽性樣本的數(shù)量。
50、本發(fā)明具有以下有益效果:
51、本發(fā)明構(gòu)建的video-swtrans為基于三維移位窗口多頭自注意力(sw-msa(3d))與分層特征融合的視頻transformer框架,通過局部窗口計(jì)算與周期性位移機(jī)制,在僅需正常零件視頻數(shù)據(jù)訓(xùn)練的條件下,高效學(xué)習(xí)時(shí)空分布特征;針對(duì)雙光子光刻工藝中不同光敏樹脂、光刻模式及零件幾何結(jié)構(gòu),顯著降低了質(zhì)檢成本與工藝調(diào)試周期;本方法的應(yīng)用實(shí)現(xiàn)了零件質(zhì)量的實(shí)時(shí)自動(dòng)化檢測(cè),為雙光子光刻技術(shù)的大規(guī)模工業(yè)化提供了技術(shù)支撐。