本發(fā)明涉及視頻分析,特別是指一種基于雙向交互與動態(tài)特征增強的時序動作定位方法及裝置。
背景技術(shù):
1、時序動作定位(temporal?action?localization,tal)是視頻分析中的一項重要任務,旨在定位識別未修剪視頻中的動作邊界和類別。隨著不同平臺上視頻數(shù)據(jù)的快速增長,tal的重要性顯著增長,因為它能夠?qū)崿F(xiàn)高效的視頻理解和檢索,為視頻監(jiān)控、運動分析、自動駕駛和人機交互等應用程序提供動力?,F(xiàn)有的tal方法通常分為兩階段法和單階段法,兩者各有優(yōu)缺點。兩階段方法首先生成動作提案,再通過分類器對這些提案進行進一步的處理與分類,而單階段方法則直接將提案生成與分類整合為一個端到端的過程。
2、兩階段方法通常包括提案生成和提案分類兩個步驟。提案生成的目的是從視頻中識別潛在的動作時段,通常采用滑動窗口、邊界預測或幀動作度評估等方法?;诨瑒哟翱诘姆椒ㄍㄟ^在視頻中應用多尺度的滑動窗口生成時間提案,如turn?tap,基于邊界的方法則通過預測視頻中特定位置的邊界置信度來定位動作的時間邊界,如bmn,而基于幀動作度的方法通過評估每一幀的動作度得分來生成提案,如ssn。這些方法通常依賴于訓練有素的分類器來對每個提案進行分類,并預測動作的類別。
3、單階段方法通過端到端的訓練,簡化了動作提案生成與分類的過程,減少了訓練和推理的復雜度。單階段方法不依賴于傳統(tǒng)的時間錨點或滑動窗口,而是直接在視頻幀級別上預測動作的時間跨度和類別。例如,無錨定tal模型直接對每個視頻幀進行動作類別預測,并同時估計相應的動作開始和結(jié)束時間。此外,基于變壓器的單階段模型如actionformer通過多尺度自注意力機制,增強了對不同尺度動作的建模能力。而pbbnet通過逐步細化預測來提升動作定位的精度,tridet則使用粒度感知層來優(yōu)化時序建模。
4、盡管現(xiàn)有的兩階段法和單階段法在時序動作定位任務中取得了顯著進展,但它們普遍面臨著捕捉復雜時序依賴問題的挑戰(zhàn)。尤其是在處理具有多樣時間跨度和復雜時序依賴的動作時,如何有效平衡短期和長期依賴關(guān)系,依然是提升時序動作定位精度的關(guān)鍵?,F(xiàn)有方法往往在短期和長期依賴的建模上存在偏差,導致無法在不同動作的時序特點下都保持較高的定位精度。短期依賴通常涉及動作的細節(jié)和局部變化,適用于動作開始時刻的精確定位;而長期依賴則關(guān)注動作的延續(xù)和完整性,尤其對動作的結(jié)束時刻和持續(xù)性至關(guān)重要。傳統(tǒng)方法要么過度關(guān)注短期信息,忽視了動作的整體演變;要么側(cè)重長期信息,導致對局部動作變化的敏感度下降。因此,如何在不同尺度動作中自適應地調(diào)整短期和長期依賴的平衡,是提升時序動作定位準確性的關(guān)鍵。
5、時序動作定位(tal)是一項具有挑戰(zhàn)性的視覺任務,旨在對未修剪視頻中的所有動作進行精確分類和定位。由于動作區(qū)間具有多尺度特性,短時動作依賴于局部特征,而長時動作則依賴于全局信息,這使得緩解復雜的時序依賴問題成為?tal?領(lǐng)域長期存在的核心難題。在此背景下,特征的質(zhì)量對于提升時序動作定位的性能至關(guān)重要。然而,現(xiàn)有?tal方法通常依賴于預訓練特征作為輸入,這些特征的表達能力受到預訓練模型的局限性,難以全面捕獲動作的復雜時序依賴關(guān)系。因此,在?tal?任務中,如何通過特征增強來提升特征的表示能力,從而更高效地支持復雜的時序建模,已成為不可忽視的關(guān)鍵問題。同時,為更好地建模短期與長期依賴關(guān)系,需要進一步探討時序建模的有效機制,包括基于卷積的方法和基于?transformer?的方法。
6、(1)基于卷積的tal方法:在過往數(shù)年,卷積神經(jīng)網(wǎng)絡(luò)(cnns)堪稱計算機視覺發(fā)展的關(guān)鍵驅(qū)動力。追溯至具有里程碑意義的?alexnet?問世,后續(xù)一系列極具影響力的?cnn架構(gòu)相繼涌現(xiàn),它們在圖像理解領(lǐng)域的諸多任務中表現(xiàn)卓越,大幅提升了性能指標。近些年來,隨著視頻在眾多現(xiàn)實場景應用里躍升為關(guān)鍵數(shù)據(jù)來源,鑒于?cnn?自身出色的時效性,科研人員積極探索將其拓展至視頻領(lǐng)域的路徑。尤其在?tal?任務方面,基于卷積神經(jīng)網(wǎng)絡(luò)(cnn)的tal方法,憑借其局部連接性與參數(shù)共享特性,在削減冗余、加速計算進程上彰顯出顯著優(yōu)勢。盡管cnn在處理邊界清晰的短期動作時表現(xiàn)優(yōu)異,但在面對跨越較長時長的復雜動作序列時,其局限性難以有效建模全局時序依賴,導致在處理長時序依賴關(guān)系時表現(xiàn)力不足。為此,后期方法通過擴張卷積核視野來捕捉長期信息。它們雖然在一定程度上緩解了時序依賴問題,但要么缺乏足夠的動態(tài)性和靈活性,要么未能充分考慮全局與局部特征之間的平衡關(guān)系,導致模型在不同尺度的動作定位上表現(xiàn)不穩(wěn)定。然而,這些方法仍存在局限性。它們雖然在一定程度上緩解了時序依賴問題,但要么缺乏足夠的動態(tài)性和靈活性,要么未能充分考慮全局與局部特征之間的平衡關(guān)系,導致模型在不同尺度的動作定位上表現(xiàn)不穩(wěn)定。
7、(2)基于transformer的tal方法:transformer?憑借其強大的建模能力,近年來在計算機視覺和自然語言處理任務中取得了顯著成果。這一優(yōu)勢同樣促使?transformer?在時序動作定位領(lǐng)域得到了廣泛應用。對于?tal?任務,transformer?通過捕獲視頻幀特征之間的長距離依賴關(guān)系,顯著提升了動作定位與分類的性能。在此基礎(chǔ)上,基于?transformer的?tal?方法不斷涌現(xiàn),并呈現(xiàn)出多樣化的發(fā)展趨勢。一些端到端建模方法通過構(gòu)建可訓練的框架,簡化了傳統(tǒng)?tal?流程的復雜性。例如,tallformer?結(jié)合短期?transformer?編碼器和長期記憶機制,高效建模視頻動作,同時有效降低了?gpu?內(nèi)存開銷;tadtr?則基于可變形注意力機制的?transformer,選擇性聚焦視頻中關(guān)鍵的稀疏上下文子集,從而提升了效率與性能。此外,一些方法通過增強上下文感知能力,進一步優(yōu)化全局信息的利用。例如,actionformer?利用多頭自注意力機制直接捕獲全局時序上下文,實現(xiàn)了全局時序關(guān)系的高效建模;而?saformer?通過引入全局通道特征響應的自注意力機制和分類精煉修改損失,構(gòu)建了一種高效的一階段?transformer?模型,用于優(yōu)化動作定位與分類。盡管這些基于?transformer?的方法在?tal?任務中取得了顯著進展,但在處理局部冗余信息以及平衡復雜視頻數(shù)據(jù)中的長短期依賴關(guān)系方面仍存在局限性。其關(guān)鍵問題在于缺乏有效的雙向交互機制,以同時捕獲局部和全局特征,從而更好地適應復雜的動作時序關(guān)系。
8、(3)特征增強在?tal?中的重要性:盡管近年來時序動作定位(tal)方法已斬獲頗為顯著的進展,然而就當前狀況而言,其依舊存在著相當廣闊的改進余地?,F(xiàn)有的?tal?方法在訓練過程中,大多依賴于帶有注釋的、未經(jīng)修剪的視頻素材。但令人遺憾的是,現(xiàn)有的tal?數(shù)據(jù)集規(guī)模相對偏小,這種局限性嚴重束縛了模型的訓練成效以及泛化潛能,使其難以在更為廣泛的場景中精準施展身手。相較于圖像數(shù)據(jù)集,視頻數(shù)據(jù)由于額外涵蓋了時間維度,進而展現(xiàn)出更為繁雜多樣的特性,這無疑給?tal?任務憑空增添了諸多棘手難題?;诖耍鯓有兄行У貙ΜF(xiàn)有數(shù)據(jù)進行擴充,借此助力模型性能實現(xiàn)飛躍,已然成為當下亟待攻克的關(guān)鍵要點。雖然數(shù)據(jù)增強算得上是一種簡便易行的策略,可視頻數(shù)據(jù)往往時長可觀,若直接套用常規(guī)的數(shù)據(jù)增強手段,極有可能引發(fā)高昂的計算成本,使得整個流程在效率層面大打折扣。此外,目前絕大多數(shù)?tal?方法依賴預訓練特征作為輸入,這使得特征級增強在?tal?任務中顯得尤為重要。
技術(shù)實現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中如何在不同尺度動作中自適應地調(diào)整短期和長期依賴的平衡的技術(shù)問題,本發(fā)明實施例提供了一種基于雙向交互與動態(tài)特征增強的時序動作定位方法及裝置。所述技術(shù)方案如下:
2、一方面,提供了一種基于雙向交互與動態(tài)特征增強的時序動作定位方法,其特征在于,方法包括:
3、s1、獲取未裁剪的視頻,將未裁剪的視頻通過預訓練網(wǎng)絡(luò)進行處理,提取初始特征;
4、s2、構(gòu)建自適應特征增強策略,通過自適應特征增強策略進行分層網(wǎng)絡(luò)架構(gòu)集成動態(tài)建模以及局部和全局時序交互建模;自適應特征增強策包括:多尺度動態(tài)時序建模模塊和全局與局部自適應雙向交互模塊;
5、s3、將自適應特征增強策略引入編碼器;通過編碼器對初始特征進行特征增強,生成增強的時序特征;
6、s4、將增強的時序特征傳遞給分類和回歸頭,進行預測動作類別和時間邊界。
7、可選地,s2中,多尺度動態(tài)時序建模模塊,包括;
8、多尺度動態(tài)時序建模模塊包括三個動態(tài)局部dynl仿射;通過多尺度動態(tài)時序建模模塊接受域的動態(tài)調(diào)整,捕獲多尺度的時間特征。
9、可選地,通過多尺度動態(tài)時序建模模塊接受域的動態(tài)調(diào)整,捕獲多尺度的時間特征,包括:
10、通過動態(tài)局部仿射變換dynl仿射,對tal任務中不同時間尺度上動作的動態(tài)變化進行緩解;
11、給定輸入特征,dynl仿射使用兩個不同尺度的深度卷積分支對輸入特征進行處理,獲得多尺度的時間信息;
12、通過分層卷積方法,第一個分支與一個較小的核進行深度卷積,以捕獲局部時間信息;第二個分支首先與核k1進行卷積,然后與較大的核k2進行卷積,逐漸擴大接受域以捕獲更廣泛的上下文;
13、將兩個分支的輸出進行融合,獲得多尺度序列特征表示;
14、構(gòu)建可學習的掩模生成模塊,將多尺度序列特征表示輸入至掩模生成模塊,生成一個掩模序列,為序列中的每個位置分配不同的權(quán)重,在抑制背景信息的同時突出關(guān)鍵幀的特征;
15、采用卷積層從序列中提取局部模式,再通過批量歸一化bn細化;使用?s型激活函數(shù)將權(quán)重壓縮到?[0,?1]?范圍內(nèi),得到最終的掩碼序列;將掩碼序列與多尺度序列特征進行元素相乘,生成加權(quán)序列特征加權(quán)。
16、可選地,s2中,全局與局部自適應雙向交互模塊,包括:
17、動態(tài)局部仿射塊dynl仿射與全局global仿射,通過自適應交互特征融合子模塊aiff雙向交互,組合構(gòu)成全局與局部自適應雙向交互模塊;
18、通過所述全局仿射模塊聚合全局特征;通過所述動態(tài)局部仿射塊dynl仿射聚合局部特征;通過自適應交互特征融合子模塊aiff融合全局和局部信息。
19、可選地,通過所述全局仿射模塊聚合全局特征包括:
20、將自注意機制納入全局仿射模塊,獲得包含基于注意的全局特征聚合;通過所述全局仿射模塊聚合全局特征,并對模型識別序列內(nèi)長期關(guān)系的能力進行增強,獲得穩(wěn)健的動作邊界定位。
21、可選地,通過自適應交互特征融合子模塊aiff融合全局和局部信息,包括:
22、通過自適應交互特征融合子模塊動態(tài)賦權(quán)重,進行特征融合,平衡和融合時間序列信息中的長期和短期依賴關(guān)系。
23、可選地,通過自適應交互特征融合子模塊動態(tài)賦權(quán)重,進行特征融合,平衡和融合時間序列信息中的長期和短期依賴關(guān)系,包括:
24、給定兩個輸入特征張量;
25、通過自適應交互特征融合子模塊沿著通道維度連接兩個輸入特征張量,形成一個融合的特征張量,連接的特征會經(jīng)過一系列的轉(zhuǎn)換來生成動態(tài)權(quán)值。采用時間平均池化來降低時間維度;
26、將合并的特征通過卷積層提取關(guān)鍵上下文信息;
27、應用s型激活函數(shù)生成局部和全局特征的自適應權(quán)值;
28、通過一維卷積細化得到的權(quán)值,降低維數(shù),得到最終的權(quán)值;將得到的權(quán)值和原始特征加權(quán),得到最后的輸出。
29、另一方面,提供了一種基于雙向交互與動態(tài)特征增強的時序動作定位裝置,該裝置應用于基于雙向交互與動態(tài)特征增強的時序動作定位方法,該裝置包括:
30、初始特征提取模塊,用于獲取未裁剪的視頻,將未裁剪的視頻通過預訓練網(wǎng)絡(luò)進行處理,提取初始特征;
31、特征增強策略構(gòu)建模塊,用于構(gòu)建自適應特征增強策略,通過自適應特征增強策略進行分層網(wǎng)絡(luò)架構(gòu)集成動態(tài)建模以及局部和全局時序交互建模;自適應特征增強策包括:多尺度動態(tài)時序建模模塊和全局與局部自適應雙向交互模塊;
32、時序特征增強模塊,用于將自適應特征增強策略引入編碼器;通過編碼器對初始特征進行特征增強,生成增強的時序特征;
33、預測模塊,用于將增強的時序特征傳遞給分類和回歸頭,進行預測動作類別和時間邊界。
34、另一方面,提供一種基于雙向交互與動態(tài)特征增強的時序動作定位設(shè)備,所述基于雙向交互與動態(tài)特征增強的時序動作定位設(shè)備包括:處理器;存儲器,所述存儲器上存儲有計算機可讀指令,所述計算機可讀指令被所述處理器執(zhí)行時,實現(xiàn)如上述基于雙向交互與動態(tài)特征增強的時序動作定位方法中的任一項方法。
35、另一方面,提供了一種計算機可讀存儲介質(zhì),所述存儲介質(zhì)中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)上述基于雙向交互與動態(tài)特征增強的時序動作定位方法中的任一項方法。
36、本發(fā)明實施例提供的技術(shù)方案帶來的有益效果至少包括:
37、本發(fā)明實施例中,1、本發(fā)明提出了一種全新的自適應時序增強框架,旨在通過短期與長期特征的雙向動態(tài)交互與平衡,解決時序動作定位(tal)任務中復雜的時序依賴關(guān)系問題;
38、2、本發(fā)明設(shè)計了多尺度動態(tài)時序建模模塊(multi-scale?dynamic?temporalmodeling,ms-dytm),該模塊集成了多尺度自適應卷積核選擇和可學習掩碼機制,能夠動態(tài)調(diào)整感受野,以高效捕獲多尺度時序特征,從而顯著提升特征的可辨別性,增強模型在不同動作場景中的精確性與靈活性;
39、3、本發(fā)明提出了自適應交互特征融合子模塊(adaptive?interaction?featurefusion,?aiff),通過注意力分配機制動態(tài)調(diào)整特征權(quán)重,實現(xiàn)了短期與長期時序依賴的高效平衡與融合,從而顯著提升了時序動作定位任務的整體性能;
40、4、本發(fā)明在多個?tal?基準數(shù)據(jù)集上的廣泛實驗表明,所提方法能夠高效地實現(xiàn)當前最先進性能,驗證了其在未修剪視頻中捕獲不同時序模式的強大能力與有效性。