本發(fā)明屬于通信,具體涉及一種基于多模型融合的quic加密流量分類方法。
背景技術(shù):
1、隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,人們對(duì)隱私的安全意識(shí)逐步加強(qiáng),對(duì)于加密流量的使用也日漸頻繁,而這也加強(qiáng)了網(wǎng)絡(luò)安全監(jiān)管的難度。對(duì)網(wǎng)絡(luò)流量進(jìn)行準(zhǔn)確的分類可以對(duì)網(wǎng)絡(luò)使用者的使用習(xí)慣和需求進(jìn)行收集,從而為其提供高質(zhì)量的服務(wù),并增強(qiáng)對(duì)網(wǎng)絡(luò)的管理。傳統(tǒng)流量檢測(cè)技術(shù)并不能直接分析加密流量?jī)?nèi)容,對(duì)加密流量進(jìn)行分類和分析將成為網(wǎng)絡(luò)安全監(jiān)測(cè)和管理的一個(gè)重要研究方向。
2、流量識(shí)別分類技術(shù)可以對(duì)網(wǎng)絡(luò)流量進(jìn)行有效的管理和優(yōu)化,從而提升網(wǎng)絡(luò)服務(wù)的質(zhì)量和響應(yīng)速度,維護(hù)網(wǎng)絡(luò)環(huán)境的安全和穩(wěn)定。具體來(lái)說(shuō),在網(wǎng)絡(luò)管理方面,該技術(shù)可以對(duì)網(wǎng)絡(luò)流量進(jìn)行有效的識(shí)別和分類,從而提升網(wǎng)絡(luò)管理的水平;在網(wǎng)絡(luò)服務(wù)方面,該技術(shù)可以對(duì)網(wǎng)絡(luò)流量進(jìn)行優(yōu)化,去除網(wǎng)絡(luò)中的冗余流量和垃圾流量,提高網(wǎng)絡(luò)服務(wù)的質(zhì)量和響應(yīng)速度,改善用戶的使用體驗(yàn);在網(wǎng)絡(luò)安全方面,該技術(shù)可以幫助網(wǎng)絡(luò)管理員實(shí)時(shí)監(jiān)控和分析網(wǎng)絡(luò)流量,了解網(wǎng)絡(luò)中的流量特征和使用情況,發(fā)現(xiàn)并解決網(wǎng)絡(luò)中異常流量和安全隱患,從而維護(hù)網(wǎng)絡(luò)環(huán)境的安全和穩(wěn)定。因此,流量識(shí)別分類技術(shù)被廣泛應(yīng)用在網(wǎng)絡(luò)流量分析、服務(wù)質(zhì)量管理、入侵檢測(cè)系統(tǒng)等多個(gè)領(lǐng)域中,是對(duì)互聯(lián)網(wǎng)流量進(jìn)行有效管理的關(guān)鍵技術(shù)。
3、下面針對(duì)幾種不同的加密流量分類方法進(jìn)行介紹。
4、1、基于多模型融合加密流量分類方法研究;
5、模型融合的思想與集成學(xué)習(xí)(ensemble?learning)類似,都是同構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來(lái)學(xué)習(xí)任務(wù)。但集成學(xué)習(xí)中,學(xué)習(xí)器是同質(zhì)的,而模型融合中,學(xué)習(xí)器是異質(zhì)的。下面介紹幾種被廣泛使用的融合方法:
6、(1)投票法
7、投票法通過(guò)對(duì)多個(gè)學(xué)習(xí)器的預(yù)測(cè)結(jié)果進(jìn)行投票,少數(shù)服從多數(shù),得出最終的預(yù)測(cè)結(jié)果。投票法分為普通投票法和加權(quán)投票法。而加權(quán)的權(quán)重可以通過(guò)人工主觀設(shè)置也可以根據(jù)模型評(píng)估分?jǐn)?shù)來(lái)設(shè)置權(quán)重。投票法需要3個(gè)及3個(gè)以上模型,同質(zhì)模型間使用投票法并不能取得很好的表現(xiàn),因?yàn)橥|(zhì)模型得到的結(jié)果之間有較強(qiáng)的相關(guān)性。
8、(2)平均法
9、適用于回歸、分類任務(wù),對(duì)學(xué)習(xí)器的結(jié)果進(jìn)行平均。平均法的優(yōu)點(diǎn)在于可以減少過(guò)擬合,常見的平均法有:算術(shù)平均法、幾何平均法和加權(quán)平均法。
10、(3)stacking法
11、stacking堆疊法的思路是基于原始數(shù)據(jù),訓(xùn)練出多個(gè)基學(xué)習(xí)器,然后將基學(xué)習(xí)器的預(yù)測(cè)結(jié)果組合成新的訓(xùn)練集,去訓(xùn)練一個(gè)新的學(xué)習(xí)器。即第一層使用各機(jī)器學(xué)習(xí)算法,得到的預(yù)測(cè)值被用于第二層的元模型的輸入特征,經(jīng)由第二層的元模型學(xué)習(xí)最終輸出預(yù)測(cè)值。這一結(jié)構(gòu)有利于第二層模型修正第一層模型的誤差。
12、(4)blending法
13、blending混合法的思路是對(duì)原始數(shù)據(jù)集劃分成一個(gè)較小的留出集,比如10%的訓(xùn)練集被留作訓(xùn)練原學(xué)習(xí)器,而90%的數(shù)據(jù)作為基學(xué)習(xí)器的訓(xùn)練,這樣基學(xué)習(xí)器和元學(xué)習(xí)器就是用不同數(shù)據(jù)集來(lái)訓(xùn)練了。從而避免了信息泄露,造成過(guò)擬合。
14、(5)bagging法
15、bagging基于bootstrap(自采用),也就是有放回的采用。訓(xùn)練的子集大小和原始數(shù)據(jù)集的大小相同?;鶎W(xué)習(xí)器的訓(xùn)練之間可以并行進(jìn)行,對(duì)于m個(gè)樣本的訓(xùn)練集,進(jìn)行m次有放回的隨機(jī)采樣操作,從而得到m個(gè)樣本的采樣集,這樣訓(xùn)練集中就有接近36.8%的樣本沒有被采到。按照上述方式重復(fù)進(jìn)行,就可以采集到t個(gè)包含m個(gè)樣本的數(shù)據(jù)集,從而訓(xùn)練出t個(gè)基學(xué)習(xí)器,最終對(duì)這t個(gè)基學(xué)習(xí)器的輸出進(jìn)行結(jié)合。
16、(6)boosting法
17、boosting法是串行機(jī)制,即個(gè)體學(xué)習(xí)器訓(xùn)練間存在依賴關(guān)系,后續(xù)模型會(huì)矯正之前模型的預(yù)測(cè)結(jié)果。其基本思想是增加一個(gè)基學(xué)習(xí)器在訓(xùn)練過(guò)程中預(yù)測(cè)錯(cuò)誤樣本的權(quán)重,使得后續(xù)基學(xué)習(xí)更加關(guān)注這些大錯(cuò)誤的訓(xùn)練樣本,盡可能糾正這些錯(cuò)誤,一直向下串行直至產(chǎn)生需要的t個(gè)基學(xué)習(xí)器,最終對(duì)這t個(gè)學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合。
18、2、基于機(jī)器學(xué)習(xí)的加密流量分類方法研究;
19、機(jī)器學(xué)習(xí)通過(guò)抑制的知識(shí)作為經(jīng)驗(yàn),訓(xùn)練大量的數(shù)據(jù)以實(shí)現(xiàn)靈活處理各種數(shù)據(jù)的努力,并將學(xué)到的數(shù)據(jù)內(nèi)部邏輯應(yīng)用在新數(shù)據(jù)上,達(dá)到高準(zhǔn)確率、高精度的預(yù)測(cè)。機(jī)器學(xué)習(xí)以實(shí)例數(shù)據(jù)集的形式作為輸入,其中實(shí)例是指數(shù)據(jù)集中的一個(gè)獨(dú)立實(shí)例,每個(gè)實(shí)例都由其特征值來(lái)表征,這些值度量實(shí)例的不同方面,數(shù)據(jù)集最終呈現(xiàn)為實(shí)例與特征的矩陣。例如,如果對(duì)輸入的數(shù)據(jù)進(jìn)行標(biāo)注,以便在輸入變臉x和y之間建立鍵值對(duì)映射關(guān)系,那么(x,y)就屬于有監(jiān)督機(jī)器學(xué)習(xí)模型,主要用于分類和回歸,常見的此類算法有決策樹、隨機(jī)森林、支持向量機(jī)等。如果輸入的數(shù)據(jù)沒有任何事先的處理,將具有相似特征的實(shí)例分組到集群中,在關(guān)聯(lián)學(xué)習(xí)中,尋找特征之間的任何關(guān)聯(lián),這種模式是無(wú)監(jiān)督學(xué)習(xí),被預(yù)測(cè)的結(jié)果不是一個(gè)離散類,而是一個(gè)數(shù)值量,多用于聚類,常用算法包括k鄰近、pca、k-means算法等。機(jī)器學(xué)習(xí)的輸出是對(duì)所學(xué)知識(shí)的描述,學(xué)習(xí)過(guò)程的具體結(jié)果如何表示很大程度上取決于所使用的特定機(jī)器學(xué)習(xí)算法。
20、針對(duì)加密流量的類別有加密協(xié)議、異常加密流量、應(yīng)用類別、加密服務(wù)等,要進(jìn)行精細(xì)化識(shí)別就需要依賴機(jī)器學(xué)習(xí)甚至是深度學(xué)習(xí)的手段進(jìn)行精細(xì)化識(shí)別。一般加密技術(shù)的加密對(duì)象為載荷信息而非流量數(shù)據(jù)特征,使得依賴于統(tǒng)計(jì)思想和機(jī)器學(xué)習(xí)的算法受加密技術(shù)的影響較小,因此加密流量識(shí)別技術(shù)的主流思想是訓(xùn)練機(jī)器學(xué)習(xí)的模型算法,基于流量統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)分類識(shí)別方法應(yīng)用較為廣泛。
21、對(duì)加密流量識(shí)別的對(duì)象不同,所采用的技術(shù)手段也不同,對(duì)通信流量識(shí)別的關(guān)鍵在于對(duì)識(shí)別對(duì)象的數(shù)據(jù)包、流特征、行為特征進(jìn)行特征選擇和特征選擇,這也是優(yōu)化識(shí)別算法的關(guān)鍵所在,但加密流量在加密過(guò)程中使得數(shù)據(jù)內(nèi)容的特征收到干擾,很大程度上限制了流量識(shí)別算法優(yōu)化。
22、特征集的質(zhì)量對(duì)機(jī)器學(xué)習(xí)算法的性能至關(guān)重要,使用不相干或者冗余的特征不利于大多數(shù)機(jī)器學(xué)習(xí)算法的準(zhǔn)確性,并且可能會(huì)使系統(tǒng)計(jì)算成本更高,因此一個(gè)理想的特征子集,應(yīng)該足夠小但保留了關(guān)鍵和必要的有用信息。
23、3、基于lgbm的流量分類技術(shù);
24、輕量級(jí)梯度提升模型(light?gradient?boosting?model,lgbm)最初由微軟提出,具有xgbt(extreme?grandient?boosting?tree)的許多優(yōu)點(diǎn),如訓(xùn)練效果好、不易過(guò)擬合等。其主要思想是利用弱分類器(決策樹)迭代訓(xùn)練以得到最優(yōu)模型,它與xgbt的主要區(qū)別在于樹的生產(chǎn)策略,xgbt樹是按層生長(zhǎng)(level-wise)的生長(zhǎng)策略,而lgbm使用了帶深度限制的按葉子生長(zhǎng)(leaf-wise)算法。而單邊梯度采樣算法(gradient-based?one-sidesampling,goss)和互斥特征捆綁(exclusive?feature?bundling)是lgbm執(zhí)行速度更快、精度更高的主要原因。
25、goss算法是lightgbm中用于處理大規(guī)模數(shù)據(jù)的一種重要采樣策略。其核心思想是在保持?jǐn)?shù)據(jù)分布特征的同時(shí)減少訓(xùn)練樣本數(shù)量,從而提高訓(xùn)練效率。goss基于具有較大梯度的實(shí)例對(duì)模型訓(xùn)練貢獻(xiàn)更大這樣一個(gè)觀察,認(rèn)為梯度越大,當(dāng)前模型對(duì)該實(shí)例的預(yù)測(cè)誤差越大,需要更多關(guān)注。保留大梯度實(shí)例可以保證模型學(xué)習(xí)到關(guān)鍵pattern。
26、efb要用于處理高維稀疏特征,其核心思想是將互斥的特征(很少同時(shí)取非零值)捆綁到一起,從而減少特征數(shù)量。具體實(shí)現(xiàn)時(shí),首先構(gòu)建特征沖突圖,計(jì)算任意兩個(gè)特征的沖突度(同時(shí)非零的頻率),根據(jù)設(shè)定閾值判斷是否互斥。然后,進(jìn)行特征捆綁,將問(wèn)題轉(zhuǎn)化為圖著色問(wèn)題,使用貪心算法將互斥特征分組,每組特征被捆綁為一個(gè)新特征。最后對(duì)捆綁后的特征進(jìn)行編碼,保證不同特征的取值范圍不重疊,并且支持特征還原。
27、選擇直方圖的決策樹算法,其基本思想是:對(duì)特征值進(jìn)行裝箱處理,把連續(xù)的浮點(diǎn)特征值離散化為k個(gè)整數(shù),形成箱體,同時(shí)構(gòu)建一個(gè)寬度為k的直方圖。之后遍歷數(shù)據(jù),由離散值作為索引在直方圖中累積統(tǒng)計(jì)信息,進(jìn)而由直方圖得到的離散值遍歷尋得最優(yōu)分割點(diǎn)。由于直方圖算法無(wú)需消耗額外存儲(chǔ)資源保存預(yù)排序的結(jié)果,進(jìn)需離散化后的值,因此lightgbm能有效減少內(nèi)存占用。
28、quic協(xié)議是由google于2013年提出并開發(fā)的,旨在解決http2.0所存在的建立鏈接耗時(shí)過(guò)長(zhǎng)、隊(duì)頭阻塞等問(wèn)題,是一種基于udp的低時(shí)延的傳輸層協(xié)議。quic提供可靠傳輸,并且可以在一個(gè)rtt內(nèi)建立連接。quic有許多優(yōu)于基于tcp的傳輸協(xié)議的功能設(shè)計(jì),它具有擁塞控制、流量控制和丟包恢復(fù)等功能,并且可以對(duì)網(wǎng)絡(luò)連接的建立、保持、遷移、終止等狀態(tài)進(jìn)行管理。quic還內(nèi)置tls1.3,使用quic記錄層代替tls1.2,對(duì)報(bào)文進(jìn)行加/解密,具有更高地安全性。quic采用連接標(biāo)識(shí)符cid(connection?id)表征唯一網(wǎng)絡(luò)流,這使得quic增加了連接遷移的特性。因此,設(shè)計(jì)一種高效的quic流量分類方法,提高quic流量分類的準(zhǔn)確性,將優(yōu)化網(wǎng)絡(luò)安全、監(jiān)控、服務(wù)質(zhì)量,但由于quic的全驗(yàn)證、全保密、0rtt連接建立、連接遷移、向前糾錯(cuò)、多路復(fù)用等特性,quic流量中提取的特征維度相比從傳統(tǒng)協(xié)議中提取出來(lái)的特征要更少。
29、j.luxembur等人評(píng)估了基于lgbm的quic加密流量分類器在分類效果,選擇了三個(gè)模型:1)基于卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài);2)lgbm;3)基于ip的分類器,測(cè)試評(píng)估了這三種模型的特性和準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明lgbm的分類器在訓(xùn)練的三周內(nèi),準(zhǔn)確率要優(yōu)于mm-cnn,在更流行的服務(wù)(如谷歌和臉書)上效果更好,但召回率差(luxemburk?j,hynekk,t.encrypted?traffic?classification:the?quic?case[c].20237thnetwork?trafficmeasurement?and?analysis?conference(tma),ieee,2023:1-10.)。s.almuhammadi等人研究測(cè)試了五種不同的集成學(xué)習(xí)技術(shù)解決quic網(wǎng)絡(luò)流量分類問(wèn)題(almuhammadi?s,alnajima,ayub?m.quic?network?traffic?classification?using?ensemble?machine?learningtechniques[j].applied?sciences,2023,13(8):4725.)。他們將模型在不同的場(chǎng)景下使用不同數(shù)量的特征進(jìn)行訓(xùn)練,并進(jìn)行性能評(píng)估。結(jié)果表明,xgbt和lgbm優(yōu)于其他模型,且lgbm在準(zhǔn)確率、精確率、召回率和f1分?jǐn)?shù)方面都優(yōu)于其他方法,高達(dá)99%以上,lgbm和xgbt使用少量特征(如15個(gè)分組)依舊實(shí)現(xiàn)了92%的性能得分。
30、4、基于ip算法實(shí)現(xiàn)的quic加密流量分類算法;
31、tcp和udp通過(guò)使用端口號(hào)在公共ip端口之間提供多流的多路復(fù)用,在實(shí)際應(yīng)用中,許多應(yīng)用程序也會(huì)利用本地主機(jī)上的“眾所周知”的端口作為其他主機(jī)可以發(fā)起通信的回合點(diǎn),基于網(wǎng)絡(luò)層的分類器,只需要查找tcp?syn數(shù)據(jù)包(在會(huì)話建立期間tcp三次握手的第一步)就可以知道新的客戶機(jī)-服務(wù)器tcp連接的服務(wù)器端。然后通過(guò)在internetassignednumberauthority(iana)的注冊(cè)端口列表中查找tcp?syn包的目標(biāo)端口號(hào)來(lái)推斷應(yīng)用程序,udp也類似(盡管udp沒有建立連接或維護(hù)連接狀態(tài))。
32、然而,這種方法也有局限性。首先,一些應(yīng)用程序可能沒有將其端口注冊(cè)到iana(例如,napster和kazaa等點(diǎn)對(duì)點(diǎn)應(yīng)用程序)。應(yīng)用程序可以使用過(guò)其知名端口以外的端口來(lái)避免操作系統(tǒng)訪問(wèn)控制限制(例如,類unix系統(tǒng)上的非特權(quán)用戶可能被迫在端口80以外的端口上運(yùn)行http服務(wù)器)。此外,在某些情況下,服務(wù)器端口是根據(jù)需要?jiǎng)討B(tài)分配的。例如,realvidel流允許動(dòng)態(tài)協(xié)商用于數(shù)據(jù)傳輸?shù)姆?wù)器端口,該服務(wù)器端口在初始tcp連接上進(jìn)行協(xié)商,該連接使用眾所周知的realvideo控制端口建立。
33、moore和papagiannaki結(jié)合使用基于端口和有效載荷的技術(shù)來(lái)識(shí)別網(wǎng)絡(luò)應(yīng)用(moree?a?w.toward?the?accurate?identification?ofnetwork?applications[j].pam,2005.doi:doi:10.1007/978-3-540-31966-5_4.)。分類過(guò)程從檢查流的端口號(hào)開始。如果沒有使用知名端口,則將流傳遞到下一階段。在第二階段,檢查第一個(gè)數(shù)據(jù)包,看它是否包含已知簽名。如果沒有找到,則檢查數(shù)據(jù)包,看它是否包含已知的協(xié)議。如果這些測(cè)試失敗,則研究流的第一個(gè)kbyte中的協(xié)議簽名。在此階段之后,未分類的流量將要檢查整個(gè)流量有效載荷。他們的結(jié)果表明,端口信息本身能夠正確分類總字節(jié)的69%。包括在每個(gè)流的第一個(gè)kbyte中觀察到的信息,將精度提高到近79%。更高的準(zhǔn)確性智能通過(guò)調(diào)查剩余的未分流的整個(gè)有效載荷來(lái)實(shí)現(xiàn)。盡管基于負(fù)載的檢查避免了對(duì)固定端口號(hào)的依賴,但它給流量識(shí)別設(shè)備帶了更大的復(fù)雜性和處理負(fù)荷。該算法的精度需與應(yīng)用程序協(xié)議語(yǔ)義的廣泛知識(shí)保持同步,并可能需要對(duì)大流量進(jìn)行并發(fā)分析,而面對(duì)加密流量時(shí),這種方法將面臨更大的挑戰(zhàn)。
34、nguyenphong?hoang等人的研究中發(fā)現(xiàn)即使啟用了加密,用戶通過(guò)dns查詢和tls服務(wù)器名稱指示(sni)擴(kuò)展也會(huì)泄露他們?cè)L問(wèn)的域的信息(hoangn?p,akhavanniaki?a,borisovn,et?al.assessing?the?privacybenefits?ofdomainname?encryption[c].proceedings?ofthe?15thacm?asia?conference?on?computer?and?communicationssecurity,2020:290-304.)。他們通過(guò)不同的指標(biāo)量化esni為不同托管和cdn提供的隱私增益,即共同托管帶來(lái)的k匿名度和ip地址變化的動(dòng)態(tài),發(fā)現(xiàn)所研究測(cè)試的20%域不會(huì)獲得任何隱私增益,因?yàn)樗麄兊闹鳈C(jī)名和ip地址之間會(huì)有一對(duì)一的映射,只有7.7%的域會(huì)每天更改其托管的ip地址。
35、jan?luxemburk等人設(shè)計(jì)了基于ip的分類器(luxemburk?j,hynekk,t.encrypted?traffic?classification:the?quic?case[c].20237thnetwork?trafficmeasurement?andanalysis?conference(tma),ieee,2023:1-10.),在訓(xùn)練過(guò)程中,對(duì)于每個(gè)ip地址及其/p?ip前綴,基于ip的分類器算法將托管服務(wù)和出現(xiàn)次數(shù)存儲(chǔ)到字典中。為了進(jìn)行分類,將進(jìn)行精確匹配試驗(yàn)。當(dāng)未知的ip地址或由于給定的ip的多個(gè)共同托管服務(wù)(出現(xiàn)次數(shù)最多的服務(wù)的分?jǐn)?shù)小于exact_t)而導(dǎo)致完全匹配失敗時(shí),執(zhí)行子網(wǎng)絡(luò)匹配,并選擇子網(wǎng)絡(luò)中出現(xiàn)的次數(shù)最大的服務(wù)。當(dāng)訓(xùn)練集中不存在子網(wǎng)絡(luò)時(shí),分類器也不進(jìn)行預(yù)測(cè)。
36、綜上,lgbm的分類器在訓(xùn)練的三周內(nèi),準(zhǔn)確率要優(yōu)于mm-cnn,但召回率差,這意味著lgbm在更流行的服務(wù)(如谷歌和臉書)上效果更好。但基于深度學(xué)習(xí)的分類器,mm-cnn和lgbm的分類器在同一服務(wù)提供商之間的分類往往會(huì)出錯(cuò),例如,在分類google?pay和googleannalytics的流量時(shí),兩個(gè)分類器的性能就會(huì)大幅下降。而基于ip的分類器則在整個(gè)測(cè)試間性能都很穩(wěn)定。但只要服務(wù)器改變了所有的ip地址,基于ip的分類器就會(huì)導(dǎo)致召回率降為0,不適用于共同托管的服務(wù)流量識(shí)別分類。且與lgbm相比,基于機(jī)器學(xué)習(xí)的模型要更容易受到數(shù)據(jù)漂移的影響。
技術(shù)實(shí)現(xiàn)思路
1、為了解決目前quic流量分類研究中存在的難以適應(yīng)實(shí)際網(wǎng)絡(luò)環(huán)境和準(zhǔn)確率低的問(wèn)題,本發(fā)明提供一種基于多模型融合的quic加密流量分類方法,旨在通過(guò)現(xiàn)階段主流的模型融合方式,將基于lgbm的quic流量分類模型和基于ip的quic流量分類模型進(jìn)行融合,充分發(fā)揮兩種技術(shù)的優(yōu)勢(shì),劣勢(shì)互補(bǔ),實(shí)現(xiàn)具有基于lgbm的quic流量分類模型的高準(zhǔn)確率、基于ip的quic流量分類模型的高召回率和穩(wěn)定性的quic流量分類器。
2、本發(fā)明為解決技術(shù)問(wèn)題所采用的技術(shù)方案如下:
3、本發(fā)明提供的一種基于多模型融合的quic加密流量分類方法,包括以下步驟:
4、步驟一、數(shù)據(jù)預(yù)處理;
5、步驟二、模型訓(xùn)練階段;
6、s201:劃分訓(xùn)練集和驗(yàn)證集;
7、s202:用訓(xùn)練集訓(xùn)練高精度模型組和高召回率模型組中的每個(gè)基礎(chǔ)模型;
8、s203:用驗(yàn)證集評(píng)估每個(gè)基礎(chǔ)模型的性能;
9、s204:若啟用了動(dòng)態(tài)權(quán)重機(jī)制,則根據(jù)每個(gè)基礎(chǔ)模型在驗(yàn)證集上的表現(xiàn)計(jì)算其對(duì)應(yīng)的動(dòng)態(tài)權(quán)重;
10、s205:對(duì)獲得的動(dòng)態(tài)權(quán)重進(jìn)行歸一化處理;
11、s206:使用多個(gè)候選閾值來(lái)尋找最優(yōu)決策閾值;
12、步驟三、模型預(yù)測(cè)階段;
13、s301:輸入預(yù)測(cè)數(shù)據(jù),每個(gè)基礎(chǔ)模型生成各自的預(yù)測(cè)概率;
14、s302:若啟用了動(dòng)態(tài)權(quán)重機(jī)制,則每個(gè)基礎(chǔ)模型的預(yù)測(cè)概率會(huì)根據(jù)訓(xùn)練階段得到的動(dòng)態(tài)權(quán)重進(jìn)行加權(quán)平均,以進(jìn)行概率校準(zhǔn);
15、s303:將每個(gè)基礎(chǔ)模型的校準(zhǔn)概率進(jìn)行組合;
16、s304:通過(guò)最優(yōu)決策閾值對(duì)組合后的校準(zhǔn)概率進(jìn)行判斷,生成最終的分類預(yù)測(cè)結(jié)果。
17、進(jìn)一步的,步驟一中,所述數(shù)據(jù)來(lái)源于cesnet-quic22數(shù)據(jù)集。
18、進(jìn)一步的,步驟一中,所述數(shù)據(jù)預(yù)處理的方法為:對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,對(duì)數(shù)據(jù)包直方圖進(jìn)行規(guī)范化和對(duì)flowstats進(jìn)行穩(wěn)健的縮放。
19、進(jìn)一步的,所述高精度模型組中的基礎(chǔ)模型為基于lgbm的quic流量分類模型;所述高召回率模型組中的基礎(chǔ)模型為基于ip的quic流量分類模型。
20、進(jìn)一步的,步驟s203中,通過(guò)依次遍歷高精度模型組和高召回率模型組中的所有基礎(chǔ)模型,對(duì)每個(gè)基礎(chǔ)模型進(jìn)行獨(dú)立訓(xùn)練。
21、進(jìn)一步的,步驟s204中,對(duì)于高精度模型組使用訓(xùn)練的精度值計(jì)算權(quán)重;對(duì)于高召回率模型組使用召回率計(jì)算權(quán)重。
22、進(jìn)一步的,步驟s206中,利用投票閾值優(yōu)化方法,通過(guò)投票優(yōu)化決策閾值,在驗(yàn)證集上搜索最優(yōu)決策閾值來(lái)提升模型性能。
23、進(jìn)一步的,步驟s206中,選擇能獲得最佳f1分?jǐn)?shù)的閾值作為最優(yōu)決策閾值。
24、進(jìn)一步的,步驟三中,設(shè)計(jì)一種基于ip地址的分類概率預(yù)測(cè)方法,通過(guò)ip地址的網(wǎng)絡(luò)歸屬關(guān)系來(lái)進(jìn)行分類預(yù)測(cè)。
25、更進(jìn)一步的,在分類預(yù)測(cè)過(guò)程中,通過(guò)兩級(jí)查找策略,第一級(jí)經(jīng)過(guò)網(wǎng)站的網(wǎng)絡(luò)查找,第二級(jí)經(jīng)過(guò)網(wǎng)絡(luò)前綴查找,找到后統(tǒng)計(jì)該類別下所有的標(biāo)簽數(shù),算出各標(biāo)簽的占比,若在ip字典和網(wǎng)絡(luò)前綴字典中都未找到,則概率設(shè)為0。
26、本發(fā)明的有益效果是:
27、本發(fā)明基于投票的多模型融合機(jī)制,提出一種基于lgbm-ip的quic加密流量分類算法,結(jié)合不同的模型的優(yōu)點(diǎn),互相補(bǔ)充學(xué)習(xí)到的領(lǐng)域知識(shí),平均各自的噪聲差異,從而降低單個(gè)模型過(guò)擬合和泛化能力差的風(fēng)險(xiǎn),以實(shí)現(xiàn)更高準(zhǔn)確率和穩(wěn)定性的quic加密流量分類。