在不知道多長的子序列能更好的表示可執行文件的情況下,只能以固定窗口大小在字節碼序列中滑動,產生大量的短序列,由機器學習方法選擇可能區分惡意軟件和良性軟件的短序列作為特征,產生短序列的方法叫n-grams。“080074ff13b2”的字節碼序列,如果以3-grams產生連續部分重疊的短序列,將得到“080074”、“0074ff”、“74ff13”、“ff13b2”四個短序列。每個短序列特征的權重表示有多種方法。**簡單的方法是如果該短序列在具體樣本中出現,就表示為1;如果沒有出現,就表示為0,也可以用。本實施例采用3-grams方法提取特征,3-grams產生的短序列非常龐大,將產生224=(16,777,216)個特征,如此龐大的特征集在計算機內存中存儲和算法效率上都是問題。如果短序列特征的tf較小,對機器學習可能沒有意義,選取了tf**高的5000個短序列特征,計算每個短序列特征的,每個短序列特征的權重是判斷其所在軟件樣本是否為惡意軟件的依據,也是區分每個軟件樣本的依據。(4)前端融合前端融合的架構如圖4所示,前端融合方式將三種模態的特征合并,然后輸入深度神經網絡,隱藏層的***函數為relu,輸出層的***函數是sigmoid,中間使用dropout層進行正則化,防止過擬合,優化器。跨設備測試報告指出平板端UI元素存在比例失調問題。南京軟件測試機構
這種傳統方式幾乎不能檢測未知的新的惡意軟件種類,能檢測的已知惡意軟件經過簡單加殼或混淆后又不能檢測,且使用多態變形技術的惡意軟件在傳播過程中不斷隨機的改變著二進制文件內容,沒有固定的特征,使用該方法也不能檢測。新出現的惡意軟件,特別是zero-day惡意軟件,在釋放到互聯網前,都使用主流的反**軟件測試,確保主流的反**軟件無法識別這些惡意軟件,使得當前的反**軟件通常對它們無能為力,只有在惡意軟件大規模傳染后,捕獲到這些惡意軟件樣本,提取簽名和更新簽名庫,才能檢測這些惡意軟件。基于數據挖掘和機器學習的惡意軟件檢測方法將可執行文件表示成不同抽象層次的特征,使用這些特征來訓練分類模型,可實現惡意軟件的智能檢測,基于這些特征的檢測方法也取得了較高的準確率。受文本分類方法的啟發,研究人員提出了基于二進制可執行文件字節碼n-grams的惡意軟件檢測方法,這類方法提取的特征覆蓋了整個二進制可執行文件,包括pe文件頭、代碼節、數據節、導入節、資源節等信息,但字節碼n-grams特征通常沒有明顯的語義信息,大量具有語義的信息丟失,很多語義信息提取不完整。此外,基于字節碼n-grams的檢測方法提取代碼節信息考慮了機器指令的操作數。軟件功能測試報告費用安全掃描確認軟件通過ISO 27001標準,無高危漏洞記錄。
此外格式結構信息具有明顯的語義信息,但基于格式結構信息的檢測方法沒有提取決定軟件行為的代碼節和數據節信息作為特征。某一種類型的特征都從不同的視角反映刻畫了可執行文件的一些性質,字節碼n-grams、dll和api信息、格式結構信息都部分捕捉到了惡意軟件和良性軟件間的可區分信息,但都存在著一定的局限性,不能充分、綜合、整體的表示可執行文件的本質,使得檢測結果準確率不高、可靠性低、泛化性和魯棒性不佳。此外,惡意軟件通常偽造出和良性軟件相似的特征,逃避反**軟件的檢測。技術實現要素:本發明實施例的目的在于提供一種基于多模態深度學習的惡意軟件檢測方法,以解決現有采用二進制可執行文件的單一特征類型進行惡意軟件檢測的檢測方法檢測準確率不高、檢測可靠性低、泛化性和魯棒性不佳的問題,以及其難以檢測出偽造良性軟件特征的惡意軟件的問題。本發明實施例所采用的技術方案是,基于多模態深度學習的惡意軟件檢測方法,按照以下步驟進行:步驟s1、提取軟件樣本的二進制可執行文件的dll和api信息、pe格式結構信息以及字節碼n-grams的特征表示,生成軟件樣本的dll和api信息特征視圖、格式信息特征視圖以及字節碼n-grams特征視圖。
3)pe可選頭部有效尺寸的值不正確,(4)節之間的“間縫”,(5)可疑的代碼重定向,(6)可疑的代碼節名稱,(7)可疑的頭部***,(8)來自,(9)導入地址表被修改,(10)多個pe頭部,(11)可疑的重定位信息,(12)把節裝入到vmm的地址空間,(13)可選頭部的sizeofcode域取值不正確,(14)含有可疑標志。存在明顯的統計差異的格式結構特征包括:(1)無證書表;(2)調試數據明顯小于正常文件,(3).text、.rsrc、.reloc和.rdata的characteristics屬性異常,(4)資源節的資源個數少于正常文件。生成軟件樣本的字節碼n-grams特征視圖,是統計了每個短序列特征的詞頻(termfrequency,tf),即該短序列特征在軟件樣本中出現的頻率。先從當前軟件樣本的所有短序列特征中選取詞頻tf**高的多個短序列特征;然后計算選取的每個短序列特征的逆向文件頻率idf與詞頻tf的乘積,并將其作為選取的每個短序列特征的特征值,,表示該短序列特征表示其所在軟件樣本的能力越強;**后在選取的詞頻tf**高的多個短序列特征中選取,生成字節碼n-grams特征視圖。:=tf×idf;tf(termfrequency)是詞頻,定義如下:其中,ni,j是短序列特征i在軟件樣本j中出現的次數,∑knk,j指軟件樣本j中所有短序列特征出現的次數之和。企業數字化轉型指南:艾策科技的實用建議。
幫助客戶提升內部技術團隊能力。例如,某三甲醫院在采用艾策科技的醫療信息化系統檢測方案后,不僅系統漏洞率下降45%,其IT團隊的安全意識與應急響應能力也提升。技術創新未來方向艾策科技創始人兼CTO表示:“作為軟件檢測公司,我們始終將技術創新視為競爭力。未來,公司將重點投入AI算法優化、邊緣計算檢測等前沿領域,為電力能源、政企單位等行業提供更高效、更智能的質量保障服務。”深圳艾策信息科技有限公司是一家立足于粵港澳大灣區,依托信息技術產業,面向全國客戶提供專業、可靠服務的第三方CMACNAS檢測機構。在檢測服務過程中,公司始終堅持以客戶需求為本,秉承公平公正的第三方檢測要求,遵循國家檢測標準規范,確保檢測數據和結果準確可靠,運用前沿A人工智能技術提高檢測效率。我們追求創造優異的社會價值,我們致力于打造公司成為第三方檢測行業的行業榜樣。可靠性評估連續運行72小時出現2次非致命錯誤。四川軟件測試機構
滲透測試報告暴露2個高危API接口需緊急加固。南京軟件測試機構
后端融合模型的10折交叉驗證的準確率是%,對數損失是,混淆矩陣如圖13所示,規范化后的混淆矩陣如圖14所示。后端融合模型的roc曲線如圖15所示,其顯示后端融合模型的auc值為。(6)中間融合中間融合的架構如圖16所示,中間融合方式用深度神經網絡從三種模態的特征分別抽取高等特征表示,然后合并學習得到的特征表示,再作為下一個深度神經網絡的輸入訓練模型,隱藏層的***函數為relu,輸出層的***函數是sigmoid,中間使用dropout層進行正則化,防止過擬合,優化器(optimizer)采用的是adagrad,batch_size是40。圖16中,用于抽取dll和api信息特征視圖的深度神經網絡包含3個隱含層,其***個隱含層的神經元個數是128,第二個隱含層的神經元個數是64,第三個隱含層的神經元個數是32,且3個隱含層中間間隔設置有dropout層。用于抽取格式信息特征視圖的深度神經網絡包含2個隱含層,其***個隱含層的神經元個數是64,其第二個隱含層的神經元個數是32,且2個隱含層中間設置有dropout層。用于抽取字節碼n-grams特征視圖的深度神經網絡包含4個隱含層,其***個隱含層的神經元個數是512,第二個隱含層的神經元個數是384,第三個隱含層的神經元個數是256,第四個隱含層的神經元個數是125。南京軟件測試機構