學校名稱:國立臺灣科技大學
指導教授:鄭欣明
學生:吳家毅、蔡尚洲、潘瑨、張永承
機器學習模型(Machine Learning Model)的使用提升各領域的決策效率,但訓練一個完整的模型,需要大量的訓練資源。以ResNet-50為例,在具有一張1080 Ti GPU的情形下訓練一個可以辨識貓狗的模型,從開始訓練ResNet-50到完成訓練需要數個小時甚至數天的時間。以此為據,如果是層數較高的模型加上更加龐大的訓練資料集,所需的訓練時間成指數性成長。因此下載預訓練模型進行轉移式學習可以大量的節省時間成本。預訓練模型可以是第三方訓練的ML模型,或是在公開平台下載。例如,在Pytorch架構中下載預訓練模型的參數(.pt)就可以獲得一個訓練完成的模型。
由於下載模型逐漸流行,也引來的惡意攻擊者的覬覦,其可能在模型中夾帶惡意程式,讓受害者下載了被污染的模型,我們發現有以下的可能性:
1. 模型層:模型參數刻意被修改,針對特定輸入有反應的後門
2. 檔案層:可下載的.pt被注入指令的惡意檔案
可惜的是現今並沒有一個完整的方法可以同時檢測這兩層的攻擊,為此我們提出一種雙層快篩檢測架構,針對ML模型檔案層的二進制代碼和模型層的類神經網路結構來檢測是否被污染,夾帶後門攻擊。