訓練後・デプロイ段階の防御(Post-training / Deployment Stage Defense)#

訓練後段階では、潜在的にバックドア化された訓練済みモデルと(オプションで)少量のクリーンデータを用いて、バックドアの検出や除去を行う。デプロイ段階では、量子化モデルへの重み攻撃に対する耐性強化や検証を行う。

バックドア検出(Backdoor Detection)#

モデルにバックドアが存在するかどうかを判定する。

特徴ベースの検出#

手法

アプローチ

ABS

潜在的に侵害されたニューロンを特定し、トリガーの逆工学で確認

EX-RAY

対称的な特徴差分で検出

DECREE

事前学習済みエンコーダ向けの検出手法。最小トリガーパターンを探索

DeepInspect

ブラックボックス設定でモデル反転を通じて代替訓練データを復元して検出

重みベースの検出#

手法

アプローチ

ULPs

多数のクリーン/毒入れモデルを訓練し、Universal Litmus Patterns(普遍的リトマス試験紙)で検出

MNTD

Shadow modelを用いた検出

目標ラベルの予測(Target Label Prediction)#

バックドアが検出された場合に、攻撃者が狙った目標ラベルを特定する。

特徴ベース#

手法

アプローチ

NC(Neural Cleanse)

各ラベルに対する最小の普遍的摂動(マスク化トリガー)を逆算。異常に小さいトリガーが見つかるラベルが目標ラベル

TND

データが限られた/ない状況にも対応

K-Arm

強化学習のK-arm bandit戦略で効率的に目標ラベルを特定

L-RED

ラグランジュベースの逆工学

B3D

勾配なし最適化による逆工学

重みベース#

手法

アプローチ

Greg et al.

最終線形層でトロイの目標ラベルを関連付け

CPBD

臨界経路分析で特定

バックドアの除去(Backdoor Removal)#

バックドアを検出した後、モデルの有用性を保ちつつバックドアを除去する。

構造修正(プルーニング)ベース#

バックドアに関連するニューロンを特定して除去する。

手法

アプローチ

FP(Fine-Pruning)

良性データで活性化できないニューロンをプルーニング後にファインチューニング

ANP

min-max最適化で危険なニューロンを特定して除去

ShapPruning

シャプレイ値で各ニューロンの貢献度を計算し除去

CLP

チャネルのリプシッツ定数を測定し、異常に大きいチャネルを除去

AWM

ソフトな重みマスキング

NPD

線形変換層を挿入して無力化

ファインチューニングベース#

トリガーの逆工学と組み合わせてモデルを再学習する。

\[ \min_{\boldsymbol{\theta}, m, \Delta} \sum_{(\mathbf{x}, y) \in \mathcal{D}_{\text{clean}}} \mathcal{L}\left(f_{\boldsymbol{\theta}}((1-m) \odot \mathbf{x} + m \odot \Delta), y\right) \]
  • \(m\): トリガーのマスク

  • \(\Delta\): 逆転されたトリガーパターン

手法

アプローチ

NC + i-BAU

逆転トリガーを用いた再学習

MESA

Max-entropy staircase approximatorでトリガー分布を近似

PBE

敵対的サンプルを利用した再学習

NAD

教師モデルのファインチューニングによる知識蒸留ベースの除去

重み攻撃への防御(Weight Attack Defense)#

重み攻撃(ビットフリップ攻撃)は、デプロイされたモデルの量子化された重みパラメータを直接改変する攻撃である。

モデル強化#

手法

アプローチ

OCM

部分的に重複するビット文字列を採用し、tanh活性化関数で重みを相関化

Aegis

中間層に内部分類器(ICs)を追加し、動的終了機構を実装

RREC

ランダム回転でビット順を難読化し、非線形量子化で圧縮

フィンガープリント検証#

手法

アプローチ

DeepAttest

デバイス固有のフィンガープリントをモデル重みに符号化し、信頼実行環境(TEE)に保存。推論時に検証

参考文献#