訓練前段階の防御(Pre-training Stage Defense)#
訓練前段階では、訓練データとモデルアーキテクチャの両方を制御できる。この段階の防御は、(A) ロバストなモデルアーキテクチャの設計と (B) 訓練データの前処理によるバックドア防御の2つに大別される。
ロバストなモデルアーキテクチャ#
モデルのアーキテクチャ自体がロバスト性に大きく影響することが知られている。
モデル容量の影響#
Madryらは、敵対的サンプルに対するロバスト性を得るには通常のモデルより大きな容量が必要であることを示した。VC次元の観点からも、モデルの幅と深さの増加がロバスト性を向上させることが実証されている。
モデル構造の影響#
手法 |
アプローチ |
効果 |
|---|---|---|
MBN |
バッチ正規化の平均・分散の調整 |
ロバスト性に顕著な影響 |
SAT |
平滑な活性化関数の使用 |
敵対的効果の削減 |
SGM |
ResNetのスキップ接続の活用 |
ロバスト性の向上 |
RobustMQ |
モデルの量子化 |
量子化モデルがより高いロバスト性を示す |
FPCM |
高周波情報を削減するモジュールの設計 |
敵対的サンプルが高周波に依存する性質を利用 |
Vision Transformer vs CNN#
Vision Transformer(ViT)はCNNよりも優れた敵対的ロバスト性を示すが、パッチ単位の摂動にはより脆弱である。重みの疎性がTransformerのロバスト性を改善することも示されている。
Neural Architecture Search(NAS)によるロバスト性の向上#
NASを活用してロバストなアーキテクチャを自動探索するアプローチが提案されている。
直接的にロバスト性を利用する手法#
手法 |
アプローチ |
|---|---|
E2RNAS |
敵対的ロバスト性を探索プロセスに直接組み込む |
RNAS |
正則化項で精度とロバスト性のバランスを取る |
G-RNA |
グラフニューラルネットワーク向けにロバスト構造を発見 |
間接的にロバスト特性を利用する手法#
手法 |
アプローチ |
|---|---|
AdvRush |
損失の平滑性に基づいてロバスト構造を特定 |
RACL |
リプシッツ定数を推定して最適構成を発見 |
Dsrna |
下界証明とヤコビノルム境界に基づく微分可能メトリクスを定式化 |
効率性の向上#
手法 |
アプローチ |
|---|---|
ABanditNAS |
上限・下限推定による探索空間の効率化 |
Wsr-NAS |
軽量敵対ノイズ推定器で計算負荷を削減 |
CRoZe |
敵対学習と標準学習を並列実行し情報交換で探索を加速 |
訓練データの前処理によるバックドア防御#
訓練データに毒入れされたサンプルが含まれる場合に、訓練前にそれらを検出・除去するアプローチ。
活性化の異常検出(Activation Anomaly Detection)#
DNN内部の活性化パターンの違いを利用して毒入れサンプルを検出する。
手法 |
アプローチ |
|---|---|
AC(Activation Clustering) |
活性化を1Dベクトルに変換し、ICAで次元削減後にk-means(k=2)でクラスタリング。シルエットスコアでクリーン/毒入れを分離 |
Spectral Signature |
SVDで各クラスの中心化活性化行列の上位右特異ベクトルを取得し、外れ値スコアで疑わしいサンプルを除去 |
SPECTRE |
k-IDENTIFIERアルゴリズムで左特異ベクトルを発見し、QUE(量子エントロピー)スコアでフィルタリング |
SCAn |
2成分分解を活用し、クリーンサンプルの共分散行列を推定。尤度比テストとEMアルゴリズムで検出 |
Beatrix |
グラム行列と高階形式を使用して活性化の相違を検出 |
モデル変動に対する予測安定性の利用#
モデルの学習過程でバックドアが通常の特徴より早く学習される性質を利用する。
手法 |
アプローチ |
|---|---|
ABL(Anti-Backdoor Learning) |
早期の訓練エポックで損失が低いサンプルを毒入れとしてフィルタリング(トリガーは早期に学習されるため) |
CT(Confusion Training) |
ランダムに誤ラベル付けしたクリーンサンプルで再訓練し、毒入れサンプルのみが正確に予測されることを利用 |
差分プライバシー防御 |
再訓練時にノイズ摂動を導入し、クリーンモデルと同様の振る舞いを復元 |
ASSET |
多様な深層学習パラダイムで訓練損失を用いた2ステップ最適化 |
参考文献#
Wu et al. (2023). Defenses in Adversarial Machine Learning: A Survey. Section III.
Madry et al. (2018). Towards Deep Learning Models Resistant to Adversarial Attacks.
Chen et al. (2019). Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering.
Tran et al. (2018). Spectral Signatures in Backdoor Attacks.