訓練前段階の防御（Pre-training Stage Defense）

訓練前段階の防御（Pre-training Stage Defense）#

訓練前段階では、訓練データとモデルアーキテクチャの両方を制御できる。この段階の防御は、(A) ロバストなモデルアーキテクチャの設計と (B) 訓練データの前処理によるバックドア防御の2つに大別される。

モデルのアーキテクチャ自体がロバスト性に大きく影響することが知られている。

Madryらは、敵対的サンプルに対するロバスト性を得るには通常のモデルより大きな容量が必要であることを示した。VC次元の観点からも、モデルの幅と深さの増加がロバスト性を向上させることが実証されている。

Vision Transformer（ViT）はCNNよりも優れた敵対的ロバスト性を示すが、パッチ単位の摂動にはより脆弱である。重みの疎性がTransformerのロバスト性を改善することも示されている。

NASを活用してロバストなアーキテクチャを自動探索するアプローチが提案されている。

手法	アプローチ
E2RNAS	敵対的ロバスト性を探索プロセスに直接組み込む
RNAS	正則化項で精度とロバスト性のバランスを取る
G-RNA	グラフニューラルネットワーク向けにロバスト構造を発見

手法	アプローチ
AdvRush	損失の平滑性に基づいてロバスト構造を特定
RACL	リプシッツ定数を推定して最適構成を発見
Dsrna	下界証明とヤコビノルム境界に基づく微分可能メトリクスを定式化

手法	アプローチ
ABanditNAS	上限・下限推定による探索空間の効率化
Wsr-NAS	軽量敵対ノイズ推定器で計算負荷を削減
CRoZe	敵対学習と標準学習を並列実行し情報交換で探索を加速

訓練データに毒入れされたサンプルが含まれる場合に、訓練前にそれらを検出・除去するアプローチ。

DNN内部の活性化パターンの違いを利用して毒入れサンプルを検出する。

手法	アプローチ
AC（Activation Clustering）	活性化を1Dベクトルに変換し、ICAで次元削減後にk-means（k=2）でクラスタリング。シルエットスコアでクリーン/毒入れを分離
Spectral Signature	SVDで各クラスの中心化活性化行列の上位右特異ベクトルを取得し、外れ値スコアで疑わしいサンプルを除去
SPECTRE	k-IDENTIFIERアルゴリズムで左特異ベクトルを発見し、QUE（量子エントロピー）スコアでフィルタリング
SCAn	2成分分解を活用し、クリーンサンプルの共分散行列を推定。尤度比テストとEMアルゴリズムで検出
Beatrix	グラム行列と高階形式を使用して活性化の相違を検出

モデルの学習過程でバックドアが通常の特徴より早く学習される性質を利用する。

手法	アプローチ
ABL（Anti-Backdoor Learning）	早期の訓練エポックで損失が低いサンプルを毒入れとしてフィルタリング（トリガーは早期に学習されるため）
CT（Confusion Training）	ランダムに誤ラベル付けしたクリーンサンプルで再訓練し、毒入れサンプルのみが正確に予測されることを利用
差分プライバシー防御	再訓練時にノイズ摂動を導入し、クリーンモデルと同様の振る舞いを復元
ASSET	多様な深層学習パラダイムで訓練損失を用いた2ステップ最適化