訓練前段階の防御(Pre-training Stage Defense)#

訓練前段階では、訓練データとモデルアーキテクチャの両方を制御できる。この段階の防御は、(A) ロバストなモデルアーキテクチャの設計と (B) 訓練データの前処理によるバックドア防御の2つに大別される。

ロバストなモデルアーキテクチャ#

モデルのアーキテクチャ自体がロバスト性に大きく影響することが知られている。

モデル容量の影響#

Madryらは、敵対的サンプルに対するロバスト性を得るには通常のモデルより大きな容量が必要であることを示した。VC次元の観点からも、モデルの幅と深さの増加がロバスト性を向上させることが実証されている。

モデル構造の影響#

手法

アプローチ

効果

MBN

バッチ正規化の平均・分散の調整

ロバスト性に顕著な影響

SAT

平滑な活性化関数の使用

敵対的効果の削減

SGM

ResNetのスキップ接続の活用

ロバスト性の向上

RobustMQ

モデルの量子化

量子化モデルがより高いロバスト性を示す

FPCM

高周波情報を削減するモジュールの設計

敵対的サンプルが高周波に依存する性質を利用

Vision Transformer vs CNN#

Vision Transformer(ViT)はCNNよりも優れた敵対的ロバスト性を示すが、パッチ単位の摂動にはより脆弱である。重みの疎性がTransformerのロバスト性を改善することも示されている。

Neural Architecture Search(NAS)によるロバスト性の向上#

NASを活用してロバストなアーキテクチャを自動探索するアプローチが提案されている。

直接的にロバスト性を利用する手法#

手法

アプローチ

E2RNAS

敵対的ロバスト性を探索プロセスに直接組み込む

RNAS

正則化項で精度とロバスト性のバランスを取る

G-RNA

グラフニューラルネットワーク向けにロバスト構造を発見

間接的にロバスト特性を利用する手法#

手法

アプローチ

AdvRush

損失の平滑性に基づいてロバスト構造を特定

RACL

リプシッツ定数を推定して最適構成を発見

Dsrna

下界証明とヤコビノルム境界に基づく微分可能メトリクスを定式化

効率性の向上#

手法

アプローチ

ABanditNAS

上限・下限推定による探索空間の効率化

Wsr-NAS

軽量敵対ノイズ推定器で計算負荷を削減

CRoZe

敵対学習と標準学習を並列実行し情報交換で探索を加速

訓練データの前処理によるバックドア防御#

訓練データに毒入れされたサンプルが含まれる場合に、訓練前にそれらを検出・除去するアプローチ。

活性化の異常検出(Activation Anomaly Detection)#

DNN内部の活性化パターンの違いを利用して毒入れサンプルを検出する。

手法

アプローチ

AC(Activation Clustering)

活性化を1Dベクトルに変換し、ICAで次元削減後にk-means(k=2)でクラスタリング。シルエットスコアでクリーン/毒入れを分離

Spectral Signature

SVDで各クラスの中心化活性化行列の上位右特異ベクトルを取得し、外れ値スコアで疑わしいサンプルを除去

SPECTRE

k-IDENTIFIERアルゴリズムで左特異ベクトルを発見し、QUE(量子エントロピー)スコアでフィルタリング

SCAn

2成分分解を活用し、クリーンサンプルの共分散行列を推定。尤度比テストとEMアルゴリズムで検出

Beatrix

グラム行列と高階形式を使用して活性化の相違を検出

モデル変動に対する予測安定性の利用#

モデルの学習過程でバックドアが通常の特徴より早く学習される性質を利用する。

手法

アプローチ

ABL(Anti-Backdoor Learning)

早期の訓練エポックで損失が低いサンプルを毒入れとしてフィルタリング(トリガーは早期に学習されるため)

CT(Confusion Training)

ランダムに誤ラベル付けしたクリーンサンプルで再訓練し、毒入れサンプルのみが正確に予測されることを利用

差分プライバシー防御

再訓練時にノイズ摂動を導入し、クリーンモデルと同様の振る舞いを復元

ASSET

多様な深層学習パラダイムで訓練損失を用いた2ステップ最適化

参考文献#