推論段階の防御(Inference Stage Defense)#

推論段階では入力サンプルのみを制御でき、悪意のある入力(敵対的サンプルまたはバックドアトリガー入力)を拒否・修正する防御を行う。

バックドアに対する推論時防御#

毒入れサンプルの検出(Poisoned Sample Detection)#

推論時に、入力がバックドアトリガーを含むかどうかを判定する。

クエリ摂動ベース#

入力に摂動を加え、予測の安定性の違いで検出する。

手法

アプローチ

STRIP

入力に様々な画像パターンを重ね合わせ、予測のエントロピーを計算。クリーンな入力は高エントロピー、バックドアトリガー入力は低エントロピー

SentiNet

GradCAMで顕著領域を局所化して検出

TeCo

Corruption robustness consistencyを測定

SCALE-UP

ピクセル単位の増幅プロセスで検出

クエリ区別ベース#

入力そのものの特性からトリガーの有無を判定する。

手法

アプローチ

FreqDetector

高周波アーティファクトを検出

FREAK

周波数感度の差異を分析

Orion

多分岐ネットワークに小型ネットワークを装着して検出

毒入れサンプルの復旧(Poisoned Sample Recovery)#

バックドア入力を検出した場合に、正しい予測を復元する。

手法

アプローチ

Orion(再ラベリング)

浅層の特徴から元のラベルを推論

NAB

2つの再ラベリング手法を提案

ZIP(浄化)

線形変換でトリガーパターンを破壊し、事前学習済み拡散モデルで意味情報を補完

敵対的サンプルに対する推論時防御#

正しい予測のフィードバック(Correct Feedback)#

敵対的な摂動を除去または無力化して正しい予測を返す。3つのアプローチがある。

入力変換(Input Transformation)#

入力に変換 \(T(\cdot)\) を適用して摂動を除去する。

\[ \hat{y} = f(T(\mathbf{x}_{\text{test}})) \]

手法

変換

Guo et al.

画像のクロッピング、リスケーリング、ビット深度削減、JPEG圧縮

Feature Distillation

JPEG圧縮ベース

DAD

高周波成分の除去

Song et al.

Saak変換

Mustafa et al.

超解像技術

入力再構成(Input Reconstruction)#

生成モデル \(R(\cdot)\) でクリーンな入力を再構成する。

\[ \hat{y} = f(R(\mathbf{x}_{\text{test}})), \quad R^* = \arg\min_R \mathbb{E}_{\mathbf{x} \sim p_{\text{data}}} \|R(\mathbf{x}) - \mathbf{x}\|^2 \]

手法

アプローチ

MagNet

オートエンコーダベースのreformer

Defense-GAN

GANによる分布近似

ComDefend

圧縮ベースの分布近似

Hill et al.

Energy-Based Model(EBM)で長期Langevin更新

DiffPure

拡散モデルによるデノイジング。明示的な分布近似

HGD

高レベル表現で誘導するデノイザー

APE-GAN

GANベースのデノイザー

DISCO

局所陰関数でRGB値を予測

D3

辞書学習と疎再構成

入力摂動(Input Perturbation)#

摂動を打ち消す逆方向の摂動 \(\gamma\) を最適化する。

\[ \gamma^* = \arg\min_\gamma \mathcal{L}_{\text{task}}(\mathbf{x}_{\text{test}} + \gamma) \]

手法

アプローチ

PixelDefend

PixelCNNで分布を推定し、クリーンな分布に近い入力に摂動

HPD

Hilbertベースの改良版PixelCNN

SOAP

自己教師あり学習タスクの最適化

Hedge Defense

決定境界のシフト

入力の拒否(Rejecting Input / Detection)#

敵対的サンプルを検出して拒否する。

特徴ベースの検出#

手法

アプローチ

Metzen et al.

補助的なバイナリ分類器を訓練

SafetyNet

離散的な特徴量子化

Grosse et al.

追加クラスの導入

Li et al.

PCAによる統計量抽出

LID

局所的な内在次元(Local Intrinsic Dimensionality)の違いを利用

Zhao et al.

フィッシャー情報行列の固有値

ML-LOO

特徴帰属の分散

LNG

Latent Neighborhood Graphの構築

Harder et al.

フーリエ係数の解析

分布の差異に基づく検出#

手法

アプローチ

Grosse et al.

最大平均偏差(MMD)とenergy distance

Gao et al.

効果的なカーネルを活用

Feinman et al.

カーネル密度推定

悪意のあるクエリ列への防御#

モデル窃取攻撃のように、一連のクエリを通じてモデルの情報を抽出しようとする攻撃への防御。

  • 異常なクエリパターンの検出

  • レート制限

  • 出力の摂動(信頼度スコアの丸め等)

  • ウォーターマーキング

参考文献#