Benchmarking Deep Learning Interpretability in Time Series Predictions

イントロ

説明可能なモデルは多数提案されているが, 説明性の評価は正解がないため難しい
特に時系列データだとこれが問題になる
- 画像や文章のようにsaliency mapやattentionを使った可視化ができない
特徴量の一部を隠して予測精度がどれぐらい落ちるか確認する
実験を通して以下を確認した
- 画像に対しては有効なsaliency map手法が時系列においてはその限りでない
- saliency mapは各々のタイムステップにおいて重要な特徴量とそうでないものを見分けられない
  - あるタイムステップで一つの特徴量が重要と見做されるとそれ以外の特徴量
- モデルの構造がsaliency mapの出力に大きく影響する
重要な特徴量を正解として含む人工データを生成し評価に使用
saliency map手法の後段で使える手法を提案
- タイムステップごとにtime-relevance scoreを計算する
- time-relevance scoreがある一定値を超えていたら各特徴量ごとにfeature-relevance scoreを計算する
- 最終的なscoreをtime-relevance scoreとfeature-relevance scoreの積でモデル化

提案手法

Modification-based evaluation metricsには二つの問題がある
- 特徴量のランキングが重要度を表すという仮定を置いている
  \(\rightarrow\) 特徴量をひとつづく抜く代わりに一定の割合づつ抜く方法を取る
- 特徴量を削除することでテストデータの分布が変わるためテストデータと訓練データのi.i.dが破れる
  \(\rightarrow\) 人工データと元データの分布に基づくマスクを使っているのでi.i.dの仮定を破らない
説明性の評価にはAUR, AUPを使った
- 異なる劣化 (精度の低下)レベルにおけるprecisionとrecallの値を用いてcurveを描く
時間・特徴量ドメインが融合している場合は既存のsaliency map手法ではうまくいかない
- 図8(a)は画像向けのsaliency map手法を多変量時系列に適用した結果
  - CNNはうまくいっているがTCNは各タイムステップにおける特徴量の重要度を捉えられていない
- 図8(b)は多変量を二変量と一変量に変換した場合の結果

所感