PDF

イントロ

  • 深層学習を用いたmultimodal fusionがsemantic, segmentation, action recognition, VQAなどの分野でメジャーになっている
  • 既存手法はaggregationベースのものとalignmentベースのもの二種類に分けられる
    • Aggregationベースの手法はaveraging, concatenationを用いて複数のモーダルを入力とするサブネットワークを一つのネットワークにまとめる
    • Alignmentベースの手法はモーダルごとのネットワークについて一部を共通化するような制約をかける
  • Aggregationベースの手法は個々のモーダルの特性を十分に捉えることができない
  • Alignmentベースの手法はしばしばfusionの齟齬を起こす
  • サブネットワーク間のチャンネルを動的に交換するChannel-Exchanging-Network (CEN)を提案
    • Pruning等で用いられる``smaller-norm-less-informative’‘の仮定に基づく手法
    • チャンネルごとにBatch-Normalization (BN)のscaling factor \(\gamma\)を導入しこれが0に近い場合そのチャンネルを他のモーダルの平均で置き換える
  • 提案手法のCENはBNレイヤー以外の全てのサブネットワークパラメータをモーダル間で共有することができる
    • サブネットワークを独立に学習する手法と畳み込みパラメータを共有する手法を提案
  • RGB-Dデータのsemantic segmentation, 画像翻訳の二つのタスクにおいて提案手法の性能を評価

提案手法

  • \(i\)番目のデータを\({\bf x}^{(i)}\), \(m\)番目のモーダルのサブネットワークを \(f_m({\bf x}^{(i)})\)と記述
    • サブネットワーク \(f_m(\cdot)\)は通常の畳み込みレイヤー+scaling factor \(\gamma\)込みのBatch-Normalizationレイヤー
    • \(\gamma\)は各レイヤーの入力と出力の相関を表す
    • とあるモーダルの\(\gamma\)が一定値 \(\theta\)を下回る場合, それ以外のモーダルの対応するレイヤーの特徴量の平均で置き換える

実験

  • 表2では二つのデータセットについて提案手法と既存のaggregationベース手法, alignmentベース手法を比較
  • 提案手法はsemantic segmentation, 画像翻訳の両タスクにおいて既存手法を上回る精度
  • 図3の左から二番目の図はRGBモーダルの\(\gamma\)が0に近くDepthで置き換えた例, 右から二番目の図は逆の例
    • 一番右はどちらのモーダルの \(\gamma\)もある程度の値を持っていたため置き換えを行わなかった例