PDF

Interview

タスク

  • 順不同な要素の集合 sets of symmetric elementsのモデル化
    • 例えばとあるシーンを写した複数の写真から最も良いものを選ぶタスクを考える
    • このようなタスクにおいては写真の順序は無関係

既存手法

  • G-equivariantな関数をモデル化するためのニューラルネットとしてG-equivariantネットワークが提案されている
    • 入力データ \(x\)への操作群を\(G\), 特定の操作を \((g\cdot x)_i\)と書く
    • 全ての操作 \(g\)について \(f(g\cdot x)=f(x)\)が成り立てば関数 \(f\)はG-equivariantであると言う
      • 例えば画像を回転させる, 反転させるなど
    • G-equivariantネットワークはG-equivariantなレイヤーからなる
  • G-invariantネットワークはG-equivariantネットワークの上にMLPを載せたもの

提案手法

  • 本研究では2つの対称性を考慮する
    1. 順序普遍性: 最も良い写真は順序に関係なく選ばれるべき
    2. 位置普遍性: 最も良い写真は写真中の物体の位置が多少ずれていても選ばれるべき
  • 本研究ではこれらの対称性を深層学習の枠組みに組み込むことで学習の効率化と一般化を図る
  • データ \(x\in\mathbb{R}^l\) (例えば画像)が与えられたとする
    • 画像の場合, \(l\)は画像のサイズ \(l=hw\)
  • 本研究では線形なG-equivariantレイヤー (DSSレイヤー)からなるニューラルネットを提案
  • 入力データとして集合 \(\{x_1,...,x_n\}\)が与えられた時, \(H\)で表される要素ごとの対称性と\(S_n\)で表される順序普遍性を保った線形変換 \(L\)を学習したい
  • 操作群は2種類の操作の組み合わせを考え \(G=H\times S_n\)で定義される
  • ここで \(S_n\)は \(n\)個の要素についての対称群
  • DeepSetsを一般化したレイヤーを提案
    • DeepSetsの線形演算子 \(L_1\), \(L_2\)をH-equivariantな畳み込み演算子 \(L_1^H\), \(L_2^H\)で置き換え
    • \(L_1^H\)は入力の群の要素 (例えば一枚の画像)各々への演算, \(L_2^H\)は群に含まれる要素 (画像など)全てへの演算 (ここでは全要素の和をとったものを変換)
    • \(H\)が自明群の場合, DeepSetsと同等のモデルに帰着
  • 本定式化はレイヤー間に対称性を課しているため表現力が下がる懸念がある
    • 普遍性定理を用いて表現力が下がらないことを証明した

実験

  • 分類, 画像からのフレーム選択, 高品質な画像の検出, 色成分のマッチング, 画像のぼやけ除去という一連のタスクにおいて提案手法の性能を評価
  • 図1に人工データを用いた分類精度の評価結果を示す
    • 網掛け部分は標準偏差を表す
    • 提案手法のDSS(sum)が他の手法を上回る精度