List-wise Fairness Criterion for Point Processes
イントロ
- 種々のイベント系列は時間方法・空間方向のtriggering/clusteringパターンを示す
- 大きな地震の後に震源地の近くで別の地震が起きる
- 犯罪が起きやすい地域では近所で似た犯罪が繰り返される
- イベントレートを予測し起きやすさをランク付けすることで様々なシーンで役立てることができる
- 犯罪が起きやすそうな地域でパトロールを強化するなど
- イベントのモデル化には点過程が用いられている
- Hawkes過程は過去のイベントの影響が線形結合で今のイベントに効くという仮定を置いたもの
- 時空間Hawkes過程はこれを時空間に拡張したもの
- これらのモデルは高精度なイベント予測が可能だが, 予測結果にバイアスがかかっている可能性がある
- 例えばTwitterの位置・時間情報付きデータは洪水の予測に使われているが, 社会経済的地位が高い人々ほど災害時にTwitterを使う傾向があることが知られている
- このようなデータでモデルを学習すると社会経済的地位によって結果にバイアスがかかる可能性がある
- predictive policingにおいては犯罪のリスクが高い地域のみパトロールするとその地域で検挙数が増え, それに応じてリスクの予測値が上がりさらに検挙数が増え…というフィードバックループにはまる
- 先行研究ではランキングに関するフェアネスの尺度が複数提案されているが, フェアネスの指標や事後的にランキングしたリストに焦点を当てたもので
- 最近の研究では尤度に制限を課すことで属性間の平等を考慮した時空間の犯罪予測手法が提案されている
- 警備配置が属性間で偏らないような制約を入れている
- ランク付けされた地域の全ての場所でフェアネスが保障されているわけではない
- 本研究ではlist-wiseなフェアネスの基準を提案した
- フェアネスの基準を目的関数に導入しフェアネスに配慮したランキング関数を提案した
- いくつかの時空間データを使って実験を行いlist-wiseなフェアネスの有用性を示した
- 実験では提案法のスケーラビリティについても議論した
提案手法
- イベントのハザードレートによってランク付けされたgrid cellは不利なグループにより不利な結果になる恐れがある
- ここでいう不利なグループは人種的マイノリティ, 社会経済地位などに相当する
- 既存のフェアネスの基準はリスト全体について平均した値についてフェアネスを判断している
- ランキングの各要素におけるフェアネスは補償されていない
- 表1の例だと, トップ10について合計した値についてはフェアネスが保たれているがトップ1, トップ3などに限定するとその限りではない
- ランク付けの正解度を測るDiscounted Cumulative Gain (DCG)のアイデアを用いる
- グループそれぞれに対しランキングごとに重み付けしたランクの合計値を計算する
- グループのペアごとに合計値の差を取り目的関数のペナルティ項として追加する
実験
- Portlandの犯罪データ, Dallasの犯罪データ, Houstonの台風データを使用
- フェアネスの指標三つと予測精度の指標三つで評価
- 図1はフェアネスの指標に対する結果
- 提案手法のフェアネスに関する制約により人種間の偏りが軽減されている
- 図2はフェアネスのペナルティを加える前後予測精度の変化
- 精度はフェアネス項によって大きな影響を受けているが, PAIはある程度精度を保っている
- ここまで精度とフェアネスのトレードオフについて調査した
- List-wiseのペナルティはList-sumのペナルティより精度の下がり方がましになる
- 図3では提案手法で予測したホットスポットトップ20を図示
- トップ20のホットスポットのリストのうち, 5箇所がフェアネスのペナルティによって入れ替わったが, リスク予測はある程度当たっている