CFML-papers
CFML-papers copied to clipboard
Policy Evaluation and Optimization with Continuous Treatments
0. 論文概要
Nathan Kallus and Angela Zhou. Policy Evaluation and Optimization with Continuous Treatments.. Proceedings of the 21st International Conference on Artificial Intelligence and Statistics (AISTATS) 2018, Lanzarote, Spain. JMLR: W&CP volume 7X.
1. 要約
- 介入が連続変数である場合の介入方策最適化問題を定式化
- 上記問題に対して, kernel関数を用いたpolicy valueの推定量を提案. その性質を理論的に分析
- warfarinの投薬量最適化実験では、従来の離散的な介入を取り扱うbaselineを上回る性能を発揮
2. 背景
- 従来の介入方策最適化は, 介入が離散変数である場合のみが取り扱われてきた
- 介入が連続変数であることを許す場合, 従来主流だったIPWやDRなどの重点サンプリングをベースにしたアプローチをそのまま適用することはできないため工夫が必要
3. 手法
Notation
本論文では以下のNotationを用いています.
Off-Policy Continuous Estimator
介入が離散変数である場合のOff-Policy Estimatorとして最も標準的なのはIPW推定量である.
しかし, 介入が連続変数である場合を考えた時, 方策τは連続確率分布となるため, 上記の推定量を用いるとindicator functionが全て0になってしまうという問題が生じる.
この問題に対して本論文は, non-parametric regressionなどで用いられるkernel関数を適用することを考える. (kernel関数については, nadaraya watson estimatorなどと調べると色々出てきます.)
ここでhはバンド幅である.kernel関数を適用し介入が連続変数である場合にも対応した推定量の基本形は以下の通り. つまり, あるpolicyを評価するときに, そのpolicyと近い介入を受けたログ中のデータの情報を重視してpolicy valueを推定していると解釈できる. さらにこれにSelf-NormalizeやDoubly Robustを適用することも可能である.
Theoretical Analysis
まず, 基本形の推定量の真のpolicy valueに対するMSEを導出し, そのMSEを最小化するバンド幅を求める.
次に, 基本形の推定量は真のpolicy valueに確率収束する(一致性).
これらの結果から, 基本形の推定量はpolicy valueの推定量としてある程度妥当な性質を有していると言える. 論文では, policy valueに対する推定精度だけではなく, 推定量を最大化して得られる新たなpolicyの汎化性能についてもrademacher complexityを用いて分析している.
4. 実験
人工データ実験1
人工データを使ってOff-Policy Evaluationを行う. Baselineは, Direct Method (DM), 適当に介入を離散化した上で既存のOff-Policy Evaluationを行うdiscretized OPE. continuous OPEにはSelf-Normalizedを用いた.
介入割り当てにConfoundingなし.
介入割り当てにConfoundingあり.
人工データ実験2
先ほどとは異なる人工データを使って, Policy Optimizationを行い, 目的変数を最小化する性能を評価した.
実データ実験
Warfarin case studyというデータを使って, Warfarinという薬の投薬量を最適化する問題を解く. ここでは, INRという目的変数を最小化することを目指すが, これはunavailableなので人工的にoutcomeの値を生成した.
総じて差があまりわからない... もう少しextensiveな人工データによる評価があると嬉しかった.
5. コメント
- continuous treatmentに対して, Kernel関数を適用するというアイデアにはなるほどと思った. 理論分析も既存のnon-parametric regression界隈のものと整合しており, 納得できる.
- 一方で, 人工データによる実験をもう少しextensiveにやってほしかった. どういう状況でcontinuous estimatorを使うことで比較的精度よく推定が可能なのか知りたかった.
6. 関連論文ピックアップ
Miroslav Dudík, John Langford, and Lihong Li. Doubly robust policy evaluation and learning. In International Conference on Machine Learning (ICML), 2011.