TL; DR

推薦システムは ユーザ → データ → モデル → ユーザ という循環の中で学習・提供・再学習を繰り返す。
しかしユーザ行動ログには 選択バイアス・露出バイアス・位置バイアス など多様な偏りが潜み、モデル自体の 仮定（帰納バイアス） や、結果として生じる 人気バイアス・不公平性 まで連鎖的に拡大する。

バックグラウンド

推薦システムはユーザ行動データを教師信号として用いるが、その行動データ自体が多種多様なバイアスを含む。無処理で学習するとパラメータが真の嗜好を表現できず、結果として推薦性能が低下する。

よくあるバイアス

データバイアス

選択バイアス

定義： 評価するアイテムをユーザが能動的に選ぶため、観測された評点が母集団を代表しない（MNAR）
例：好きなアイテム（例：熱狂的ファンの映画や楽曲など）を積極的に評価したがり、また、特に出来が抜群に良い／ひどく悪いアイテム（例：映画を観て傑作は絶賛し、駄作は酷評したくなる）にも評価を付けがちである。

同調バイアス

定義： 他ユーザの意見に同調して評価が似通う傾向。
例：多くの人が好む／嫌うアイテムに対して、個々のユーザーが判断を下す際に、周囲の意見や評価に影響を受けやすくなる傾向がある。例えば有名な店なら満足できないでも高評価を付ける傾向

露出バイアス

定義： 一部のアイテムしかユーザに提示されず、未観測は「嫌い」ではなく「未露出」の可能性を含む。
例：ユーザーが何らかのインタラクション（クリックや購入など）を行わなかったデータサンプルについては、実は以下の2つの原因が考えられる：
- 1. ユーザーが本当にそのアイテムを好まなかった場合
- 1. そのアイテムがユーザーに表示されていなかった場合（たとえば、一度も表示されなかった動画については、自分がそれを好きかどうか判断することはできない）

位置バイアス

定義： リスト上位ほど無関係でもクリックされやすい
例：求人一覧で1位表示求人は詳細閲覧率が高く、そのクリックを正例とすると上位補正が過大評価される

モデルバイアス

帰納バイアス

定義： 学習を容易にするためのモデル側仮定が真の分布を歪める。
例：オーバーサンプリングなどトレーニングのとき使うテック

結果バイアス・不公平性

不公平性

定義： 特定ユーザ群に対する差別的パフォーマンス
例：女性にEnginerみたいな求人推薦しない

推薦システムにおけるバイアス