TL; DR
推薦システムは ユーザ → データ → モデル → ユーザ という循環の中で学習・提供・再学習を繰り返す。
しかしユーザ行動ログには 選択バイアス・露出バイアス・位置バイアス など多様な偏りが潜み、モデル自体の 仮定(帰納バイアス) や、結果として生じる 人気バイアス・不公平性 まで連鎖的に拡大する。

バックグラウンド
推薦システムはユーザ行動データを教師信号として用いるが、その行動データ自体が多種多様なバイアスを含む。無処理で学習するとパラメータが真の嗜好を表現できず、結果として推薦性能が低下する。
推薦のフィードバックループ

- User → Data
- ユーザが user–item の交互作用(クリック・閲覧・応募など)と固有情報(ユーザ属性・アイテム属性)を生成し、フィードバック行列を形成する。
- 暗黙的フィードバック : 0/1(クリック・閲覧)
- 明示的フィードバック : 評点(連続値)
- ユーザが user–item の交互作用(クリック・閲覧・応募など)と固有情報(ユーザ属性・アイテム属性)を生成し、フィードバック行列を形成する。
- Data → Model
- 観測データに基づき、ユーザがアイテムを採択する確率を予測するモデルを学習(CTR)
- Model → User
- 生成された推薦結果が再びユーザ行動に影響し、次のデータを生む
よくあるバイアス
データバイアス
選択バイアス
- 定義: 評価するアイテムをユーザが能動的に選ぶため、観測された評点が母集団を代表しない(MNAR)
- 例:好きなアイテム(例:熱狂的ファンの映画や楽曲など)を積極的に評価したがり、また、特に出来が抜群に良い/ひどく悪いアイテム(例:映画を観て傑作は絶賛し、駄作は酷評したくなる)にも評価を付けがちである。
同調バイアス
- 定義: 他ユーザの意見に同調して評価が似通う傾向。
- 例:多くの人が好む/嫌うアイテムに対して、個々のユーザーが判断を下す際に、周囲の意見や評価に影響を受けやすくなる傾向がある。例えば有名な店なら満足できないでも高評価を付ける傾向
露出バイアス
- 定義: 一部のアイテムしかユーザに提示されず、未観測は「嫌い」ではなく「未露出」の可能性を含む。
- 例:ユーザーが何らかのインタラクション(クリックや購入など)を行わなかったデータサンプルについては、実は以下の2つの原因が考えられる:
-
- ユーザーが本当にそのアイテムを好まなかった場合
-
- そのアイテムがユーザーに表示されていなかった場合(たとえば、一度も表示されなかった動画については、自分がそれを好きかどうか判断することはできない)
-
位置バイアス
- 定義: リスト上位ほど無関係でもクリックされやすい
- 例: 求人一覧で1位表示求人は詳細閲覧率が高く、そのクリックを正例とすると上位補正が過大評価される
モデルバイアス
帰納バイアス
- 定義: 学習を容易にするためのモデル側仮定が真の分布を歪める。
- 例:オーバーサンプリングなどトレーニングのとき使うテック
結果バイアス・不公平性
人気バイアス
- 定義: 人気アイテムがさらなる露出を得る「マタイ効果」。
- 例:閲覧数が多い都心タワマン物件が常に上位に出続け、郊外物件が埋もれる
不公平性
- 定義: 特定ユーザ群に対する差別的パフォーマンス
- 例:女性にEnginerみたいな求人推薦しない