データサイエンス応用の類型#

予測#

数値予測#

価格予測、需要予測、気象予測、待ち時間予測など

例:土地の価格予測

みずほ銀行の土地価格予測。

特徴量として、

  1. 最寄り駅までの直線距離

  2. 駅の方角

  3. 最寄り駅の乗降客数

  4. 昼夜間人口比率

  5. 東京駅までの直線距離

  6. 各都県の最も乗降客数が多い駅までの直線距離(東京都:新宿駅,神奈川県:横浜駅,埼玉県:大宮駅,千葉県:西船橋駅)

を使うことで、MAPE20%程度の精度とのこと。

GBDTより線形モデルのほうがやや優れていたとのこと。

確率予測#

CVR(クリック率や成約率)予測、配達可能確率、降水確率の予測など

異常検知#

不良品の検知など

状態推定#

農作物やインフラ設備の内部状態を推定する

例:地下鉄トンネルの状態をスコアリング

トンネルの各区間のひび割れや傷などの情報から、各区間の維持管理指標をスコアリング

項目反応理論(IRT)を用いてスコアリング

\[\begin{split} \begin{aligned} &P_{i j}=\frac{1}{1+\exp \left(-a_j\left(\theta_i-b_j\right)\right)}\\ &\theta \sim \operatorname{Gamma} \text { (shape, scale) } \end{aligned} \end{split}\]

\(a\)は識別力、\(b\)は困難度、\(P\)は変状箇所の観測確率、\(\theta\)が維持管理指標(高いほどリスクが高いので対応の優先度が高い)

意思決定(推薦・最適化)#

推薦#

例:Amazonで、商品を空輸してまで「翌日にお届け可能です」を表示するかどうか
  • 課題:Amazonにて、ある商品について「空輸してでもすぐに配送すべきか」の判断を最適化して「翌日配送」の表示を改善したい

  • 手法:統計的因果推論を使用して期待売上を推定し、輸送可能量の制約の下での売上最大化問題として解く

  • 結果:online evaluation(A/Bテスト)でも検証され、ベースラインのモデルよりも売上を0.79%増加させたことが確認された

参考

例:LinkedInにおける顧客の優先度付け
  • 背景:顧客の対応順は営業担当者任せで属人化していた。またダッシュボードを見て優先度を決める営業担当者はその作業に時間を奪われていた。

  • 手法:顧客の優先順位のスコアを算出するモデルをXGBoostで開発し、顧客のランキングをCRMツールに表示した。

    • 工夫した点:予測の理由を文章で説明するアルゴリズム(CrystalCandle)を利用して、営業担当者から信頼される予測を実現

  • 成果:

    • 「顧客のランキングを使うことの効果」はA/B Testで検証し、+8%の契約数?(booking)の上昇を確認

    • 「顧客のランキングをあまり使わない営業担当者が常用するようになることの効果」はCoarcend Exact Matchingで推定し、+20%の契約数の上昇を確認

参考

因果推論#

効果検証による意思決定の補助

生成#

画像生成、文章生成、チャットボットなど

参考#