データサイエンス応用の類型#
予測#
数値予測#
価格予測、需要予測、気象予測、待ち時間予測など
論文:井筒雄介, 中川歩, & 笠間俊夫. (2022). 機械学習を用いた土地価格の予測. 人工知能学会第二種研究会資料, 2022(FIN-029), 61-66.
解説ブログ記事:機械学習を用いた土地価格の予測 #回帰 - Qiita
みずほ銀行の土地価格予測。
特徴量として、
最寄り駅までの直線距離
駅の方角
最寄り駅の乗降客数
昼夜間人口比率
東京駅までの直線距離
各都県の最も乗降客数が多い駅までの直線距離(東京都:新宿駅,神奈川県:横浜駅,埼玉県:大宮駅,千葉県:西船橋駅)
を使うことで、MAPE20%程度の精度とのこと。
GBDTより線形モデルのほうがやや優れていたとのこと。
確率予測#
CVR(クリック率や成約率)予測、配達可能確率、降水確率の予測など
異常検知#
不良品の検知など
状態推定#
農作物やインフラ設備の内部状態を推定する
トンネルの各区間のひび割れや傷などの情報から、各区間の維持管理指標をスコアリング
項目反応理論(IRT)を用いてスコアリング
\(a\)は識別力、\(b\)は困難度、\(P\)は変状箇所の観測確率、\(\theta\)が維持管理指標(高いほどリスクが高いので対応の優先度が高い)
意思決定(推薦・最適化)#
推薦#
課題:Amazonにて、ある商品について「空輸してでもすぐに配送すべきか」の判断を最適化して「翌日配送」の表示を改善したい
手法:統計的因果推論を使用して期待売上を推定し、輸送可能量の制約の下での売上最大化問題として解く
結果:online evaluation(A/Bテスト)でも検証され、ベースラインのモデルよりも売上を0.79%増加させたことが確認された
参考
背景:顧客の対応順は営業担当者任せで属人化していた。またダッシュボードを見て優先度を決める営業担当者はその作業に時間を奪われていた。
手法:顧客の優先順位のスコアを算出するモデルをXGBoostで開発し、顧客のランキングをCRMツールに表示した。
工夫した点:予測の理由を文章で説明するアルゴリズム(CrystalCandle)を利用して、営業担当者から信頼される予測を実現
成果:
「顧客のランキングを使うことの効果」はA/B Testで検証し、+8%の契約数?(booking)の上昇を確認
「顧客のランキングをあまり使わない営業担当者が常用するようになることの効果」はCoarcend Exact Matchingで推定し、+20%の契約数の上昇を確認
参考
因果推論#
効果検証による意思決定の補助
生成#
画像生成、文章生成、チャットボットなど