Skip to main content

Ctrl+K

データサイエンス関連+αのメモ

データサイエンス関連+αのメモ

数学

数学の初歩
集合論
代数学
- 群論
- 環論
- 体論
- 数論
- 因数分解
線形代数学
微分積分学
数理最適化
応用数学
『これなら分かる応用数学教室』メモ
確率論
- 確率
離散数学
- 組合せ論
- グラフ理論

統計学

確率
統計的推測
相関係数
順序尺度の相関係数
ダイバージェンス
最適輸送
Bootstrap
ノンパラメトリック密度推定
欠測データ
Sandwich Estimator
漸近理論
ベイズ統計学
統計学の誤用や望ましい作法
データの可視化

統計モデリング

LOWESS
因子分析
ガウス過程回帰
分位点回帰
生存分析
構造方程式モデリング
テスト理論・項目反応理論・スコアリング
- テスト理論（スコアリング）
- 項目反応理論
一般化線形モデル（GLM)
ベイズ統計モデリング
- 概要
- ベイズ線形回帰
時系列分析
Symbolic Data Analysis
セミ・ノンパラメトリックモデル
- 概要
統計モデルの評価
- AIC / BIC
- WAIC / WBIC / 渡辺ベイズ理論

計量経済学・因果推論

構造推定
- 離散選択モデル
- BLPモデル
ルービンの因果モデル
Selection Bias
実験デザイン
Pearl流の因果推論
因果ダイアグラム
回帰分析
傾向スコア
操作変数法
RDD
固定効果モデル
Difference In Differences
Synthetic Control
Causal Impact
一般化モーメント法
Double/Debiased Machine Learning (DML)
Causal Forest / GRF
- Casual Tree
Causal Machine Learning
統計的因果探索
Uplift Modeling
感度分析
Causal Clustering
よさそうな文献・サイト

機械学習

統計的学習理論
教師なし学習
線形モデル
Support Vector Machine
アンサンブル学習
Tree-based Algorithms
kNN（k最近傍法）
ナイーブベイズ
ベイジアンネットワーク
不均衡データ
Distillation
確率予測
予測モデルの評価
MLOps
過学習と良性の過学習（Double Descent, Grokking）
Feature Engineering
説明可能性
予測の不確実性

深層学習

深層学習の歴史
深層学習の理論
ディープラーニング基礎 (with Keras)
RoLAとReLoLA
Feed-Forward Neural Network
Deep Learning and Tabular data
Deep Neural Network
- 多層パーセプトロン
CNN
- CNN
- CNN vs. ViT
RNN
- RNN
- LSTM
- GRU
- RNNの派生手法
Transformer

生成モデル

生成モデル
Autoencoder
GAN
Diffusion Models

自然言語処理

文字コード
テキストデータの前処理：表記揺れ、正規化
トークン化
言語モデル
単語の埋め込み
言語モデルとRNN
Latent Dirichlet Allocation (LDA)
Large Language Models

画像処理

画像処理
傾き補正
歪み補正・台形補正
類似度・hash化
文書風のサンプル画像の生成コードメモ

推薦システム

概要
協調フィルタリング
行列分解に基づく推薦システム
Factorization Machines
Bayesian Personalized Ranking (BPR)
Two-Tower Model
Causal Inference in Recommender Systems

データ分析のビジネス応用

データマネジメント
データサイエンス応用の類型

ビジネス関連知識

売上構造やKPI
会計
People Management
- 1on1
プロダクトマネジメント
プロジェクトマネジメント
- システム開発手法
- ロードマップ
経営学
競争戦略論
ドキュメント管理

ソフトスキル

マインドセット
論理学
- 誤謬論
文章作成
プレゼンテーション
交渉 / 人を巻き込む
『ハーバード流交渉術』
リーダーシップ

英語

Vocabulary
- idioms
Grammar

ソフトウェア工学

プログラミング
ソフトウェア開発の基礎
ソフトウェア開発
データストア（ストレージ・RDB）
- RDBMS
- テナント分離
Function as a Service (FaaS)
サイバーセキュリティ
疑似乱数
Web最適化
Linux
UIデザイン
- デザインシステム
- Figma

経済学

経済学概論
ミクロ経済学
- 需要の弾力性
マクロ経済学
Quantitative Economics

金融経済学

概要
最適ポートフォリオ
CAPM
ファイナンスの指標たち
Feature Neutralization
統計的裁定
Asset Pricing
論文メモ
金融時系列解析
- 時系列予測の性能検証
- Data Augmentation
投資戦略
金融系ライブラリ
ランダムウォークによる株価のシミュレーション
Multiple Factor Models
- Multiple Factor Models
- Factor Zoo

.ipynb

ガウス過程回帰

Contents

参考文献

ガウス過程回帰#

ガウス過程というランダムな関数の確率分布を利用した回帰モデル

Show code cell source Hide code cell source

import numpy as np

X = np.linspace(start=0, stop=10, num=1_000).reshape(-1, 1)
y = np.squeeze(X * np.sin(X))

import matplotlib.pyplot as plt

plt.plot(X, y, label=r"$f(x) = x \sin(x)$", linestyle="dotted")
plt.legend()
plt.xlabel("$x$")
plt.ylabel("$f(x)$")
_ = plt.title("True generative process")

../_images/a6cfb3f5d50e6da0fade4d91b4c57fa765b516da7d654f3fd9267df39a61a153.png

Show code cell source Hide code cell source

rng = np.random.RandomState(1)
training_indices = rng.choice(np.arange(y.size), size=6, replace=False)
X_train, y_train = X[training_indices], y[training_indices]

from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF

kernel = 1 * RBF(length_scale=1.0, length_scale_bounds=(1e-2, 1e2))
noise_std = 0.75
y_train_noisy = y_train + rng.normal(loc=0.0, scale=noise_std, size=y_train.shape)
gaussian_process = GaussianProcessRegressor(kernel=kernel, alpha=noise_std**2, n_restarts_optimizer=9)
gaussian_process.fit(X_train, y_train_noisy)

mean_prediction, std_prediction = gaussian_process.predict(X, return_std=True)

plt.plot(X, y, label=r"$f(x) = x \sin(x)$", linestyle="dotted")
plt.errorbar(
    X_train,
    y_train_noisy,
    noise_std,
    linestyle="None",
    color="tab:blue",
    marker=".",
    markersize=10,
    label="Observations",
)
plt.plot(X, mean_prediction, label="Mean prediction")
plt.fill_between(
    X.ravel(),
    mean_prediction - 1.96 * std_prediction,
    mean_prediction + 1.96 * std_prediction,
    color="tab:orange",
    alpha=0.5,
    label=r"95% confidence interval",
)
plt.legend()
plt.xlabel("$x$")
plt.ylabel("$f(x)$")
_ = plt.title("Gaussian process regression on a noisy dataset")

../_images/6ddb87d716c88fd3acadd8fa3f45a05b0bef6e33f17fb3490c03d5ba45ef2495.png

参考文献#

ガウス過程回帰モデルの基礎 — ごちきか
1.7. Gaussian Processes — scikit-learn 1.3.2 documentation

previous

因子分析

next

分位点回帰

Contents

参考文献

By mitama

© Copyright 2024.