データサイエンスのために最低限必要な数学#
データサイエンスで必要な数学はどのあたりになるだろうか?を考えてみる
基礎・共通#
どの分野でも使うであろう基礎的な知識
数の種類:実数、整数
基礎的な関数:指数関数、対数関数、三角関数
記号:総和記号 \(\sum\)、総積記号 \(\prod\)、\(\in\)とかの集合論の記号、指示関数など
集合の基礎:内包 \(\{x \mid x \in \mathcal{X}\}\) ・ 外延 \(\{0, 1\}\) など
微分・簡単な制約なし凸最適化
積分(期待値や確率分布の定義が読める程度の最低限の理解でいい)
線形代数:行列とベクトルの定義や演算、内積とコサイン類似度、逆行列
関連:データサイエンティスト協会のスキルチェックリスト
データサイエンティスト協会でのチェックリストの数学の項目は次の通り
線形代数基礎
ベクトルの内積に関する計算方法を理解し、線形式をベクトルの内積で表現できる
行列同士、および行列とベクトルの計算方法を正しく理解し、複数の線形式を行列の積で表現できる
逆行列の定義、および逆行列を求めることにより行列表記された連立方程式が解けることを理解している
固有ベクトルおよび固有値の意味を理解している
微分・積分基礎
微分により計算する導関数が傾きを求めるための式であることを理解している
2変数以上の関数における偏微分の計算方法を理解しており、勾配を求めることができる
積分と面積の関係を理解し、確率密度関数を定積分することで確率が得られることを説明できる
集合論基礎
和集合、積集合、差集合、対称差集合、補集合についてベン図を用いて説明できる
論理演算と集合演算の対応を理解している(ANDが積集合に対応するなど)
分野別・基礎知識#
分野によって必要になる知識が違いそうなので、分野別に基礎知識をわけるならこうかな?という一覧
機械学習#
決定木、勾配ブースティング、サポートベクターマシンなど、標準的・伝統的な機械学習を学ぶときに必要になるもの
数学の概念 |
関連する手法・応用例 |
概要 |
|---|---|---|
テイラー展開(近似) |
勾配ブースティング |
関数を多項式で近似する考え方。勾配方向の更新やロス近似に使われる。 |
制約付き最適化・ラグランジュの未定乗数法 |
正則化(L1/L2)、SVM、Lasso、Ridge |
目的関数に制約条件を課す最適化。汎化性能を高めるための正則化項などで用いられる。 |
固有値分解 |
主成分分析 |
行列の性質を特徴付ける。データの主成分や構造を抽出するのに使う。 |
深層学習#
数学の概念 |
関連する手法・モデル |
概要 |
|---|---|---|
線形代数(ベクトル・行列・テンソル) |
Attention, Transformer, MLP, Embedding 層 |
入力を高次元ベクトル空間に射影し、線形変換によって情報を結合・変換する。 |
内積・類似度(Cosine / Dot) |
Self-Attention, Cross-Attention |
クエリとキーの類似度を内積で測定し、重み付け平均を形成する。 |
変分法 |
VAE、Diffusion Probabilistic Models |
潜在変数モデルを近似するための期待下限(ELBO)を最大化。 |
確率微分方程式(SDE) |
Continuous Diffusion Models, Score-based Models |
拡散(ノイズ付加)と逆拡散(ノイズ除去)を連続時間で記述。 |
統計的因果推論#
数学の概念 |
関連する手法・モデル |
概要 |
|---|---|---|
テイラー展開(近似) |
変数を対数変換したときの回帰係数の解釈 |
対数変換したときの回帰係数は変化率の近似になる |
確率極限 |
漸近理論、一致性など |
推定量の性質についての議論など |
画像処理#
少なくともディープラーニング登場前のパラダイムの画像処理ではフーリエ変換や線形代数の技法が色々使われていた。
モダンな画像処理ではどこまで必要かは不明。
射影変換など線形代数的な考え方やフーリエ変換の話に遭遇してもなんとなくわかる程度になっておけば良さそう?
数学の概念 |
関連する手法・応用例 |
概要 |
|---|---|---|
フーリエ変換 |
周波数フィルタリング、エッジ検出、DCT(JPEG圧縮)、CNNの畳み込み理解 |
画像を周波数成分に分解。低周波・高周波成分の分離でノイズ除去や圧縮を実現。 |
テンソル解析 |
畳み込みニューラルネットワーク、光流解析、3D画像処理 |
高次元データ(RGB画像・動画・医用画像)を表現・操作する数学的枠組み。 |
射影変換・アフィン変換 |
幾何補正、画像位置合わせ(registration) |
座標系の線形変換。回転・拡大縮小・平行移動などを行う。 |
特異値分解・テンソル分解 |
動画分離、背景抽出、圧縮センシング |
高次元データを低次元の基底に分解して構造を抽出。 |
微分幾何(曲率・法線) |
3D再構成、物体認識、陰影解析 |
曲面の形状や法線方向を数学的に記述。 |
自然言語処理#
数学の概念 |
関連する手法・応用例 |
概要 |
|---|---|---|
確率分布・尤度 |
言語モデル(n-gram, HMM)、生成モデル(Naive Bayes) |
単語列の出現確率を定義し、系列の生成や分類を行う。 |
線形代数(行列・ベクトル) |
Word2Vec, GloVe, BERT埋め込み |
単語や文をベクトル空間に埋め込み、意味的類似度を計算。 |
確率過程・マルコフ連鎖 |
HMM、言語モデル(n-gram) |
過去の単語系列に基づいて次単語の確率を予測。 |
変分推論・ELBO |
VAE(Variational Autoencoder for Text)、LDA |
潜在変数モデルを近似的に学習。確率的表現を獲得。 |
グラフ理論・グラフ埋め込み |
知識グラフ(TransE, RotatE)、意味ネットワーク |
単語や概念をノードとし、関係をエッジとして表現。 |
推薦システム#
数学の概念 |
関連する手法・応用例 |
概要 |
|---|---|---|
線形代数(行列分解・Tensor分解) |
行列分解型推薦(Matrix Factorization)、SVD++、ALS、NMF |
ユーザー×アイテム行列を低次元に分解し、潜在因子を抽出。評価値の欠損を補完する。 |
確率モデル(ベイズ推定) |
ベイズ行列分解(BPMF)、変分ベイズ推薦、確率的潜在意味解析(PLSA) |
評価や嗜好を確率変数として扱い、事後分布に基づいて予測する。 |
グラフ理論 |
Graph-based CF、Graph Neural Networks (GNN)、Node2Vec |
ユーザーとアイテムをノードとして扱い、関係構造から嗜好を推定する。 |
確率過程/マルコフ連鎖 |
シーケンス推薦、Markov Chain Recommender、Next-item prediction |
過去の行動系列から次の行動を確率的に予測する。 |
強化学習#
数学の概念 |
関連する手法・応用例 |
概要 |
|---|---|---|
マルコフ過程 |
隠れマルコフモデル(HMM)、強化学習 |
状態遷移を確率で表す動的モデル。系列データ解析に重要。 |
確率微分方程式 |
強化学習(探索過程)、ランジュバン力学、SGD with noise |
確率的な動きのモデル化。学習のノイズや拡散過程の理解に。 |
その他#
数学の概念 |
関連する手法・応用例 |
概要 |
|---|---|---|
特異値分解(SVD) |
PCA、行列分解推薦システム |
データの構造を低次元に分解。潜在因子モデルにも応用。 |
もっと深ぼる場合#
抽象的・理論的な議論が理解でき、機械学習の理論系の論文が読めるようになるには
例えば「確率測度」「概収束」とか出てきても動じなくなるには
例えば「〇〇空間」とか出てきても躓かずに「ああ、そういう演算が定義された集合なのね」と読み進められる状態になるには
確率論:測度論、漸近理論、etc.
線形代数:内積空間、etc.
解析学:可測関数、再生核ヒルベルト空間、ルベーグ積分、etc.
無限にありそう