機械学習に必要な数学その2 回帰分析の前に
どうも、数学と言いながら統計の記事かもと思っているGuchinakaです。いきなりのカミングアウトすみません。
さて、本日は
単回帰分析
を勉強して行きましょう。(めっちゃ簡単に書きます)
その前に、
機械学習は、2つのフェーズに別れています。
1. 学習
例えば、筋力が5の時は、歩行速度が1、筋力が4の時は歩行速度が0.8というデータを学習させて行きます。このようにデータを蓄積させていくことで多くのデータを学習させます。この学習データをモデルと言います。
2. 推論
次に、学習したモデルを使って、未知のデータが来た時に推論をします。
新しいデータ(筋力) → モデル → 推論(予測)
ということですね。
今回のように、筋力のみ(1つだけ)で学習させる場合を、単回帰分析と言います。
(2つ以上になると重回帰分析という名前に変わります。)
この、予測する歩行速度のことを従属変数(y)、筋力のことを独立変数(x)といいます。
単回帰分析のイメージ↓↓
ある程度、直線関係になっていますね。
(筋力が4の時は、歩行速度が4、筋力が7の時は歩行速度が6という感じです。)
これは、中学生の時に習った、y = ax+bと同じです。
yが歩行速度、xが筋力、aがどんな傾きなのか、bは切片ということになりますよね。このx、a、bが分かれば、yが解ります。
xは筋力なので、分かっていますから、aの傾きとbの切片を求めてあげると、yの歩行速度が求められるという事になります。
なので、
aとbを、決めてあげるというのがゴールですよね。
データに基づいて、適切にパラメータのaとbを決定することがゴールです。
(無駄に言い直しました)
ということで、aとbを求めると言いましたが、2つ求めるのはつらたん。ということで、b(切片)を消しましょう。
傾きと切片が分からない方はこちら↓↓
【中2 数学】 1次関数4 傾きと切片 (5分) - YouTube
切片の抹殺
切片の抹殺方法
・データの中心化 (センタリング)
この写真だと、切片を求めないといけないので、切片を0にしてしまうんです。
上記の画像に対して、中心化のイメージはこんな感じです。
これで、y = ax + bの計算が、y = axになりました。求めるのがaだけになりました。
中心化の方法は、データから平均を引き算するだけなのですが、説明がめんどくさいのでやめておきます。
少し長くなりましたので、続きはこちら↓↓
すみません。