目次
サンプルプログラム実装と検証(線形回帰)(2)
プログラムの流れ
- はじめに(3σ法の目的と外れ値除去の意義)
- データの分布確認(ヒストグラム)
- 3σ法による外れ値除去の実装
- 外れ値除去前後のデータ確認
- データのスケーリング
- 線形回帰モデルの再学習
- 決定係数(R²)の改善結果
- 外れ値除去の影響と考察
- まとめ
1.はじめに
線形回帰分析を行う際、外れ値があるとモデルの精度に悪影響を及ぼすことがあります。本記事では、3σ(シグマ)法を用いた外れ値除去 を適用し、モデルの精度(決定係数 R²)の向上を検証します。
2.データの分布確認(ヒストグラム)
3σ法は、データの 平均値 ± 3 × 標準偏差 の範囲外にあるデータを外れ値として除去する方法です。


3.3σ法による外れ値除去の実装

以下のロジックが、3σ法で外れ値を省くロジック

4.外れ値除去前後のデータ確認
3σから外れていた外れ値データが除去された。

5.データのスケーリング

線形回帰はここまでで一旦、完了とします。
教材はUdemyの【キカガク流】脱ブラックボックス講座 初級~中級をみながら、ChatGPTを利用。
だいぶ昔に購入していつか学習しようつぃていた教材なので、現在には合わないかもしれない。
一部、Pythonで非推奨の関数が使用されており実行できない部分があった。
プログラムよりも数学知識に大分偏った内容なので、開発者は概念と正しい使い方さえ知ればいい様にも感じたので数学をイチから手書きで勉強する必要もないと感じた。ハンズオンとしてはとてもイージー且つ短かったので何かを作り上げた感触は持てないので、その感触を手に入れる場合、独学で自分で作っていく事になるだろう。
とても専門分野の色合いが強いので、浅く広く、知るべきところは深く、という学習がいい様に感じた。
線形回帰、いったん終了及び凍結です。