実装・検証（線形回帰）その(１) – 生活と学びとプログラム

サンプルプログラム実装と検証（線形回帰）(１)
プログラムの流れ
結果

サンプルプログラム実装と検証（線形回帰）(１)

プログラムの流れ

利用するライブラリのインポート
データセットの用意
データ読み込み
データの可視化（ペアプロット・ヒストグラム・相関係数）
- 本来ならば、可視化→確認→データ前処理　のプロセスがある。
訓練データとテストデータに分割
線形回帰モデルの学習
訓練データ・テストデータの精度確認
改善のためのアプローチ提案

１. モデル用のデータの用意

２. データ取得の確認

３. データ情報確認　統計量を算出

４．目的変数の最大値・最小値・平均値　確認

６．ヒストグラムを確認する

　　※ヒストグラムの目的は「正規分布の形状を確認すること」だけではなく
　　　外れ値・偏り・データのスケールなど、データの性質全体を理解することにある。
　　　詳細な解説については別途記載、リンク先の内容を参照。
　　
　　全変数の分布をざっくり確認

７．相関関係の可視化

　　※相関関係の分析には、特徴量の選択、多重共線性の確認、外れ値の影響、データの正規化など
　　　色々な観点があるため、詳細な解説については別途記載、リンク先の内容を参照。

８．分布のプロット

ここでも、正規分布を確認するが、median_income, median_house_value, total_rooms, housing_median_age など、重要な変数を詳細に可視化している部分が異なる。また、KDE（カーネル密度推定）を追加して、データのなめらかな分布を視覚的に強調している。住宅価格（median_house_value）の上限50万ドルにデータが集中している点が明確に分かる。

重要な変数にフォーカスして詳細に分析