実装・検証(線形回帰)その(1)

サンプルプログラム実装と検証(線形回帰)(1)



プログラムの流れ


  1. 利用するライブラリのインポート
  2. データセットの用意
  3. データ読み込み
  4. データの可視化(ペアプロット・ヒストグラム・相関係数)
    • 本来ならば、可視化→確認→データ前処理 のプロセスがある。
  5. 訓練データとテストデータに分割
  6. 線形回帰モデルの学習
  7. 訓練データ・テストデータの精度確認
  8. 改善のためのアプローチ提案


1. モデル用のデータの用意


2. データ取得の確認


3. データ情報確認 統計量を算出

4.目的変数の最大値・最小値・平均値 確認

5.ペアプロットを可視化し、正規分布に近い変数を探す

※ここではサンプルプログラムとしての実装の為、大枠の流れのみ実装・確認する。


6.ヒストグラムを確認する

  ※ヒストグラムの目的は「正規分布の形状を確認すること」だけではなく
   外れ値・偏り・データのスケールなど、データの性質全体を理解することにある。
   詳細な解説については別途記載、リンク先の内容を参照。
  
  全変数の分布をざっくり確認


7.相関関係の可視化

  ※相関関係の分析には、特徴量の選択、多重共線性の確認、外れ値の影響、データの正規化など
   色々な観点があるため、詳細な解説については別途記載、リンク先の内容を参照。


8.分布のプロット

ここでも、正規分布を確認するが、median_income, median_house_value, total_rooms, housing_median_age など、重要な変数を詳細に可視化している部分が異なる。また、KDE(カーネル密度推定)を追加して、データのなめらかな分布を視覚的に強調している。住宅価格(median_house_value)の上限50万ドルにデータが集中している点が明確に分かる。

重要な変数にフォーカスして詳細に分析


9.説明変数、目的変数を指定して、モデルに学習と訓練をさせる

結果

とりあえず、詳細まではまだ把握できてはいないが、重回帰分析を行うためのプロセスについての概要を把握した。ここからデータの精度を上げる為に、様々な知識が必要になってくるのと考えられる。一旦流れをつかむための学習であるため、深堀せずに次に進む。